Calcul haute performance (HPC)

Le calcul hautes performances (HPC) effectue des calculs complexes et traite les données plus rapidement que le calcul traditionnel. HPC utilise des serveurs Bare Metal, un réseau de cluster à très faible latence, des options de stockage hautes performances et des systèmes de fichiers parallèles. Cette infrastructure permet un traitement parallèle pour les charges de travail exigeantes en calcul, telles que l'intelligence artificielle, le deep learning, l'analyse des données, les simulations scientifiques et toute autre charge de travail hautement intensive.

Introduction au calcul hautes performances

Vous pouvez créer une instance HPC à noeud unique avec le workflow de création d'instance standard. Si vous souhaitez utiliser plusieurs instances HPC dans un groupe réseau RDMA, vous pouvez les créer via des réseaux de cluster avec pools d'instances ou des clusters de calcul.

Utilisation des réseaux de cluster RDMA

Les réseaux de clusters RDMA (Remote Direct Memory Access) sont des groupes d'instances optimisées, de GPU ou d'instances de calcul hautes performances connectées à un réseau à très faible latence et à très faible bande passante. Chaque noeud du cluster est une machine Bare Metal située à proximité des autres noeuds. Un réseau RDMA (Remote Direct Memory Access) entre des noeuds fournit une latence exprimée en microsecondes à un chiffre, ce qui est comparable aux clusters de calcul hautes performances sur site.

Les réseaux de cluster sont conçus pour des charges globales de calcul parallèles très exigeantes. Par exemple :

  • Simulations de mécanique des fluides numérique pour la modélisation aérospatiale ou automobile
  • Modélisation financière et analyse des risques
  • Simulations biomédicales
  • Conception et analyse de trajectoire pour l'exploration de l'espace
  • Intelligence artificielle et charges globales Big Data

Oracle Cloud Infrastructure propose deux types de réseau de cluster. Dans les deux cas, les réseaux sont des groupes d'instances Bare Metal connectées à un réseau à très faible latence.

  • Les réseaux de cluster avec des pools d'instances vous permettent d'utiliser des pools d'instances pour gérer des groupes d'instances identiques dans le groupe réseau RDMA. Si vous voulez une capacité prévisible pour un nombre spécifique d'instances identiques gérées en tant que groupe, utilisez des réseaux de cluster avec des pools d'instances.
  • Les clusters de calcul vous permettent de gérer les instances du cluster individuellement. Lorsque vous créez un cluster de calcul, vous créez un groupe réseau RDMA vide. Une fois le groupe créé, vous pouvez lui ajouter des instances ou en supprimer. Si vous souhaitez gérer les instances du réseau RDMA indépendamment les unes des autres ou utiliser différents types d'instance dans le groupe réseau, utilisez des clusters de calcul.

Modules d'extension d'agent Oracle Cloud pour HPC

Oracle Cloud Infrastructure propose un module d'extension d'agent cloud spécifique aux instances Bare Metal HPC afin de simplifier la configuration et l'authentification des réseaux HPC, et de fournir une surveillance spécialisée pour le calcul hautes performances.

Le module d'extension HPC est disponible pour HPC dans toutes les régions commerciales.

Formes et image prises en charge pour le calcul hautes performances
Forme Images prises en charge Paramètre par défaut
BM.GPU.A10.4 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recommandé sur OCA 1.37.0 ou supérieur
BM.GPU.A100 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recommandé sur OCA 1.37.0 ou supérieur
BM.GPU.H100.8 Ubuntu 20.04+, OL7, OL8 Activé sur OCA 1.37.0 ou version ultérieure
BM.GPU4.8 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recommandé sur OCA 1.37.0 ou supérieur
BM.HPC2.36 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recommandé sur OCA 1.37.0 ou supérieur
BM.Optimized3.36 Ubuntu 20.04+, OL7, OL8 Activé sur OCA 1.37.0 ou version ultérieure
Les sous-modules du module d'extension HPC peuvent être activés ou désactivés individuellement :
  • Configuration automatique
    • Applique les paramètres d'adaptateur réseau recommandés aux formes GPU
    • Applique les paramètres Mellanox Connect-X recommandés sur les formes GPU
    • Affecte des adresses IP aux interfaces réseau RDMA en fonction du VCN principal
  • Authentification/Configuration RDMA
    • Configure les interfaces réseau RDMA avec QoS et MTU recommandés
    • Configure et gère l'authentification réseau RDMA requise
  • Surveillance des GPU et RDMA
    • Emet des mesures de performances RDMA et GPU supplémentaires

Pour activer le module d'extension HPC sur une instance Bare Metal existante, vous devez créer ou migrer l'instance existante vers l'agent Oracle Cloud version 1.35.0 ou supérieure. Pour plus d'informations, reportez-vous à Agent Oracle Cloud.

Activation des mesures GPU et RDMA

Lorsque vous installez l'agent Oracle Cloud et activez le module d'extension de surveillance HPC, les mesures GPU et RDMA sont automatiquement activées. OCI envoie les mesures à l'espace de noms du client et les facture à la location.

Pour déterminer si ces mesures entraîneront des frais supplémentaires, voir Tarification de la mesure.

Pour obtenir la liste détaillée des mesures HPC, reportez-vous à Mesures d'instance Compute.