Gestion des réseaux de cluster

Un réseau de cluster est un pool d'instances optimisées, de GPU ou de calcul hautes performances connectées à un réseau à très faible latence et à bande passante élevée. Chaque noeud du cluster est une machine Bare Metal située à proximité des autres noeuds. Un réseau RDMA (Remote Direct Memory Access) entre des noeuds fournit une latence exprimée en microsecondes à un chiffre, ce qui est comparable aux clusters de calcul hautes performances sur site.

Les réseaux de cluster sont conçus pour des charges globales de calcul parallèles très exigeantes. Par exemple :

  • Simulations de mécanique des fluides numérique pour la modélisation aérospatiale ou automobile
  • Modélisation financière et analyse des risques
  • Simulations biomédicales
  • Conception et analyse de trajectoire pour l'exploration de l'espace
  • Intelligence artificielle et charges globales Big Data

Les réseaux de cluster reposent sur les fonctionnalités des pools d'instances. La plupart des opérations dans le pool d'instances sont gérées directement par le réseau de cluster. Vous pouvez toutefois redimensionner le pool d'instances sous-jacent, modifier la configuration d'instance utilisée par le pool pour créer des instances, surveiller le pool et ajouter des balises.

Pour plus d'informations sur l'accès aux données à traiter dans les réseaux de cluster et leur stockage, reportez-vous à Présentation de FastConnect, à Présentation de File Storage, à Présentation d'Object Storage et à Présentation de Block Volume.

Formes prises en charge

Les formes suivantes prennent en charge les réseaux de cluster :

  • BM.GPU4.8
  • BM.GPU.GM4.8 (BM.GPU.A100-v2.8)
  • BM.HPC2.36
  • BM.Optimized3.36

En règle générale, pour pouvoir créer plusieurs instances de GPU ou de calcul hautes performances contenues dans un réseau de cluster, vous devez demander une augmentation de limite de service.

Régions et domaines de disponibilité pris en charge

Les réseaux de cluster sont pris en charge dans certaines régions du domaine de sécurité commercial Oracle Cloud Infrastructure et des domaines de sécurité Government Cloud.

Régions prises en charge dans le domaine de sécurité commercial
  • Est de l'Australie (Sydney)
  • Sud-est de l'Australie (Melbourne)
  • Est du Brésil (São Paulo)
  • Sud-est du Brésil (Vinhedo)
  • Sud-est du Canada (Toronto)
  • Allemagne centrale (Francfort)
  • Sud de l'Inde (Hyderabad)
  • Ouest de l'Inde (Mumbai)
  • Centre d'Israël (Jérusalem)
  • Nord-ouest de l'Italie (Milan)
  • Centre du Japon (Osaka)
  • Est du Japon (Tokyo)
  • Nord-ouest des Pays-Bas (Amsterdam)
  • Ouest de l'Arabie saoudite (Djeddah)
  • Singapour (Singapour)
  • Centre de la Corée du Sud (Séoul)
  • Nord de la Corée du Sud (Chuncheon)
  • Est des Emirats arabes unis (Dubaï)
  • Sud du Royaume-Uni (Londres)
  • Est des Etats-Unis (Ashburn)
  • Midwest des Etats-Unis (Chicago)
  • Ouest des Etats-Unis (Phoenix)
  • Ouest des Etats-Unis (San José)
Régions prises en charge dans les domaines de sécurité Government Cloud
  • Sud du Royaume-Uni - Gouvernement (Londres)
  • Ouest du Royaume-Uni - Gouvernement (Newport)
  • Est des Etats-Unis - Gouvernement (Ashburn)

Le domaine de disponibilité dans lequel vous créez le réseau de cluster doit disposer d'un matériel compatible avec ce réseau.

Stratégie IAM requise

Pour utiliser Oracle Cloud Infrastructure, un administrateur doit vous accorder un accès sécurisé dans une stratégie. Cet accès est requis que vous utilisiez la console ou l'API REST avec un kit SDK, l'interface de ligne de commande ou un autre outil. Si un message vous indique que vous ne disposez pas des droits d'accès ou des autorisations nécessaires, vérifiez auprès de l'administrateur le type d'accès qui vous a été accordé et le compartiment  dans lequel vous devez travailler.

Pour les administrateurs : afin d'obtenir une stratégie standard donnant accès aux réseaux de cluster, reportez-vous à Autoriser les utilisateurs à gérer des configurations d'instance Compute, des pools d'instances et des réseaux de cluster.

Création d'un réseau de cluster

Procédez comme suit pour créer un réseau de cluster.

Prérequis

Créez une configuration d'instance pour le pool d'instances géré par le réseau de cluster. Utilisez les paramètres suivants :

  • Image : cliquez sur Modifier l'image, puis sur Images Oracle. Sélectionnez l'image de fonctions en réseau du cluster de calcul hautes performances Oracle Linux.
  • Forme : cliquez sur Modifier la forme. Sélectionnez Machine Bare Metal. Sélectionnez ensuite une forme prenant en charge les réseaux de cluster.

    Pour plus d'informations sur ces formes, reportez-vous à Formes de calcul.

Utilisation de la console

  1. Ouvrez le menu de navigation et cliquez sur Compute. Sous Compute, cliquez sur Réseaux de cluster.

  2. Cliquez sur Créer un réseau de cluster.
  3. Entrez le nom du réseau de cluster. Ce nom ne doit pas nécessairement être unique et peut être modifié ultérieurement. Evitez de saisir des informations confidentielles.
  4. Sélectionnez le compartiment dans lequel créer le réseau de cluster.
  5. Sélectionnez le domaine de disponibilité dans lequel exécuter le réseau de cluster. Seuls les domaines de disponibilité disposant de matériel compatible avec le réseau de cluster peuvent être sélectionnés.
  6. Dans la section Configuration du réseau, indiquez le réseau à utiliser pour administrer le réseau de cluster. Ce réseau est distinct du réseau RDMA fermé entre les noeuds au sein du cluster. Saisissez les informations suivantes :

    • Réseau cloud virtuel : réseau cloud virtuel pour le réseau de cluster.
    • Sous-réseau : sous-réseau du réseau de cluster.
  7. Dans la section Configurer le pool d'instances, saisissez les informations suivantes :

    • Nom du pool d'instances : nom du pool d'instances géré par le réseau de cluster. Evitez de saisir des informations confidentielles.
    • Nombre d'instances : nombre d'instances dans le pool.
    • Configuration d'instance : sélectionnez la configuration d'instance à utiliser lors de la création des instances dans le pool d'instances du réseau de cluster, comme décrit dans les prérequis.
  8. Afficher les options de balisage : vous avez la possibilité d'ajouter des balises. Si vous êtes autorisé à créer une ressource, vous disposez également des droits d'accès nécessaires pour ajouter des balises à format libre à cette ressource. Pour ajouter une balise définie, vous devez disposer de droits d'accès permettant d'utiliser l'espace de noms de balise. Pour plus d'informations sur le balisage, reportez-vous à Balises de ressource. Si vous n'êtes pas certain de devoir ajouter des balises, ignorez cette option (vous pouvez en ajouter ultérieurement) ou demandez à l'administrateur.
  9. Cliquez sur Créer un réseau de cluster.

    Des instances sont provisionnées jusqu'à ce que le nombre requis d'instances du pool soit lancé, dans la limite de la capacité d'hôte des noeuds du réseau RDMA du cluster.

    Pour suivre la progression de l'opération et résoudre les erreurs qui se produisent lors de la création de l'instance, utilisez la demande de travail associée.

Utilisation de l'API

Utilisez l'opération CreateClusterNetwork.

Détachement d'instances d'un réseau de cluster

Pour enlever des noeuds spécifiques d'un réseau de cluster, détachez des instances du pool sous-jacent du réseau de cluster. Les instances que vous détachez ne sont plus gérées dans le cadre du réseau de cluster. Pour enlever des instances du réseau de cluster en les supprimant, vous pouvez redimensionner le réseau de cluster.

Lorsque vous détachez une instance, vous pouvez choisir de la supprimer ou de la conserver. Vous pouvez également choisir de créer une instance dans le réseau de cluster afin de remplacer l'instance détachée. Si vous ne remplacez pas l'instance détachée, la taille du réseau de cluster est réduite.

Utilisation de la console

  1. Ouvrez le menu de navigation et cliquez sur Compute. Sous Compute, cliquez sur Réseaux de cluster.

  2. Cliquez sur le réseau de cluster qui vous intéresse.
  3. Sur la page Pools d'instances, cliquez sur le pool duquel détacher des instances.
  4. Sous Ressources, cliquez sur Instances attachées.
  5. Cliquez sur le menu Actions correspondant à l'instance à détacher. Cliquez ensuite sur Détacher l'instance.
  6. Pour supprimer l'instance et son volume d'initialisation, cochez la case Mettre fin définitivement à cette instance et à son volume d'initialisation attaché (les supprimer).
  7. Par défaut, la taille du pool d'instances sous-jacent est réduite. Si vous souhaitez que le réseau de cluster conserve la même taille après le détachement de l'instance, vous pouvez provisionner une instance de remplacement. Cochez la case Remplacer l'instance par une nouvelle instance en utilisant la configuration d'instance du pool comme modèle pour l'instance.
  8. Cliquez sur Détacher (ou sur Détacher et mettre fin, si vous supprimez également l'instance).

    Pour suivre la progression de l'opération et résoudre les erreurs qui se produisent lors de la création de l'instance, utilisez la demande de travail associée.

Utilisation de l'API

Pour répertorier les instances d'un réseau de cluster, utilisez l'opération ListClusterNetworkInstances.

Pour détacher des instances du pool sous-jacent d'un réseau de cluster, utilisez l'opération DetachInstancePoolInstance.

Redimensionnement d'un réseau de cluster

Vous pouvez modifier le nombre d'instances d'un réseau de cluster en redimensionnant le pool d'instances sous-jacent.

Lorsque vous augmentez la taille du pool, des instances sont provisionnées jusqu'à ce que le nombre requis d'instances du pool soient lancées, dans la limite de la capacité d'hôte des noeuds du réseau RDMA du cluster.

Lorsque vous réduisez la taille du pool, les instances prennent fin (sont supprimées) dans l'ordre dans lequel elles ont été créées : la première instance créée est la première à prendre fin. Si vous souhaitez enlever une instance spécifique du réseau de cluster, vous pouvez la détacher de ce dernier.

Prérequis

Le réseau de cluster doit avoir l'état En cours d'exécution.

Utilisation de la console

  1. Ouvrez le menu de navigation et cliquez sur Compute. Sous Compute, cliquez sur Réseaux de cluster.

  2. Cliquez sur le réseau de cluster qui vous intéresse.
  3. Cliquez sur Modifier.
  4. Dans la zone Nombre d'instances, indiquez le nombre d'instances mis à jour pour le pool d'instances.
  5. Cliquez sur Enregistrer les modifications.

    Pour suivre la progression de l'opération et résoudre les erreurs qui se produisent lors de la création de l'instance, utilisez la demande de travail associée.

Utilisation de l'API

Utilisez l'opération UpdateClusterNetwork.

Mise à jour de la configuration d'instance pour un réseau de cluster

Pour mettre à jour la configuration d'instance utilisée par le pool d'instances sous-jacent d'un réseau de cluster lors de la création d'instances, vous pouvez effectuer l'une des opérations suivantes :

  • Créez une configuration d'instance avec les paramètres voulus, puis attachez la nouvelle configuration d'instance au réseau de cluster.

    Si vous voulez que les instances du réseau de cluster utilisent les paramètres de la nouvelle configuration d'instance, comme une nouvelle forme, détachez les instances existantes du réseau de cluster et provisionnez de nouvelles instances.

    Remarque

    Lorsque vous détachez des instances d'un réseau de cluster, les instances existantes sont détachées avant le provisionnement des nouvelles instances. Selon vos besoins, vous pouvez augmenter la taille du réseau de cluster avant de détacher les instances.
  • Pour uniquement mettre à jour le nom d'affichage ou les balises d'une configuration d'instance existante, vous pouvez mettre à jour la configuration d'instance existante du réseau de cluster. Pour toute autre mise à jour, créez et attachez une configuration d'instance avec les paramètres que vous souhaitez utiliser.

Utilisation de la console

Pour attacher une nouvelle configuration d'instance à un réseau de cluster, procédez comme suit :

  1. Ouvrez le menu de navigation et cliquez sur Compute. Sous Compute, cliquez sur Réseaux de cluster.

  2. Cliquez sur le réseau de cluster qui vous intéresse.
  3. Cliquez sur Modifier.
  4. Pour Configuration d'instance, sélectionnez la configuration d'instance à utiliser lors de la création d'instances dans le pool d'instances du réseau de cluster.
  5. Cliquez sur Enregistrer les modifications.

Utilisation de l'API

Pour attacher une nouvelle configuration d'instance à un réseau de cluster, utilisez l'opération UpdateClusterNetwork.

Attribution d'un nouveau nom à un réseau de cluster

Procédez comme suit pour modifier le nom d'un réseau de cluster.

Utilisation de la console

  1. Ouvrez le menu de navigation et cliquez sur Compute. Sous Compute, cliquez sur Réseaux de cluster.

  2. Cliquez sur le réseau de cluster qui vous intéresse.
  3. Cliquez sur Modifier.
  4. Entrez un nouveau nom. Evitez de saisir des informations confidentielles.
  5. Cliquez sur Enregistrer les modifications.

Utilisation de l'API

Utilisez l'opération UpdateClusterNetwork.

Balisage des ressources

Vous pouvez appliquer des balises à vos ressources afin de vous aider à les organiser selon vos besoins métier. Vous pouvez appliquer des balises lors de la création d'une ressource ou mettre à jour la ressource ultérieurement avec les balises de votre choix. Pour obtenir des informations générales sur l'application de balises, reportez-vous à Balises de ressource.

Procédure de gestion des balises pour un réseau de cluster

Utilisation de la console :

  1. Ouvrez le menu de navigation et cliquez sur Compute. Sous Compute, cliquez sur Réseaux de cluster.

  2. Cliquez sur le réseau de cluster qui vous intéresse.
  3. Cliquez sur l'onglet Balises pour afficher ou modifier les balises existantes. Vous pouvez également cliquer sur Ajouter des balises pour en ajouter de nouvelles.

Utilisation de l'API : utilisez l'opération UpdateClusterNetwork.

Suppression d'un réseau de cluster

Vous pouvez mettre fin à un réseau de cluster dont vous n'avez plus besoin (le supprimer).

Attention

Lorsque vous supprimez un réseau de cluster, toutes ses ressources sont supprimées définitivement, y compris les instances associées, les volumes d'initialisation attachés et les volumes de blocs.

Utilisation de la console

  1. Ouvrez le menu de navigation et cliquez sur Compute. Sous Compute, cliquez sur Réseaux de cluster.

  2. Cliquez sur le réseau de cluster qui vous intéresse.
  3. Cliquez sur Mettre fin, puis confirmez lorsque vous y êtes invité.

    Pour suivre la progression de l'opération et résoudre les erreurs qui se produisent lors de la création de l'instance, utilisez la demande de travail associée.

Utilisation de l'API

Utilisez l'opération TerminateClusterNetwork.