Note :

Déployer une grappe de calcul de haute performance GPU dans Oracle Cloud Infrastructure

Présentation

L'avènement de puissants modèles linguistiques volumineux (LLM) augmente le besoin d'une infrastructure disposant d'une mémoire GPU suffisante pour effectuer des tâches de réglage fin, et une façon d'y parvenir utilise un cluster GPU. Oracle Cloud Infrastructure (OCI) a la capacité de déployer un supergrappe de processeurs graphiques NVIDIA A100s et d'utiliser sa puissance pour exécuter ou ajuster un LLM.

Composants

Le réseau en grappe est une ressource puissante d'OCI pour déployer des grappes de machines de calcul de haute performance et GPU connectées par un réseau à large bande passante et à très faible latence. Chaque noeud de la grappe est une machine sans système d'exploitation localisée physiquement à proximité des autres noeuds. Un réseau RDMA (Remote Direct Memory Access) entre les nœuds assure une latence à une microseconde, comparable aux clusters de calcul haute performance (HPC) sur site. Pour plus d'informations, voir Réseaux en grappe avec des groupes.

Pour déployer une grappe, vous devez créer un groupe dynamique avec les informations sur le compartiment de votre espace de travail, un jeu de politiques qui permettent aux services et au groupe dynamique d'effectuer certaines tâches, une image personnalisée d'une image ISO Ubuntu à utiliser par la grappe du noeud et déployer une pile Marketplace pour déployer la grappe. Pour plus d'informations, voir Gestion des groupes dynamiques, Politiques, Images personnalisées et Oracle Cloud Marketplace.

Objectif

Préalables

Tâche 1 : Créer un groupe dynamique

Créez une règle de groupe dynamique avec des informations sur l'espace de travail.

  1. Connectez-vous à la console OCI, naviguez jusqu'à Identité et sécurité et cliquez sur Compartiments. Copiez l'identificateur Oracle Cloud (OCID) à partir du compartiment de travail.

    Image 1

  2. Cliquez sur Groupes dynamiques et sur Créer un groupe dynamique.

  3. Entrez un Nom et une Description. Pour ce tutoriel, entrez instance-principal comme nom. Mettez à jour l'OCID et cliquez sur Créer.

    Image 2

Tâche 2 : Définir les stratégies

Définissez les politiques requises pour le processus de déploiement.

  1. Allez à la console OCI, naviguez jusqu'à Identité et sécurité et Politiques.

  2. Cliquez sur Créer une politique et entrez un nom, une description et sélectionnez le compartiment racine.

  3. Cliquez sur Afficher l'éditeur manuel et entrez les politiques suivantes, remplacez <> par vos informations et cliquez sur Créer.

    Allow service compute_management to use tag-namespace in tenancy
    
    Allow service compute_management to manage compute-management-family in tenancy
    
    Allow service compute_management to read app-catalog-listing in tenancy
    
    Allow group Administrators to manage all-resources in compartment <>
    
    allow service compute_management to use tag-namespace in tenancy
    
    allow service compute_management to manage compute-management-family in tenancy
    
    allow service compute_management to read app-catalog-listing in tenancy
    
    allow group user to manage all-resources in compartment compartmentName
    
    Allow dynamic-group instance-principal to read app-catalog-listing in tenancy
    
    Allow dynamic-group instance-principal to use tag-namespace in tenancy
    
    Allow dynamic-group instance-principal to manage compute-management-family in compartment <>
    
    Allow dynamic-group instance-principal to manage instance-family in compartment <>
    
    Allow dynamic-group instance-principal to use virtual-network-family in compartment <>
    
    Allow dynamic-group instance-principal to use volumes in compartment <>
    

    Image 3

Tâche 3 : (Facultatif) Créer une image personnalisée

Créez une image personnalisée à partir d'une image Ubuntu pour des machines GPU. Si nécessaire.

  1. Allez à la console OCI, naviguez jusqu'à Calcul et Images personnalisées.

    Image 4

  2. Sous Images personnalisées, cliquez sur Importer l'image.

    Image 5

  3. Entrez les informations suivantes .

    • Compartiment : Entrez le compartiment.
    • Nom : Pour ce tutoriel, entrez Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0 comme nom.
    • Système d'exploitation : Entrez le système d'exploitation.
    • Sélectionnez Importer à partir d'une URL de stockage d'objets et entrez l'URL suivante : https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0

    Image 6

  4. Entrez l'emplacement de l'image dans le stockage d'objets.

    Image 7

    Image 8

  5. Conservez l'autre configuration par défaut et cliquez sur Importer l'image. L'image personnalisée sera prête à être utilisée dans quelques minutes.

    Image 9

Tâche 4 : Déployer la pile HPC

Un moyen simple et rapide de déployer la pile de calcul de haute performance consiste à utiliser l'URL suivante : https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-HPC/archive/refs/heads/master.zip. Cette URL utilisera tous les scripts recommandés et mis à jour pour créer l'environnement.

Note : Pour vérifier les dernières mises à jour du script de déploiement, allez à l'URL : https://github.com/oracle-quickstart/oci-hpc. Dans le fichier README.md, cliquez sur Déployer vers Oracle Cloud, comme illustré dans l'image suivante.

Image 28

ou

Déployez la pile de calcul de haute performance traditionnellement au moyen de la console OCI.

  1. Allez à la console OCI, cliquez sur Marketplace et sur Toutes les applications.

    Image 10

  2. Entrez HPC solutions dans la barre de recherche.

    Image 11

  3. Sélectionner une grappe de calcul de haute performance.

    Image 12

  4. Entrez les informations requises pour créer la pile.

    Image 13

    Image 14

    Image 15

    Image 16

    Image 17

    Image 18

    Image 19

    Image 20

  5. Entrez les valeurs requises pour configurer les options d'hôte bastion avancées.

    Image 21

  6. Entrez les paramètres du réseau en grappe.

    Image 22 Image 23

  7. Cliquez sur Créer pour initialiser le déploiement de la pile.

    Image 24

    La pile a été créée.

    Image 25

  8. Pour vérifier les instances créées, allez à la console OCI et cliquez sur Calcul, Instances.

    Image 26

    Image 27

Remerciements

Autres ressources d'apprentissage

Explorez d'autres laboratoires sur docs.oracle.com/learn ou accédez à plus de contenu d'apprentissage gratuit sur le canal YouTube d'Oracle Learning. De plus, visitez education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.

Pour obtenir de la documentation sur le produit, visitez Oracle Help Center.