Remarques :

Déployer un cluster de calcul hautes performances de GPU dans Oracle Cloud Infrastructure

Introduction

L'avènement de puissants modèles de langage volumineux (LLM) augmente le besoin d'une infrastructure disposant d'une mémoire GPU (Graphics Processing Unit) suffisante pour effectuer des tâches de réglage fin, et un moyen d'y parvenir utilise un cluster GPU. Oracle Cloud Infrastructure (OCI) a la possibilité de déployer un supercluster de GPU NVIDIA A100s et d'utiliser leur puissance pour exécuter ou affiner un LLM.

Composants

Le réseau de cluster est une ressource puissante d'OCI pour le déploiement de clusters de machines HPC et GPU connectés par un réseau à bande passante élevée et à très faible latence. Chaque noeud du cluster est une machine bare metal située à proximité des autres noeuds. Un réseau RDMA (Remote Direct Memory Access) entre les noeuds fournit une latence à une microseconde à un chiffre, ce qui est comparable aux clusters de calcul haute performance (HPC) sur site. Pour plus d'informations, reportez-vous à Réseaux de cluster avec des pools d'instances.

Pour déployer un cluster, vous devez créer un groupe dynamique avec les informations de compartiment de votre espace de travail, un ensemble de stratégies permettant aux services et au groupe dynamique d'effectuer certaines tâches, une image personnalisée d'une image ISO Ubuntu à utiliser par le cluster du noeud et déployer une pile Marketplace pour déployer le cluster. Pour plus d'informations, reportez-vous à Gestion des groupes dynamiques, à Stratégies, à Images personnalisées et à Oracle Cloud Marketplace.

Objectif

Prérequis

Tâche 1 : créer un groupe dynamique

Créez une règle de groupe dynamique avec des informations sur l'espace de travail.

  1. Connectez-vous à la console OCI, accédez à Identité et sécurité et cliquez sur Compartiments. Copiez l'identificateur Oracle Cloud (OCID) à partir du compartiment de travail.

    Image  1

  2. Cliquez sur Dynamic Groups et Create Dynamic Group.

  3. Entrez un nom et une description. Pour ce tutoriel, entrez instance-principal comme nom. Mettez à jour l'OCID et cliquez sur Créer.

    Image  2

Tâche 2 : définir les stratégies

Définissez les stratégies requises pour le processus de déploiement.

  1. Accédez à la console OCI, accédez à Identité et sécurité et à Stratégies.

  2. Cliquez sur Créer une stratégie, entrez un nom, une description et sélectionnez le compartiment racine.

  3. Cliquez sur Afficher l'éditeur manuel, entrez les stratégies suivantes, remplacez <> par vos informations et cliquez sur Créer.

    Allow service compute_management to use tag-namespace in tenancy
    
    Allow service compute_management to manage compute-management-family in tenancy
    
    Allow service compute_management to read app-catalog-listing in tenancy
    
    Allow group Administrators to manage all-resources in compartment <>
    
    allow service compute_management to use tag-namespace in tenancy
    
    allow service compute_management to manage compute-management-family in tenancy
    
    allow service compute_management to read app-catalog-listing in tenancy
    
    allow group user to manage all-resources in compartment compartmentName
    
    Allow dynamic-group instance-principal to read app-catalog-listing in tenancy
    
    Allow dynamic-group instance-principal to use tag-namespace in tenancy
    
    Allow dynamic-group instance-principal to manage compute-management-family in compartment <>
    
    Allow dynamic-group instance-principal to manage instance-family in compartment <>
    
    Allow dynamic-group instance-principal to use virtual-network-family in compartment <>
    
    Allow dynamic-group instance-principal to use volumes in compartment <>
    

    Image  3

Tâche 3 : (facultatif) créer une image personnalisée

Créez une image personnalisée à partir d'une image Ubuntu pour les machines GPU. Si nécessaire.

  1. Accédez à la console OCI, accédez à Compute et à Images personnalisées.

    Image  4

  2. Sous Images personnalisées, cliquez sur Importer l'image.

    Image  5

  3. Saisissez les informations suivantes .

    • Compartiment : entrez le compartiment.
    • Nom : pour ce tutoriel, entrez Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0 comme nom.
    • Operating System (OS) : entrez le système d'exploitation.
    • Sélectionnez Importer à partir d'une URL Object Storage et entrez l'URL suivante : https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0

    Image  6

  4. Entrez l'emplacement de l'image dans le stockage d'objet.

    Image  7

    Image  8

  5. Conservez l'autre configuration par défaut et cliquez sur Importer l'image. L'utilisation de l'image personnalisée peut prendre quelques minutes.

    Image  9

Tâche 4 : déployer la pile HPC

Un moyen simple et rapide de déployer la pile HPC consiste à utiliser l'URL suivante : https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-hpc/archive/refs/heads/master.zip. Cette URL utilisera tous les scripts recommandés et mis à jour pour créer l'environnement.

Remarque : pour vérifier les dernières mises à jour du script de déploiement, accédez à l'URL : https://github.com/oracle-quickstart/oci-hpc. Dans le fichier README.md, cliquez sur Déployer vers Oracle Cloud comme indiqué dans l'image suivante.

Image  28

ou

Déployez traditionnellement la pile HPC via la console OCI.

  1. Accédez à la console OCI, cliquez sur Marketplace et sur Toutes les applications.

    Image  10

  2. Entrez HPC solutions dans la barre Rechercher.

    Image  11

  3. Sélectionnez Cluster HPC.

    Image  12

  4. Entrez les informations requises pour créer la pile.

    Image  13

    Image  14

    Image  15

    Image  16

    Image  17

    Image  18

    Image  19

    Image  20

  5. Entrez les valeurs requises pour configurer les options de bastion avancées.

    Image  21

  6. Entrez les paramètres du réseau de cluster.

    Image  22 Image  23

  7. Cliquez sur Créer pour initialiser le déploiement de la pile.

    Image  24

    La pile a été créée.

    Image  25

  8. Pour vérifier les instances créées, accédez à la console OCI et cliquez sur Compute, Instances.

    Image  26

    Image  27

Remerciements

Ressources de formation supplémentaires

Parcourez d'autres ateliers sur docs.oracle.com/learn ou accédez à davantage de contenus de formation gratuits sur le canal Oracle Learning YouTube. De plus, rendez-vous sur education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.

Pour obtenir de la documentation sur le produit, visitez Oracle Help Center.