Note :
- Ce tutoriel nécessite l'accès à Oracle Cloud. Pour vous inscrire à un compte gratuit, voir Introduction au niveau gratuit d'Oracle Cloud Infrastructure.
- Il utilise des exemples de valeurs pour les données d'identification, la location et les compartiments Oracle Cloud Infrastructure. À la fin de votre laboratoire, remplacez ces valeurs par celles propres à votre environnement en nuage.
Déployer une grappe de calcul de haute performance GPU dans Oracle Cloud Infrastructure
Présentation
L'avènement de puissants modèles linguistiques volumineux (LLM) augmente le besoin d'une infrastructure disposant d'une mémoire GPU suffisante pour effectuer des tâches de réglage fin, et une façon d'y parvenir utilise un cluster GPU. Oracle Cloud Infrastructure (OCI) a la capacité de déployer un supergrappe de processeurs graphiques NVIDIA A100s et d'utiliser sa puissance pour exécuter ou ajuster un LLM.
Composants
Le réseau en grappe est une ressource puissante d'OCI pour déployer des grappes de machines de calcul de haute performance et GPU connectées par un réseau à large bande passante et à très faible latence. Chaque noeud de la grappe est une machine sans système d'exploitation localisée physiquement à proximité des autres noeuds. Un réseau RDMA (Remote Direct Memory Access) entre les nœuds assure une latence à une microseconde, comparable aux clusters de calcul haute performance (HPC) sur site. Pour plus d'informations, voir Réseaux en grappe avec des groupes.
Pour déployer une grappe, vous devez créer un groupe dynamique avec les informations sur le compartiment de votre espace de travail, un jeu de politiques qui permettent aux services et au groupe dynamique d'effectuer certaines tâches, une image personnalisée d'une image ISO Ubuntu à utiliser par la grappe du noeud et déployer une pile Marketplace pour déployer la grappe. Pour plus d'informations, voir Gestion des groupes dynamiques, Politiques, Images personnalisées et Oracle Cloud Marketplace.
Objectif
- Déployez une grappe GPU A100 sur OCI à l'aide d'une pile préconfigurée.
Préalables
-
Accès permettant de créer des groupes dynamiques, des groupes d'utilisateurs et des politiques. Pour les autorisations d'accès, communiquez avec l'administrateur de votre location.
-
Limites de calcul GPU. Si vous n'avez pas assez de limites GPU de calcul, voir Demande d'une augmentation de limite de service.
Tâche 1 : Créer un groupe dynamique
Créez une règle de groupe dynamique avec des informations sur l'espace de travail.
-
Connectez-vous à la console OCI, naviguez jusqu'à Identité et sécurité et cliquez sur Compartiments. Copiez l'identificateur Oracle Cloud (OCID) à partir du compartiment de travail.
-
Cliquez sur Groupes dynamiques et sur Créer un groupe dynamique.
-
Entrez un Nom et une Description. Pour ce tutoriel, entrez
instance-principal
comme nom. Mettez à jour l'OCID et cliquez sur Créer.
Tâche 2 : Définir les stratégies
Définissez les politiques requises pour le processus de déploiement.
-
Allez à la console OCI, naviguez jusqu'à Identité et sécurité et Politiques.
-
Cliquez sur Créer une politique et entrez un nom, une description et sélectionnez le compartiment racine.
-
Cliquez sur Afficher l'éditeur manuel et entrez les politiques suivantes, remplacez
<>
par vos informations et cliquez sur Créer.Allow service compute_management to use tag-namespace in tenancy Allow service compute_management to manage compute-management-family in tenancy Allow service compute_management to read app-catalog-listing in tenancy Allow group Administrators to manage all-resources in compartment <> allow service compute_management to use tag-namespace in tenancy allow service compute_management to manage compute-management-family in tenancy allow service compute_management to read app-catalog-listing in tenancy allow group user to manage all-resources in compartment compartmentName Allow dynamic-group instance-principal to read app-catalog-listing in tenancy Allow dynamic-group instance-principal to use tag-namespace in tenancy Allow dynamic-group instance-principal to manage compute-management-family in compartment <> Allow dynamic-group instance-principal to manage instance-family in compartment <> Allow dynamic-group instance-principal to use virtual-network-family in compartment <> Allow dynamic-group instance-principal to use volumes in compartment <>
Tâche 3 : (Facultatif) Créer une image personnalisée
Créez une image personnalisée à partir d'une image Ubuntu pour des machines GPU. Si nécessaire.
-
Allez à la console OCI, naviguez jusqu'à Calcul et Images personnalisées.
-
Sous Images personnalisées, cliquez sur Importer l'image.
-
Entrez les informations suivantes .
- Compartiment : Entrez le compartiment.
- Nom : Pour ce tutoriel, entrez
Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
comme nom. - Système d'exploitation : Entrez le système d'exploitation.
- Sélectionnez Importer à partir d'une URL de stockage d'objets et entrez l'URL suivante :
https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
-
Entrez l'emplacement de l'image dans le stockage d'objets.
-
Conservez l'autre configuration par défaut et cliquez sur Importer l'image. L'image personnalisée sera prête à être utilisée dans quelques minutes.
Tâche 4 : Déployer la pile HPC
Un moyen simple et rapide de déployer la pile de calcul de haute performance consiste à utiliser l'URL suivante : https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-HPC/archive/refs/heads/master.zip
. Cette URL utilisera tous les scripts recommandés et mis à jour pour créer l'environnement.
Note : Pour vérifier les dernières mises à jour du script de déploiement, allez à l'URL :
https://github.com/oracle-quickstart/oci-hpc
. Dans le fichierREADME.md
, cliquez sur Déployer vers Oracle Cloud, comme illustré dans l'image suivante.
ou
Déployez la pile de calcul de haute performance traditionnellement au moyen de la console OCI.
-
Allez à la console OCI, cliquez sur Marketplace et sur Toutes les applications.
-
Entrez
HPC solutions
dans la barre de recherche. -
Sélectionner une grappe de calcul de haute performance.
-
Entrez les informations requises pour créer la pile.
-
Entrez les valeurs requises pour configurer les options d'hôte bastion avancées.
-
Entrez les paramètres du réseau en grappe.
-
Cliquez sur Créer pour initialiser le déploiement de la pile.
La pile a été créée.
-
Pour vérifier les instances créées, allez à la console OCI et cliquez sur Calcul, Instances.
Remerciements
- Auteurs - Douglas Silva (équipe A de LAD), Leandro Camargo (équipe A de LAD)
Autres ressources d'apprentissage
Explorez d'autres laboratoires sur docs.oracle.com/learn ou accédez à plus de contenu d'apprentissage gratuit sur le canal YouTube d'Oracle Learning. De plus, visitez education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.
Pour obtenir de la documentation sur le produit, visitez Oracle Help Center.
Deploy a GPU High Performance Computing Cluster in Oracle Cloud Infrastructure
F98229-01
May 2024