Remarques :
- Ce tutoriel nécessite un accès à Oracle Cloud. Pour vous inscrire à un compte gratuit, reportez-vous à Introduction au niveau gratuit d'Oracle Cloud Infrastructure.
- Il utilise des exemples de valeur pour les informations d'identification, la location et les compartiments Oracle Cloud Infrastructure. A la fin de l'exercice, remplacez ces valeurs par des valeurs propres à votre environnement cloud.
Déployer un cluster de calcul hautes performances de GPU dans Oracle Cloud Infrastructure
Introduction
L'avènement de puissants modèles de langage volumineux (LLM) augmente le besoin d'une infrastructure disposant d'une mémoire GPU (Graphics Processing Unit) suffisante pour effectuer des tâches de réglage fin, et un moyen d'y parvenir utilise un cluster GPU. Oracle Cloud Infrastructure (OCI) a la possibilité de déployer un supercluster de GPU NVIDIA A100s et d'utiliser leur puissance pour exécuter ou affiner un LLM.
Composants
Le réseau de cluster est une ressource puissante d'OCI pour le déploiement de clusters de machines HPC et GPU connectés par un réseau à bande passante élevée et à très faible latence. Chaque noeud du cluster est une machine bare metal située à proximité des autres noeuds. Un réseau RDMA (Remote Direct Memory Access) entre les noeuds fournit une latence à une microseconde à un chiffre, ce qui est comparable aux clusters de calcul haute performance (HPC) sur site. Pour plus d'informations, reportez-vous à Réseaux de cluster avec des pools d'instances.
Pour déployer un cluster, vous devez créer un groupe dynamique avec les informations de compartiment de votre espace de travail, un ensemble de stratégies permettant aux services et au groupe dynamique d'effectuer certaines tâches, une image personnalisée d'une image ISO Ubuntu à utiliser par le cluster du noeud et déployer une pile Marketplace pour déployer le cluster. Pour plus d'informations, reportez-vous à Gestion des groupes dynamiques, à Stratégies, à Images personnalisées et à Oracle Cloud Marketplace.
Objectif
- Déployez un cluster GPU A100 sur OCI à l'aide d'une pile préconfigurée.
Prérequis
-
Accès permettant de créer des groupes dynamiques, des groupes d'utilisateurs et des stratégies. Pour obtenir les droits d'accès, contactez l'administrateur de location.
-
Limites de calcul GPU. Si vous ne disposez pas de limites de GPU de calcul suffisantes, reportez-vous à Demande d'augmentation de limite de service.
Tâche 1 : créer un groupe dynamique
Créez une règle de groupe dynamique avec des informations sur l'espace de travail.
-
Connectez-vous à la console OCI, accédez à Identité et sécurité et cliquez sur Compartiments. Copiez l'identificateur Oracle Cloud (OCID) à partir du compartiment de travail.
-
Cliquez sur Dynamic Groups et Create Dynamic Group.
-
Entrez un nom et une description. Pour ce tutoriel, entrez
instance-principal
comme nom. Mettez à jour l'OCID et cliquez sur Créer.
Tâche 2 : définir les stratégies
Définissez les stratégies requises pour le processus de déploiement.
-
Accédez à la console OCI, accédez à Identité et sécurité et à Stratégies.
-
Cliquez sur Créer une stratégie, entrez un nom, une description et sélectionnez le compartiment racine.
-
Cliquez sur Afficher l'éditeur manuel, entrez les stratégies suivantes, remplacez
<>
par vos informations et cliquez sur Créer.Allow service compute_management to use tag-namespace in tenancy Allow service compute_management to manage compute-management-family in tenancy Allow service compute_management to read app-catalog-listing in tenancy Allow group Administrators to manage all-resources in compartment <> allow service compute_management to use tag-namespace in tenancy allow service compute_management to manage compute-management-family in tenancy allow service compute_management to read app-catalog-listing in tenancy allow group user to manage all-resources in compartment compartmentName Allow dynamic-group instance-principal to read app-catalog-listing in tenancy Allow dynamic-group instance-principal to use tag-namespace in tenancy Allow dynamic-group instance-principal to manage compute-management-family in compartment <> Allow dynamic-group instance-principal to manage instance-family in compartment <> Allow dynamic-group instance-principal to use virtual-network-family in compartment <> Allow dynamic-group instance-principal to use volumes in compartment <>
Tâche 3 : (facultatif) créer une image personnalisée
Créez une image personnalisée à partir d'une image Ubuntu pour les machines GPU. Si nécessaire.
-
Accédez à la console OCI, accédez à Compute et à Images personnalisées.
-
Sous Images personnalisées, cliquez sur Importer l'image.
-
Saisissez les informations suivantes .
- Compartiment : entrez le compartiment.
- Nom : pour ce tutoriel, entrez
Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
comme nom. - Operating System (OS) : entrez le système d'exploitation.
- Sélectionnez Importer à partir d'une URL Object Storage et entrez l'URL suivante :
https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
-
Entrez l'emplacement de l'image dans le stockage d'objet.
-
Conservez l'autre configuration par défaut et cliquez sur Importer l'image. L'utilisation de l'image personnalisée peut prendre quelques minutes.
Tâche 4 : déployer la pile HPC
Un moyen simple et rapide de déployer la pile HPC consiste à utiliser l'URL suivante : https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-hpc/archive/refs/heads/master.zip
. Cette URL utilisera tous les scripts recommandés et mis à jour pour créer l'environnement.
Remarque : pour vérifier les dernières mises à jour du script de déploiement, accédez à l'URL :
https://github.com/oracle-quickstart/oci-hpc
. Dans le fichierREADME.md
, cliquez sur Déployer vers Oracle Cloud comme indiqué dans l'image suivante.
ou
Déployez traditionnellement la pile HPC via la console OCI.
-
Accédez à la console OCI, cliquez sur Marketplace et sur Toutes les applications.
-
Entrez
HPC solutions
dans la barre Rechercher. -
Sélectionnez Cluster HPC.
-
Entrez les informations requises pour créer la pile.
-
Entrez les valeurs requises pour configurer les options de bastion avancées.
-
Entrez les paramètres du réseau de cluster.
-
Cliquez sur Créer pour initialiser le déploiement de la pile.
La pile a été créée.
-
Pour vérifier les instances créées, accédez à la console OCI et cliquez sur Compute, Instances.
Remerciements
- Auteurs - Douglas Silva (LAD A-Team), Leandro Camargo (LAD A-Team)
Ressources de formation supplémentaires
Parcourez d'autres ateliers sur docs.oracle.com/learn ou accédez à davantage de contenus de formation gratuits sur le canal Oracle Learning YouTube. De plus, rendez-vous sur education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.
Pour obtenir de la documentation sur le produit, visitez Oracle Help Center.
Deploy a GPU High Performance Computing Cluster in Oracle Cloud Infrastructure
F98230-01
May 2024