Note :
- Ce tutoriel nécessite l'accès à Oracle Cloud. Pour vous inscrire à un compte gratuit, voir Démarrer avec le niveau gratuit d'Oracle Cloud Infrastructure.
- Il utilise des exemples de valeurs pour les données d'identification, la location et les compartiments d'Oracle Cloud Infrastructure. À la fin de votre laboratoire, remplacez ces valeurs par celles qui sont propres à votre environnement en nuage.
Migrer des noeuds de GPU sans système d'exploitation vers OKE en tant que noeuds autogérés à l'aide d'une pile OCI
Présentation
Dans ce tutoriel, nous traiterons le processus de migration des noeuds sans système d'exploitation vers des noeuds autogérés Oracle Cloud Infrastructure Kubernetes Engine (OKE) à l'aide d'une pile Oracle Cloud Infrastructure (OCI).
Comprenons d'abord ce que sont les noeuds autogérés et pourquoi ils sont idéaux pour exécuter des GPU sur OKE.
Quels sont les noeuds autogérés OKE?
Comme son nom l'indique, les noeuds autogérés sont entièrement contrôlés et gérés par le client. Cela inclut le provisionnement, l'évolutivité, la configuration, les mises à niveau et les tâches de maintenance, telles que l'application de correctifs au système d'exploitation et le remplacement des noeuds. Bien que cette approche nécessite une gestion plus manuelle, elle offre un maximum de flexibilité et de contrôle, ce qui la rend adaptée aux charges de travail spécialisées telles que celles exécutées sur des processeurs graphiques.
Principales caractéristiques des noeuds autogérés :
-
Contrôle total : Le client dispose d'un contrôle complet sur le cycle de vie des noeuds, notamment le provisionnement, les mises à jour du système d'exploitation, l'ajustement et l'arrêt.
-
Configurations personnalisées : Le client peut utiliser des images personnalisées, installer un logiciel spécifique, configurer le réseau ou utiliser d'autres types d'instance.
-
Mises à niveau manuelles : Contrairement aux groupes de noeuds gérés par OKE, le client doit mettre à niveau manuellement les versions, les correctifs de sécurité et les mises à jour de système d'exploitation de Kubernetes.
-
Utiliser ses propres noeuds (BYON) : Le client peut utiliser des instances de calcul OCI existantes en tant que noeuds de travail dans une grappe OKE.
-
Aucun cycle automatique de noeud : En cas d'échec d'un noeud, le client doit le remplacer/le cycleer manuellement.
Ce tutoriel couvre un cas d'utilisation où des charges de travail de GPU BM A100 sont actuellement exécutées sur une grappe Slurm dans OCI, dans le but de les migrer vers une grappe OKE. Pour ce faire, vous pouvez utiliser la pile OKE de calcul de haute performance pour déployer une grappe OKE vide, puis y ajouter les noeuds GPU existants.
Objectifs
- Migrez les noeuds GPU BM A100 vers OKE en tant que noeuds autogérés à l'aide de la pile OKE de calcul de haute performance.
Préalables
-
Accès d'administrateur à une location OCI et à une grappe OKE en cours d'exécution.
-
Installez NVIDIA Run:ai sur les noeuds BM A100 pour conteneuriser les applications. Pour plus d'informations, voir NVIDIA Run:ai.
-
Exécutez les charges de travail GPU Remote Direct Memory Access (RDMA) sur OKE. Pour plus d'informations, voir Exécution des charges de travail GPU RDMA (accès direct à la mémoire distante) sur OKE.
Tâche 1 : Migrer des noeuds GPU BM A100 vers OKE à l'aide de la pile OKE de calcul de haute performance
-
Connectez-vous à la console OCI et créez les politiques nécessaires, comme indiqué dans cette page GitHub : Exécution des charges de travail GPU RDMA (accès direct à la mémoire distante) sur OKE.
-
Cliquez sur Déployer vers Oracle Cloud et vérifiez les conditions générales.

-
Sélectionnez la région dans laquelle déployer la pile.
-
Dans la page Informations sur la pile, entrez Nom de votre pile.

-
Dans la page Configurer la variable, entrez Nom pour votre VCN.

-
Dans la section Hôte bastion et opérateur, entrez les informations sur l'instance d'hôte bastion et ajoutez une clé SSH pour l'instance d'hôte bastion.

-
(Facultatif) Sélectionnez Configurer la forme de l'opérateur pour créer un noeud d'opérateur pour surveiller ou exécuter des tâches.

-
Configurez des variables pour les noeuds Grappe OKE, Travailleurs : Opérationnels et Travailleurs : GPU + RDMA. Veillez à sélectionner le CNI Canal à utiliser pour le réseau de pods.



-
Sélectionnez Créer un tableau RAID 0 à l'aide des lecteurs NVMe locaux et Installer le détecteur de problèmes de noeud et la pile Kube Prometheus.

-
Vérifiez les informations de la pile et cliquez sur Créer.

-
Consultez les détails de la pile dans le gestionnaire de ressources et vérifiez la grappe OKE dans la section Kubernetes de la console OCI.


-
Connectez-vous à la grappe OKE à l'aide de la grappe d'accès au moyen de la console OCI et ajoutez-y de nouveaux noeuds GPU.
-
Suivez toutes les étapes mentionnées ici : Création d'un groupe dynamique et d'une politique pour les noeuds autonomes.
-
Suivez les étapes 1 et 2 mentionnées ici : Création de scripts Cloud-init pour les noeuds autogérés.
-
Exécutez le script suivant pour ajouter les noeuds GPU à la grappe OKE.
sudo rm archive_uri-https_objectstorage_ap-osaka-1_oraclecloud_com_p_ltn5w_61bxynnhz4j9g2drkdic3mwpn7vqce4gznmjwqqzdqjamehhuogyuld5ht_n_hpc_limited_availability_b_oke_node_repo_o_ubuntu-jammy.list sudo apt install -y oci-oke-node-all* sudo oke bootstrap --apiserver-host <API SERVER IP> --ca <CA CERT> --manage-gpu-services --crio-extra-args " -
Exécutez la commande suivante pour vérifier que les noeuds ont bien été ajoutés à la grappe OKE.
kubectl get nodes
Liens connexes
Remerciements
- Auteurs - Ruzhu Chen (architecte en nuage d'entreprise en chef), Payal Sharma (architecte en nuage d'entreprise en chef)
Autres ressources d'apprentissage
Explorez d'autres laboratoires sur le site docs.oracle.com/learn ou accédez à plus de contenu d'apprentissage gratuit sur le canal Oracle Learning YouTube. De plus, visitez education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.
Pour obtenir la documentation sur le produit, visitez Oracle Help Center.
Migrate Bare Metal GPU Nodes to OKE as Self-Managed Nodes using an OCI Stack
G31987-01
Copyright ©2025, Oracle and/or its affiliates.