Remarques :
- Ce tutoriel nécessite un accès à Oracle Cloud. Pour vous inscrire à un compte gratuit, reportez-vous à Introduction à Oracle Cloud Infrastructure Free Tier.
- Il utilise des exemples de valeurs pour les informations d'identification, la location et les compartiments Oracle Cloud Infrastructure. Lorsque vous terminez votre atelier, remplacez ces valeurs par celles propres à votre environnement cloud.
Migrer des noeuds de GPU Bare Metal vers OKE en tant que noeuds autogérés à l'aide d'une pile OCI
Introduction
Dans ce tutoriel, nous allons passer en revue le processus de migration des noeuds de GPU Bare Metal vers les noeuds autogérés Oracle Cloud Infrastructure Kubernetes Engine (OKE) à l'aide d'une pile Oracle Cloud Infrastructure (OCI).
Voyons d'abord ce que sont les nœuds autogérés et pourquoi ils sont idéaux pour exécuter des GPU sur OKE.
Que sont les noeuds autogérés OKE ?
Comme son nom l'indique, les noeuds autogérés sont entièrement contrôlés et gérés par le client. Cela inclut le provisionnement, le redimensionnement, la configuration, les mises à niveau et les tâches de maintenance telles que l'application de patches au système d'exploitation et le remplacement de noeud. Bien que cette approche nécessite une gestion plus manuelle, elle offre une flexibilité et un contrôle maximaux, ce qui la rend adaptée aux charges de travail spécialisées telles que celles exécutées sur des GPU.
Principales fonctionnalités des noeuds autogérés :
-
Contrôle total : le client dispose d'un contrôle total sur le cycle de vie du noeud, y compris le provisionnement, les mises à jour du système d'exploitation, le redimensionnement et la terminaison.
-
Configurations personnalisées : le client peut utiliser des images personnalisées, installer un logiciel spécifique, configurer des fonctions de réseau ou utiliser d'autres types d'instance.
-
Mises à niveau manuelles : contrairement aux pools de noeuds gérés par OKE, le client doit mettre à niveau manuellement les versions de Kubernetes, les patches de sécurité et les mises à jour de système d'exploitation.
-
Utilisation de votre propre noeud (BYON) : le client peut utiliser des instances OCI Compute existantes en tant que noeuds de processus actif dans un cluster OKE.
-
Aucun cycle automatique de noeuds : en cas d'échec d'un noeud, le client doit le remplacer/le cycler manuellement.
Ce tutoriel traite d'un cas d'utilisation où les charges de travail BM A100 GPU sont en cours d'exécution sur un cluster Slurm dans OCI, dans le but de les migrer vers un cluster OKE. Pour ce faire, vous pouvez utiliser la pile OKE de calcul hautes performances (HPC) pour déployer un cluster OKE vide, puis y ajouter les noeuds GPU existants.
Objectifs
- Migrez les noeuds GPU BM A100 vers OKE en tant que noeuds autogérés à l'aide de la pile OKE HPC.
Prérequis
-
Accès administrateur à une location OCI et à un cluster OKE en cours d'exécution.
-
Installez NVIDIA Run:ai sur les noeuds BM A100 pour mettre en conteneur les applications. Pour plus d'informations, reportez-vous à NVIDIA Run:ai.
-
Exécutez les charges de travail GPU RDMA (Remote Direct Memory Access) sur OKE. Pour plus d'informations, reportez-vous à la section Running RDMA (Remote Direct Memory Access) GPU workloads on OKE.
Tâche 1 : migrer les noeuds de GPU BM A100 vers OKE à l'aide de la pile OKE HPC
-
Connectez-vous à la console OCI et créez les stratégies nécessaires, comme indiqué sur cette page GitHub : Exécution de charges globales de GPU RDMA (accès direct à distance à la mémoire) sur OKE.
-
Cliquez sur Déployer vers Oracle Cloud et consultez les conditions générales.

-
Sélectionnez la région de déploiement de la pile.
-
Sur la page Informations sur la pile, entrez le nom de la pile.

-
Sur la page Configurer la variable, entrez le nom de votre VCN.

-
Dans la section Bastion et opérateur, entrez les informations de l'instance de bastion et ajoutez une clé SSH pour l'instance de bastion.

-
(Facultatif) Sélectionnez Configurer la forme d'opérateur afin de créer un noeud d'opérateur pour la surveillance ou l'exécution de travaux.

-
Configurez les variables du cluster OKE, des noeuds Workers : Operational et des noeuds Workers : GPU + RDMA. Veillez à sélectionner le CNI Flannel à utiliser pour la mise en réseau de pod.



-
Sélectionnez Créer une baie RAID 0 à l'aide d'unités NVMe locales et Installer Node Problem Detector & Kube Prometheus Stack.

-
Vérifiez les informations de pile et cliquez sur Créer.

-
Consultez les détails de la pile dans Resource Manager et vérifiez le cluster OKE sous la section Kubernetes dans la console OCI.


-
Connectez-vous au cluster OKE à l'aide du cluster d'accès via la console OCI et continuez à lui ajouter de nouveaux noeuds GPU.
-
Suivez toutes les étapes mentionnées ici : Création d'un groupe dynamique et d'une stratégie pour les noeuds autonomes.
-
Suivez les étapes 1 et 2 mentionnées ici : Création de scripts Cloud-init pour les noeuds autogérés.
-
Exécutez le script suivant pour ajouter les noeuds GPU au cluster OKE.
sudo rm archive_uri-https_objectstorage_ap-osaka-1_oraclecloud_com_p_ltn5w_61bxynnhz4j9g2drkdic3mwpn7vqce4gznmjwqqzdqjamehhuogyuld5ht_n_hpc_limited_availability_b_oke_node_repo_o_ubuntu-jammy.list sudo apt install -y oci-oke-node-all* sudo oke bootstrap --apiserver-host <API SERVER IP> --ca <CA CERT> --manage-gpu-services --crio-extra-args " -
Exécutez la commande suivante pour vérifier que les noeuds ont bien été ajoutés au cluster OKE.
kubectl get nodes
Liens connexes
-
Création d'un groupe dynamique et d'une stratégie pour les noeuds autogérés
-
Présentation de la meilleure plate-forme pour les workloads d'IA : OCI Kubernetes Engine (OKE)
Remerciements
- Auteurs - Ruzhu Chen (architecte cloud principal d'entreprise), Payal Sharma (architecte cloud senior d'entreprise)
Ressources de formation supplémentaires
Explorez d'autres ateliers sur docs.oracle.com/learn ou accédez à d'autres contenus de formation gratuits sur le canal Oracle Learning YouTube. De plus, visitez le site education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.
Pour obtenir la documentation produit, consultez le site Oracle Help Center.
Migrate Bare Metal GPU Nodes to OKE as Self-Managed Nodes using an OCI Stack
G31988-01
Copyright ©2025, Oracle and/or its affiliates.