Remarques :

Migrer des noeuds de GPU Bare Metal vers OKE en tant que noeuds autogérés à l'aide d'une pile OCI

Introduction

Dans ce tutoriel, nous allons passer en revue le processus de migration des noeuds de GPU Bare Metal vers les noeuds autogérés Oracle Cloud Infrastructure Kubernetes Engine (OKE) à l'aide d'une pile Oracle Cloud Infrastructure (OCI).

Voyons d'abord ce que sont les nœuds autogérés et pourquoi ils sont idéaux pour exécuter des GPU sur OKE.

Que sont les noeuds autogérés OKE ?

Comme son nom l'indique, les noeuds autogérés sont entièrement contrôlés et gérés par le client. Cela inclut le provisionnement, le redimensionnement, la configuration, les mises à niveau et les tâches de maintenance telles que l'application de patches au système d'exploitation et le remplacement de noeud. Bien que cette approche nécessite une gestion plus manuelle, elle offre une flexibilité et un contrôle maximaux, ce qui la rend adaptée aux charges de travail spécialisées telles que celles exécutées sur des GPU.

Principales fonctionnalités des noeuds autogérés :

Ce tutoriel traite d'un cas d'utilisation où les charges de travail BM A100 GPU sont en cours d'exécution sur un cluster Slurm dans OCI, dans le but de les migrer vers un cluster OKE. Pour ce faire, vous pouvez utiliser la pile OKE de calcul hautes performances (HPC) pour déployer un cluster OKE vide, puis y ajouter les noeuds GPU existants.

Objectifs

Prérequis

Tâche 1 : migrer les noeuds de GPU BM A100 vers OKE à l'aide de la pile OKE HPC

  1. Connectez-vous à la console OCI et créez les stratégies nécessaires, comme indiqué sur cette page GitHub : Exécution de charges globales de GPU RDMA (accès direct à distance à la mémoire) sur OKE.

  2. Cliquez sur Déployer vers Oracle Cloud et consultez les conditions générales.

    Page Github

  3. Sélectionnez la région de déploiement de la pile.

  4. Sur la page Informations sur la pile, entrez le nom de la pile.

    Création d'une pile

  5. Sur la page Configurer la variable, entrez le nom de votre VCN.

    Indiquez le nom

  6. Dans la section Bastion et opérateur, entrez les informations de l'instance de bastion et ajoutez une clé SSH pour l'instance de bastion.

    Fournir un VCN et un bastion

  7. (Facultatif) Sélectionnez Configurer la forme d'opérateur afin de créer un noeud d'opérateur pour la surveillance ou l'exécution de travaux.

    Forme d'opérateur

  8. Configurez les variables du cluster OKE, des noeuds Workers : Operational et des noeuds Workers : GPU + RDMA. Veillez à sélectionner le CNI Flannel à utiliser pour la mise en réseau de pod.

    Fournir la configuration du cluster OKE

    Noeud de processus actif pour les opérations

    Noeud de processus actif pour GPU RDMA

  9. Sélectionnez Créer une baie RAID 0 à l'aide d'unités NVMe locales et Installer Node Problem Detector & Kube Prometheus Stack.

    Créer un stockage

  10. Vérifiez les informations de pile et cliquez sur Créer.

    Vérifier avant de cliquer sur Créer

  11. Consultez les détails de la pile dans Resource Manager et vérifiez le cluster OKE sous la section Kubernetes dans la console OCI.

    vérifier les détails de la pile

    Cluster OKE en cours d'exécution

  12. Connectez-vous au cluster OKE à l'aide du cluster d'accès via la console OCI et continuez à lui ajouter de nouveaux noeuds GPU.

  13. Suivez toutes les étapes mentionnées ici : Création d'un groupe dynamique et d'une stratégie pour les noeuds autonomes.

  14. Suivez les étapes 1 et 2 mentionnées ici : Création de scripts Cloud-init pour les noeuds autogérés.

  15. Exécutez le script suivant pour ajouter les noeuds GPU au cluster OKE.

    sudo rm archive_uri-https_objectstorage_ap-osaka-1_oraclecloud_com_p_ltn5w_61bxynnhz4j9g2drkdic3mwpn7vqce4gznmjwqqzdqjamehhuogyuld5ht_n_hpc_limited_availability_b_oke_node_repo_o_ubuntu-jammy.list
    
    sudo apt install -y oci-oke-node-all*
    
    sudo oke bootstrap --apiserver-host <API SERVER IP> --ca <CA CERT> --manage-gpu-services --crio-extra-args "
    
  16. Exécutez la commande suivante pour vérifier que les noeuds ont bien été ajoutés au cluster OKE.

    kubectl get nodes
    

Remerciements

Ressources de formation supplémentaires

Explorez d'autres ateliers sur docs.oracle.com/learn ou accédez à d'autres contenus de formation gratuits sur le canal Oracle Learning YouTube. De plus, visitez le site education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.

Pour obtenir la documentation produit, consultez le site Oracle Help Center.