Nota

Eseguire la migrazione dei nodi GPU Bare Metal in OKE come nodi autogestiti utilizzando uno stack OCI

Introduzione

In questa esercitazione verrà illustrato il processo di migrazione dei nodi GPU Bare Metal (BM) ai nodi autogestiti OKE (Oracle Cloud Infrastructure Kubernetes Engine) utilizzando uno stack OCI (Oracle Cloud Infrastructure).

Prima di tutto, capiamo quali sono i nodi autogestiti e perché sono la soluzione ideale per eseguire GPU su OKE.

Che cosa sono i nodi gestiti automaticamente OKE?

Come suggerisce il nome, i nodi autogestiti sono completamente controllati e gestiti dal cliente. Sono incluse le attività di provisioning, ridimensionamento, configurazione, upgrade e manutenzione, come l'applicazione di patch al sistema operativo e la sostituzione dei nodi. Sebbene questo approccio richieda una maggiore gestione manuale, offre la massima flessibilità e controllo, rendendolo adatto a carichi di lavoro specializzati come quelli in esecuzione sulle GPU.

Funzioni principali dei nodi autogestiti:

Questa esercitazione descrive un caso d'uso in cui i carichi di lavoro BM A100 GPU sono attualmente in esecuzione su un cluster Slurm in OCI, con l'obiettivo di migrarli in un cluster OKE. Ciò può essere ottenuto utilizzando lo stack OKE HPC (High Performance Computing) per distribuire un cluster OKE vuoto e quindi aggiungervi i nodi GPU esistenti.

Obiettivi

Prerequisiti

Task 1: eseguire la migrazione dei nodi GPU BM A100 in OKE utilizzando lo stack OKE HPC

  1. Eseguire il login a OCI Console e creare i criteri necessari come indicato in questa pagina GitHub: esecuzione dei carichi di lavoro GPU RDMA (accesso diretto remoto alla memoria) su OKE.

  2. Fare clic su Distribuisci in Oracle Cloud ed esaminare i termini e le condizioni.

    Pagina Github

  3. Selezionare l'area in cui distribuire lo stack.

  4. Nella pagina Informazioni sullo stack, immettere Nome per lo stack.

    Creare uno stack

  5. Nella pagina Configura variabile, immettere Nome per la VCN.

    Fornire un nome

  6. Nella sezione Bastion e operatore, immettere le informazioni dell'istanza Bastion e aggiungere la chiave SSH per l'istanza Bastion.

    Fornire VCN e bastion

  7. (Facoltativo) Selezionare Configura forma operatore per creare il nodo operatore per i job di monitoraggio o di esecuzione.

    Forma operatore

  8. Configurare le variabili dei nodi cluster OKE, Workers: Operational e Workers: GPU + RDMA. Assicurarsi di selezionare il CNI Flannel da utilizzare per il networking pod.

    Fornire la configurazione del cluster OKE

    Nodo lavoratore per operazioni

    Nodo di lavoro per GPU RDMA

  9. Selezionare Crea un array RAID 0 utilizzando le unità NVMe locali e Installa rilevatore problemi nodo e stack Kube Prometheus.

    Crea memorizzazione

  10. Rivedere le informazioni sullo stack e fare clic su Crea.

    Rivedi prima di fare clic su Crea

  11. Rivedere i dettagli dello stack in Resource Manager e verificare il cluster OKE nella sezione Kubernetes nella console OCI.

    controlla i dettagli dello stack

    Cluster OKE in esecuzione

  12. Eseguire il login al cluster OKE utilizzando il cluster di accesso tramite OCI Console e continuare ad aggiungere nuovi nodi GPU.

  13. Attenersi a tutti i passi descritti qui: Creazione di un gruppo dinamico e di un criterio per i nodi autogestiti.

  14. Seguire i passi 1 e 2 indicati qui: Creazione di script cloud-init per nodi autogestiti.

  15. Eseguire lo script seguente per aggiungere i nodi GPU al cluster OKE.

    sudo rm archive_uri-https_objectstorage_ap-osaka-1_oraclecloud_com_p_ltn5w_61bxynnhz4j9g2drkdic3mwpn7vqce4gznmjwqqzdqjamehhuogyuld5ht_n_hpc_limited_availability_b_oke_node_repo_o_ubuntu-jammy.list
    
    sudo apt install -y oci-oke-node-all*
    
    sudo oke bootstrap --apiserver-host <API SERVER IP> --ca <CA CERT> --manage-gpu-services --crio-extra-args "
    
  16. Eseguire il comando seguente per verificare che i nodi siano stati aggiunti correttamente al cluster OKE.

    kubectl get nodes
    

Conferme

Altre risorse di apprendimento

Esplora altri laboratori su docs.oracle.com/learn o accedi a più contenuti gratuiti sulla formazione su Oracle Learning YouTube channel. Inoltre, visita education.oracle.com/learning-explorer per diventare un Oracle Learning Explorer.

Per la documentazione del prodotto, visita l'Oracle Help Center.