Observação:

Migrar Nós de GPU Bare Metal para o OKE como Nós Autogerenciados usando uma Pilha do OCI

Introdução

Neste tutorial, percorreremos o processo de migração de nós de GPU bare metal (BM) para nós autogerenciados do Oracle Cloud Infrastructure Kubernetes Engine (OKE) usando uma pilha da Oracle Cloud Infrastructure (OCI).

Vamos primeiro entender o que são nós autogerenciados e por que eles são ideais para executar GPUs no OKE.

O que são Nós Autogerenciados do OKE?

Como o nome indica, os nós autogerenciados são totalmente controlados e mantidos pelo cliente. Isso inclui tarefas de provisionamento, dimensionamento, configuração, upgrades e manutenção, como aplicação de patches do Sistema Operacional (SO) e substituição de nós. Embora essa abordagem exija um gerenciamento mais manual, ela fornece máxima flexibilidade e controle, tornando-a adequada para cargas de trabalho especializadas, como as executadas em GPUs.

Principais Recursos dos Nós Autogerenciados:

Este tutorial aborda um caso de uso em que as cargas de trabalho da GPU A100 do BM estão sendo executadas atualmente em um cluster Slurm na OCI, com o objetivo de migrá-las para um cluster do OKE. Isso pode ser feito usando a pilha do OKE HPC (High Performance Computing) para implantar um cluster do OKE vazio e, em seguida, adicionar os nós de GPU existentes a ele.

Objetivos

Pré-requisitos

Tarefa 1: Migrar Nós de GPU BM A100 para OKE usando a Pilha HPC OKE

  1. Faça log-in na Console do OCI e crie as políticas necessárias conforme mencionado nesta página GitHub: Executando cargas de trabalho de GPU RDMA (acesso direto à memória remota) no OKE.

  2. Clique em Implantar no Oracle Cloud e revise os termos e condições.

    Página do Github

  3. Selecione a região na qual você deseja implantar a pilha.

  4. Na página Informações da pilha, digite Nome para sua pilha.

    Criar Pilha

  5. Na página Configurar variável, digite o Nome da sua VCN.

    Forneça o nome

  6. Na seção Bastion e Operador, especifique as informações da instância Bastion e adicione a chave SSH para a instância do Bastion.

    Fornecer VCN e bastion

  7. (Opcional) Selecione Configurar forma de operador para criar um nó de operador para monitorar ou executar jobs.

    Forma do operador

  8. Configure variáveis de Cluster OKE, nós Workers: Operacionais e nós Workers: GPU + RDMA. Certifique-se de selecionar o CNI do Flannel a ser usado para rede de pod.

    Fornecer configuração de cluster do OKE

    Nó de trabalho para operações

    Nó de trabalho para GPU RDMA

  9. Selecione Criar um array RAID 0 usando unidades NVMe locais e Instalar Detector de Problemas de Nó e Pilha Kube Prometheus.

    Criar armazenamento

  10. Verifique as informações da pilha e clique em Criar.

    Revise antes de clicar em criar

  11. Revise os Detalhes da pilha no Resource Manager e verifique o cluster do OKE na seção Kubernetes na Console do OCI.

    verificar detalhes da Pilha

    Cluster do OKE em execução

  12. Faça log-in no cluster do OKE usando o cluster de acesso por meio da Console do OCI e continue a adicionar novos nós de GPU a ele.

  13. Siga todas as etapas mencionadas aqui: Criando um Grupo Dinâmico e uma Política para Nós Gerenciados Automaticamente.

  14. Siga as etapas 1 e 2 mencionadas aqui: Criando Scripts Cloud-init para Nós Autogerenciados.

  15. Execute o script a seguir para adicionar os nós de GPU ao cluster do OKE.

    sudo rm archive_uri-https_objectstorage_ap-osaka-1_oraclecloud_com_p_ltn5w_61bxynnhz4j9g2drkdic3mwpn7vqce4gznmjwqqzdqjamehhuogyuld5ht_n_hpc_limited_availability_b_oke_node_repo_o_ubuntu-jammy.list
    
    sudo apt install -y oci-oke-node-all*
    
    sudo oke bootstrap --apiserver-host <API SERVER IP> --ca <CA CERT> --manage-gpu-services --crio-extra-args "
    
  16. Execute o comando a seguir para verificar se os nós foram adicionados com sucesso ao cluster do OKE.

    kubectl get nodes
    

Confirmações

Mais Recursos de Aprendizagem

Explore outros laboratórios em docs.oracle.com/learn ou acesse mais conteúdo de aprendizado gratuito no canal Oracle Learning YouTube. Além disso, visite education.oracle.com/learning-explorer para se tornar um Oracle Learning Explorer.

Para obter a documentação do produto, visite o Oracle Help Center.