Observação:

Implante um Cluster de Computação de Alto Desempenho de GPU na Oracle Cloud Infrastructure

Introdução

O advento de poderosos modelos de linguagem grande (LLMs) aumenta a necessidade de uma infraestrutura com memória GPU (Graphics Processing Unit) suficiente para executar tarefas de ajuste fino, e uma maneira de conseguir isso usa um cluster de GPU. A Oracle Cloud Infrastructure (OCI) tem a capacidade de implantar um supercluster da GPU NVIDIA A100s e usar seu poder para executar ou ajustar um LLM.

Componentes

A rede de clusters é um recurso avançado da OCI para implementar clusters de máquinas HPC e GPU conectadas por uma rede de alta largura de banda e latência ultrabaixa. Cada nó do cluster é uma máquina bare metal localizada em proximidade física próxima aos outros nós. Uma rede de Acesso Direto à Memória Remota (RDMA) entre os nós fornece uma latência de microssegundos de um único dígito, comparável a clusters locais de computação de alto desempenho (HPC). Para obter mais informações, consulte Redes de Cluster com Pools de Instâncias.

Para implantar um cluster, você precisa criar um Grupo Dinâmico com as informações do compartimento do espaço de trabalho, um conjunto de Políticas que permitem que os serviços e o grupo dinâmico executem algumas tarefas, uma Imagem Personalizada de uma imagem ISO do Ubuntu a ser usada pelo cluster do nó e implantar uma pilha do Marketplace para implantar o cluster. Para obter mais informações, consulte Gerenciando Grupos Dinâmicos, Políticas, Imagens Personalizadas e Oracle Cloud Marketplace.

Objetivo

Pré-requisitos

tarefa 1: criar um grupo dinâmico

Crie uma regra de grupo dinâmico com informações do espaço de trabalho.

  1. Faça log-in na Console do OCI, navegue até Identidade e Segurança e clique em Compartimentos. Copie o OCID (Oracle Cloud Identifier) do compartimento de trabalho.

    Imagem 1

  2. Clique em Grupos Dinâmicos e em Criar Grupo Dinâmico.

  3. Digite um Nome e uma Descrição. Para este tutorial, digite instance-principal como nome. Atualize o OCID e clique em Criar.

    Imagem 2

Tarefa 2: Definir as Políticas

Defina as políticas necessárias para o processo de implantação.

  1. Vá para a Console do OCI, navegue até Identidade e Segurança e Políticas.

  2. Clique em Create Policy, informe um Name, uma Description e selecione o compartimento-raiz.

  3. Clique em Mostrar editor manual e informe as políticas a seguir, substitua <> por suas informações e clique em Criar.

    Allow service compute_management to use tag-namespace in tenancy
    
    Allow service compute_management to manage compute-management-family in tenancy
    
    Allow service compute_management to read app-catalog-listing in tenancy
    
    Allow group Administrators to manage all-resources in compartment <>
    
    allow service compute_management to use tag-namespace in tenancy
    
    allow service compute_management to manage compute-management-family in tenancy
    
    allow service compute_management to read app-catalog-listing in tenancy
    
    allow group user to manage all-resources in compartment compartmentName
    
    Allow dynamic-group instance-principal to read app-catalog-listing in tenancy
    
    Allow dynamic-group instance-principal to use tag-namespace in tenancy
    
    Allow dynamic-group instance-principal to manage compute-management-family in compartment <>
    
    Allow dynamic-group instance-principal to manage instance-family in compartment <>
    
    Allow dynamic-group instance-principal to use virtual-network-family in compartment <>
    
    Allow dynamic-group instance-principal to use volumes in compartment <>
    

    Imagem 3

Tarefa 3: (Opcional) Criar uma Imagem Personalizada

Crie uma imagem personalizada com base em uma imagem do Ubuntu para máquinas GPU. Se necessário.

  1. Vá para a Console do OCI, navegue até Compute e Imagens Personalizadas.

    Imagem 4

  2. Em Imagens Personalizadas, clique em Importar Imagem.

    Imagem 5

  3. Digite as seguintes informações.

    • Compartimento: Informe o compartimento.
    • Nome: Para este tutorial, digite Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0 como nome.
    • Sistema operacional (OS): Informe o SO.
    • Selecione Importar de um URL do Object Storage e informe o seguinte URL: https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0

    Imagem 6

  4. Informe a localização da imagem no armazenamento de objetos.

    Imagem 7

    Imagem 8

  5. Mantenha a outra configuração por padrão e clique em Importar Imagem. Levará alguns minutos para que a imagem personalizada esteja pronta para uso.

    Imagem 9

Tarefa 4: Implantar a Pilha HPC

Uma maneira simples e rápida de implantar a pilha HPC é usar o seguinte URL: https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-hpc/archive/refs/heads/master.zip. Este URL usará todos os scripts recomendados e atualizados para criar o ambiente.

Observação: para verificar as atualizações mais recentes do script de implantação, vá para o URL: https://github.com/oracle-quickstart/oci-hpc. No arquivo README.md, clique em Implantar no Oracle Cloud, conforme mostrado na imagem a seguir.

Imagem 28

ou

Implante a pilha de HPC tradicionalmente por meio da Console do OCI.

  1. Vá para a Console do OCI, clique em Marketplace e Todos os Aplicativos.

    Imagem 10

  2. Digite HPC solutions na barra Pesquisar.

    Imagem 11

  3. Selecione Cluster HPC.

    Imagem 12

  4. Especifique as informações necessárias para criar a pilha.

    Imagem 13

    Imagem 14

    Imagem 15

    Imagem 16

    Imagem 17

    Imagem 18

    Imagem 19

    Imagem 20

  5. Informe os valores necessários para configurar as Opções avançadas do bastion.

    Imagem 21

  6. Digite os parâmetros da rede de clusters.

    Imagem 22 Imagem 23

  7. Clique em Criar para inicializar a implantação da pilha.

    Imagem 24

    A pilha foi criada com sucesso.

    Imagem 25

  8. Para verificar as instâncias criadas, vá para a Console do OCI e clique em Compute, Instâncias.

    Imagem 26

    Imagem 27

Confirmação

Mais Recursos de Aprendizagem

Explore outros laboratórios em docs.oracle.com/learn ou acesse mais conteúdo de aprendizado gratuito no canal Oracle Learning YouTube. Além disso, visite education.oracle.com/learning-explorer para se tornar um Oracle Learning Explorer.

Para obter a documentação do produto, visite o Oracle Help Center.