Configure uma pilha de clusters HPC para implementar IA NVIDIA em uma região do governo do OCI

Configure e implante um cluster privado de sistemas GPU bare metal NVIDIA no Oracle US Government Cloud (FedRAMP Alto). Todos os recursos e dados da nuvem permanecem sob sua tenancy da nuvem, dando a você controle total sobre versões de software, acesso administrativo, chaves de criptografia e compartilhamento de recursos.

A pilha de Clusters de HPC usa o Terraform para implantar recursos do Oracle Cloud Infrastructure (OCI). A pilha cria nós de GPU, armazenamento, rede padrão e rede de cluster de alto desempenho e um nó bastion/head para acesso e gerenciamento do cluster.

Antes de Começar

Saiba mais sobre como implementar o NVIDIA Enterprise em um Oracle Cloud Infrastructure Government Cloud. Consulte Implantar computação de GPU de alto desempenho para cargas de trabalho de IA do governo.

Arquitetura

Essa arquitetura implanta um bastion ou nó head, que executa o scheduler e pode ser usado como um servidor bastion para acesso ao cluster.

Você pode criar um nó de processamento de computação, usando uma variedade de tipos de instância de GPU NVIDIA, com seus requisitos de processamento. Recomendamos colocar o nó de processamento de computação na sub-rede privada segura. Você pode implantar a instância do cluster de computação GPU NVIDIA no Oracle Cloud Marketplace.

Essa arquitetura é implantada usando redes virtuais na nuvem (VCNs) públicas e privadas. A rede do cliente só pode acessar o nó principal e o nó de computação por meio da IPSec VPN, do Oracle Cloud Infrastructure FastConnect ou da internet pública.

A arquitetura usa uma região com um domínio de disponibilidade e sub-redes regionais. Você pode usar a mesma arquitetura em uma região com vários domínios de disponibilidade. Recomendamos que você use sub-redes regionais para sua implantação, independentemente do número de domínios de disponibilidade. Você pode acessar essas redes de clusters no Oracle Cloud Marketplace ou implantá-las manualmente. Em ambos os casos, recomendamos usar a arquitetura de referência de linha de base e ajustá-la para atender aos seus requisitos específicos.

O diagrama a seguir ilustra essa arquitetura de referência.

Descrição de nvidia-ai-gvt-hpc-oci.png a seguir
Descrição da ilustração nvidia-ai-gvt-hpc-oci.png

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

A arquitetura tem os seguintes componentes:

  • Região

    Região do Oracle Cloud Infrastructure é uma área geográfica localizada que contém um ou mais data centers, denominada domínios de disponibilidade. As regioes sao independentes de outras regioes, e grandes distancias podem separá-las (entre paises ou ate continentes).

  • Domínios de disponibilidade

    Domínios de disponibilidade são data centers stand-alone e independentes dentro de uma região. Os recursos físicos de cada domínio de disponibilidade são isolados dos recursos de outros domínios de disponibilidade, o que oferece tolerância a falhas. Os domínios de disponibilidade não compartilham infraestrutura como energia ou refrigeração ou a rede interna do domínio de disponibilidade. Portanto, uma falha em um domínio de disponibilidade não deve afetar os outros domínios de disponibilidade na região.

  • Domínios de falha

    Um domínio de falha é um agrupamento de hardware e infraestrutura dentro de um domínio de disponibilidade. Cada domínio de disponibilidade tem três domínios de falha com energia e hardware independentes. Quando você distribui recursos entre vários domínios de falha, seus aplicativos podem tolerar falhas físicas do servidor, manutenção do sistema e falhas de energia dentro de um domínio de falha.

  • Rede virtual na nuvem (VCN) e sub-redes

    Uma VCN é uma rede personalizável definida por software que você configura em uma região do Oracle Cloud Infrastructure. Como as redes tradicionais de data center, as VCNs oferecem controle sobre seu ambiente de rede. Uma VCN pode ter vários blocos CIDR não sobrepostos que você pode alterar após a criação da VCN. Você pode segmentar uma VCN em sub-redes, com escopo definido para uma região ou para um domínio de disponibilidade. Cada sub-rede consiste em um intervalo contíguo de endereços que não se sobrepõem a outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.

  • Bastion host

    O bastion host é uma instância de computação que atua como um ponto de entrada seguro e controlado para a topologia de fora da nuvem. O bastion host geralmente é provisionado em uma zona desmilitarizada (DMZ). Ele permite proteger recursos confidenciais colocando-os nas redes privadas que não podem ser acessadas diretamente de fora da nuvem. A topologia tem um único ponto de entrada conhecido que você pode monitorar e auditar regularmente. Desse modo, você pode evitar expor os componentes mais confidenciais da topologia sem comprometer o acesso a eles.

  • Nó de computação

    Selecione a forma de GPU bare metal que você está usando neste cluster. Por exemplo, selecione BM.GPU4.8 alimentado por 4 GPUs NVIDIA A100 Tensor Core, conforme mostrado no exemplo acima, ou selecione BM.GPU.H100.8 alimentado por 8 GPUs NVIDIA H100 Tensor Core para benefícios de desempenho FP8 usando o NVIDIA Transformer Engine.

  • Nó de orquestração

    O nó de orquestração executa o gerenciamento, provisionamento, desprovisionamento e implantação de nós de cluster de configurações de software, bem como o gerenciamento de workflows de computação e orquestração de jobs.

  • Lista de segurança

    Para cada sub-rede, você pode criar regras de segurança que especifiquem a origem, o destino e o tipo de tráfego que deve ser permitido dentro e fora da sub-rede.

Sobre produtos, serviços e funções obrigatórios

Essa solução requer os seguintes produtos, serviços e funções:

  • Oracle Cloud Infrastructure Government Cloud

  • NVIDIA AI Enterprise
  • Estrutura NVIDIA NeMo

  • Enroot NVIDIA

  • NVIDIA NCCL

Estas são as atribuições necessárias para cada serviço.

Nome do Serviço: Atribuição Obrigatório para...
Oracle Cloud Infrastructure Government Cloud: usuário do Oracle Cloud para a tenancy Crie um compartimento no OCI (Oracle Cloud Infrastructure), implante o Cluster de GPU e configure o Cluster de GPU.
OCI Government Cloud: administrador de segurança ou rede Crie ou edite políticas do OCI, conforme necessário, para permitir que você crie o cluster.
Nuvem do Setor Governamental do OCI: opc Conecte-se ao bastion para revisar a configuração, atualizar o sistema operacional e executar a carga de trabalho de treinamento LLM.

Consulte Produtos, Soluções e Serviços Oracle para obter o que você precisa.