Implante computação de GPU de alto desempenho para cargas de trabalho de IA do governo

A adição do NVIDIA DGX Cloud e do NVIDIA AI Enterprise ao Oracle Cloud Marketplace permite que você execute de forma rápida e fácil qualquer tipo de treinamento de grande modelo para aplicativos de IA generativa na OCI, incluindo para cargas de trabalho otimizadas pelo NVIDIA NeMo Framework, uma estrutura nativa da nuvem de ponta a ponta para criar, personalizar e implementar IA generativa.

O ambiente de recursos compartilhados da DGX Cloud pode ser menos adequado para clientes em regiões do governo dos EUA que precisam da segurança adicional de manter todos os dados e recursos sob o controle de suas próprias tenancies. Temos outra solução para você.

A Oracle agora facilita a implementação de um cluster privado de sistemas de GPU NVIDIA bare metal em nossas regiões para o Oracle US Government Cloud (FedRAMP Alto). Todos os recursos e dados da nuvem permanecem sob sua tenancy da nuvem, dando a você controle total sobre versões de software, acesso administrativo, chaves de criptografia e compartilhamento de recursos.

O Cluster de GPU da Oracle com GPUs NVIDIA A100 ou GPUs NVIDIA H100 é implantado iniciando a pilha de Clusters de HPC no Marketplace. Com apenas alguns cliques e configurações, os scripts Terraform e Ansible implantam automaticamente hardware e software para um ambiente de cluster com rede de cluster RoCEv2 de latência ultrabaixa baseada em rede NVIDIA, drivers de rede de cluster, SLURM para programação de jobs, NVIDIA Pyxis e Enroot para runtime de contêiner distribuído. Traga seus próprios modelos de linguagem grandes e cargas de trabalho de machine learning ou extraia contêineres NVIDIA PyTorch e NeMo para executar cargas de trabalho compatíveis com NVIDIA AI Enterprise inteiramente em sua locação segura.

RoCEv2 As redes de clusters são projetadas para cargas de trabalho de processamento paralelo altamente exigentes, incluindo o seguinte:
  • Modelos de Linguagem Grande
  • Visão artificial
  • Aprendizado de Máquina
  • Simulação

Arquitetura

Essa arquitetura implanta um bastion ou nó head, que executa o scheduler e pode ser usado como um servidor bastion para acesso ao cluster.

Você pode criar um nó de processamento de computação, usando uma variedade de tipos de instância de GPU NVIDIA, com seus requisitos de processamento. Recomendamos colocar o nó de processamento de computação na sub-rede privada segura. Você pode implantar a instância do cluster de computação GPU NVIDIA no Oracle Cloud Marketplace.

Essa arquitetura é implantada usando redes virtuais na nuvem (VCNs) públicas e privadas. A rede do cliente só pode acessar o nó principal e o nó de computação por meio da IPSec VPN, do Oracle Cloud Infrastructure FastConnect ou da internet pública.

A arquitetura usa uma região com um domínio de disponibilidade e sub-redes regionais. Você pode usar a mesma arquitetura em uma região com vários domínios de disponibilidade. Recomendamos que você use sub-redes regionais para sua implantação, independentemente do número de domínios de disponibilidade. Você pode acessar essas redes de clusters no Oracle Cloud Marketplace ou implantá-las manualmente. Em ambos os casos, recomendamos usar a arquitetura de referência de linha de base e ajustá-la para atender aos seus requisitos específicos.

O diagrama a seguir ilustra essa arquitetura de referência.

Veja a seguir a descrição da ilustração nvidia-ai-gvt-hpc-oci.png
Descrição da ilustração nvidia-ai-gvt-hpc-oci.png

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

A arquitetura tem os seguintes componentes:

  • Região

    Região do Oracle Cloud Infrastructure é uma área geográfica localizada que contém um ou mais data centers, denominada domínios de disponibilidade. As regiões são independentes de outras regiões, e grandes distâncias podem separá-las (entre países ou até mesmo continentes).

  • Domínios de disponibilidade

    Domínios de disponibilidade são data centers stand-alone e independentes dentro de uma região. Os recursos físicos de cada domínio de disponibilidade são isolados dos recursos de outros domínios de disponibilidade, o que oferece tolerância a falhas. Os domínios de disponibilidade não compartilham infraestrutura como energia ou refrigeração ou a rede interna do domínio de disponibilidade. Portanto, uma falha em um domínio de disponibilidade não deve afetar os outros domínios de disponibilidade na região.

  • domínios de falha

    Um domínio de falha é um agrupamento de hardware e infraestrutura dentro de um domínio de disponibilidade. Cada domínio de disponibilidade tem três domínios de falha com energia e hardware independentes. Quando você distribui recursos entre vários domínios de falha, seus aplicativos podem tolerar falhas físicas do servidor, manutenção do sistema e falhas de energia dentro de um domínio de falha.

  • VCN (rede virtual na nuvem) e sub-redes

    Uma VCN é uma rede personalizável definida por software que você configura em uma região do Oracle Cloud Infrastructure. Como as redes tradicionais de data center, as VCNs oferecem controle sobre seu ambiente de rede. Uma VCN pode ter vários blocos CIDR não sobrepostos que você pode alterar após a criação da VCN. Você pode segmentar uma VCN em sub-redes, com escopo definido para uma região ou para um domínio de disponibilidade. Cada sub-rede consiste em um intervalo contíguo de endereços que não se sobrepõem a outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.

  • Host do Bastion

    O bastion host é uma instância de computação que atua como um ponto de entrada seguro e controlado para a topologia de fora da nuvem. O bastion host geralmente é provisionado em uma zona desmilitarizada (DMZ). Ele permite proteger recursos confidenciais colocando-os nas redes privadas que não podem ser acessadas diretamente de fora da nuvem. A topologia tem um único ponto de entrada conhecido que você pode monitorar e auditar regularmente. Portanto, você pode evitar expor os componentes mais confidenciais da topologia sem comprometer o acesso a eles.

  • Calcular nó

    Selecione a forma de GPU bare metal que você está usando neste cluster. Por exemplo, selecione BM.GPU4.8 alimentado por 4 GPUs NVIDIA A100 Tensor Core, conforme mostrado no exemplo acima, ou selecione BM.GPU.H100.8 alimentado por 8 GPUs NVIDIA H100 Tensor Core para benefícios de desempenho FP8 usando o Mecanismo de Transformador NVIDIA.

  • Nó de orquestração

    O nó de orquestração executa o gerenciamento, o provisionamento, o desprovisionamento e a implantação de nós de cluster de configurações de software, bem como o gerenciamento de workflows de computação e a orquestração de jobs.

  • Lista de segurança

    Para cada sub-rede, você pode criar regras de segurança que especifiquem a origem, o destino e o tipo de tráfego que deve ser permitido dentro e fora da sub-rede.

Recomendações

Use as recomendações a seguir como ponto de partida para implantar computação de alto desempenho (HPC) na Oracle Cloud Infrastructure e personalizá-las para atender aos seus requisitos específicos, conforme necessário.
  • VCN

    Ao criar uma VCN, determine o número de blocos CIDR necessários e o tamanho de cada bloco com base no número de recursos que você planeja anexar às sub-redes na VCN. Use blocos CIDR que estejam dentro do espaço de endereço IP privado padrão.

    Selecione blocos CIDR que não se sobreponham a qualquer outra rede (no Oracle Cloud Infrastructure, seu data center local ou outro provedor de nuvem) para a qual você pretende configurar conexões privadas.

    Depois de criar uma VCN, você poderá alterar, adicionar e remover seus blocos CIDR.

    Ao projetar as sub-redes, considere seus requisitos de fluxo de tráfego e segurança. Anexe todos os recursos dentro de uma camada ou função específica à mesma sub-rede, que pode servir como um limite de segurança.

    Usar sub-redes regionais.

  • Listas de segurança

    Use listas de segurança para definir regras de entrada e saída que se aplicam a toda a sub-rede.

  • Nó Bastion

    Use VM.Standard.E5. Forma de Computação Flex. Como o nó é usado como bastion host e para programar jobs de HPC, ele não requer armazenamento conectado localmente ou processamento de GPU.

  • Nó de Cluster de Computação de GPU

    Use a forma de Computação BM.GPU.A100.-v2.8 porque esse nó é usado para workflows de computação de GPU e jobs com uso intenso de computação.

Considerações

Ao implantar a computação de alto desempenho (HPC) no Oracle Cloud Infrastructure, considere essas opções de implementação.

  • Desempenho

    Para obter o melhor desempenho, escolha a forma de computação correta com largura de banda apropriada.

  • Disponibilidade

    Considere usar uma opção de alta disponibilidade com base em seus requisitos de implantação e região. As opções incluem o uso de vários domínios de disponibilidade em uma região e domínios de falha.

  • Custo

    Uma instância de GPU bare metal fornece a potência de CPU necessária para um custo mais alto. Avalie seus requisitos para escolher a forma de computação apropriada.

  • Monitoramento e alertas

    Configure monitoramento e alertas sobre o uso de CPU e memória para seus nós, para que você possa ampliar ou reduzir a forma conforme necessário.

Implante

Uma pilha do Terraform para implantar essa arquitetura de referência está disponível como uma pilha no Oracle Cloud Marketplace. Você também pode fazer download do código em GitHub e personalizá-lo de acordo com seus requisitos.

Confirmação

  • Autor: Kevin Colwell
  • Colaboradores: Neil Pierson, George Boateng, Travis Lee, Michael Rutledge