Implante computação de GPU de alto desempenho para cargas de trabalho de IA do governo
O ambiente de recursos compartilhados da DGX Cloud pode ser menos adequado para clientes em regiões do governo dos EUA que precisam da segurança adicional de manter todos os dados e recursos sob o controle de suas próprias tenancies. Temos outra solução para você.
A Oracle agora facilita a implementação de um cluster privado de sistemas de GPU NVIDIA bare metal em nossas regiões para o Oracle US Government Cloud (FedRAMP Alto). Todos os recursos e dados da nuvem permanecem sob sua tenancy da nuvem, dando a você controle total sobre versões de software, acesso administrativo, chaves de criptografia e compartilhamento de recursos.
O Cluster de GPU da Oracle com GPUs NVIDIA A100 ou GPUs NVIDIA H100 é implantado iniciando a pilha de Clusters de HPC no Marketplace. Com apenas alguns cliques e configurações, os scripts Terraform e Ansible implantam automaticamente hardware e software para um ambiente de cluster com rede de cluster RoCEv2 de latência ultrabaixa baseada em rede NVIDIA, drivers de rede de cluster, SLURM para programação de jobs, NVIDIA Pyxis e Enroot para runtime de contêiner distribuído. Traga seus próprios modelos de linguagem grandes e cargas de trabalho de machine learning ou extraia contêineres NVIDIA PyTorch e NeMo para executar cargas de trabalho compatíveis com NVIDIA AI Enterprise inteiramente em sua locação segura.
- Modelos de Linguagem Grande
- Visão artificial
- Aprendizado de Máquina
- Simulação
Arquitetura
Essa arquitetura implanta um bastion ou nó head, que executa o scheduler e pode ser usado como um servidor bastion para acesso ao cluster.
Você pode criar um nó de processamento de computação, usando uma variedade de tipos de instância de GPU NVIDIA, com seus requisitos de processamento. Recomendamos colocar o nó de processamento de computação na sub-rede privada segura. Você pode implantar a instância do cluster de computação GPU NVIDIA no Oracle Cloud Marketplace.
Essa arquitetura é implantada usando redes virtuais na nuvem (VCNs) públicas e privadas. A rede do cliente só pode acessar o nó principal e o nó de computação por meio da IPSec VPN, do Oracle Cloud Infrastructure FastConnect ou da internet pública.
A arquitetura usa uma região com um domínio de disponibilidade e sub-redes regionais. Você pode usar a mesma arquitetura em uma região com vários domínios de disponibilidade. Recomendamos que você use sub-redes regionais para sua implantação, independentemente do número de domínios de disponibilidade. Você pode acessar essas redes de clusters no Oracle Cloud Marketplace ou implantá-las manualmente. Em ambos os casos, recomendamos usar a arquitetura de referência de linha de base e ajustá-la para atender aos seus requisitos específicos.
O diagrama a seguir ilustra essa arquitetura de referência.
![Veja a seguir a descrição da ilustração nvidia-ai-gvt-hpc-oci.png Veja a seguir a descrição da ilustração nvidia-ai-gvt-hpc-oci.png](img/nvidia-ai-gvt-hpc-oci.png)
Descrição da ilustração nvidia-ai-gvt-hpc-oci.png
nvidia-ngc-ai-gvt-hpc-oci-oracle.zip
A arquitetura tem os seguintes componentes:
- Região
Região do Oracle Cloud Infrastructure é uma área geográfica localizada que contém um ou mais data centers, denominada domínios de disponibilidade. As regiões são independentes de outras regiões, e grandes distâncias podem separá-las (entre países ou até mesmo continentes).
- Domínios de disponibilidade
Domínios de disponibilidade são data centers stand-alone e independentes dentro de uma região. Os recursos físicos de cada domínio de disponibilidade são isolados dos recursos de outros domínios de disponibilidade, o que oferece tolerância a falhas. Os domínios de disponibilidade não compartilham infraestrutura como energia ou refrigeração ou a rede interna do domínio de disponibilidade. Portanto, uma falha em um domínio de disponibilidade não deve afetar os outros domínios de disponibilidade na região.
- domínios de falha
Um domínio de falha é um agrupamento de hardware e infraestrutura dentro de um domínio de disponibilidade. Cada domínio de disponibilidade tem três domínios de falha com energia e hardware independentes. Quando você distribui recursos entre vários domínios de falha, seus aplicativos podem tolerar falhas físicas do servidor, manutenção do sistema e falhas de energia dentro de um domínio de falha.
- VCN (rede virtual na nuvem) e sub-redes
Uma VCN é uma rede personalizável definida por software que você configura em uma região do Oracle Cloud Infrastructure. Como as redes tradicionais de data center, as VCNs oferecem controle sobre seu ambiente de rede. Uma VCN pode ter vários blocos CIDR não sobrepostos que você pode alterar após a criação da VCN. Você pode segmentar uma VCN em sub-redes, com escopo definido para uma região ou para um domínio de disponibilidade. Cada sub-rede consiste em um intervalo contíguo de endereços que não se sobrepõem a outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.
- Host do Bastion
O bastion host é uma instância de computação que atua como um ponto de entrada seguro e controlado para a topologia de fora da nuvem. O bastion host geralmente é provisionado em uma zona desmilitarizada (DMZ). Ele permite proteger recursos confidenciais colocando-os nas redes privadas que não podem ser acessadas diretamente de fora da nuvem. A topologia tem um único ponto de entrada conhecido que você pode monitorar e auditar regularmente. Portanto, você pode evitar expor os componentes mais confidenciais da topologia sem comprometer o acesso a eles.
- Calcular nó
Selecione a forma de GPU bare metal que você está usando neste cluster. Por exemplo, selecione BM.GPU4.8 alimentado por 4 GPUs NVIDIA A100 Tensor Core, conforme mostrado no exemplo acima, ou selecione BM.GPU.H100.8 alimentado por 8 GPUs NVIDIA H100 Tensor Core para benefícios de desempenho FP8 usando o Mecanismo de Transformador NVIDIA.
- Nó de orquestração
O nó de orquestração executa o gerenciamento, o provisionamento, o desprovisionamento e a implantação de nós de cluster de configurações de software, bem como o gerenciamento de workflows de computação e a orquestração de jobs.
- Lista de segurança
Para cada sub-rede, você pode criar regras de segurança que especifiquem a origem, o destino e o tipo de tráfego que deve ser permitido dentro e fora da sub-rede.
Recomendações
- VCN
Ao criar uma VCN, determine o número de blocos CIDR necessários e o tamanho de cada bloco com base no número de recursos que você planeja anexar às sub-redes na VCN. Use blocos CIDR que estejam dentro do espaço de endereço IP privado padrão.
Selecione blocos CIDR que não se sobreponham a qualquer outra rede (no Oracle Cloud Infrastructure, seu data center local ou outro provedor de nuvem) para a qual você pretende configurar conexões privadas.
Depois de criar uma VCN, você poderá alterar, adicionar e remover seus blocos CIDR.
Ao projetar as sub-redes, considere seus requisitos de fluxo de tráfego e segurança. Anexe todos os recursos dentro de uma camada ou função específica à mesma sub-rede, que pode servir como um limite de segurança.
Usar sub-redes regionais.
- Listas de segurança
Use listas de segurança para definir regras de entrada e saída que se aplicam a toda a sub-rede.
- Nó Bastion
Use VM.Standard.E5. Forma de Computação Flex. Como o nó é usado como bastion host e para programar jobs de HPC, ele não requer armazenamento conectado localmente ou processamento de GPU.
- Nó de Cluster de Computação de GPU
Use a forma de Computação BM.GPU.A100.-v2.8 porque esse nó é usado para workflows de computação de GPU e jobs com uso intenso de computação.
Considerações
Ao implantar a computação de alto desempenho (HPC) no Oracle Cloud Infrastructure, considere essas opções de implementação.
- Desempenho
Para obter o melhor desempenho, escolha a forma de computação correta com largura de banda apropriada.
- Disponibilidade
Considere usar uma opção de alta disponibilidade com base em seus requisitos de implantação e região. As opções incluem o uso de vários domínios de disponibilidade em uma região e domínios de falha.
- Custo
Uma instância de GPU bare metal fornece a potência de CPU necessária para um custo mais alto. Avalie seus requisitos para escolher a forma de computação apropriada.
- Monitoramento e alertas
Configure monitoramento e alertas sobre o uso de CPU e memória para seus nós, para que você possa ampliar ou reduzir a forma conforme necessário.
Implante
-
Implante usando a pilha no Oracle Cloud Marketplace:
- Vá para o Oracle Cloud Marketplace.
- Clique em Obter Aplicativo.
- Siga os prompts na tela. Para requisitos governamentais e ambientes operacionais, consulte Configurar uma pilha de clusters HPC para implantar o NVIDIA AI em uma Região Governamental da OCI.
- Aceite o Acordo de Licença do Usuário Final.
- Implante usando o código em GitHub:
- Vá para GitHub.
- Clone ou faça download do repositório.
- Siga as instruções no documento
README
.
Explorar Mais
Saiba mais sobre os recursos desta arquitetura.
- NVIDIA NeMo
- Estrutura de melhores práticas do Oracle Cloud Infrastructure
- Executando Aplicativos no Oracle Cloud Usando a Rede de Clusters (blog)
- Executando jobs paralelos de dados distribuídos PyTorch no cluster de GPU da OCI (blog)
- Anúncio da disponibilidade geral para instâncias bare metal do OCI Compute com GPUs NVIDIA H100 (blog)