Implantar Computação de Alto Desempenho (HPC) no Oracle Cloud Infrastructure

As demandas de cargas de trabalho de computação paralela em simulação e modelagem agora podem ser gerenciadas de maneira econômica na nuvem.

Implante recursos de computação de alto desempenho (HPC) em uma rede de nuvem de alta largura de banda e baixa latência com desempenho que rivalize com o das redes HPC locais, mas com os custos e as vantagens operacionais que a computação em nuvem oferece.

A Rede de Cluster é uma tecnologia Oracle Cloud Infrastructure que permite que as instâncias de HPC se comuniquem com uma rede de alta largura de banda e baixa latência. Cada nó do cluster é uma máquina bare metal localizada em estreita proximidade física com os outros nós. A rede de acesso remoto à memória direta (RDMA) entre nós fornece latência abaixo de dois microssegundos e é comparável aos clusters de HPC locais. O Oracle usa o RDMA por meio de ethernet convergente ou Protocolo RoCEv2 para rede de cluster.

As redes de cluster são projetadas para cargas de trabalho de computação paralela altamente exigentes, incluindo o seguinte:

  • Simulações computacionais de hidrodinâmica para modelagem automotiva ou aeroespacial

  • Simulação de choque

  • Modelagem financeira e análise de risco

  • Simulações biomédicas

  • Análise de trajetórias e desenho para exploração espacial

  • Inteligência artificial e cargas de trabalho de big data

As redes de cluster são suportadas no seguinte:

  • Rede virtual na nuvem

    • Sub-rede pública

    • Sub-rede privada

    • Gateway de Internet

    • Gateway NAT

  • Nós de cálculo

    • Host de Bastion em uma sub-rede pública

    • Nós de computação HPC na sub-rede privada

Arquitetura

Esta arquitetura de referência implanta um nó bastion ou head, que executa o scheduler e pode ser usado como um servidor bastion para acesso ao cluster.

Você pode criar um nó de visualização, como uma máquina virtual GPU (VM) ou uma máquina bare metal, dependendo de suas necessidades. Recomendamos colocar o nó de visualização na sub-rede pública. As cargas de trabalho HPC geralmente exigem ferramentas de visualização para pré- ou pós-processamento, monitoramento ou análise da saída das simulações. Você pode implantar uma estação de trabalho ativada para NVIDIA GRID no Oracle Cloud Marketplace.

Essa arquitetura é implantada usando VCNs (redes virtuais em nuvem) públicas e privadas. A rede do cliente só pode acessar o nó principal e o nó de visualização por meio da IPSec VPN, Oracle Cloud Infrastructure FastConnect ou internet pública.

A arquitetura usa uma região com um domínio de disponibilidade e sub-redes regionais. Você pode usar a mesma arquitetura em uma região com vários domínios de disponibilidade. Recomendamos que você use sub-redes regionais para sua implantação, independentemente do número de domínios de disponibilidade.

Você pode acessar essas redes de clusters no Oracle Cloud Marketplace ou implantá-las manualmente. Em ambos os casos, recomendamos usar a arquitetura de referência de linha de base e, em seguida, ajustá-la para atender aos seus requisitos específicos.

O diagrama a seguir ilustra essa arquitetura de referência.



hpc-oci-architecture.zip

A arquitetura tem os seguintes componentes:

  • Região

    Uma região do Oracle Cloud Infrastructure é uma área geográfica localizada que contém um ou mais data centers, chamados domínios de disponibilidade. As regiões são independentes de outras regiões e grandes distâncias podem separá-las (entre países ou mesmo continentes).

  • Domínios de disponibilidade

    Os domínios de disponibilidade são data centers independentes e independentes em uma região. Os recursos físicos em cada domínio de disponibilidade são isolados dos recursos nos outros domínios de disponibilidade, o que fornece tolerância a falhas. Os domínios de disponibilidade não compartilham infraestrutura, como energia ou resfriamento, ou a rede de domínio de disponibilidade interna. Portanto, é improvável que uma falha em um domínio de disponibilidade afete os outros domínios de disponibilidade na região.

  • Domínios com falha

    Um domínio de falha é um agrupamento de hardware e infraestrutura dentro de um domínio de disponibilidade. Cada domínio de disponibilidade contém três domínios de falha com energia e hardware independentes. Quando você distribui recursos entre vários domínios de falha, seus aplicativos podem tolerar falhas físicas do servidor, manutenção do sistema e falhas de energia dentro de um domínio de falha.

  • Rede virtual na nuvem (VCN) e sub-redes

    Um VCN é uma rede personalizável definida por software que você configura em uma região do Oracle Cloud Infrastructure. Como as redes tradicionais de data center, as VCNs fornecem controle total sobre seu ambiente de rede. Um VCN pode ter vários blocos CIDR não sobrepostos que você pode alterar depois de criar o VCN. Você pode segmentar uma VCN em sub-redes, que podem ter escopo para uma região ou para um domínio de disponibilidade. Cada sub-rede consiste em uma faixa contígua de endereços que não se sobrepõem às outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.

  • Bastion host

    O bastion host é uma instância de computação que serve como um ponto de entrada seguro e controlado para a topologia de fora da nuvem. O bastion host é normalmente provisionado em uma zona desmilitarizada (DMZ). Ele permite que você proteja recursos confidenciais colocando-os em redes privadas que não podem ser acessadas diretamente de fora da nuvem. A topologia tem um único ponto de entrada conhecido que você pode monitorar e auditar regularmente. Assim, você pode evitar expor os componentes mais sensíveis da topologia sem comprometer o acesso a eles.

  • Nó de cluster HPC

    O nó principal provisiona e desprovisiona esses nós de computação, que são clusters habilitados para RDMA (rede isolada RoCE v2 de 100 gbps). Eles processam os dados armazenados no armazenamento de arquivos e retornam os resultados para o armazenamento de arquivos.

  • Nó de visualização

    O nó de visualização geralmente tem uma aplicação 2D ou 3D instalada para representação visual e análise de dados processados por nós de cluster HPC.

  • Lista de segurança

    Para cada sub-rede, você pode criar regras de segurança que especifiquem a origem, o destino e o tipo de tráfego que devem ser permitidos dentro e fora da sub-rede.

Recomendações

Use as recomendações a seguir como ponto de partida para implantar a computação de alto desempenho (HPC) no Oracle Cloud Infrastructure.

Seus requisitos podem ser diferentes da arquitetura descrita aqui.

  • VCN

    Ao criar uma VCN, determine o número de blocos CIDR necessários e o tamanho de cada bloco com base no número de recursos que você planeja anexar a sub-redes na VCN. Use blocos CIDR que estejam dentro do espaço de endereço IP privado padrão.

    Selecione blocos CIDR que não se sobreponham a nenhuma outra rede (no Oracle Cloud Infrastructure, seu data center local ou outro provedor de nuvem) para a qual você pretenda configurar conexões privadas.

    Depois de criar um VCN, você poderá alterar, adicionar e remover seus blocos CIDR.

    Ao projetar as sub-redes, considere o fluxo de tráfego e os requisitos de segurança. Anexe todos os recursos em uma camada ou função específica à mesma sub-rede, que pode servir como um limite de segurança.

    Usar sub-redes regionais.

  • Listas de segurança

    Use listas de segurança para definir regras de entrada e saída que se aplicam a toda a sub-rede.

  • Nó de Basção

    Use a forma do VM.Standard.2.8 Compute. Como o nó é usado como um host bastião e para programar jobs HPC, ele não requer armazenamento anexado localmente ou processamento de GPU.

  • Nó de visualização Use a forma do VM.GPU3.2 Compute porque este nó é usado para visualização e provavelmente está instalado com uma aplicação gráfica intensiva.
  • Nó do Cluster HPC

    Use a forma do BM.HPC2.36 Compute. Essa forma tem 36 núcleos de dois processadores 3.7GHz Intel Xeon Gold 6154, 384 GB de RAM e armazenamento local 6.4-TB NVME. Usando poderosas GPUs NVIDIA disponíveis no Oracle Cloud Infrastructure, você pode pós-processar os resultados na nuvem por meio da visualização remota.

Considerações

Ao implantar a computação de alto desempenho (HPC) no Oracle Cloud Infrastructure, considere essas opções de implementação.

  • Desempenho

    Para obter o melhor desempenho, escolha a forma correta de computação com largura de banda apropriada.

  • Disponibilidade

    Considere usar uma opção de alta disponibilidade com base em seus requisitos de implantação e região. As opções incluem o uso de vários domínios de disponibilidade em uma região e domínios de falha.

  • Custo

    Uma instância de GPU bare metal fornece a energia de CPU necessária para um custo mais alto. Avalie seus requisitos para escolher a forma de computação apropriada.

  • Monitorização e alertas

    Configure o monitoramento e alertas sobre o uso da CPU e da memória para seus nós, para que você possa ampliar ou reduzir a forma conforme necessário.

Implantar

Uma pilha do Terraform para implantar essa arquitetura de referência está disponível como uma pilha no Oracle Cloud Marketplace. Você também pode fazer download do código em GitHub e personalizá-lo para seus requisitos.

  • Implante usando a pilha no Oracle Cloud Marketplace:
    1. Vá para Oracle Cloud Marketplace.
    2. Clique em Obter Aplicativo.
    3. Siga os prompts na tela.
  • Implante usando o código em GitHub:
    1. Vá para GitHub.
    2. Clone ou faça download do repositório para seu computador local.
    3. Siga as instruções no documento README.

Log de Alteração

Esse log lista alterações significativas: