Computação de Alto Desempenho

A Computação de Alto Desempenho (HPC) executa cálculos complexos e processa dados mais rapidamente do que a Computação tradicional. A HPC usa servidores bare metal, rede de cluster de latência ultrabaixa, opções de armazenamento de alto desempenho e sistemas de arquivos paralelos. Essa infraestrutura permite o processamento paralelo para cargas de trabalho com uso intensivo de computação, como inteligência artificial, aprendizado profundo, análise de dados, simulações científicas e qualquer outra carga de trabalho altamente intensiva.

Conceitos Básicos da Computação de Alto Desempenho

Você pode criar uma instância HPC de nó único com o workflow de criação de instância padrão. Se quiser usar várias instâncias de HPC em um grupo de redes RDMA, você poderá criá-las por meio de Redes de Cluster com Pools de Instâncias ou Clusters de Computação.

Usando Redes de Clusters de RDMA

As redes de clusters de Acesso Remoto Direto à Memória (RDMA) são grupos de instâncias de computação de alto desempenho (HPC), GPU ou otimizadas conectadas a uma rede de largura de banda alta e latência ultra baixa. Cada nó do cluster é uma máquina bare metal localizada em proximidade física adjacente aos outros nós. Uma rede de acesso direto à memória remota (RDMA) entre os nós fornece uma latência baixa de alguns microssegundos, comparável a clusters HPC locais.

As redes de clusters são projetadas para cargas de trabalho de computação paralela de alta demanda. Por exemplo:

  • Simulações computacionais de hidrodinâmica para modelagem automotiva ou aeroespacial
  • Modelagem financeira e análise de risco
  • Simulações biomédicas
  • Análise e design de trajetória para exploração espacial
  • Cargas de trabalho de inteligência artificial e de big data

O Oracle Cloud Infrastructure oferece dois tipos de redes de clusters. Em ambos os casos, as redes são grupos de instâncias bare metal conectadas com uma rede de latência ultrabaixa.

  • As redes de clusters com pools de instâncias permitem que você use pools de instâncias para gerenciar grupos de instâncias idênticas no grupo de redes RDMA. Se você quiser capacidade previsível para um número específico de instâncias idênticas que são gerenciadas como um grupo, use redes de clusters com pools de instâncias.
  • Os clusters de computação permitem gerenciar instâncias no cluster individualmente. Ao criar um cluster de computação, você cria um grupo de redes RDMA vazio. Depois que o grupo for criado, você poderá adicionar instâncias ao grupo ou excluir instâncias do grupo. Se você quiser gerenciar instâncias na rede RDMA de forma independente umas das outras ou usar tipos distintos de instâncias no grupo de redes, use clusters de computação.

Plug-ins do Oracle Cloud Agent para HPC

O Oracle Cloud Infrastructure oferece um plug-in de agente de nuvem específico para instâncias bare metal HPC para simplificar a configuração e a autenticação de redes HPC e fornecer monitoramento especializado para computação de alto desempenho.

O plug-in HPC está disponível para HPC em todas as regiões comerciais.

Formas e imagens suportadas para HPC
Forma Imagens Suportadas Definição Padrão
BM.GPU.A10.4 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recomendado no OCA 1.37.0 ou superior
BM.GPU.A100 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recomendado no OCA 1.37.0 ou superior
BM.GPU.H100.8 Ubuntu 20.04+, OL7, OL8 Ativado no OCA 1.37.0 ou superior
BM.GPU4.8 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recomendado no OCA 1.37.0 ou superior
BM.HPC2.36 Ubuntu 20.04+, OL7, OL8, CentOS 7+ Recomendado no OCA 1.37.0 ou superior
BM.Optimized3.36 Ubuntu 20.04+, OL7, OL8 Ativado no OCA 1.37.0 ou superior
Os submódulos do plug-in HPC podem ser ativados ou desativados individualmente:
  • Configuração Automática
    • Aplica as definições recomendadas do adaptador de rede nas formas de GPU
    • Aplica as configurações recomendadas do Mellanox Connect-X em formas de GPU
    • Designa endereços IP a interfaces de rede RDMA com base na VCN principal
  • Autenticação/Configuração de RDMA
    • Configura interfaces de rede RDMA com QoS e MTU recomendados
    • Configura e mantém a autenticação de rede RDMA necessária
  • Monitoramento de GPU e RDMA
    • Emite métricas adicionais de desempenho de RDMA e GPU

Para ativar o plug-in HPC em uma instância bare metal existente, crie ou migre a instância existente para o Oracle Cloud Agent 1.35.0 ou superior. Consulte Oracle Cloud Agent para obter mais informações.

Ativando Métricas de GPU e RDMA

Quando você instala o Oracle Cloud Agent e ativa o plug-in de monitoramento de HPC, as métricas de GPU e RDMA são ativadas automaticamente. O OCI envia as métricas para o namespace do cliente e as fatura em relação à tenancy.

Para determinar se essas métricas resultarão em cobranças adicionais, consulte preços de medição.

Para obter uma lista detalhada de métricas de HPC, consulte Métricas de Instância do Serviço Compute.