Cluster de Memória de GPU e Memory Fabric

Você pode usar clusters de memória de GPU para agrupar, monitorar e gerenciar instâncias de computação de alto desempenho (HPC), GPU ou otimizadas juntas e executar clusters de alto desempenho com mais flexibilidade. Cada cluster de memória de GPU é criado em uma única fabricação de memória de GPU, a infraestrutura que permite a comunicação entre GPUs. Você usa clusters de memória de GPU em conjunto com, não em vez de clusters de computação.

Importante

Você deve ser um cliente com Capacidade Dedicada para usar clusters de memória de GPU e malha de memória de GPU. Para alternar sua capacidade de host, entre em contato com o Suporte Técnico da Oracle abrindo uma Solicitação de Suporte (SR).
Com clusters de memória de GPU, você pode:
  • Crie um cluster de memória com base em um conjunto de GPUs.

    Por exemplo, o NVIDIA NVLink 72 suporta até 18 hosts de Computação cada.

  • Combine muitos clusters de memória em um cluster grande que se estende por uma rede grande. Os clusters de memória de GPU são projetados para escalar no nível do rack e permitir que você expanda , enquanto os clusters de computação permitem que você expanda para fora.
    • Os clusters de memória de GPU facilitam a comunicação host-para-host/GPU-para-GPU.
    • Os clusters de computação facilitam a comunicação, por meio de RoCE ou InfiniBand, entre hosts/GPUs em diferentes malhas de memória de GPU.
  • Veja todos os clusters de memória de GPU e veja como eles estão conectados.

    Consulte ListComputeGpuMemoryClusters e Explorando seus Clusters de Memória GPU e o Memory Fabric.

  • Rastreie métricas de desempenho para cada cluster de memória.
  • Adicione ou remova GPUs conforme necessário.

As formas de computação suportadas são BM.GPU.GB200.4 e BM.GPU.GB300.4.