Cluster di memoria GPU e Fabric di memoria

Puoi utilizzare i cluster di memoria GPU per raggruppare, monitorare e gestire istanze HPC (High Performance Computing), GPU o ottimizzate ed eseguire cluster ad alte prestazioni con maggiore flessibilità. Ogni cluster di memoria GPU è basato su un singolo fabric di memoria GPU, l'infrastruttura che consente la comunicazione tra GPU. I cluster di memoria GPU vengono utilizzati insieme ai e non ai cluster di computazione.

Importante

Devi essere un cliente con capacità dedicata per utilizzare i cluster di memoria GPU e la struttura di memoria GPU. Per cambiare la capacità host, contattare il Supporto Oracle aprendo una richiesta di supporto (SR).
Con i cluster di memoria GPU è possibile:
  • Creare un cluster di memoria da un set di GPU.

    Ad esempio, NVIDIA NVLink 72 supporta fino a 18 host di computazione ciascuno.

  • Combina molti cluster di memoria in un cluster di grandi dimensioni che si estende su una rete di grandi dimensioni. I cluster di memoria GPU sono progettati per ridimensionarsi a livello di rack e ti consentono di eseguire lo scale-up , mentre i cluster di computazione ti consentono di eseguire lo scale-out .
    • I cluster di memoria GPU facilitano la comunicazione tra host e host/GPU e GPU.
    • I cluster di computazione facilitano la comunicazione, tramite RoCE o InfiniBand, tra host/GPU su fabric di memoria GPU diversi.
  • Visualizza tutti i cluster di memoria GPU e scopri come sono connessi.

    Vedere ListComputeGpuMemoryClusters e Esplorazione dei cluster di memoria GPU e di Memory Fabric.

  • Monitora le metriche delle prestazioni per ogni cluster di memoria.
  • Aggiungere o rimuovere le GPU in base alle esigenze.

Le forme di computazione supportate sono BM.GPU.GB200.4 e BM.GPU.GB300.4.