Cluster di memoria GPU e Fabric di memoria

Puoi utilizzare i cluster di memoria GPU per raggruppare, monitorare e gestire istanze HPC (High Performance Computing), GPU o ottimizzate ed eseguire cluster ad alte prestazioni con maggiore flessibilità. Ogni cluster di memoria GPU è basato su un singolo fabric di memoria GPU, l'infrastruttura che consente la comunicazione tra GPU. I cluster di memoria GPU vengono utilizzati insieme ai e non ai cluster di computazione.

Importante

Devi essere un cliente con capacità dedicata per utilizzare i cluster di memoria GPU e la struttura di memoria GPU. Per cambiare la capacità host, contattare il Supporto Oracle aprendo una richiesta di supporto (SR).

Con i cluster di memoria GPU è possibile:

Creare un cluster di memoria da un set di GPU.
Ad esempio, NVIDIA NVLink 72 supporta fino a 18 host di computazione ciascuno.
Combina molti cluster di memoria in un cluster di grandi dimensioni che si estende su una rete di grandi dimensioni. I cluster di memoria GPU sono progettati per ridimensionarsi a livello di rack e ti consentono di eseguire lo scale-up , mentre i cluster di computazione ti consentono di eseguire lo scale-out .
- I cluster di memoria GPU facilitano la comunicazione tra host e host/GPU e GPU.
- I cluster di computazione facilitano la comunicazione, tramite RoCE o InfiniBand, tra host/GPU su fabric di memoria GPU diversi.
Visualizza tutti i cluster di memoria GPU e scopri come sono connessi.
Vedere ListComputeGpuMemoryClusters ed Esplorazione dei cluster di memoria GPU e di Memory Fabric.
Monitora le metriche delle prestazioni per ogni cluster di memoria.
Aggiungere o rimuovere le GPU in base alle esigenze.

Le forme di computazione supportate sono BM.GPU.GB200.4 e BM.GPU.GB300.4.

Documentazione dell'infrastruttura Oracle Cloud

Cluster di memoria GPU e Fabric di memoria