Cluster di memoria GPU e Fabric di memoria
Puoi utilizzare i cluster di memoria GPU per raggruppare, monitorare e gestire istanze HPC (High Performance Computing), GPU o ottimizzate ed eseguire cluster ad alte prestazioni con maggiore flessibilità. Ogni cluster di memoria GPU è basato su un singolo fabric di memoria GPU, l'infrastruttura che consente la comunicazione tra GPU. I cluster di memoria GPU vengono utilizzati insieme ai e non ai cluster di computazione.
Importante
Devi essere un cliente con capacità dedicata per utilizzare i cluster di memoria GPU e la struttura di memoria GPU. Per cambiare la capacità host, contattare il Supporto Oracle aprendo una richiesta di supporto (SR).
Devi essere un cliente con capacità dedicata per utilizzare i cluster di memoria GPU e la struttura di memoria GPU. Per cambiare la capacità host, contattare il Supporto Oracle aprendo una richiesta di supporto (SR).
Con i cluster di memoria GPU è possibile:
- Creare un cluster di memoria da un set di GPU.
Ad esempio, NVIDIA NVLink 72 supporta fino a 18 host di computazione ciascuno.
- Combina molti cluster di memoria in un cluster di grandi dimensioni che si estende su una rete di grandi dimensioni. I cluster di memoria GPU sono progettati per ridimensionarsi a livello di rack e ti consentono di eseguire lo scale-up , mentre i cluster di computazione ti consentono di eseguire lo scale-out .
- I cluster di memoria GPU facilitano la comunicazione tra host e host/GPU e GPU.
- I cluster di computazione facilitano la comunicazione, tramite RoCE o InfiniBand, tra host/GPU su fabric di memoria GPU diversi.
- Visualizza tutti i cluster di memoria GPU e scopri come sono connessi.
Vedere ListComputeGpuMemoryClusters e Esplorazione dei cluster di memoria GPU e di Memory Fabric.
- Monitora le metriche delle prestazioni per ogni cluster di memoria.
- Aggiungere o rimuovere le GPU in base alle esigenze.
Le forme di computazione supportate sono BM.GPU.GB200.4 e BM.GPU.GB300.4.