Cluster de mémoire GPU et Fabric de mémoire

Vous pouvez utiliser des clusters de mémoire GPU pour regrouper, surveiller et gérer des instances optimisées, de calcul hautes performances (HPC) ou de GPU, et exécuter des clusters hautes performances avec plus de flexibilité. Chaque cluster de mémoire GPU est basé sur une structure de mémoire GPU unique, l'infrastructure qui permet la communication entre les GPU. Vous utilisez des clusters de mémoire GPU en conjonction avec, et non pas avec des clusters de calcul.

Important

Vous devez être un client avec capacité dédiée pour utiliser des clusters de mémoire GPU et une structure de mémoire GPU. Pour changer de capacité d'hôte, contactez le support technique Oracle en ouvrant une demande de support.

Avec les clusters de mémoire GPU, vous pouvez :

Créez un cluster de mémoire à partir d'un ensemble de GPU.
Par exemple, NVIDIA NVLink 72 prend en charge jusqu'à 18 hôtes Compute chacun.
Combinez de nombreux clusters de mémoire en un seul grand cluster qui s'étend sur un réseau étendu. Les clusters de mémoire GPU sont conçus pour évoluer au niveau du rack et vous permettent de les augmenter, tandis que les clusters de calcul vous permettent de les augmenter.
- Les clusters de mémoire GPU facilitent la communication hôte-hôte/GPU-GPU.
- Les clusters de calcul facilitent la communication, via RoCE ou InfiniBand, entre les hôtes/GPU sur différentes structures de mémoire de GPU.
Visualisez tous les clusters de mémoire GPU et voyez comment ils sont connectés.
Reportez-vous aux sections ListComputeGpuMemoryClusters et Exploring Your GPU Memory Clusters and Memory Fabric.
Suivre les mesures de performances pour chaque cluster de mémoire.
Ajoutez ou supprimez des GPU selon vos besoins.

Les formes de calcul prises en charge sont BM.GPU.GB200.4 et BM.GPU.GB300.4.

Documentation Oracle Cloud Infrastructure

Cluster de mémoire GPU et Fabric de mémoire