GPU-Speichercluster und Speicher-Fabric

Mit GPU-Speicherclustern können Sie High Performance Computing-(HPC-)Instanzen, GPUs oder optimierte Instanzen gruppieren, überwachen und verwalten sowie Hochleistungscluster mit mehr Flexibilität ausführen. Jedes GPU-Speichercluster basiert auf einer einzelnen GPU-Speicherstruktur, der Infrastruktur, die Kommunikation zwischen GPUs ermöglicht. Sie verwenden GPU-Speichercluster in Verbindung mit und nicht anstelle von Compute-Clustern.

Wichtig

Sie müssen ein Kunden mit dedizierter Kapazität sein, um GPU-Speichercluster und GPU-Speicherstruktur zu verwenden. Um Ihre Hostkapazität zu wechseln, wenden Sie sich an Oracle Support, indem Sie eine Supportanfrage (SR) öffnen.

Mit GPU-Speicherclustern können Sie:

Erstellen Sie ein Speichercluster aus einer Gruppe von GPUs.
Beispiel: NVIDIA NVLink 72 unterstützt bis zu 18 Compute-Hosts.
Kombinieren Sie viele Speichercluster zu einem großen Cluster, das sich über ein großes Netzwerk erstreckt. GPU-Speichercluster sind für die Skalierung auf Rackebene konzipiert und ermöglichen eine Hochskalierung, während Compute-Cluster eine Herausskalierung ermöglichen.
- GPU-Speichercluster erleichtern die Host-zu-Host-/GPU-zu-GPU-Kommunikation.
- Compute-Cluster erleichtern die Kommunikation zwischen Hosts/GPUs auf verschiedenen GPU-Speicher-Fabrics über RoCE oder InfiniBand.
Zeigen Sie alle GPU-Speichercluster an, und sehen Sie, wie sie verbunden sind.
Siehe ListComputeGpuMemoryClusters und Exploring Your GPU Memory Clusters and Memory Fabric.
Performancemetriken für jedes Speichercluster verfolgen
Fügen Sie GPUs nach Bedarf hinzu, oder entfernen Sie sie.

Unterstützte Compute-Ausprägungen sind BM.GPU.GB200.4 und BM.GPU.GB300.4.

Oracle Cloud Infrastructure - Dokumentation

GPU-Speichercluster und Speicher-Fabric