GPU-Speichercluster und Speicher-Fabric

Mit GPU-Speicherclustern können Sie High Performance Computing-(HPC-)Instanzen, GPUs oder optimierte Instanzen gruppieren, überwachen und verwalten sowie Hochleistungscluster mit mehr Flexibilität ausführen. Jedes GPU-Speichercluster basiert auf einer einzelnen GPU-Speicherstruktur, der Infrastruktur, die Kommunikation zwischen GPUs ermöglicht. Sie verwenden GPU-Speichercluster in Verbindung mit und nicht anstelle von Compute-Clustern.

Wichtig

Sie müssen ein Kunden mit dedizierter Kapazität sein, um GPU-Speichercluster und GPU-Speicherstruktur zu verwenden. Um Ihre Hostkapazität zu wechseln, wenden Sie sich an Oracle Support, indem Sie eine Supportanfrage (SR) öffnen.
Mit GPU-Speicherclustern können Sie:
  • Erstellen Sie ein Speichercluster aus einer Gruppe von GPUs.

    Beispiel: NVIDIA NVLink 72 unterstützt bis zu 18 Compute-Hosts.

  • Kombinieren Sie viele Speichercluster zu einem großen Cluster, das sich über ein großes Netzwerk erstreckt. GPU-Speichercluster sind für die Skalierung auf Rackebene konzipiert und ermöglichen eine Hochskalierung, während Compute-Cluster eine Herausskalierung ermöglichen.
    • GPU-Speichercluster erleichtern die Host-zu-Host-/GPU-zu-GPU-Kommunikation.
    • Compute-Cluster erleichtern die Kommunikation zwischen Hosts/GPUs auf verschiedenen GPU-Speicher-Fabrics über RoCE oder InfiniBand.
  • Zeigen Sie alle GPU-Speichercluster an, und sehen Sie, wie sie verbunden sind.

    Siehe ListComputeGpuMemoryClusters und Exploring Your GPU Memory Clusters and Memory Fabric.

  • Performancemetriken für jedes Speichercluster verfolgen
  • Fügen Sie GPUs nach Bedarf hinzu, oder entfernen Sie sie.

Unterstützte Compute-Ausprägungen sind BM.GPU.GB200.4 und BM.GPU.GB300.4.