GPU-Erweiterung

Um GPU-beschleunigte Workloads im lokalen Data Center zu aktivieren, kann eine Compute Cloud@Customer-Installation um Serverknoten erweitert werden, auf denen GPUs installiert sind.

GPU-Knoten werden in einem Erweiterungsrack mit Stromverteilereinheiten (PDUs) und Netzwerkkomponenten geliefert, um die zusätzlichen physischen Ressourcen in das Basisrack zu integrieren. Ein GPU-Erweiterungsrack enthält mindestens 1 und maximal 6 werkseitig installierte GPU-Knoten. Nach dem ersten Deployment können weitere Knoten installiert werden. Bis zu zwei Erweiterungsracks können an ein Basisrack angeschlossen werden, für maximal 12 GPU-Knoten.

Ein GPU-Knoten ist ein 3-HE-Server mit Intel Xeon Platinum 8480+-Architektur, High-Speed-Ethernet-Konnektivität und vier NVIDIA L40S-GPUs mit 48 GB GDDR6-Speicher und 1466 Peak FP8 TFLOPS. Nachdem diese Knoten vollständig bereitgestellt wurden, ist ihre Verwendung nahtlos: Beim Starten einer neuen Compute-Instanz wählen Benutzer eine dedizierte Compute-Ausprägung aus, um der Instanz mindestens eine GPU zuzuweisen.

Detaillierte Komponentenspezifikationen finden Sie auf der Website des Herstellers.

Oracle Compute Cloud@Customer mit GPU-Erweiterung bietet eine skalierbare Plattform zum Erstellen von KI- und grafikintensiven Anwendungen an der Edge. Es wurde entwickelt, um die nächste Generation von Rechenzentrums-Workloads zu unterstützen, darunter:

  • Generative KI-Inferenzierung: Echtzeit-Inferenzierung für generative KI-Pipelines mit mehreren Modellen (Text, Bild, Audio, Video)

  • LLM-Training und Feinabstimmung: Beschleunigte Performance für Feinabstimmung mittlerer LLMs und Training kleiner LLMs mit NVIDIA-Transformator-Engine und FP8-Unterstützung

  • Grafik- und VDI-Anwendungen: 3D-Grafik- und Rendering-Workflows mit den RTX- und Raytracing-Funktionen von NVIDIA

  • Digitale Zwillinge mit NVIDIA Omniverse: Entwicklung und Betrieb komplexer Workflows für die industrielle Digitalisierung von 3D

  • Media-Streaming: erhöhte Kodierungs-/Dekodierungsdichte und AV1-Unterstützung für 4K-Video-Streaming

  • HPC: wissenschaftliche Datenanalyse- und Simulations-Workloads mit Unterstützung von FP32

Installationsanforderungen

Standortvorbereitung

Wenn Sie sich entschieden haben, Ihre Compute Cloud@Customer-Umgebung mit GPU-Knoten zu erweitern, planen Sie die Installation der zusätzlichen Hardware sorgfältig voraus. Das GPU-Erweiterungsrack hat die gleichen externen Abmessungen wie das Basisrack und enthält den gleichen Hardwaretyp. Daher gelten für das Erweiterungsrack auch die Anforderungen am Standort des Grundracks. Sie werden im Installationsabschnitt Standort vorbereiten ausführlich beschrieben.

Rackverkabelung

Die Kabelverbindungen zwischen dem Basisrack und dem GPU-Erweiterungsrack dürfen 25 Meter nicht überschreiten. Weisen Sie dem Erweiterungsrack einen Platz in der Nähe des Grundracks zu, sodass die Verkabelung zwischen den Racks innerhalb der angegebenen maximalen Länge liegt, wenn sie durch den Boden oder die Decke geleitet wird. Die erforderliche Kabellänge muss mit der Bestellung angegeben werden.

Leistungsstarker Speicher

Die GPU-Compute-Ausprägungen sind für hohe Geschwindigkeit und geringe Latenz optimiert. Sie verwenden ausschließlich leistungsstarken Speicher, d.h. die ZFS Storage Appliance des Systems muss einen leistungsstarken Speicherpool bereitstellen, der aus mindestens einem Performance-Festplatteneinsatz besteht. Falls in der vorhandenen Installation kein Performance-Tray vorhanden ist, wird eine zur GPU-Erweiterungsreihenfolge hinzugefügt. Wenn für das Grundrack keine Rackeinheiten zum Hinzufügen des Performanceeinsatzes verfügbar sind, wird es in einem Speichererweiterungsrack installiert. Der leistungsstarke Speicherpool muss konfiguriert werden, bevor das GPU-Erweiterungsrack aktiviert wird.

Installationsvorgang

Physische Installation

Alle Installationsaufgaben werden von Oracle ausgeführt. Wenn sich das GPU-Erweiterungsrack im zugewiesenen Speicherplatz befindet, muss es mit dem Basisrack verbunden sein. Die Blatt-Switches des Erweiterungsracks sind mit den Rücken-Switches des Grundracks verbunden, um das Datennetz in das Erweiterungsrack zu erweitern. Ebenso werden die Erweiterungsrackkomponenten über eine Kabelverbindung zwischen den Verwaltungs-Switches beider Racks in das interne Verwaltungsnetzwerk aufgenommen. Die für dieses Setup erforderlichen Ports wurden für alle angeschlossenen Switches reserviert. Die GPU-Knoten sind werkseitig mit den Erweiterungsrack-Switches verbunden.

Rackaktivierung

Wenn die physischen Verbindungen vorhanden sind, wird das Erweiterungsrack aktiviert, indem ein Skript von einem der Verwaltungsknoten aus ausgeführt wird. Das Skript schaltet die Switches ein und aktiviert die erforderlichen Ports, damit die neuen Hardwarekomponenten erkannt und registriert werden können. Nach Abschluss des Skripts sind die Daten- und Verwaltungsnetzwerke über die miteinander verbundenen Racks hinweg betriebsbereit. Das System fährt mit der Installation und Konfiguration des Betriebssystems und zusätzlicher Software auf den neuen Knoten fort und bereitet sie für das Provisioning vor. Wenn die GPU-Knoten bereitgestellt wurden, sind sie vollständig integriert und einsatzbereit.

GPU-Knoten werden neben anderen Compute Nodes zu den vorhandenen Faultdomains hinzugefügt, Serverfamilien werden jedoch getrennt voneinander betrieben, und Migrationen zwischen ihnen werden nicht unterstützt. Die Faultdomains können unausgeglichen werden, da im Gegensatz zu Standard-Compute Nodes GPU-Knoten einzeln hinzugefügt werden können.