Bereitstellung von Hochleistungs-GPU-Computing für Government AI-Workloads

Durch die Hinzufügung von NVIDIA DGX Cloud und NVIDIA AI Enterprise zum Oracle Cloud Marketplace können Sie schnell und einfach jede Art von umfassenden Schulungen für generative KI-Anwendungen auf OCI durchführen, einschließlich für Workloads, die von NVIDIA NeMo Framework optimiert wurden, einem End-to-End-Cloud-nativen Framework zum Erstellen, Anpassen und Bereitstellen generativer KI.

Die gemeinsame Ressourcenumgebung von DGX Cloud ist möglicherweise weniger geeignet für Kunden in Regionen der US-Regierung, die die zusätzliche Sicherheit benötigen, um alle Daten und Ressourcen unter der Kontrolle ihrer eigenen Mandanten zu halten. Wir haben eine andere Lösung für Sie.

Mit Oracle können Sie jetzt ganz einfach ein privates Cluster von Bare-Metal-NVIDIA-GPU-Systemen in unseren Regionen für Oracle US Government Cloud (FedRAMP High) bereitstellen. Alle Cloud-Ressourcen und -Daten verbleiben in Ihrem Cloud-Mandanten, sodass Sie die volle Kontrolle über Softwareversionen, administrativen Zugriff, Verschlüsselungsschlüssel und Ressourcenfreigabe haben.

Oracle GPU-Cluster mit NVIDIA A100-GPUs oder NVIDIA H100-GPUs wird bereitgestellt, indem der HPC-Clusterstack über den Marketplace gestartet wird. Mit nur wenigen Klicks und Einstellungen stellen Terraform- und Ansible-Skripte automatisch Hardware und Software für eine Clusterumgebung mit einem RoCEv2-Clusternetzwerk mit extrem geringer Latenz basierend auf NVIDIA-Netzwerken, Clusternetzwerktreibern, SLURM für die Jobplanung, NVIDIA Pyxis und Enroot für verteilte Containerlaufzeit bereit. Nutzen Sie Ihre eigenen großen Sprachmodelle und Workloads für maschinelles Lernen, oder verwenden Sie NVIDIA-Container PyTorch und NeMo, um NVIDIA AI Enterprise-kompatible Workloads vollständig in Ihrem sicheren Mandanten auszuführen.

RoCEv2 Clusternetzwerke sind für anspruchsvolle parallele Verarbeitungs-Workloads konzipiert, darunter:
  • Große Sprachmodelle
  • Künstliche Vision
  • Maschinelles Lernen
  • Simulation

Architektur

Diese Architektur stellt eine Bastion oder einen Hauptknoten bereit, der den Scheduler ausführt und als Bastion-Server für den Zugriff auf das Cluster verwendet werden kann.

Sie können einen Compute-Verarbeitungsknoten mit einer Vielzahl von NVIDIA-GPU-Instanztypen mit Ihren Verarbeitungsanforderungen erstellen. Wir empfehlen, den Compute-Verarbeitungsknoten im sicheren privaten Subnetz zu platzieren. Sie können eine NVIDIA-GPU-Compute-Clusterinstanz über Oracle Cloud Marketplace bereitstellen.

Diese Architektur wird über öffentliche und private virtuelle Cloud-Netzwerke (VCNs) bereitgestellt. Das Kundennetzwerk kann nur über IPSec VPN, Oracle Cloud Infrastructure FastConnect oder das öffentliche Internet auf den Hauptknoten und den Compute Node zugreifen.

Die Architektur verwendet eine Region mit einer Availability-Domain und regionalen Subnetzen. Sie können dieselbe Architektur in einer Region mit mehreren Availability-Domains verwenden. Es wird empfohlen, regionale Subnetze für Ihr Deployment zu verwenden, unabhängig von der Anzahl der Availability-Domains. Sie können über Oracle Cloud Marketplace auf diese Clusternetzwerke zugreifen oder sie manuell bereitstellen. In beiden Fällen wird empfohlen, die Baseline-Referenzarchitektur zu verwenden und dann an Ihre spezifischen Anforderungen anzupassen.

Das folgende Diagramm veranschaulicht diese Referenzarchitektur.

Beschreibung von nvidia-ai-gvt-hpc-oci.png folgt
Beschreibung der Abbildung nvidia-ai-gvt-hpc-oci.png

NVIDIA-NGC-AI-GVT-HPC-oci-oracle.zip

Die Architektur umfasst die folgenden Komponenten:

  • Region

    Eine Oracle Cloud Infrastructure-Region ist ein lokalisierter geografischer Bereich, der mindestens ein Data Center enthält, das als Availability-Domain bezeichnet wird. Regionen sind unabhängig von anderen Regionen, und große Entfernungen können sie trennen (über Länder oder sogar Kontinente).

  • Availability-Domains

    Availability-Domains sind eigenständige, unabhängige Data Center innerhalb einer Region. Die physischen Ressourcen in jeder Availability-Domain sind von den Ressourcen in den anderen Availability-Domains isoliert, was eine Fehlertoleranz sicherstellt. Availability-Domains haben keine gemeinsame Infrastruktur wie Stromversorgung oder Kühlung oder das interne Availability-Domainnetzwerk. Ein Fehler in einer Availability-Domain sollte sich daher nicht auf die anderen Availability-Domains in der Region auswirken.

  • Faultdomains

    Eine Faultdomain ist eine Gruppierung aus Hardware und Infrastruktur innerhalb einer Availability-Domain. Jede Availability-Domain umfasst drei Fehlerdomänen mit unabhängiger Stromversorgung und Hardware. Wenn Sie Ressourcen auf mehrere Faultdomains verteilen, können Ihre Anwendungen physische Serverausfälle, Systemwartungen und Stromausfälle innerhalb einer Faultdomain tolerieren.

  • Virtuelles Cloud-Netzwerk (VCN) und Subnetze

    Ein VCN ist ein anpassbares, benutzerdefiniertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten können. Wie herkömmliche Data Center-Netzwerke erhalten Sie mit VCNs die Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere sich nicht überschneidende CIDR-Blöcke aufweisen, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die sich auf eine Region oder eine Availability-Domain beschränken. Jedes Subnetz besteht aus einem Bereich zusammenhängender Adressen, die sich nicht mit anderen Subnetzen im VCN überschneiden. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz kann öffentlich oder privat sein.

  • Bastionhost

    Der Bastionhost ist eine Compute-Instanz, die als sicherer, kontrollierter Einstiegspunkt in die Topologie von außerhalb der Cloud dient. Der Bastionhost wird in der Regel in einer entmilitarisierten Zone (DMZ) bereitgestellt. Sie können sensible Ressourcen schützen, indem Sie sie in privaten Netzwerken platzieren, auf die nicht direkt von außerhalb der Cloud zugegriffen werden kann. Die Topologie verfügt über einen einzelnen, bekannten Einstiegspunkt, den Sie regelmäßig überwachen und prüfen können. So können Sie vermeiden, die empfindlicheren Komponenten der Topologie freizugeben, ohne den Zugriff auf sie zu beeinträchtigen.

  • Rechenknoten

    Wählen Sie die Bare-Metal-GPU-Ausprägung aus, die Sie in diesem Cluster verwenden. Beispiel: Wählen Sie BM.GPU4.8 mit 4 x NVIDIA A100 Tensor Core-GPUs aus, wie im obigen Beispiel gezeigt, oder wählen Sie BM.GPU.H100.8 mit 8 x NVIDIA H100 Tensor Core-GPUs für FP8-Performancevorteile mit der NVIDIA Transformer Engine.

  • Orchestrierungsknoten

    Der Orchestrierungsknoten führt die Verwaltung, Bereitstellung, Deprovisioning und Bereitstellung von Softwarekonfigurationen sowie die Verwaltung von Compute-Workflows und Joborchestrierung durch.

  • Sicherheitsliste

    Für jedes Subnetz können Sie Sicherheitsregeln erstellen, die Quelle, Ziel und Typ des Traffics angeben, der in und aus dem Subnetz zulässig sein muss.

Empfehlungen

Verwenden Sie die folgenden Empfehlungen als Ausgangspunkt für das Deployment von High Performance Computing (HPC) auf Oracle Cloud Infrastructure, und passen Sie sie an Ihre spezifischen Anforderungen an.
  • VCN

    Wenn Sie ein VCN erstellen, bestimmen Sie die Anzahl der erforderlichen CIDR-Blöcke und die Größe jedes Blocks basierend auf der Anzahl der Ressourcen, die Sie an Subnetze im VCN anhängen möchten. Verwenden Sie CIDR-Blöcke innerhalb des standardmäßigen privaten IP-Adressraums.

    Wählen Sie CIDR-Blöcke aus, die sich nicht mit anderen Netzwerken (in Oracle Cloud Infrastructure, Ihrem On-Premise-Data Center oder einem anderen Cloud-Provider) überschneiden, für die Sie private Verbindungen einrichten möchten.

    Nachdem Sie ein VCN erstellt haben, können Sie die zugehörigen CIDR-Blöcke ändern, hinzufügen und entfernen.

    Berücksichtigen Sie beim Entwerfen der Subnetze den Trafficfluss und die Sicherheitsanforderungen. Hängen Sie alle Ressourcen innerhalb einer bestimmten Tier oder Rolle an dasselbe Subnetz an, das als Sicherheitsgrenze dienen kann.

    Regionale Subnetze verwenden

  • Sicherheitslisten

    Definieren Sie mit Sicherheitslisten Ingress- und Egress-Regeln, die für das gesamte Subnetz gelten.

  • Bastion-Knoten

    Verwenden Sie die Datei VM.Standard.E5. Flex Compute-Ausprägung. Da der Knoten als Bastionhost verwendet wird und HPC-Jobs geplant werden, ist kein lokal angeschlossener Speicher oder keine GPU-Verarbeitung erforderlich.

  • GPU-Compute Cluster Node

    Verwenden Sie die Compute-Ausprägung BM.GPU.A100.-v2.8, da dieser Knoten für GPU-Compute-Workflows und hochrechenintensive Jobs verwendet wird.

Hinweise

Berücksichtigen Sie beim Deployment von High Performance Computing (HPC) auf Oracle Cloud Infrastructure diese Implementierungsoptionen.

  • Performance

    Um die beste Performance zu erzielen, wählen Sie die richtige Compute-Ausprägung mit der entsprechenden Bandbreite aus.

  • Verfügbarkeit

    Sie sollten eine High Availability-Option verwenden, die auf Ihren Deployment-Anforderungen und Ihrer Region basiert. Die Optionen umfassen die Verwendung mehrerer Availability-Domains in einer Region und Faultdomains.

  • Kostenfaktor

    Eine Bare-Metal-GPU-Instanz bietet die erforderliche CPU-Leistung für höhere Kosten. Bewerten Sie Ihre Anforderungen, um die entsprechende Compute-Ausprägung auszuwählen.

  • Überwachung und Alerts

    Richten Sie Monitoring und Alerts zur CPU- und Arbeitsspeicherauslastung für Ihre Knoten ein, damit Sie die Ausprägung nach Bedarf vertikal oder horizontal skalieren können.

Stellen Sie

Ein Terraform-Stack zum Deployment dieser Referenzarchitektur ist als Stack in Oracle Cloud Marketplace verfügbar. Sie können den Code auch von GitHub herunterladen und an Ihre Anforderungen anpassen.

Bestätigungen

  • Autor: Kevin Colwell
  • Beitragende: Neil Pierson, George Boateng, Travis Lee, Michael Rutledge