HPC-Clusterstack für das Deployment von NVIDIA AI in einer OCI Government-Region konfigurieren

Konfigurieren und stellen Sie ein privates Cluster von Bare-Metal-NVIDIA-GPU-Systemen in Oracle US Government Cloud bereit (FedRAMP High). Alle Cloud-Ressourcen und -Daten verbleiben in Ihrem Cloud-Mandanten, sodass Sie die volle Kontrolle über Softwareversionen, administrativen Zugriff, Verschlüsselungsschlüssel und die gemeinsame Nutzung von Ressourcen haben.

Der HPC-Clusterstack verwendet Terraform, um Oracle Cloud Infrastructure-(OCI-)Ressourcen bereitzustellen. Der Stack erstellt GPU-Knoten, Speicher, Standardnetzwerke und Hochleistungsclusternetzwerke sowie einen Bastion-/Kopfknoten für den Zugriff auf und die Verwaltung des Clusters.

Bevor Sie beginnen

Weitere Informationen zum Deployment von NVIDIA Enterprise in einer Oracle Cloud Infrastructure Government Cloud. Siehe Hochleistungs-GPU-Computing für Regierungs-KI-Workloads bereitstellen.

Architektur

Diese Architektur stellt eine Bastion oder einen Hauptknoten bereit, der den Scheduler ausführt und als Bastion-Server für den Zugriff auf das Cluster verwendet werden kann.

Sie können einen Compute-Verarbeitungsknoten mit einer Vielzahl von NVIDIA-GPU-Instanztypen mit Ihren Verarbeitungsanforderungen erstellen. Wir empfehlen, den Compute-Verarbeitungsknoten im sicheren privaten Subnetz zu platzieren. Sie können eine NVIDIA-GPU-Compute-Clusterinstanz über Oracle Cloud Marketplace bereitstellen.

Diese Architektur wird über öffentliche und private virtuelle Cloud-Netzwerke (VCNs) bereitgestellt. Das Kundennetzwerk kann nur über IPSec VPN, Oracle Cloud Infrastructure FastConnect oder das öffentliche Internet auf den Hauptknoten und den Compute Node zugreifen.

Die Architektur verwendet eine Region mit einer Availability-Domain und regionalen Subnetzen. Sie können dieselbe Architektur in einer Region mit mehreren Availability-Domains verwenden. Es wird empfohlen, regionale Subnetze für Ihr Deployment zu verwenden, unabhängig von der Anzahl der Availability-Domains. Sie können über Oracle Cloud Marketplace auf diese Clusternetzwerke zugreifen oder sie manuell bereitstellen. In beiden Fällen wird empfohlen, die Baseline-Referenzarchitektur zu verwenden und dann an Ihre spezifischen Anforderungen anzupassen.

Das folgende Diagramm veranschaulicht diese Referenzarchitektur.

Beschreibung von nvidia-ai-gvt-hpc-oci.png:
Beschreibung der Abbildung nvidia-ai-gvt-hpc-oci.png

NVIDIA-NGC-AI-GVT-HPC-oci-oracle.zip

Die Architektur umfasst die folgenden Komponenten:

  • Region

    Eine Oracle Cloud Infrastructure-Region ist ein lokalisierter geografischer Bereich, der mindestens ein Data Center enthält, das als Availability-Domain bezeichnet wird. Regionen sind unabhängig von anderen Regionen, und große Entfernungen können sie trennen (über Länder oder sogar Kontinente).

  • Verfügbarkeitsdomänen

    Availability-Domains sind eigenständige, unabhängige Data Center innerhalb einer Region. Die physischen Ressourcen in jeder Availability-Domain sind von den Ressourcen in den anderen Availability-Domains isoliert, was eine Fehlertoleranz sicherstellt. Availability-Domains haben keine gemeinsame Infrastruktur wie Stromversorgung oder Kühlung oder das interne Availability-Domainnetzwerk. Ein Fehler in einer Availability-Domain darf sich also nicht auf die anderen Availability-Domains in der Region auswirken.

  • Fehlerdomains

    Eine Faultdomain ist eine Gruppierung aus Hardware und Infrastruktur innerhalb einer Availability-Domain. Jede Availability-Domain umfasst drei Fehlerdomänen mit unabhängiger Stromversorgung und Hardware. Wenn Sie Ressourcen auf mehrere Faultdomains verteilen, können Ihre Anwendungen physische Serverausfälle, Systemwartungen und Stromausfälle innerhalb einer Faultdomain tolerieren.

  • Virtuelles Cloud-Netzwerk (VCN) und Subnetze

    Ein VCN ist ein anpassbares, benutzerdefiniertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten können. Wie traditionelle Data Center-Netzwerke erhalten Sie mit VCNs Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere sich nicht überschneidende CIDR-Blöcke aufweisen, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die sich auf eine Region oder eine Availability-Domain beschränken. Jedes Subnetz besteht aus einem Bereich zusammenhängender Adressen, die sich nicht mit anderen Subnetzen im VCN überschneiden. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz kann öffentlich oder privat sein.

  • Bastionhost

    Der Bastionhost ist eine Compute-Instanz, die als sicherer, kontrollierter Einstiegspunkt in die Topologie von außerhalb der Cloud dient. Der Bastionhost wird in der Regel in einer entmilitarisierten Zone (DMZ) bereitgestellt. Sie können sensible Ressourcen schützen, indem Sie sie in privaten Netzwerken platzieren, auf die nicht direkt von außerhalb der Cloud zugegriffen werden kann. Die Topologie verfügt über einen einzelnen, bekannten Einstiegspunkt, den Sie regelmäßig überwachen und prüfen können. So können Sie vermeiden, die empfindlicheren Komponenten der Topologie freizulegen, ohne den Zugriff darauf zu beeinträchtigen.

  • Compute Node

    Wählen Sie die Bare-Metal-GPU-Ausprägung aus, die Sie in diesem Cluster verwenden. Beispiel: Wählen Sie BM.GPU4.8 powered by 4 x NVIDIA A100 Tensor Core GPUs, wie im obigen Beispiel gezeigt, oder wählen Sie BM.GPU.H100.8 powered by 8 x NVIDIA H100 Tensor Core GPUs für FP8 Performancevorteile mit der NVIDIA Transformer Engine aus.

  • Orchestrierungsknoten

    Der Orchestrierungsknoten führt die Verwaltung, Bereitstellung, Deprovisioning und Bereitstellung von Softwarekonfigurationen sowie die Verwaltung von Compute-Workflows und Joborchestrierung durch.

  • Sicherheitsliste

    Für jedes Subnetz können Sie Sicherheitsregeln erstellen, die Quelle, Ziel und Typ des Traffics angeben, der in und aus dem Subnetz zulässig sein muss.

Erforderliche Produkte, Services und Rollen

Für diese Lösung sind die folgenden Produkte, Services und Rollen erforderlich:

  • Oracle Cloud Infrastructure Government Cloud

  • NVIDIA AI Enterprise
  • NVIDIA NeMo-Framework

  • NVIDIA-Enroot

  • NVIDIA NCCL

Diese Rollen sind für jeden Service erforderlich.

Servicename: Rolle Erforderlich für...
Oracle Cloud Infrastructure Government Cloud: Oracle Cloud-Benutzer für den Mandanten Erstellen Sie ein Compartment in Oracle Cloud Infrastructure (OCI), stellen Sie das GPU-Cluster bereit, und konfigurieren Sie das GPU-Cluster.
OCI Government Cloud: Sicherheit oder Netzwerkadministrator Erstellen oder bearbeiten Sie OCI-Policys nach Bedarf, damit Sie das Cluster erstellen können.
OCI Government Cloud: opc Stellen Sie eine Verbindung zur Bastion her, um die Konfiguration zu prüfen, das BS zu aktualisieren und die LLM-Schulungs-Workload auszuführen.

Unter Oracle-Produkte, -Lösungen und -Services erfahren Sie, was Sie benötigen.