Hinweis:
- Dieses Tutorial erfordert Zugriff auf Oracle Cloud. Informationen zum Registrieren eines kostenlosen Accounts finden Sie unter Erste Schritte mit Oracle Cloud Infrastructure Free Tier.
- Es verwendet Beispielwerte für Oracle Cloud Infrastructure-Zugangsdaten, -Mandanten und -Compartments. Wenn Sie Ihre Übung abgeschlossen haben, ersetzen Sie diese Werte durch spezifische Werte für Ihre Cloud-Umgebung.
GPU-High Performance Computing-Cluster in Oracle Cloud Infrastructure bereitstellen
Einführung
Das Aufkommen leistungsstarker Large Language Models (LLMs) erhöht den Bedarf an einer Infrastruktur mit ausreichend Grafikprozessor (GPU) Speicher, um Feinabstimmungsaufgaben auszuführen, und eine Möglichkeit, dies zu erreichen, nutzt ein GPU-Cluster. Oracle Cloud Infrastructure (OCI) kann einen Supercluster von NVIDIA GPU A100s bereitstellen und mit seiner Leistung ein LLM ausführen oder optimieren.
Komponenten
Clusternetzwerk ist eine leistungsstarke Ressource von OCI für das Deployment von Clustern von HPC- und GPU-Rechnern, die über ein Netzwerk mit hoher Bandbreite und extrem niedriger Latenz verbunden sind. Jeder Knoten im Cluster ist eine Bare-Metal-Maschine, die sich in physischer Nähe der anderen Knoten befindet. Ein Remote Direct Memory Access-(RDMA-)Netzwerk zwischen den Knoten bietet eine einstellige Mikrosekundenlatenz, die mit On-Premise-High-Performance-Computing-(HPC-)Clustern vergleichbar ist. Weitere Informationen finden Sie unter Cluster-Netzwerke mit Instanzpools.
Um ein Cluster bereitzustellen, müssen Sie eine dynamische Gruppe mit Ihren Workspace-Compartment-Informationen, eine Gruppe von Policys erstellen, mit denen die Services und die dynamische Gruppe einige Aufgaben ausführen können, ein benutzerdefiniertes Image eines Ubuntu-ISO-Images, das vom Cluster des Knotens verwendet werden soll, und einen Marketplace-Stack für das Deployment des Clusters bereitstellen. Weitere Informationen finden Sie unter Dynamische Gruppen verwalten, Policys, Benutzerdefinierte Images und Oracle Cloud Marketplace.
Zielsetzung
- Stellen Sie ein GPU-A100-Cluster auf OCI mit einem vorkonfigurierten Stack bereit.
Voraussetzungen
-
Zugriff zum Erstellen von dynamischen Gruppen, Benutzergruppen und Policys. Um Zugriffsberechtigungen zu erhalten, wenden Sie sich an den Mandantenadministrator.
-
GPU-Computing-Grenzwerte. Wenn Sie nicht über genügend Compute-GPU-Limits verfügen, finden Sie weitere Informationen unter Erhöhung des Servicelimits beantragen.
Aufgabe 1: Dynamische Gruppe erstellen
Erstellen Sie eine Regel für dynamische Gruppen mit Workspace-Informationen.
-
Melden Sie sich bei der OCI-Konsole an, navigieren Sie zu Identität und Sicherheit, und klicken Sie auf Compartments. Kopieren Sie die Oracle Cloud-ID (OCID) aus dem Arbeits-Compartment.
-
Klicken Sie auf Dynamische Gruppen und Dynamische Gruppe erstellen.
-
Geben Sie einen Namen und eine Beschreibung ein. Geben Sie für dieses Tutorial
instance-principal
als Namen ein. Aktualisieren Sie die OCID, und klicken Sie auf Erstellen.
Aufgabe 2: Policys definieren
Definieren Sie die für den Deployment-Prozess erforderlichen Policys.
-
Gehen Sie zur OCI-Konsole, navigieren Sie zu Identität und Sicherheit und Policys.
-
Klicken Sie auf Policy erstellen, geben Sie einen Namen und eine Beschreibung ein, und wählen Sie das Root Compartment aus.
-
Klicken Sie auf Manuellen Editor anzeigen, und geben Sie die folgenden Policys ein. Ersetzen Sie
<>
durch Ihre Informationen, und klicken Sie auf Erstellen.Allow service compute_management to use tag-namespace in tenancy Allow service compute_management to manage compute-management-family in tenancy Allow service compute_management to read app-catalog-listing in tenancy Allow group Administrators to manage all-resources in compartment <> allow service compute_management to use tag-namespace in tenancy allow service compute_management to manage compute-management-family in tenancy allow service compute_management to read app-catalog-listing in tenancy allow group user to manage all-resources in compartment compartmentName Allow dynamic-group instance-principal to read app-catalog-listing in tenancy Allow dynamic-group instance-principal to use tag-namespace in tenancy Allow dynamic-group instance-principal to manage compute-management-family in compartment <> Allow dynamic-group instance-principal to manage instance-family in compartment <> Allow dynamic-group instance-principal to use virtual-network-family in compartment <> Allow dynamic-group instance-principal to use volumes in compartment <>
Aufgabe 3: (Optional) Benutzerdefiniertes Image erstellen
Erstellen Sie ein benutzerdefiniertes Image aus einem Ubuntu-Image für GPU-Rechner. Bei Bedarf
-
Navigieren Sie zur OCI-Konsole, und navigieren Sie zu Compute und Benutzerdefinierte Images.
-
Klicken Sie unter Benutzerdefinierte Images auf Image importieren.
-
Geben Sie folgende Informationen ein.
- Compartment: Geben Sie das Compartment ein.
- Name: Geben Sie für dieses Tutorial
Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
als Namen ein. - Betriebssystem (BS): Geben Sie das BS ein.
- Wählen Sie Aus Objektspeicher-URL importieren aus, und geben Sie die folgende URL ein:
https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
-
Geben Sie den Bildspeicherort im Objektspeicher ein.
-
Behalten Sie die andere Konfiguration standardmäßig bei, und klicken Sie auf Image importieren. Es dauert einige Minuten, bis das benutzerdefinierte Image einsatzbereit ist.
Aufgabe 4: HPC-Stack bereitstellen
Eine einfache und schnelle Möglichkeit, den HPC-Stack bereitzustellen, besteht in der Verwendung der folgenden URL: https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-HPC/archive/refs/heads/master.zip
. Diese URL verwendet alle empfohlenen und aktualisierten Skripte, um die Umgebung zu erstellen.
Hinweis: Um die neuesten Updates des Bereitstellungsskripts zu prüfen, gehen Sie zu der URL:
https://github.com/oracle-quickstart/oci-hpc
. Klicken Sie in der DateiREADME.md
auf In Oracle Cloud bereitstellen, wie in der folgenden Abbildung dargestellt.
oder
Stellen Sie den HPC-Stack traditionell über die OCI-Konsole bereit.
-
Gehen Sie zur OCI-Konsole, und klicken Sie auf Marketplace und Alle Anwendungen.
-
Geben Sie
HPC solutions
in die Suchleiste ein. -
Wählen Sie HPC-Cluster aus.
-
Geben Sie die erforderlichen Informationen zum Erstellen des Stacks ein.
-
Geben Sie die erforderlichen Werte ein, um die Erweiterten Bastionoptionen zu konfigurieren.
-
Geben Sie die Cluster-Netzwerkparameter ein.
-
Klicken Sie auf Erstellen, um das Stack-Deployment zu initialisieren.
Der Stack wurde erfolgreich erstellt.
-
Um die erstellten Instanzen zu prüfen, gehen Sie zur OCI-Konsole, und klicken Sie auf Compute, Instanzen.
Danksagungen
- Autoren - Douglas Silva (LAD A-Team), Leandro Camargo (LAD A-Team)
Weitere Lernressourcen
Lernen Sie andere Übungen auf docs.oracle.com/learn kennen, oder greifen Sie auf weitere kostenlose Lerninhalte im Oracle Learning YouTube Channel zu. Besuchen Sie außerdem education.oracle.com/learning-explorer, um Oracle Learning Explorer zu werden.
Produktdokumentation finden Sie im Oracle Help Center.
Deploy a GPU High Performance Computing Cluster in Oracle Cloud Infrastructure
F98227-01
May 2024