Hinweis:

GPU-High Performance Computing-Cluster in Oracle Cloud Infrastructure bereitstellen

Einführung

Das Aufkommen leistungsstarker Large Language Models (LLMs) erhöht den Bedarf an einer Infrastruktur mit ausreichend Grafikprozessor (GPU) Speicher, um Feinabstimmungsaufgaben auszuführen, und eine Möglichkeit, dies zu erreichen, nutzt ein GPU-Cluster. Oracle Cloud Infrastructure (OCI) kann einen Supercluster von NVIDIA GPU A100s bereitstellen und mit seiner Leistung ein LLM ausführen oder optimieren.

Komponenten

Clusternetzwerk ist eine leistungsstarke Ressource von OCI für das Deployment von Clustern von HPC- und GPU-Rechnern, die über ein Netzwerk mit hoher Bandbreite und extrem niedriger Latenz verbunden sind. Jeder Knoten im Cluster ist eine Bare-Metal-Maschine, die sich in physischer Nähe der anderen Knoten befindet. Ein Remote Direct Memory Access-(RDMA-)Netzwerk zwischen den Knoten bietet eine einstellige Mikrosekundenlatenz, die mit On-Premise-High-Performance-Computing-(HPC-)Clustern vergleichbar ist. Weitere Informationen finden Sie unter Cluster-Netzwerke mit Instanzpools.

Um ein Cluster bereitzustellen, müssen Sie eine dynamische Gruppe mit Ihren Workspace-Compartment-Informationen, eine Gruppe von Policys erstellen, mit denen die Services und die dynamische Gruppe einige Aufgaben ausführen können, ein benutzerdefiniertes Image eines Ubuntu-ISO-Images, das vom Cluster des Knotens verwendet werden soll, und einen Marketplace-Stack für das Deployment des Clusters bereitstellen. Weitere Informationen finden Sie unter Dynamische Gruppen verwalten, Policys, Benutzerdefinierte Images und Oracle Cloud Marketplace.

Zielsetzung

Voraussetzungen

Aufgabe 1: Dynamische Gruppe erstellen

Erstellen Sie eine Regel für dynamische Gruppen mit Workspace-Informationen.

  1. Melden Sie sich bei der OCI-Konsole an, navigieren Sie zu Identität und Sicherheit, und klicken Sie auf Compartments. Kopieren Sie die Oracle Cloud-ID (OCID) aus dem Arbeits-Compartment.

    Bild 1

  2. Klicken Sie auf Dynamische Gruppen und Dynamische Gruppe erstellen.

  3. Geben Sie einen Namen und eine Beschreibung ein. Geben Sie für dieses Tutorial instance-principal als Namen ein. Aktualisieren Sie die OCID, und klicken Sie auf Erstellen.

    Bild 2

Aufgabe 2: Policys definieren

Definieren Sie die für den Deployment-Prozess erforderlichen Policys.

  1. Gehen Sie zur OCI-Konsole, navigieren Sie zu Identität und Sicherheit und Policys.

  2. Klicken Sie auf Policy erstellen, geben Sie einen Namen und eine Beschreibung ein, und wählen Sie das Root Compartment aus.

  3. Klicken Sie auf Manuellen Editor anzeigen, und geben Sie die folgenden Policys ein. Ersetzen Sie <> durch Ihre Informationen, und klicken Sie auf Erstellen.

    Allow service compute_management to use tag-namespace in tenancy
    
    Allow service compute_management to manage compute-management-family in tenancy
    
    Allow service compute_management to read app-catalog-listing in tenancy
    
    Allow group Administrators to manage all-resources in compartment <>
    
    allow service compute_management to use tag-namespace in tenancy
    
    allow service compute_management to manage compute-management-family in tenancy
    
    allow service compute_management to read app-catalog-listing in tenancy
    
    allow group user to manage all-resources in compartment compartmentName
    
    Allow dynamic-group instance-principal to read app-catalog-listing in tenancy
    
    Allow dynamic-group instance-principal to use tag-namespace in tenancy
    
    Allow dynamic-group instance-principal to manage compute-management-family in compartment <>
    
    Allow dynamic-group instance-principal to manage instance-family in compartment <>
    
    Allow dynamic-group instance-principal to use virtual-network-family in compartment <>
    
    Allow dynamic-group instance-principal to use volumes in compartment <>
    

    Bild 3

Aufgabe 3: (Optional) Benutzerdefiniertes Image erstellen

Erstellen Sie ein benutzerdefiniertes Image aus einem Ubuntu-Image für GPU-Rechner. Bei Bedarf

  1. Navigieren Sie zur OCI-Konsole, und navigieren Sie zu Compute und Benutzerdefinierte Images.

    Bild 4

  2. Klicken Sie unter Benutzerdefinierte Images auf Image importieren.

    Bild 5

  3. Geben Sie folgende Informationen ein.

    • Compartment: Geben Sie das Compartment ein.
    • Name: Geben Sie für dieses Tutorial Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0 als Namen ein.
    • Betriebssystem (BS): Geben Sie das BS ein.
    • Wählen Sie Aus Objektspeicher-URL importieren aus, und geben Sie die folgende URL ein: https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0

    Bild 6

  4. Geben Sie den Bildspeicherort im Objektspeicher ein.

    Bild 7

    Bild 8

  5. Behalten Sie die andere Konfiguration standardmäßig bei, und klicken Sie auf Image importieren. Es dauert einige Minuten, bis das benutzerdefinierte Image einsatzbereit ist.

    Bild 9

Aufgabe 4: HPC-Stack bereitstellen

Eine einfache und schnelle Möglichkeit, den HPC-Stack bereitzustellen, besteht in der Verwendung der folgenden URL: https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-HPC/archive/refs/heads/master.zip. Diese URL verwendet alle empfohlenen und aktualisierten Skripte, um die Umgebung zu erstellen.

Hinweis: Um die neuesten Updates des Bereitstellungsskripts zu prüfen, gehen Sie zu der URL: https://github.com/oracle-quickstart/oci-hpc. Klicken Sie in der Datei README.md auf In Oracle Cloud bereitstellen, wie in der folgenden Abbildung dargestellt.

Bild 28

oder

Stellen Sie den HPC-Stack traditionell über die OCI-Konsole bereit.

  1. Gehen Sie zur OCI-Konsole, und klicken Sie auf Marketplace und Alle Anwendungen.

    Bild 10

  2. Geben Sie HPC solutions in die Suchleiste ein.

    Bild 11

  3. Wählen Sie HPC-Cluster aus.

    Bild 12

  4. Geben Sie die erforderlichen Informationen zum Erstellen des Stacks ein.

    Bild 13

    Bild 14

    Bild 15

    Bild 16

    Bild 17

    Bild 18

    Bild 19

    Bild 20

  5. Geben Sie die erforderlichen Werte ein, um die Erweiterten Bastionoptionen zu konfigurieren.

    Bild 21

  6. Geben Sie die Cluster-Netzwerkparameter ein.

    Bild 22 Bild 23

  7. Klicken Sie auf Erstellen, um das Stack-Deployment zu initialisieren.

    Bild 24

    Der Stack wurde erfolgreich erstellt.

    Bild 25

  8. Um die erstellten Instanzen zu prüfen, gehen Sie zur OCI-Konsole, und klicken Sie auf Compute, Instanzen.

    Bild 26

    Bild 27

Danksagungen

Weitere Lernressourcen

Lernen Sie andere Übungen auf docs.oracle.com/learn kennen, oder greifen Sie auf weitere kostenlose Lerninhalte im Oracle Learning YouTube Channel zu. Besuchen Sie außerdem education.oracle.com/learning-explorer, um Oracle Learning Explorer zu werden.

Produktdokumentation finden Sie im Oracle Help Center.