NVIDIA GPU Cloud mit Oracle Cloud Infrastructure verwenden

NVIDIA GPU Cloud (NGC) ist eine GPU-beschleunigte Cloud-Plattform, die für Deep Learning und wissenschaftliches Computing optimiert ist. In diesem Thema wird beschrieben, wie Sie NGC mit Oracle Cloud Infrastructure verwenden.

NVIDIA stellt in Oracle Cloud Infrastructure ein benutzerdefiniertes Compute-Image zur Verfügung, das für NVIDIA Tesla Volta- und Pascal-GPUs optimiert ist. Wenn NGC-Container auf dieser Instanz ausgeführt werden, erhalten Sie eine optimale Performance für Deep-Learning-Jobs.

Bevor Sie beginnen

Bereiten Sie die folgenden Schritte vor:

Instanzen basierend auf dem NGC-Image starten

Konsole verwenden

  1. Öffnen Sie die Konsole. Die Schritte dazu finden Sie unter Das erste Mal anmelden.
  2. Öffnen Sie das Navigationsmenü , und wählen Sie Compute aus. Wählen Sie unter Compute die Option Instanzen aus.
  3. Wählen Sie ein Compartment aus, für das Sie eine Berechtigung besitzen.
  4. Klicken Sie auf Instanz erstellen.
  5. Geben Sie einen Namen für die Instanz ein. Vermeiden Sie die Eingabe von vertraulichen Informationen.

  6. Wählen Sie im Abschnitt Platzierung die Availability-Domain aus, in der Sie die Instanz erstellen möchten.
  7. Im Abschnitt Image und Ausprägung:
    1. Klicken Sie auf der Karte Ausprägung auf Ausprägung ändern. Führen Sie dann folgende Schritte aus:
      1. Wählen Sie unter Instanztyp die Option Virtuelle Maschine oder Bare-Metal-Maschine aus.

      2. Wählen Sie eine GPU-Ausprägung für die Instanz aus. Weitere Informationen zu GPU-Ausprägungen finden Sie unter GPU-Ausprägungen für virtuelle Maschinen und Bare-Metal-GPU-Ausprägungen.

        Wichtig

        Um auf GPU-Ausprägungen zugreifen zu können, muss Ihr Mandant über eine GPU-Quota verfügen. Wenn Ihr Mandant keine GPU-Quota hat, befinden sich die GPU-Ausprägungen nicht in der Ausprägungsliste. Weitere Informationen finden Sie unter Hinweis zu Beginn.
      3. Klicken Sie auf Ausprägung auswählen.
    2. Um das NGC-Image auszuwählen, klicken Sie auf der Karte Image auf Image ändern. Führen Sie dann folgende Schritte aus.
      Wichtig

      Um auf die NVIDIA GPU-Cloud-Images zugreifen zu können, muss Ihr Mandant über eine GPU-Quota verfügen, und Sie müssen eine GPU-Ausprägung auswählen.
      1. Wählen Sie in der Liste Imagequelle die Option Oracle-Images aus.
      2. Aktivieren Sie das Kontrollkästchen neben NVIDIA GPU Cloud Machine-Image.
      3. Prüfen und akzeptieren Sie die Nutzungsbedingungen. Klicken Sie anschließend auf Image auswählen.
  8. Lassen Sie im Abschnitt Networking die Option Vorhandenes virtuelles Cloud-Netzwerk auswählen aktiviert, und wählen Sie dann das Compartment des virtuellen Cloud-Netzwerks (VCN), das VCN, das Subnetz-Compartment und das Subnetz aus.

  9. Laden Sie im Abschnitt SSH-Schlüssel hinzufügen den Public-Key-Teil des Schlüsselpaares hoch, das Sie für den SSH-Zugriff auf die Instanz verwenden möchten. Navigieren Sie zu der Schlüsseldatei, die Sie hochladen möchten, oder verschieben Sie die Datei per Drag-and-Drop in das Feld.

  10. Klicken Sie auf Erstellen.

Die NGC-Instanz wird jetzt mit dem Status Wird bereitgestellt angezeigt. Nachdem sich der Status in Wird ausgeführt geändert hat, können Sie eine Verbindung zur Instanz herstellen. Allgemeine Informationen über das Starten von Compute-Instanzen finden Sie unter Instanzen erstellen.

In den folgenden Themen wird beschrieben, wie Sie auf die Instanz zugreifen und damit arbeiten:

Wenn Sie mit SSH eine Verbindung zur Instanz herstellen, werden Sie zur Eingabe des NGC-API-Schlüssels aufgefordert. Wenn Sie den API-Schlüssel in der Eingabeaufforderung angeben, werden Sie von der Instanz automatisch bei der NGC-Container-Registry angemeldet, sodass Sie Container aus der Registry ausführen können. Sie können jedoch auch den API-Schlüssel nicht in der Eingabeaufforderung angeben und sich dennoch bei der Instanz anmelden. Sie können sich dann später bei der NGC-Container-Registry anmelden. Weitere Informationen finden Sie unter Bei der NGC-Container-Registry anmelden.

CLI verwenden

Oracle Cloud Infrastructure stellt eine Befehlszeilenschnittstelle (CLI) bereit, mit der Sie Aufgaben ausführen können. Weitere Informationen finden Sie unter Schnellstart und CLI konfigurieren.

Mit dem Befehl Start können Sie eine Instanz erstellen und als Image für sourceType und die Image-OCID ocid1.image.oc1..aaaaaaaaknl6phck7e3iuii4r4axpwhenw5qtnnsk3tqppajdjzb5nhoma3q in InstanceSourceDetails für LaunchInstanceDetails angeben.

Objektspeicherservice für persistente Datenspeicherung verwenden

Sie können Object Storage Service für die Datenspeicherung verwenden, wenn Sie mit NGC arbeiten. Weitere Informationen finden Sie unter Überblick über Object Storage. Sie können folgende Aufgaben zum Erstellen von und Arbeiten mit Object Storage ausführen:

Sie können den Objektspeicher auch mit der CLI verwalten. Informationen hierzu finden Sie im Befehl os.

Beispiele für das Ausführen von Containern

Sie müssen sich zuerst bei der NGC-Container-Registry anmelden. Sie können diesen Abschnitt überspringen, wenn Sie bei der Anmeldung bei der Instanz über SSH den API-Schlüssel angegeben haben. Wenn Sie bei der Anmeldung bei Ihrer Instanz keinen API-Schlüssel angegeben haben, müssen Sie diesen Schritt ausführen.

So melden Sie sich bei der NGC-Container-Registry an
  1. Führen Sie den folgenden Docker-Befehl aus:

    docker login nvcr.io
  2. Wenn Sie zur Eingabe eines Benutzernamens aufgefordert werden, geben Sie $oauthtoken ein.

  3. Wenn Sie zur Eingabe eines Kennwortes aufgefordert werden, geben Sie Ihren NGC-API-Schlüssel ein.

Jetzt können Sie Docker-Befehle ausführen und von der Instanz auf die NGC-Container-Registry zugreifen.

Beispiel: MNIST-Training mit PyTorch-Container ausführen

Dieses Beispiel zeigt, wie Sie das MNIST-Beispiel auf PyTorch ausführen. In diesem Beispiel wird das MNIST-Dataset aus dem Web heruntergeladen.

  1. Führen Sie den PyTorch-Container mit den folgenden Docker-Befehlen aus:

    docker pull nvcr.io/nvidia/pytorch:17.10
    docker run --gpus all --rm -it nvcr.io/nvidia/pytorch:17.10
  2. Führen Sie das MNIST-Beispiel mit den folgenden Befehlen aus:

    cd /opt/pytorch/examples/mnist
    python main.py
Beispiel: MNIST-Training mit TensorFlow-Container ausführen

Dieses Beispiel zeigt, wie Sie das MNIST-Beispiel auf TensorFlow ausführen. In diesem Beispiel wird das MNIST-Dataset aus dem Web heruntergeladen.

  1. Führen Sie den TensorFlow-Container mit den folgenden Docker-Befehlen aus:

    docker pull nvcr.io/nvidia/tensorflow:17.10
    docker run --gpus all --rm -it nvcr.io/nvidia/tensorflow:17.10
  2. Führen Sie das Beispiel "MNIST_with_summaries" mit den folgenden Befehlen aus:

    cd /opt/tensorflow/tensorflow/examples/tutorials/mnist
    python mnist_with_summaries.py