Hinweis:

Mistral LLM-Modell auf OCI Compute A10-Instanz mit Oracle Resource Manager mit einem One-Click-Deployment ausführen

Einführung

Mit Oracle Cloud Infrastructure (OCI) Compute können Sie verschiedene Ausprägungstypen erstellen, um die Grafikprozessoreinheit (GPU) für lokal bereitgestellte KI-Modelle (Artificial Intelligence) zu testen. In diesem Tutorial verwenden wir die Ausprägung A10 mit einem bereits vorhandenen VCN und Subnetzressourcen, die Sie in Oracle Resource Manager auswählen können.

Der Terraform-Code umfasst auch die Konfiguration der Instanz zur Ausführung eines lokalen Virtual Large Language Model (vLLM)-Mistralmodells für Verarbeitungsaufgaben in natürlicher Sprache.

Ziele

Voraussetzungen

Aufgabe 1: Terraform-Code für Deployment mit einem Klick herunterladen

Laden Sie den ORM-Terraform-Code von hier herunter: orm_stack_a10_gpu-main.zip, um Mistral vLLM-Modelle lokal zu implementieren. Dadurch können Sie ein vorhandenes VCN und ein Subnetz auswählen, um das lokale Deployment von Mistral vLLM-Modellen in einer A10-Instanzausprägung zu testen.

Nachdem Sie den ORM-Terraform-Code lokal heruntergeladen haben, führen Sie die folgenden Schritte aus: Stack aus einem Ordner erstellen, um den Stack hochzuladen und die Anwendung des Terraform-Codes auszuführen.

Hinweis: Stellen Sie sicher, dass Sie ein virtuelles OCI-Cloud-Netzwerk (VCN) und ein Subnetz erstellt haben, in dem die VM bereitgestellt wird.

Aufgabe 2: VCN auf OCI erstellen (optional, wenn noch nicht erstellt)

Informationen zum Erstellen eines VCN in Oracle Cloud Infrastructure finden Sie unter: Video zum Erstellen eines virtuellen Cloud-Netzwerks auf OCI.

oder

So erstellen Sie ein VCN:

  1. Melden Sie sich bei der OCI-Konsole an, und geben Sie Cloud-Mandantenname, Benutzername und Kennwort ein.

  2. Klicken Sie in der oberen linken Ecke auf das Hamburger-Menü (≡).

  3. Gehen Sie zu Networking, Virtuelle Cloud-Netzwerke, und wählen Sie das entsprechende Compartment im Abschnitt Listengeltungsbereich aus.

  4. Wählen Sie VCN mit Internetverbindung, aus, und klicken Sie auf VCN-Assistenten starten.

  5. Geben Sie auf der Seite VCN mit Internetverbindung erstellen die folgenden Informationen ein, und klicken Sie auf Weiter.

    • VCN-NAME: Geben Sie OCI_HOL_VCN ein.
    • COMPARTMENT: Wählen Sie das entsprechende COMPARTMENT aus.
    • VCN-CIDR-BLOCK: Geben Sie 10.0.0.0/16 ein.
    • Untergeordneter PUBNET-CIDR-BLOCK: Geben Sie 10.0.2.0/24 ein.
    • PRIVATE SUBNET CIDR BLOCK: Geben Sie 10.0.1.0/24 ein.
    • DNS-Auflösung: Wählen Sie DNS-Hostnamen IN diesem VCN verwenden aus.

    VCN-Konfiguration erstellen

    Beschreibung der Abbildung setupVCN3.png

  6. Prüfen Sie auf der Seite Prüfen Ihre Einstellungen, und klicken Sie auf Erstellen.

    CV-Konfiguration prüfen

    Beschreibung der Abbildung setupVCN4.png

    Es dauert einen Moment, das VCN zu erstellen, und ein Fortschrittsbildschirm informiert Sie über den Workflow.

    Workflow

    Beschreibung der Abbildung workflow.png

  7. Klicken Sie nach der Erstellung des VCN auf Virtuelles Cloud-Netzwerk anzeigen.

    In realen Situationen erstellen Sie mehrere VCNs, je nachdem, welcher Zugriff erforderlich ist (welche Ports geöffnet werden müssen) und wer darauf zugreifen kann.

Aufgabe 3: Details zur cloud-init-Konfiguration anzeigen

Das Skript cloud-init installiert alle erforderlichen Abhängigkeiten, startet Docker, lädt die vLLM Mistral-Modelle herunter und startet sie. Sie finden den folgenden Code in der Datei cloudinit.sh, die in Aufgabe 1 heruntergeladen wurde.

dnf install -y dnf-utils zip unzip
dnf config-manager --add-repo=https://download.docker.com/linux/centos/docker-ce.repo
dnf remove -y runc
dnf install -y docker-ce --nobest
systemctl enable docker.service
dnf install -y nvidia-container-toolkit
systemctl start docker.service
...

Cloud-init lädt alle Dateien herunter, die für die Ausführung des Mistral-Modells basierend auf Ihrem in Hugging Face vordefinierten API-Token erforderlich sind.

Beim Erstellen des API-Tokens wird das Mistral-Modell basierend auf Ihrer Eingabe aus der ORM-GUI ausgewählt, sodass die erforderliche Authentifizierung zum lokalen Herunterladen der Modelldateien möglich ist. Weitere Informationen finden Sie unter Benutzerzugriffstoken.

Aufgabe 4: System überwachen

Verfolgen Sie den Abschluss des Skripts cloud-init und die GPU-Ressourcennutzung mit den folgenden Befehlen (falls erforderlich).

Aufgabe 5: Modellintegration testen

Interagieren Sie mit den Befehlen oder Jupyter Notebook-Details auf folgende Weise mit dem Modell.

Aufgabe 6: Modell mit Docker bereitstellen (falls erforderlich)

Alternativ können Sie das Modell mit Docker und einer externen Quelle bereitstellen.

docker run --gpus all \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HUGGING_FACE_HUB_TOKEN=$ACCESS_TOKEN" \
    -p 8000:8000 \
    --ipc=host \
    --restart always \
    vllm/vllm-openai:latest \
    --model mistralai/$MODEL \
    --max-model-len 16384

Sie können das Modell wie folgt abfragen:

Danksagungen

Weitere Lernressourcen

Lernen Sie andere Übungen auf docs.oracle.com/learn kennen, oder greifen Sie auf weitere kostenlose Lerninhalte im Oracle Learning YouTube Channel zu. Außerdem können Sie education.oracle.com/learning-explorer besuchen, um Oracle Learning Explorer zu werden.

Die Produktdokumentation finden Sie im Oracle Help Center.