Modell-Deployment

Führen Sie diese Schritte aus, um Modelle mit AI Quick Actions bereitzustellen.

Modell-Deployment erstellen

Sie können ein Modell-Deployment aus den Basismodellen mit dem Tag "Bereit zur Bereitstellung" im Model Explorer oder mit fein abgestimmten Modellen erstellen. Wenn Sie ein Modell-Deployment in KI-Schnellaktionen erstellen, erstellen Sie ein OCI Data Science-Modell-Deployment, das eine verwaltete Ressource im OCI Data Science-Service ist. Sie können das Modell als HTTP-Endpunkte in OCI bereitstellen.

Sie benötigen die erforderliche Policy für die Verwendung des Data Science-Modell-Deployments. Sie können die Compute-Ausprägung für das Modell-Deployment auswählen. Sie können Logging einrichten, um das Modell-Deployment zu überwachen. Logging ist optional. Es wird jedoch dringend empfohlen, Fehler beim Modell-Deployment zu beheben. Sie benötigen die erforderliche Policy, um das Logging zu aktivieren. Weitere Informationen zu Logs finden Sie unter Modell-Deployment-Logs. Unter "Erweiterte Option" können Sie die Anzahl der bereitzustellenden Instanzen und die Load-Balancer-Bandbreite auswählen.

Weitere Informationen und Tipps zum Deployment von Modellen finden Sie unter Modell-Deployment auf GitHub.

Hinweis

Um mit privaten Endpunkten auf Modell-Deployments zuzugreifen, erstellen Sie eine Notizbuchsession, bei der der der Netzwerktyp auf "Benutzerdefiniertes Networking" gesetzt ist. Der benutzerdefinierte Egress muss sich im selben VCN und Subnetz wie die private Endpunktressource befinden.
  • Sie können Modelle mit drei Optionen auf der Seite Modell bereitstellen bereitstellen:

    • Einzelmodell bereitstellen: Stellen Sie ein Modell auf einer Compute-Ausprägung bereit.
    • Multimodell bereitstellen: Stellen Sie mehrere Modelle auf einer einzelnen Compute-Instanz bereit.
    • Modellstack bereitstellen: Stellen Sie ein Basismodell und mehrere optimierte Varianten als Stack auf einer einzelnen Compute-Ausprägung bereit.

    In diesem Abschnitt werden die einzelnen Deployment-Optionen beschrieben.

    1. Navigieren Sie zum Modell-Explorer.
    2. Wählen Sie die Modellkarte für das Modell aus, das Sie bereitstellen möchten.
    3. Wählen Sie Bereitstellen aus, um das Modell bereitzustellen. Die Seite Modell bereitstellen wird mit den drei Optionen angezeigt. Befolgen Sie die Schritte basierend auf dem ausgewählten Modell:
    4. Einzelne Modelle bereitstellen:
      1. Geben Sie dem Deployment einen Namen.
      2. Wählen Sie eine Compute-Ausprägung aus.
      3. (Optional) Wählen Sie eine Loggruppe.
      4. (Optional) Wählen Sie ein Vorhersage- und Zugriffslog aus.
      5. (Optional) Wählen Sie einen privaten Endpunkt aus.
        Hinweis

        Ein privater Endpunkt muss als Voraussetzung für die Modell-Deployment-Ressource erstellt werden.

        Das Feature für den privaten Endpunkt für das Modell-Deployment ist nur in der Realm OC1 aktiviert. Erstellen Sie für andere Realms eine Serviceanfrage für Data Science.

        Die Liste zum Auswählen und Verwenden eines privaten Endpunkts im Modell-Deployment wird nur in der Konsole angezeigt, wenn ein privater Endpunkt im Compartment vorhanden ist.
      6. Wählen Sie Erweiterte Optionen anzeigen.
      7. Aktualisieren Sie die Instanzanzahl, und aktualisieren Sie die Load-Balancer-Bandbreite.
      8. (Optional) Wählen Sie unter Inferenzcontainer einen Inferenzcontainer aus.
      9. (Optional) Wählen Sie Inferenzmodus aus.
      10. Wählen Sie bereitstellen aus.
    5. Multimodell bereitstellen: Nur der vLLM-Container wird unterstützt. Serviceverwaltete Modelle können in einem Deployment kombiniert werden.
      1. Geben Sie einen Deployment-Namen an.
      2. Wählen Sie die bereitzustellenden Modelle aus.
      3. Wählen Sie eine Compute-Ausprägung aus, die für die Modelle geeignet ist.
      4. (Optional) Konfigurieren Sie Loggruppen, Vorhersage- und Zugriffslogs oder private Endpunkte.
      5. Wählen Sie Erweiterte Einstellungen anzeigen aus.
      6. Aktualisieren Sie die Instanzanzahl, und aktualisieren Sie die Load-Balancer-Bandbreite.
      7. (Optional) Wählen Sie unter Inferenzcontainer einen Inferenzcontainer aus.
      8. (Optional) Wählen Sie Inferenzmodus aus.
      9. Wählen Sie Bereitstellen aus.
    6. Modellstack bereitstellen: Nur der vLLM-Container wird unterstützt.
      1. Geben Sie einen Deployment-Namen an.
      2. Wählen Sie das Basismodell.
      3. Wählen Sie die fein abgestimmten Gewichte oder Varianten aus.
      4. Wählen Sie eine Compute-Ausprägung aus.
      5. (Optional) Konfigurieren Sie Loggruppen, Vorhersage- und Zugriffslogs oder private Endpunkte.

        Logging wird für das Tracking und die Fehlerbehebung von Deployment-Vorgängen empfohlen.

      6. Wählen Sie Erweiterte Einstellungen anzeigen aus.
      7. Aktualisieren Sie die Instanzanzahl, und aktualisieren Sie die Load-Balancer-Bandbreite.
      8. (Optional) Wählen Sie unter Inferenzcontainer einen Inferenzcontainer aus.
      9. (Optional) Wählen Sie Inferenzmodus aus.
      10. Wählen Sie Bereitstellen aus.
    7. Wählen Sie unter KI-Schnellaktionen die Option Deployments aus.
      Die Liste der Modell-Deployments wird angezeigt. Warten Sie bei der Erstellung des vorherigen Deployments, bis der Lebenszyklusstatus Aktiv wird, bevor Sie darauf klicken, um ihn zu verwenden.
    8. Blättern Sie, um das Inferenzfenster anzuzeigen.
    9. Geben Sie Text in Prompt ein, um das Modell zu testen.
    10. (Optional) Ändern Sie die Modellparameter entsprechend.
    11. Wählen Sie Generieren aus.
      Die Ausgabe wird unter Antwort angezeigt.
  • Eine vollständige Liste der Parameter und Werte für AI Quick Actions-CLI-Befehle finden Sie unter AI Quick Actions-CLI.

  • Diese Aufgabe kann nicht mit der API ausgeführt werden.

Modell-Deployment in AI-Schnellaktionen aufrufen

Sie können das Modell-Deployment in AI-Schnellaktionen über die CLI oder das Python-SDK aufrufen.

Weitere Informationen finden Sie im Abschnitt Tipps zum Modell-Deployment in GitHub.

Modellartefakte

Wo finden Sie Modellartefakte?

Wenn ein Modell in eine Modell-Deployment-Instanz heruntergeladen wird, wird es im Ordner /opt/ds/model/deployed_model/<object_storage_folder_name_and_path> heruntergeladen.

Modell-Deployments in Autonomous Database verwenden KI auswählen

Sie können mit KI-Schnellaktionen erstellte Modell-Deployments für Abfragen in natürlicher Sprache mit Oracle Autonomous Database Select AI verfügbar machen.

Voraussetzungen

  • Modell-Deployment abgeschlossen und Modell-Deployment-OCID.
  • Autonomous Database-Instanz mit aktivierter Option "AI auswählen". Siehe KI mit Autonomous Database auswählen.
  • Erforderliche Oracle Cloud Infrastructure-(OCI-)Berechtigungen zum Erstellen von Zugangsdaten und Profilen.
  1. Erstellen Sie in Autonomous Database Zugangsdaten für den Zugriff auf das Modell-Deployment.
    BEGIN
        DBMS_CLOUD.create_credential(
            credential_name   => '<CREDENTIAL_NAME>',
            user_ocid         => '<USER_OCID>',
            tenancy_ocid      => '<TENANCY_OCID>',
            private_key       => '<PRIVATE_KEY>',
            fingerprint       => '<FINGERPRINT>'
        );
    END;
    /

    Ersetzen Sie jeden Platzhalter durch bestimmte Werte:

    • <CREDENTIAL_NAME>: Name für die Zugangsdaten
    • <USER_OCID>: OCI-Benutzer-OCID
    • <TENANCY_OCID>: OCI-Mandanten-OCID
    • <PRIVATE_KEY>: API-Private Key im PEM-Format
    • <FINGERPRINT>: API-Public Key-Fingerprint

    Weitere Informationen finden Sie unter Zugangsdaten verwalten.

  2. Erstellen Sie ein Select AI-Profil, um die autonome Datenbank mit dem bereitgestellten Modell zu verbinden.

    BEGIN
        DBMS_CLOUD_AI.CREATE_PROFILE(
            profile_name => '<PROFILE_NAME>',
            attributes => '
    {
      "credential_name": "<CREDENTIAL_NAME>",
      "model": "<MODEL_NAME>",
      "provider": "openai",
      "provider_endpoint": "<MODEL_DEPLOYMENT_OCID>",
      "conversation": "",
      "object_list": [
        {"owner": "ADMIN", "name": "customers"}
      ]
    }'
        );
    END;
    /
    Ersetzen Sie die Platzhalter:
    • <PROFILE_NAME>: Name des Profils.
    • <CREDENTIAL_NAME>: Name der Zugangsdaten aus Schritt 1.
    • <MODEL_NAME>: Name des bereitgestellten Modells (Beispiel: odsc_2025llm).
    • <MODEL_DEPLOYMENT_OCID>: Modell-Deployments-OCID.
    • Aktualisieren Sie "object_list", um das Schema und die Tabelle wiederzugeben, die Sie anzeigen möchten.