Modelleinschränkungen in OCI Generative AI
Prüfen Sie die folgenden Modellanforderungen für die benutzerdefinierten und Basismodelle von OCI Generative AI, um das Beste aus Ihren Modellen herauszuholen.
Wichtige Features der vortrainierten Basismodelle finden Sie unter Vorgeschulte Basismodelle in generativer KI.
Basismodelle mit Clustern abgleichen
Um ein vortrainiertes oder benutzerdefiniertes OCI Generative AI-Modell in einem dedizierten Hosting-KI-Cluster zu hosten, gehen Sie zu Pretrained Foundational Models in Generative AI. Wählen Sie dann das vortrainierte Modell oder das Basismodell des benutzerdefinierten Modells aus. Zeigen Sie im Abschnitt Dediziertes KI-Cluster für das Modell der Seite die Einheitengröße und die erforderlichen Einheiten für das Hosting dieses Basismodells an.
Endpunkte zu Hosting-Clustern hinzufügen
Um ein Modell für Inferenz in einem dedizierten KI-Cluster vom Typ Hosting zu hosten, müssen Sie einen Endpunkt für dieses Modell erstellen. Anschließend können Sie diesem Endpunkt entweder ein benutzerdefiniertes Modell oder ein vortrainiertes Basismodell hinzufügen.
Informationen zu Endpunktaliasnamen und Stack Serving
Ein dediziertes Hosting-KI-Cluster kann bis zu 50 Endpunkte aufweisen. Verwenden Sie diese Endpunkte für die folgenden Anwendungsfälle:
- Endpunktaliasnamen erstellen
-
Erstellen Sie Aliasnamen mit vielen Endpunkten. Diese 50 Endpunkte müssen entweder auf dasselbe Basismodell oder auf dieselbe Version eines benutzerdefinierten Modells verweisen. Das Erstellen vieler Endpunkte, die auf dasselbe Modell verweisen, erleichtert die Verwaltung der Endpunkte, da Sie die Endpunkte für verschiedene Benutzer oder verschiedene Zwecke verwenden können.
- Stapelservice
-
Hosten Sie mehrere Versionen eines benutzerdefinierten Modells in einem Cluster. Dies gilt für
cohere.command
- undcohere.command-light
-Modelle, die mit der TrainingsmethodeT-Few
verfeinert werden. Das Hosting verschiedener Versionen eines optimierten Modells kann Ihnen helfen, die benutzerdefinierten Modelle für verschiedene Anwendungsfälle zu bewerten.
Um das von einem Hostingcluster unterstützte Anrufvolumen zu erhöhen, können Sie die Anzahl der Instanzen erhöhen.
Blenden Sie die folgenden Abschnitte ein, um die Anforderungen für das Hosting von Modellen auf demselben Cluster zu prüfen.
Einige vortrainierte Basismodelle von OCI Generative AI, die für den dedizierten Bereitstellungsmodus unterstützt werden, sind jetzt veraltet und werden spätestens 6 Monate nach dem Release des 1. Ersatzmodells in den Ruhestand versetzt. Sie können ein Basismodell hosten oder ein Basismodell optimieren und das fein abgestimmte Modell in einem dedizierten KI-Cluster (dedizierter Bereitstellungsmodus) hosten, bis das Basismodell deaktiviert wird. Informationen zu den Ruhestandsdaten im dedizierten Bereitstellungsmodus finden Sie unter Modelle in den Ruhestand versetzen.
Verwenden Sie zum Hosten der vortrainierten Basischatmodelle oder optimierter Chatmodelle in einem dedizierten KI-Hostcluster die folgenden Clustereinheitsgrößen- und Endpunktregeln, die den einzelnen Basismodellen entsprechen.
Hostclustereinheitsgröße | Vergleichsregeln |
---|---|
Large Generic 2 für das Basismodell, meta.llama-4-maverick-17b-128e-instruct-fp8 |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster:
Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell |
Large Generic V2 für das Basismodell, meta.llama-4-scout-17b-16e-instruct |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster:
Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell |
LARGE_COHERE_V3 für das Basismodell, cohere.command-a-03-2025 |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster:
Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell |
Small Generic V2 für das Basismodell meta.llama-3.2-11b-vision-instruct |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster:
Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell |
Large Generic für das Basismodell meta.llama-3.3-70b-instruct |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster:
Hosting von benutzerdefinierten Modellen So hosten Sie mehrere benutzerdefinierte Modelle auf demselben Cluster:
|
Large Generic für das Basismodell meta.llama-3.1-70b-instruct |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster:
Hosting von benutzerdefinierten Modellen So hosten Sie mehrere benutzerdefinierte Modelle auf demselben Cluster:
|
Large Generic für das Basismodell meta.llama-3-70b-instruct |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster:
Hosting von benutzerdefinierten Modellen So hosten Sie mehrere benutzerdefinierte Modelle im selben Cluster:
|
Large Generic V2 für das Basismodell meta.llama-3.2-90b-vision-instruct |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster:
Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell |
Large Generic 2 für das Basismodell meta.llama-3.1-405b-instruct |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte im selben Cluster:
Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell |
Small Cohere V2 für das Basismodell, cohere.command-r-16k (veraltet) |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte im selben Cluster:
Hosting von benutzerdefinierten Modellen So hosten Sie mehrere benutzerdefinierte Modelle im selben Cluster:
Sie können nicht verschiedene Versionen eines benutzerdefinierten Modells hosten, das im Basismodell |
Small Cohere V2 für das Basismodell cohere.command-r-08-2024 |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte im selben Cluster:
Hosting von benutzerdefinierten Modellen So hosten Sie mehrere benutzerdefinierte Modelle im selben Cluster:
Sie können nicht verschiedene Versionen eines benutzerdefinierten Modells hosten, das im Basismodell |
Large Cohere V2_2 für das Basismodell, cohere.command-r-plus (veraltet) |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte im selben Cluster:
Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell |
Large Cohere V2_2 für das Basismodell cohere.command-r-plus-08-2024 |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte im selben Cluster:
Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell |
Verwenden Sie zum Hosten des Rerank-Modells in einem dedizierten AI-Hostcluster die folgenden Clustereinheitengrößen- und Endpunktregeln.
Hostclustereinheitsgröße | Vergleichsregeln |
---|---|
RERANK_COHERE |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte im selben Cluster:
Hosting benutzerdefinierter Modelle Feinabstimmung für das Cohere Rerank-Modell nicht verfügbar. |
Verwenden Sie zum Hosten der Einbettungsmodelle in einem dedizierten KI-Cluster die folgenden Regeln für Größe und Endpunkt der Clustereinheit.
Hostclustereinheitsgröße | Vergleichsregeln |
---|---|
Embed Cohere |
Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte im selben Cluster:
Hosting benutzerdefinierte Modelle Für die Cohere Embed-Modelle ist keine Feinabstimmung verfügbar. |
- Auf Anforderung nicht verfügbar: Alle vortrainierten OCI Generative AI-Grundmodelle, die für den On-Demand-Serving-Modus unterstützt werden und die Textgenerierungs- und Zusammenfassungs-APIs (einschließlich Playground) verwenden, werden jetzt eingestellt. Wir empfehlen, stattdessen die chat-modelle zu verwenden.
- Kann auf Clustern gehostet werden: Wenn Sie eine Zusammenfassung oder ein Generierungsmodell wie
cohere.command
in einem dedizierten KI-Cluster (dedizierter Bereitstellungsmodus) hosten, können Sie dieses Modell weiter verwenden, bis es abgelaufen ist. Diese Modelle, wenn sie in einem dedizierten KI-Cluster gehostet werden, sind nur in US Midwest (Chicago) verfügbar. Informationen zu Ablaufdaten und Definitionen finden Sie unter Modelle in den Ruhestand versetzen.
Um die Textgenerierungsmodelle in einem dedizierten KI-Hostcluster zu hosten, verwenden Sie die folgenden Clustereinheitsgrößen- und Endpunktregeln, die Ihrem Basismodell entsprechen.
Hostclustereinheitsgröße | Vergleichsregeln |
---|---|
Small Cohere für das Basismodell cohere.command-light |
Hosting Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster:
Hosting benutzerdefinierte Modelle So hosten Sie verschiedene benutzerdefinierte Modelle auf demselben Cluster:
|
Large Cohere für das Basismodell cohere.command |
Hosting Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster:
Hosting benutzerdefinierte Modelle So hosten Sie verschiedene benutzerdefinierte Modelle auf demselben Cluster:
|
Llama2 70 für das Basismodell meta.llama-2-70b-chat |
Hosting Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster:
|
Das
cohere.command
-Modell, das für den On-Demand-Serving-Modus unterstützt wird, wird jetzt eingestellt. Dieses Modell ist für den dedizierten Serving-Modus veraltet. Wenn Sie cohere.command
in einem dedizierten KI-Cluster (dedizierter Bereitstellungsmodus) zur Zusammenfassung hosten, können Sie dieses gehostete Modellreplikat weiterhin mit der Zusammenfassungs-API und im Playground verwenden, bis das Modell cohere.command
für den dedizierten Bereitstellungsmodus abläuft. Diese Modelle, wenn sie in einem dedizierten KI-Cluster gehostet werden, sind nur in US Midwest (Chicago) verfügbar. Informationen zu Ablaufdaten und Definitionen finden Sie unter Modelle in den Ruhestand versetzen. Wir empfehlen Ihnen, stattdessen die Chatmodelle zu verwenden, die dieselben Zusammenfassungsfunktionen bieten, einschließlich der Kontrolle über die Länge und den Stil der Zusammenfassung.Um das vortrainierte cohere.command
-Zusammenfassungsmodell in einem dedizierten KI-Hostcluster zu hosten, verwenden Sie die folgenden Clustereinheitsgrößen- und Endpunktregeln.
Hostingclustereinheitsgröße | Zuordnungsregeln |
---|---|
Large Cohere für das Basismodell cohere.command |
Hosting Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster:
Hosting benutzerdefinierte Modelle So hosten Sie verschiedene benutzerdefinierte Modelle auf demselben Cluster:
|
Trainingsdaten
Datasets für das Training benutzerdefinierter Modelle haben folgende Anforderungen:
- Pro benutzerdefiniertem Modell ist maximal ein Optimierungs-Dataset zulässig. Dieser Datensatz wird zufällig auf ein Verhältnis von 80:20 für das Training und die Validierung aufgeteilt.
- Jede Datei muss mindestens 32 Beispiele für Eingabeaufforderungs-/Abschlusspaare enthalten.
- Das Dateiformat ist
JSONL
. - Jede Zeile in der Datei
JSONL
hat das folgende Format:{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
- Die Datei muss in einem OCI Object Storage-Bucket gespeichert werden.
Erfahren Sie mehr über Schulungsdatenanforderungen in der generativen KI.
Eingabedaten für Texteinbettungen
Die Eingabedaten für die Erstellung von Texteinbettungen haben folgende Anforderungen:
- Sie können Sätze, Phrasen oder Absätze für Einbettungen entweder einzeln oder durch Hochladen einer Datei hinzufügen.
- Nur Dateien mit der Erweiterung
.txt
sind zulässig. - Wenn Sie eine Eingabedatei verwenden, muss jeder eingegebene Satz, jede Wortgruppe oder jeder Absatz in der Datei durch ein Zeilenendezeichen getrennt werden.
- Für jeden Lauf sind maximal 96 Eingaben zulässig.
- In der Konsole muss jede Eingabe weniger als 512 Token für Nur-Text-Modelle enthalten.
- Wenn eine Eingabe zu lang ist, wählen Sie, ob der Anfang oder das Ende des Texts abgeschnitten werden soll, um innerhalb des Tokenlimits zu passen, indem Sie den Parameter Abschneiden auf Start oder Ende setzen. Wenn eine Eingabe den Tokengrenzwert von 512 überschreitet und der Parameter Abschneiden auf Kein Wert gesetzt ist, wird eine Fehlermeldung angezeigt.
- Für die Text- und Bildmodelle können Sie Dateien und Eingaben haben, die alle bis zu 128.000 Token hinzufügen.
- Für die Modelle zum Einbetten von Text und Bildern, wie Cohere Embed English Image V3, können Sie entweder Text hinzufügen oder nur ein Bild hinzufügen. Für das Image können Sie die API verwenden. Bildeingabe ist in der Konsole nicht verfügbar. Geben Sie für die API in jeder Ausführung ein base64-codiertes Image ein. Beispiel: Ein 512 x 512-Bild wird in etwa 1.610 Token konvertiert.
Erfahren Sie mehr über das Erstellen von Texteinbettungen in OCI Generative AI.