Modelleinschränkungen in OCI Generative AI

Prüfen Sie die folgenden Modellanforderungen für die benutzerdefinierten und Basismodelle von OCI Generative AI, um das Beste aus Ihren Modellen herauszuholen.

Hinweis

Wichtige Features der vortrainierten Basismodelle finden Sie unter Vorgeschulte Basismodelle in generativer KI.

Basismodelle mit Clustern abgleichen

Um ein vortrainiertes oder benutzerdefiniertes OCI Generative AI-Modell in einem dedizierten Hosting-KI-Cluster zu hosten, gehen Sie zu Pretrained Foundational Models in Generative AI. Wählen Sie dann das vortrainierte Modell oder das Basismodell des benutzerdefinierten Modells aus. Zeigen Sie im Abschnitt Dediziertes KI-Cluster für das Modell der Seite die Einheitengröße und die erforderlichen Einheiten für das Hosting dieses Basismodells an.

Endpunkte zu Hosting-Clustern hinzufügen

Um ein Modell für Inferenz in einem dedizierten KI-Cluster vom Typ Hosting zu hosten, müssen Sie einen Endpunkt für dieses Modell erstellen. Anschließend können Sie diesem Endpunkt entweder ein benutzerdefiniertes Modell oder ein vortrainiertes Basismodell hinzufügen.

Informationen zu Endpunktaliasnamen und Stack Serving

Ein dediziertes Hosting-KI-Cluster kann bis zu 50 Endpunkte aufweisen. Verwenden Sie diese Endpunkte für die folgenden Anwendungsfälle:

Endpunktaliasnamen erstellen: Erstellen Sie Aliasnamen mit vielen Endpunkten. Diese 50 Endpunkte müssen entweder auf dasselbe Basismodell oder auf dieselbe Version eines benutzerdefinierten Modells verweisen. Das Erstellen vieler Endpunkte, die auf dasselbe Modell verweisen, erleichtert die Verwaltung der Endpunkte, da Sie die Endpunkte für verschiedene Benutzer oder verschiedene Zwecke verwenden können.
Stapelservice: Hosten Sie mehrere Versionen eines benutzerdefinierten Modells in einem Cluster. Dies gilt für cohere.command- und cohere.command-light-Modelle, die mit der Trainingsmethode T-Few verfeinert werden. Das Hosting verschiedener Versionen eines optimierten Modells kann Ihnen helfen, die benutzerdefinierten Modelle für verschiedene Anwendungsfälle zu bewerten.

Tipp

Um das von einem Hostingcluster unterstützte Anrufvolumen zu erhöhen, können Sie die Anzahl der Instanzen erhöhen.

Blenden Sie die folgenden Abschnitte ein, um die Anforderungen für das Hosting von Modellen auf demselben Cluster zu prüfen.

Chat

Wichtig

Einige vortrainierte Basismodelle von OCI Generative AI, die für den dedizierten Bereitstellungsmodus unterstützt werden, sind jetzt veraltet und werden spätestens 6 Monate nach dem Release des 1. Ersatzmodells in den Ruhestand versetzt. Sie können ein Basismodell hosten oder ein Basismodell optimieren und das fein abgestimmte Modell in einem dedizierten KI-Cluster (dedizierter Bereitstellungsmodus) hosten, bis das Basismodell deaktiviert wird. Informationen zu den Ruhestandsdaten im dedizierten Bereitstellungsmodus finden Sie unter Modelle in den Ruhestand versetzen.

Verwenden Sie zum Hosten der vortrainierten Basischatmodelle oder optimierter Chatmodelle in einem dedizierten KI-Hostcluster die folgenden Clustereinheitsgrößen- und Endpunktregeln, die den einzelnen Basismodellen entsprechen.


Hostclustereinheitsgröße	Vergleichsregeln
Large Generic 2 für das Basismodell, `meta.llama-4-maverick-17b-128e-instruct-fp8`	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster: Erstellen Sie so viele Endpunkte wie erforderlich für das Modell `meta.llama-4-maverick-17b-128e-instruct-fp8` in demselben Hostingcluster. Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell `meta.llama-4-maverick-17b-128e-instruct-fp8` nicht verfügbar.
Large Generic V2 für das Basismodell, `meta.llama-4-scout-17b-16e-instruct`	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster: Erstellen Sie so viele Endpunkte wie erforderlich für das Modell `meta.llama-4-scout-17b-16e-instruct` in demselben Hostingcluster. Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell `meta.llama-4-scout-17b-16e-instruct` nicht verfügbar.
LARGE_COHERE_V3 für das Basismodell, `cohere.command-a-03-2025`	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster: Erstellen Sie so viele Endpunkte wie erforderlich für das Modell `cohere.command-a-03-2025` in demselben Hostingcluster. Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell `cohere.command-a-03-2025` nicht verfügbar.
Small Generic V2 für das Basismodell `meta.llama-3.2-11b-vision-instruct`	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster: Erstellen Sie beliebig viele Endpunkte für das `meta.llama-3.2-11b-vision-instruct`-Modell in demselben Hostingcluster. Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell `meta.llama-3.2-11b-vision-instruct` nicht verfügbar.
Large Generic für das Basismodell `meta.llama-3.3-70b-instruct`	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster: Erstellen Sie beliebig viele Endpunkte für das `meta.llama-3.3-70b-instruct`-Modell in demselben Hostingcluster. Hosting von benutzerdefinierten Modellen So hosten Sie mehrere benutzerdefinierte Modelle auf demselben Cluster: Optimieren Sie ein Modell mit der Trainingsmethode `LoRA`. Verwenden Sie das Modell `meta.llama-3.3-70b-instruct` als Basis. Erstellen Sie so viele Endpunkte wie für das benutzerdefinierte Modell erforderlich (dieselbe Version).
Large Generic für das Basismodell `meta.llama-3.1-70b-instruct`	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster: Erstellen Sie beliebig viele Endpunkte für das `meta.llama-3.1-70b-instruct`-Modell in demselben Hostingcluster. Hosting von benutzerdefinierten Modellen So hosten Sie mehrere benutzerdefinierte Modelle auf demselben Cluster: Optimieren Sie ein Modell mit der Trainingsmethode `LoRA`. Verwenden Sie das Modell `meta.llama-3.1-70b-instruct` als Basis. Erstellen Sie so viele Endpunkte wie für das benutzerdefinierte Modell erforderlich (dieselbe Version).
Large Generic für das Basismodell `meta.llama-3-70b-instruct`	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster: Erstellen Sie so viele Endpunkte wie für das Modell `meta.llama-3-70b-instruct` auf demselben Hostingcluster erforderlich. Hosting von benutzerdefinierten Modellen So hosten Sie mehrere benutzerdefinierte Modelle im selben Cluster: Optimieren Sie ein Modell mit der Trainingsmethode `LoRA`. Verwenden Sie das Modell `meta.llama-3-70b-instruct` als Basis. Erstellen Sie beliebig viele Endpunkte für das benutzerdefinierte Modell (gleiche Version).
Large Generic V2 für das Basismodell `meta.llama-3.2-90b-vision-instruct`	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster: Erstellen Sie beliebig viele Endpunkte für das `meta.llama-3.2-90b-vision-instruct`-Modell in demselben Hostingcluster. Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell `meta.llama-3.2-90b-vision-instruct` nicht verfügbar.
Large Generic 2 für das Basismodell `meta.llama-3.1-405b-instruct`	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte im selben Cluster: Erstellen Sie beliebig viele Endpunkte für das `meta.llama-3.1-405b-instruct`-Modell in demselben Hostingcluster. Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell `meta.llama-3.1-405b-instruct` nicht verfügbar.
Small Cohere V2 für das Basismodell, `cohere.command-r-16k` (veraltet)	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte im selben Cluster: Erstellen Sie so viele Endpunkte wie für das Modell `cohere.command-r-16k` auf demselben Hostingcluster erforderlich. Hosting von benutzerdefinierten Modellen So hosten Sie mehrere benutzerdefinierte Modelle im selben Cluster: Optimieren Sie ein Modell mit der Trainingsmethode `T-Few` oder `Vanilla`. Verwenden Sie das Modell `cohere.command-r-16k` als Basis. Erstellen Sie beliebig viele Endpunkte für das benutzerdefinierte Modell (gleiche Version). Sie können nicht verschiedene Versionen eines benutzerdefinierten Modells hosten, das im Basismodell `cohere.command-r-16k` im selben Cluster trainiert wurde, da Stack Serving nicht unterstützt wird.
Small Cohere V2 für das Basismodell `cohere.command-r-08-2024`	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte im selben Cluster: Erstellen Sie beliebig viele Endpunkte für das `cohere.command-r-08-2024`-Modell in demselben Hostingcluster. Hosting von benutzerdefinierten Modellen So hosten Sie mehrere benutzerdefinierte Modelle im selben Cluster: Optimieren Sie ein Modell mit der Trainingsmethode `T-Few` oder `Vanilla`. Verwenden Sie das Modell `cohere.command-r-08-2024` als Basis. Erstellen Sie beliebig viele Endpunkte für das benutzerdefinierte Modell (gleiche Version). Sie können nicht verschiedene Versionen eines benutzerdefinierten Modells hosten, das im Basismodell `cohere.command-r-16k` im selben Cluster trainiert wurde, da Stack Serving nicht unterstützt wird.
Large Cohere V2_2 für das Basismodell, `cohere.command-r-plus` (veraltet)	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte im selben Cluster: Erstellen Sie so viele Endpunkte wie für das Modell `cohere.command-r-plus` auf demselben Hostingcluster erforderlich. Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell `cohere.command-r-plus` nicht verfügbar.
Large Cohere V2_2 für das Basismodell `cohere.command-r-plus-08-2024`	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte im selben Cluster: Erstellen Sie beliebig viele Endpunkte für das `cohere.command-r-plus-08-2024`-Modell in demselben Hostingcluster. Hosting von benutzerdefinierten Modellen Feinabstimmung für das Modell `cohere.command-r-plus-08-2024` nicht verfügbar.

Erneut

Verwenden Sie zum Hosten des Rerank-Modells in einem dedizierten AI-Hostcluster die folgenden Clustereinheitengrößen- und Endpunktregeln.


Hostclustereinheitsgröße	Vergleichsregeln
RERANK_COHERE	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte im selben Cluster: Erstellen Sie so viele Endpunkte wie erforderlich für das Modell `cohere.rerank.3-5` in demselben Hostingcluster. Hosting benutzerdefinierter Modelle Feinabstimmung für das Cohere Rerank-Modell nicht verfügbar.

Einbettung

Verwenden Sie zum Hosten der Einbettungsmodelle in einem dedizierten KI-Cluster die folgenden Regeln für Größe und Endpunkt der Clustereinheit.


Hostclustereinheitsgröße	Vergleichsregeln
Embed Cohere	Hosting-Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte im selben Cluster: Erstellen Sie so viele Endpunkte wie nötig für eines der vortrainierten Cohere Embed-Modelle auf demselben Hostingcluster. Hosting benutzerdefinierte Modelle Für die Cohere Embed-Modelle ist keine Feinabstimmung verfügbar.

Textgenerierung (veraltet)

Wichtig

Auf Anforderung nicht verfügbar: Alle vortrainierten OCI Generative AI-Grundmodelle, die für den On-Demand-Serving-Modus unterstützt werden und die Textgenerierungs- und Zusammenfassungs-APIs (einschließlich Playground) verwenden, werden jetzt eingestellt. Wir empfehlen, stattdessen die chat-modelle zu verwenden.
Kann auf Clustern gehostet werden: Wenn Sie eine Zusammenfassung oder ein Generierungsmodell wie cohere.command in einem dedizierten KI-Cluster (dedizierter Bereitstellungsmodus) hosten, können Sie dieses Modell weiter verwenden, bis es abgelaufen ist. Diese Modelle, wenn sie in einem dedizierten KI-Cluster gehostet werden, sind nur in US Midwest (Chicago) verfügbar. Informationen zu Ablaufdaten und Definitionen finden Sie unter Modelle in den Ruhestand versetzen.

Um die Textgenerierungsmodelle in einem dedizierten KI-Hostcluster zu hosten, verwenden Sie die folgenden Clustereinheitsgrößen- und Endpunktregeln, die Ihrem Basismodell entsprechen.


Hostclustereinheitsgröße	Vergleichsregeln
Small Cohere für das Basismodell `cohere.command-light`	Hosting Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster: Erstellen Sie so viele Endpunkte wie für das Modell `cohere.command-light` auf demselben Hostingcluster erforderlich. Hosting benutzerdefinierte Modelle So hosten Sie verschiedene benutzerdefinierte Modelle auf demselben Cluster: Optimieren Sie alle Modelle mit der Schulungsmethode `T-Few`. Verwenden Sie das Modell `cohere.command-light` als Basis. Stellen Sie sicher, dass alle Basismodelle dieselbe Version aufweisen. Erstellen Sie einen Endpunkt für jedes Modell auf demselben Hostingcluster.
Large Cohere für das Basismodell `cohere.command`	Hosting Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster: Erstellen Sie so viele Endpunkte wie erforderlich für das `cohere.command`-Modell mit derselben Version auf demselben Hostingcluster. Hosting benutzerdefinierte Modelle So hosten Sie verschiedene benutzerdefinierte Modelle auf demselben Cluster: Optimieren Sie alle Modelle mit der Schulungsmethode `T-Few`. Verwenden Sie das Modell `cohere.command` als Basis. Stellen Sie sicher, dass alle Basismodelle dieselbe Version aufweisen. Fügen Sie dem Hostcluster für jedes Modell einen Endpunkt hinzu.
Llama2 70 für das Basismodell `meta.llama-2-70b-chat`	Hosting Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster: Erstellen Sie so viele Endpunkte wie für das Modell `meta.llama-2-70b-chat` auf demselben Hostingcluster erforderlich.

Zusammenfassung (veraltet)

Wichtig

Das cohere.command-Modell, das für den On-Demand-Serving-Modus unterstützt wird, wird jetzt eingestellt. Dieses Modell ist für den dedizierten Serving-Modus veraltet. Wenn Sie cohere.command in einem dedizierten KI-Cluster (dedizierter Bereitstellungsmodus) zur Zusammenfassung hosten, können Sie dieses gehostete Modellreplikat weiterhin mit der Zusammenfassungs-API und im Playground verwenden, bis das Modell cohere.command für den dedizierten Bereitstellungsmodus abläuft. Diese Modelle, wenn sie in einem dedizierten KI-Cluster gehostet werden, sind nur in US Midwest (Chicago) verfügbar. Informationen zu Ablaufdaten und Definitionen finden Sie unter Modelle in den Ruhestand versetzen. Wir empfehlen Ihnen, stattdessen die Chatmodelle zu verwenden, die dieselben Zusammenfassungsfunktionen bieten, einschließlich der Kontrolle über die Länge und den Stil der Zusammenfassung.

Um das vortrainierte cohere.command-Zusammenfassungsmodell in einem dedizierten KI-Hostcluster zu hosten, verwenden Sie die folgenden Clustereinheitsgrößen- und Endpunktregeln.


Hostingclustereinheitsgröße	Zuordnungsregeln
Large Cohere für das Basismodell `cohere.command`	Hosting Basismodelle So hosten Sie dasselbe vortrainierte Basismodell über mehrere Endpunkte in demselben Cluster: Erstellen Sie so viele Endpunkte wie erforderlich für das `cohere.command`-Modell mit derselben Version auf demselben Hostingcluster. Hosting benutzerdefinierte Modelle So hosten Sie verschiedene benutzerdefinierte Modelle auf demselben Cluster: Optimieren Sie alle Modelle mit der Schulungsmethode `T-Few`. Verwenden Sie das Modell `cohere.command` als Basis. Stellen Sie sicher, dass alle Basismodelle dieselbe Version aufweisen. Fügen Sie dem Hostcluster für jedes Modell einen Endpunkt hinzu.

Trainingsdaten

Datasets für das Training benutzerdefinierter Modelle haben folgende Anforderungen:

Pro benutzerdefiniertem Modell ist maximal ein Optimierungs-Dataset zulässig. Dieser Datensatz wird zufällig auf ein Verhältnis von 80:20 für das Training und die Validierung aufgeteilt.
Jede Datei muss mindestens 32 Beispiele für Eingabeaufforderungs-/Abschlusspaare enthalten.
Das Dateiformat ist JSONL.
Jede Zeile in der Datei JSONL hat das folgende Format:
{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
Die Datei muss in einem OCI Object Storage-Bucket gespeichert werden.

Erfahren Sie mehr über Schulungsdatenanforderungen in der generativen KI.

Eingabedaten für Texteinbettungen

Die Eingabedaten für die Erstellung von Texteinbettungen haben folgende Anforderungen:

Sie können Sätze, Phrasen oder Absätze für Einbettungen entweder einzeln oder durch Hochladen einer Datei hinzufügen.
Nur Dateien mit der Erweiterung .txt sind zulässig.
Wenn Sie eine Eingabedatei verwenden, muss jeder eingegebene Satz, jede Wortgruppe oder jeder Absatz in der Datei durch ein Zeilenendezeichen getrennt werden.
Für jeden Lauf sind maximal 96 Eingaben zulässig.
In der Konsole muss jede Eingabe weniger als 512 Token für Nur-Text-Modelle enthalten.
Wenn eine Eingabe zu lang ist, wählen Sie, ob der Anfang oder das Ende des Texts abgeschnitten werden soll, um innerhalb des Tokenlimits zu passen, indem Sie den Parameter Abschneiden auf Start oder Ende setzen. Wenn eine Eingabe den Tokengrenzwert von 512 überschreitet und der Parameter Abschneiden auf Kein Wert gesetzt ist, wird eine Fehlermeldung angezeigt.
Für die Text- und Bildmodelle können Sie Dateien und Eingaben haben, die alle bis zu 128.000 Token hinzufügen.
Für die Modelle zum Einbetten von Text und Bildern, wie Cohere Embed English Image V3, können Sie entweder Text hinzufügen oder nur ein Bild hinzufügen. Für das Image können Sie die API verwenden. Bildeingabe ist in der Konsole nicht verfügbar. Geben Sie für die API in jeder Ausführung ein base64-codiertes Image ein. Beispiel: Ein 512 x 512-Bild wird in etwa 1.610 Token konvertiert.

Erfahren Sie mehr über das Erstellen von Texteinbettungen in OCI Generative AI.