On-Demand- und dedizierte Modi für OCI Generative AI-Modelle

OCI Generative AI bietet zwei Modellbereitstellungsmodi: On-Demand und dediziert. Prüfen Sie diese Themen, um den Modus auszuwählen, der am besten zu Ihrem Anwendungsfall passt.

Nachdem Sie diese Seite geprüft haben, finden Sie Informationen zu den Modi, die für jedes Modell verfügbar sind, unter Generative KI-Modelle nach Region. Preise finden Sie auf der Seite Preise.

Bedarfsgesteuerter Modus

Im On-Demand-Modus können Sie unterstützte vortrainierte Basismodelle verwenden, ohne ein dediziertes KI-Cluster zu erstellen.

Wichtige Features:

  • Pay as you go für jeden Inferenzaufruf, unabhängig davon, ob Sie den Playground oder die API verwenden.
  • Verwenden Sie generative KI, ohne dedizierte Kapazität bereitzustellen.
  • Geeignet für Experimente, Proof of Concept und Modellauswertung.
  • Verfügbar für vortrainierte Modelle in Regionen, in denen das Modell nicht als nur dediziertes KI-Cluster aufgeführt ist.

Änderung des dynamischen Throttling-Limits für On-Demand-Modus

OCI Generative AI passt das Throttling-Limit für Anforderungen für jeden aktiven Mandanten basierend auf dem Modellbedarf und der Systemkapazität dynamisch an, um die Ressourcenzuweisung zu optimieren und einen fairen Zugriff sicherzustellen.

Diese Änderung hängt von folgenden Faktoren ab:

  • Der vom Zielmodell unterstützte aktuelle maximale Durchsatz.
  • Ungenutzte Systemkapazität zum Zeitpunkt der Änderung.
  • Die historische Durchsatznutzung jedes Mandanten und alle angegebenen Override-Limits, die für diesen Mandanten festgelegt sind.

Hinweis: Aufgrund der dynamischen Drosselung sind die Ratenlimits nicht dokumentiert und können sich ändern, um den systemweiten Bedarf zu decken.

Tipp

Aufgrund der dynamischen Änderung der Throttling-Grenze empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance der Integration in den Service.

Einstellung für On-Demand-Modus

Wenn ein Modell im On-Demand-Modus eingestellt wird, kann es nicht mehr im Playground des generativen KI-Service oder über die Inferenz-API für generative KI verwendet werden.

Wenn ein Modell im On-Demand-Modus veraltet ist, bleibt es im generativen KI-Service verfügbar, hat aber eine definierte Zeit, die es verwendet werden kann, bevor es eingestellt wird. Diese Zeit ist länger für den dedizierten Modus.

Informationen zu den OCI Generative AI-Modellen finden Sie unter Abgangsdaten des Modells (On-Demand-Modus).

Dedizierter Modus

Im dedizierten Modus erhalten Sie dedizierte GPU-Kapazität für das Hosting und die Feinabstimmung von Modellen in OCI Generative AI. Dedizierte KI-Cluster bieten eine vorhersehbare Performance und sind für Produktions-Workloads geeignet.

Mit dedizierten KI-Clustern können Sie:

  • Optimieren Sie unterstützte vortrainierte OCI Generative AI-Modelle.
  • Hosten Sie vortrainierte OCI Generative AI-Modelle.
  • Hosten Sie benutzerdefinierte Modelle, die durch die Feinabstimmung unterstützter vortrainierter Modelle erstellt wurden.
  • Host importierte Modelle, die mit OCI Generative AI kompatibel sind.

Um im dedizierten Modus auf ein Modell zuzugreifen, erstellen Sie einen Endpunkt für das Modell in einem dedizierten KI-Cluster.

Der dedizierte Modus ist für unterstützte Modelle in den Regionen verfügbar, die für jedes Modell aufgeführt sind.

Commitment für dedizierte KI-Cluster

Für vortrainierte und fein abgestimmte OCI Generative AI-Modelle erfordern dedizierte KI-Cluster eine Nutzungsverpflichtung.

  • Hostingcluster: Mindestverpflichtung von 744 Einheitenstunden pro Hostingcluster.
  • Feinabstimmungscluster: Mindestverpflichtung von 1 Stunde pro Feinabstimmungsjob. Je nach Modell kann die Feinabstimmung mindestens 2 Einheiten erfordern.
Hinweis

Importierte Modelle erfordern keine 744-Stunden-Hosting-Verpflichtung. Wenn Sie ein dediziertes KI-Cluster zum Hosten eines importierten Modells erstellen, können Sie das Modell hosten, ohne die minimale Hostingverpflichtung einzuhalten, die für vortrainierte und fein abgestimmte OCI Generative AI-Modelle gilt.

Abgang für dedizierten Modus

Wenn ein Modell im dedizierten Modus deaktiviert wird, können Sie kein dediziertes KI-Cluster für das eingestellte Modell mehr erstellen. Ein aktives dediziertes KI-Cluster, auf dem ein eingestelltes Modell ausgeführt wird, wird jedoch weiterhin ausgeführt. Ein benutzerdefiniertes Modell, auf dem ein veraltetes Modell ausgeführt wird, ist auch weiterhin für aktive dedizierte KI-Cluster verfügbar. Außerdem können Sie weiterhin neue dedizierte KI-Cluster mit einem benutzerdefinierten Modell erstellen, das auf einem stillgelegten Modell erstellt wurde. Oracle bietet jedoch nur begrenzten Support für diese Szenarien, und das Oracle Engineering fordert Sie möglicherweise auf, ein Upgrade auf ein unterstütztes Modell durchzuführen, um Probleme im Zusammenhang mit Ihrem Modell zu beheben.

Um in einem dedizierten Modus anzufordern, dass ein Modell länger als das Abgangsdatum am Leben bleibt, erstellen Sie ein Supportticket.

Informationen zu den OCI Generative AI-Modellen finden Sie unter Abgangsdaten des Modells (dedizierter Modus).

Einstellung für dedizierten Modus

Wenn ein Modell im dedizierten Modus veraltet ist, bleibt es im generativen KI-Service verfügbar, hat aber eine definierte Zeit, die es verwendet werden kann, bevor es stillgelegt wird. Die Verfallszeit für den dedizierten Modus ist länger als die On-Demand-Verfallszeit für dasselbe Modell.