Modellabgang

OCI Generative AI deaktiviert seine großen Sprachmodelle (LLMs) basierend auf dem Typ und dem Bereitstellungsmodus jedes Modells. Die LLMs dienen den Benutzeranforderungen entweder in einem On-Demand-Modus oder in einem dedizierten Modus. In den folgenden Abschnitten erfahren Sie mehr über jeden Bereitstellungsmodus und darüber, wie Sie benachrichtigt werden können, bevor ein Modell ausläuft.

Bedarfsgesteuerter Modus

Sie können die vortrainierten Basismodelle in generativer KI über zwei Modi erreichen: On-Demand und dediziert. Im Folgenden werden die wichtigsten Features für den On-Demand-Modus aufgeführt:

Sie zahlen wie gewohnt für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.
Geringe Barriere für den Einsatz generativer KI.
Ideal für Experimente, Proof of Concept und Modellauswertung.
Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.

Wichtig

Änderung des dynamischen Throttling-Limits für On-Demand-Modus

OCI Generative AI passt das Throttling-Limit für Anforderungen für jeden aktiven Mandanten basierend auf dem Modellbedarf und der Systemkapazität dynamisch an, um die Ressourcenzuweisung zu optimieren und einen fairen Zugriff sicherzustellen.

Diese Änderung hängt von folgenden Faktoren ab:

Der vom Zielmodell unterstützte aktuelle maximale Durchsatz.
Ungenutzte Systemkapazität zum Zeitpunkt der Änderung.
Die historische Durchsatznutzung jedes Mandanten und alle angegebenen Override-Limits, die für diesen Mandanten festgelegt sind.

Hinweis: Aufgrund der dynamischen Drosselung sind die Ratenlimits nicht dokumentiert und können sich ändern, um den systemweiten Bedarf zu decken.

Tipp

Aufgrund der dynamischen Änderung der Throttling-Grenze empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance der Integration in den Service.

Abgang im Bedarfsmodus: Wenn ein Modell im On-Demand-Modus eingestellt wird, kann es nicht mehr im Playground des generativen KI-Service oder über die Inferenz-API für generative KI verwendet werden.
Einstellung für On-Demand-Modus: Wenn ein Modell im On-Demand-Modus veraltet ist, bleibt es im generativen KI-Service verfügbar, hat aber eine definierte Zeit, die es verwendet werden kann, bevor es eingestellt wird. Diese Zeit ist länger für den dedizierten Modus.

Informationen zu den OCI Generative AI-Modellen finden Sie unter Abgangsdaten des Modells (On-Demand-Modus).

Dedizierter Modus

Sie erhalten ein dediziertes Set von GPUs für die dedizierten KI-Cluster.
Sie können benutzerdefinierte Modelle in den dedizierten KI-Clustern erstellen, indem Sie eine Teilmenge der angebotenen vortrainierten Basismodelle in generativer KI für die Feinabstimmung optimieren.
Sie können Replikate der grundlegenden und fein abgestimmten Modelle in den dedizierten KI-Clustern hosten.
Sie schreiben im Voraus fest, wie viele Stunden die dedizierten KI-Cluster verwendet werden. Preise finden Sie auf der Seite Preise.
Verfügbar für die vortrainierten Modelle in allen aufgeführten Regionen.
Sie erhalten eine vorhersehbare Performance und sind für Produktions-Workloads geeignet.

Abgang für dedizierten Modus

Wenn ein Modell im dedizierten Modus deaktiviert wird, können Sie kein dediziertes KI-Cluster für das eingestellte Modell mehr erstellen. Ein aktives dediziertes KI-Cluster, auf dem ein eingestelltes Modell ausgeführt wird, wird jedoch weiterhin ausgeführt. Ein benutzerdefiniertes Modell, auf dem ein veraltetes Modell ausgeführt wird, ist auch weiterhin für aktive dedizierte KI-Cluster verfügbar. Außerdem können Sie weiterhin neue dedizierte KI-Cluster mit einem benutzerdefinierten Modell erstellen, das auf einem stillgelegten Modell erstellt wurde. Oracle bietet jedoch nur begrenzten Support für diese Szenarien, und das Oracle Engineering fordert Sie möglicherweise auf, ein Upgrade auf ein unterstütztes Modell durchzuführen, um Probleme im Zusammenhang mit Ihrem Modell zu beheben.

Um in einem dedizierten Modus anzufordern, dass ein Modell länger als das Abgangsdatum am Leben bleibt, erstellen Sie ein Supportticket.

Einstellung für dedizierten Modus

Wenn ein Modell im dedizierten Modus veraltet ist, bleibt es im generativen KI-Service verfügbar, hat aber eine definierte Zeit, die es verwendet werden kann, bevor es stillgelegt wird. Die Verfallszeit für den dedizierten Modus ist länger als die On-Demand-Verfallszeit für dasselbe Modell.

Informationen zu den OCI Generative AI-Modellen finden Sie unter Abgangsdaten des Modells (dedizierter Modus).

Benachrichtigungen für Abgangsdaten abrufen

Sie können den OCI Notifications-Service abonnieren, um über Modellabgangsdaten benachrichtigt zu werden. Wenn Sie sich anmelden, erhalten Sie Meldungen über die Einstellung und den Abgang von Modellen mit der folgenden Häufigkeit:

On-Demand-Modus: 30 und 14 Tage vor dem Modellablaufdatum. (2 Benachrichtigungen)
Dedizierter Modus: 180, 90, 60, 30 und 14 Tage vor dem Modellablaufdatum. (5 Benachrichtigungen)

Erfahren Sie, wie Sie OCI-Ankündigungen abonnieren, um Benachrichtigungen zu erhalten. Wenn Sie die Ankündigung erstellen, wählen Sie für den Service Oracle Cloud Infrastructure Generative AI Service aus.

Oracle Cloud Infrastructure-Dokumentation

Modellabgang

Bedarfsgesteuerter Modus

Dedizierter Modus

Benachrichtigungen für Abgangsdaten abrufen