On-Demand- und dedizierte Modi für OCI Generative AI-Modelle

OCI Generative AI bietet sein Modell in zwei Arten von Bereitstellungsmodi an: On-Demand und Dedicated. Prüfen Sie die folgenden Themen, um festzustellen, welcher Modus zu Ihren Anwendungsfällen passt.

Bedarfsgesteuerter Modus

Sie können die vortrainierten Basismodelle in generativer KI über zwei Modi erreichen: On-Demand und dediziert. Im Folgenden werden die wichtigsten Features für den On-Demand-Modus aufgeführt:
  • Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.

  • Geringe Barriere für den Einsatz generativer KI.
  • Ideal für Experimente, Proof of Concept und Modellauswertung.
  • Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.
Wichtig

Änderung des dynamischen Throttling-Limits für On-Demand-Modus

OCI Generative AI passt das Throttling-Limit für Anforderungen für jeden aktiven Mandanten basierend auf dem Modellbedarf und der Systemkapazität dynamisch an, um die Ressourcenzuweisung zu optimieren und einen fairen Zugriff sicherzustellen.

Diese Änderung hängt von folgenden Faktoren ab:

  • Der vom Zielmodell unterstützte aktuelle maximale Durchsatz.
  • Ungenutzte Systemkapazität zum Zeitpunkt der Änderung.
  • Die historische Durchsatznutzung jedes Mandanten und alle angegebenen Override-Limits, die für diesen Mandanten festgelegt sind.

Hinweis: Aufgrund der dynamischen Drosselung sind die Ratenlimits nicht dokumentiert und können sich ändern, um den systemweiten Bedarf zu decken.

Tipp

Aufgrund der dynamischen Änderung der Throttling-Grenze empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance der Integration in den Service.

Abgang im Bedarfsmodus

Wenn ein Modell im On-Demand-Modus eingestellt wird, kann es nicht mehr im Playground des generativen KI-Service oder über die Inferenz-API für generative KI verwendet werden.

Einstellung für On-Demand-Modus

Wenn ein Modell im On-Demand-Modus veraltet ist, bleibt es im generativen KI-Service verfügbar, hat aber eine definierte Zeit, die es verwendet werden kann, bevor es eingestellt wird. Diese Zeit ist länger für den dedizierten Modus.

Informationen zu den OCI Generative AI-Modellen finden Sie unter Abgangsdaten des Modells (On-Demand-Modus).

Dedizierter Modus

  • Sie erhalten ein dediziertes Set von GPUs für die dedizierten KI-Cluster.
  • Sie können benutzerdefinierte Modelle in den dedizierten KI-Clustern erstellen, indem Sie eine Teilmenge der angebotenen vortrainierten Basismodelle in generativer KI für die Feinabstimmung optimieren.
  • Sie können Replikate der grundlegenden und fein abgestimmten Modelle in den dedizierten KI-Clustern hosten.
  • Sie schreiben im Voraus fest, wie viele Stunden die dedizierten KI-Cluster verwendet werden. Preise finden Sie auf der Seite Preise.
  • Verfügbar für die vortrainierten Modelle in allen aufgeführten Regionen.
  • Sie erhalten eine vorhersehbare Performance und sind für Produktions-Workloads geeignet.
Hinweis

Um ein Modell über den dedizierten Modus zu erreichen, müssen Sie einen Endpunkt für dieses Modell in einem dedizierten KI-Cluster erstellen.

Abgang für dedizierten Modus

Wenn ein Modell im dedizierten Modus deaktiviert wird, können Sie kein dediziertes KI-Cluster für das eingestellte Modell mehr erstellen. Ein aktives dediziertes KI-Cluster, auf dem ein eingestelltes Modell ausgeführt wird, wird jedoch weiterhin ausgeführt. Ein benutzerdefiniertes Modell, auf dem ein veraltetes Modell ausgeführt wird, ist auch weiterhin für aktive dedizierte KI-Cluster verfügbar. Außerdem können Sie weiterhin neue dedizierte KI-Cluster mit einem benutzerdefinierten Modell erstellen, das auf einem stillgelegten Modell erstellt wurde. Oracle bietet jedoch nur begrenzten Support für diese Szenarien, und das Oracle Engineering fordert Sie möglicherweise auf, ein Upgrade auf ein unterstütztes Modell durchzuführen, um Probleme im Zusammenhang mit Ihrem Modell zu beheben.

Um in einem dedizierten Modus anzufordern, dass ein Modell länger als das Abgangsdatum am Leben bleibt, erstellen Sie ein Supportticket.

Einstellung für dedizierten Modus

Wenn ein Modell im dedizierten Modus veraltet ist, bleibt es im generativen KI-Service verfügbar, hat aber eine definierte Zeit, die es verwendet werden kann, bevor es stillgelegt wird. Die Verfallszeit für den dedizierten Modus ist länger als die On-Demand-Verfallszeit für dasselbe Modell.

Informationen zu den OCI Generative AI-Modellen finden Sie unter Abgangsdaten des Modells (dedizierter Modus).