Modellabgang

OCI Generative AI deaktiviert seine großen Sprachmodelle (LLMs) basierend auf dem Typ und dem Bereitstellungsmodus jedes Modells. Die LLMs dienen den Benutzeranforderungen entweder in einem On-Demand-Modus oder in einem dedizierten Modus. In den folgenden Abschnitten erfahren Sie mehr über jeden Bereitstellungsmodus und darüber, wie Sie benachrichtigt werden können, bevor ein Modell ausläuft.

Bedarfsgesteuerter Modus

Sie können die vortrainierten Basismodelle in generativer KI über zwei Modi erreichen: On-Demand und dediziert. Im Folgenden werden die wichtigsten Features für den On-Demand-Modus aufgeführt:
  • Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.

  • Geringe Barriere für den Einsatz generativer KI.
  • Ideal zum Experimentieren, zum Nachweis von Konzepten und zur Auswertung der Modelle.
  • Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.
Tipp

Um einen zuverlässigen Zugriff auf generative KI-Modelle im On-Demand-Modus sicherzustellen, empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance Ihrer Integration in den Service.

Abgang im Bedarfsmodus

Wenn ein Modell im On-Demand-Modus eingestellt wird, kann es nicht mehr im Playground des generativen KI-Service oder über die Inferenz-API für generative KI verwendet werden.

Einstellung für On-Demand-Modus

Wenn ein Modell im On-Demand-Modus veraltet ist, bleibt es im generativen KI-Service verfügbar, hat aber eine definierte Zeit, die es verwendet werden kann, bevor es eingestellt wird. Diese Zeit ist länger für den dedizierten Modus.

Informationen zu den OCI Generative AI-Modellen finden Sie unter Abgangsdaten des Modells (On-Demand-Modus).

Dedizierter Modus

  • Sie erhalten ein dediziertes Set von GPUs für die dedizierten KI-Cluster.
  • Sie können benutzerdefinierte Modelle in den dedizierten KI-Clustern erstellen, indem Sie eine Teilmenge der vorgeschulten grundlegenden Modelle in generativer KI für die Feinabstimmung optimieren.
  • Sie können Replikate der grundlegenden und fein abgestimmten Modelle in den dedizierten KI-Clustern hosten.
  • Sie schreiben im Voraus fest, wie viele Stunden die dedizierten KI-Cluster verwendet werden. Preise finden Sie auf der Seite Preise.
  • Verfügbar für die vortrainierten Modelle in allen aufgeführten Regionen.
  • Sie erhalten eine vorhersehbare Performance und sind für Produktions-Workloads geeignet.
Abgang für dedizierten Modus

Wenn ein Modell im dedizierten Modus deaktiviert wird, können Sie kein dediziertes KI-Cluster für das eingestellte Modell mehr erstellen. Ein aktives dediziertes KI-Cluster, auf dem ein eingestelltes Modell ausgeführt wird, wird jedoch weiterhin ausgeführt. Ein benutzerdefiniertes Modell, auf dem ein veraltetes Modell ausgeführt wird, ist auch weiterhin für aktive dedizierte KI-Cluster verfügbar. Außerdem können Sie weiterhin neue dedizierte KI-Cluster mit einem benutzerdefinierten Modell erstellen, das auf einem stillgelegten Modell erstellt wurde. Oracle bietet jedoch nur begrenzten Support für diese Szenarien, und das Oracle Engineering fordert Sie möglicherweise auf, ein Upgrade auf ein unterstütztes Modell durchzuführen, um Probleme im Zusammenhang mit Ihrem Modell zu beheben.

Um in einem dedizierten Modus anzufordern, dass ein Modell länger als das Abgangsdatum am Leben bleibt, erstellen Sie ein Supportticket.

Einstellung für dedizierten Modus

Wenn ein Modell im dedizierten Modus veraltet ist, bleibt es im generativen KI-Service verfügbar, hat aber eine definierte Zeit, die es verwendet werden kann, bevor es stillgelegt wird. Die Verfallszeit für den dedizierten Modus ist länger als die On-Demand-Verfallszeit für dasselbe Modell.

Informationen zu den OCI Generative AI-Modellen finden Sie unter Abgangsdaten des Modells (dedizierter Modus).

Benachrichtigungen für Abgangsdaten abrufen

Sie können den OCI Notifications-Service abonnieren, um über Modellabgangsdaten benachrichtigt zu werden. Wenn Sie sich anmelden, erhalten Sie Meldungen über die Einstellung und den Abgang von Modellen mit der folgenden Häufigkeit:

  • On-Demand-Modus: 14 und 7 Tage vor dem Modellabgangsdatum.
  • Dedizierter Modus: 90, 60, 30 und 7 Tage vor dem Modellabgangsdatum.

Erfahren Sie, wie Sie OCI-Ankündigungen abonnieren, um Benachrichtigungen zu erhalten. Wenn Sie die Ankündigung erstellen, wählen Sie für den Service Oracle Cloud Infrastructure Generative AI Service aus.