OpenAI gpt-oss-20b (New)

OCI Generative AI unterstützt den Zugriff auf das vortrainierte OpenAI gpt-oss-20b-Modell.

openai.gpt-oss-20b ist ein offenes, Nur-Text-Sprachmodell, das für leistungsstarke Argumentations- und Agent-Aufgaben entwickelt wurde.

In diesen Regionen verfügbar

Germany Central (Frankfurt)
Japan Central (Osaka)
US Midwest (Chicago)

Zugriff auf dieses Modell

Greifen Sie über die Konsole, API und die CLI auf dieses Modell zu:

Wichtige Features

Modellname in OCI Generative AI: openai.gpt-oss-20b
Modellgröße: 21 Milliarden Parameter
Nur Textmodus: Geben Sie Text ein, und rufen Sie eine Textausgabe ab. Bilder und Dateieingaben wie Audio-, Video- und Dokumentdateien werden nicht unterstützt.
Wissen: Spezialisiert auf erweiterte Argumentations- und textbasierte Aufgaben in einer Vielzahl von Themen.
Kontextlänge: 128.000 Token (maximale Prompt- und Antwortlänge beträgt 128.000 Token für jede Ausführung). Im Spielplatz wird die Antwortlänge für jeden Lauf auf 16.000 Token begrenzt.
Excels at These Use Cases: Aufgrund seiner Trainingsdaten ist dieses Modell besonders stark in MINT (Wissenschaft, Technologie, Engineering und Mathematik), Codierung und allgemeinem Wissen. Verwendung für Anwendungsfälle mit geringer Latenz, auf dem Gerät, lokale Inferenz oder schnelle Iteration, die keinen großen Speicher erfordern.
Funktionsaufruf: Ja, über die API.
Hat Argumentation: Ja.
Knowledge Cutoff: Juni 2024

Details zu wichtigen Features finden Sie in der OpenAI gpt-oss-Dokumentation.

Bedarfsgesteuerter Modus

Hinweis

Das Modell OpenAI gpt-oss-20b ist nur im On-Demand-Modus verfügbar.


Modellname	OCI-Modellname	Preisfindungsseite - Produktname
OpenAI gpt-oss-20b	`openai.gpt-oss-20b`	OpenAI - gpt-oss-20b Preise für: Eingabetoken Ausgabetoken

Sie können die vortrainierten Basismodelle in generativer KI über zwei Modi erreichen: On-Demand und dediziert. Im Folgenden werden die wichtigsten Features für den On-Demand-Modus aufgeführt:

Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.
Geringe Barriere für den Einsatz generativer KI.
Ideal für Experimente, Proof of Concept und Modellauswertung.
Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.

Wichtig

Dynamische Throttling-Limitanpassung für On-Demand-Modus

OCI Generative AI passt das Throttling-Limit für Anforderungen für jeden aktiven Mandanten basierend auf dem Modellbedarf und der Systemkapazität dynamisch an, um die Ressourcenzuweisung zu optimieren und einen fairen Zugriff sicherzustellen.

Diese Anpassung hängt von folgenden Faktoren ab:

Der vom Zielmodell unterstützte aktuelle maximale Durchsatz.
Nicht verwendete Systemkapazität zum Zeitpunkt der Anpassung.
Die historische Durchsatznutzung jedes Mandanten und alle angegebenen Override-Limits, die für diesen Mandanten festgelegt sind.

Hinweis: Aufgrund der dynamischen Drosselung sind die Ratenlimits nicht dokumentiert und können sich ändern, um den systemweiten Bedarf zu decken.

Tipp

Aufgrund der dynamischen Anpassung der Drosselgrenze empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance Ihrer Integration in den Service.

Dediziertes KI-Cluster für das Modell

In der vorherigen Regionsliste haben Regionen, die nicht mit (nur dediziertes KI-Cluster) gekennzeichnet sind, sowohl On-Demand- als auch dedizierte KI-Clusteroptionen. Für die Option On-Demand benötigen Sie keine Cluster, und Sie können das Modell im Playground der Konsole oder über die API erreichen. Weitere Informationen zum dedizierten Modus.

Um ein Modell über ein dediziertes KI-Cluster in einer beliebigen aufgelisteten Region zu erreichen, müssen Sie einen Endpunkt für dieses Modell in einem dedizierten KI-Cluster erstellen. Die Größe der Clustereinheit, die mit diesem Modell übereinstimmt, finden Sie in der folgenden Tabelle.


Basismodell	Optimierungscluster	Hostingcluster	Preisfindungsseiteninformationen	Erhöhung des Clusterlimits anfordern
Modellname: OpenAI gpt-oss-20b OCI-Modellname: `openai.gpt-oss-20b`	Nicht für Feinabstimmung verfügbar	Einheit: OAI_H100_X1 Erforderliche Maßeinheiten: 1	Produktname der Preisseite: OpenAI - Dedicated Für Hosting Multiply the Unit Price: x1	Limitname: `dedicated-unit-h100-count` Für Hosting erhöhen Sie das Limit um: 1

Tipp

Wenn in Ihrem Mandanten nicht genügend Clusterlimits für das Hosting des OpenAI gpt-oss-20b-Modells in einem dedizierten KI-Cluster vorhanden sind, fordern Sie die Erhöhung des Limits dedicated-unit-h100-count um 1 an.

Clusterperformancebenchmarks

Prüfen Sie die Performancebenchmarks für das Cluster OpenAI gpt-oss-20b (Neu) für verschiedene Anwendungsfälle.

Abruf- und Abgangsdatum


Modell	Freigabedatum	Abgangsdatum bei Bedarf	Abgangsdatum im dedizierten Modus
`openai.gpt-oss-20b`	2025-11-17	Mindestens einen Monat nach dem Release des 1. Ersatzmodells.	Mindestens 6 Monate nach dem Release des 1. Ersatzmodells.

Wichtig

Eine Liste aller Modellzeitpositionen und Abgangsdetails finden Sie unter Ablauf der Modelle.

Modellparameter

Um die Modellantworten zu ändern, können Sie die Werte der folgenden Parameter im Playground oder in der API ändern.

Maximale Ausgabetoken: Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token. Die maximale Länge für Prompt + Ausgabe beträgt 128.000 Token für jede Ausführung. Im Playground werden die maximalen Ausgabetoken für jede Ausführung auf 16.000 Token begrenzt.

Tipp

Legen Sie für große Eingaben mit schwierigen Problemen einen hohen Wert für den Parameter "Maximale Ausgabetoken" fest.
Temperatur: Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird. Min: 0, Max: 2, Standard: 1

Tipp

Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen.
Top p: Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie p eine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Sie p auf 1, um alle Token zu berücksichtigen. Standard: 1
Frequency Penalty: Eine Strafe, die einem Token zugewiesen wird, wenn dieses Token häufig angezeigt wird. Hohe Strafen fördern weniger wiederholte Token und erzeugen eine zufälligere Ausgabe. Auf 0 setzen, um zu deaktivieren. Standard: 0
Presence Penalty: Eine Strafe, die jedem Token zugewiesen wird, wenn es in der Ausgabe angezeigt wird, um die Generierung von Ausgaben mit noch nicht verwendeten Token zu fördern. Auf 0 setzen, um zu deaktivieren. Standard: 0

Oracle Cloud Infrastructure-Dokumentation