OpenAI gpt-oss-20b
OCI Generative AI unterstützt den Zugriff auf das vortrainierte OpenAI gpt-oss-20b-Modell.
openai.gpt-oss-20b ist ein offenes, Nur-Text-Sprachmodell, das für leistungsstarke Argumentations- und Agent-Aufgaben entwickelt wurde.
Regionen für dieses Modell
Für unterstützte Regionen, Endpunkttypen (On-Demand- oder dedizierte KI-Cluster) und Hosting (OCI Generative AI oder externe Aufrufe) für dieses Modell finden Sie auf der Seite Modelle nach Region. Details zu den Regionen finden Sie auf der Seite Regionen für generative KI.
Zugriff auf dieses Modell
Die API-Endpunkte für alle unterstützten kommerziellen, souveränen und staatlichen Regionen sind in den Links "Management-API" und "Inferenz-API" aufgeführt. Sie können nur über die unterstützten Regionen auf jedes Modell zugreifen.
Wichtige Features
- Modellname in OCI Generative AI:
openai.gpt-oss-20b - Modellgröße: 21 Milliarden Parameter
- Nur Textmodus: Geben Sie Text ein, und rufen Sie eine Textausgabe ab. Bilder und Dateieingaben wie Audio-, Video- und Dokumentdateien werden nicht unterstützt.
- Wissen: Spezialisiert auf erweiterte Argumentations- und textbasierte Aufgaben in einer Vielzahl von Themen.
- Kontextlänge: 128.000 Token (maximale Prompt- und Antwortlänge beträgt 128.000 Token für jede Ausführung). Im Spielplatz wird die Antwortlänge für jeden Lauf auf 16.000 Token begrenzt.
- Excels at These Use Cases: Aufgrund seiner Trainingsdaten ist dieses Modell insbesondere b in STEM (Wissenschaft, Technologie, Engineering und Mathematik), Codierung und allgemeinem Wissen. Verwendung für Anwendungsfälle mit geringer Latenz, auf dem Gerät, lokale Inferenz oder schnelle Iteration, die keinen großen Speicher erfordern.
- Funktionsaufruf: Ja, über die API.
- Hat Argumentation: Ja.
- Knowledge Cutoff: Juni 2024
Details zu wichtigen Features finden Sie in der OpenAI gpt-oss-Dokumentation.
Bedarfsgesteuerter Modus
| Modellname | OCI-Modellname | Preisfindungsseite - Produktname |
|---|---|---|
| OpenAI gpt-oss-20b | openai.gpt-oss-20b |
OpenAI - gpt-oss-20b Preise für:
|
Weitere Informationen zum On-Demand-Modus.
Dediziertes KI-Cluster für das Modell
Für Modelle im On-Demand-Modus sind keine Cluster erforderlich. Greifen Sie über den Console Playground und die API darauf zu. Verwenden Sie für Modelle, die im dedizierten Modus verfügbar sind, Endpunkte, die in dedizierten KI-Clustern erstellt wurden. Weitere Informationen zum dedizierten Modus.
In der folgenden Tabelle werden die Größe der Hardwareeinheiten, die verfügbaren Regionen und die Servicelimits für dedizierte KI-Cluster aufgeführt. Dieses Modell ist nicht für die Feinabstimmung verfügbar.
| Hardwareeinheitsgröße | Verfügbare Regionen | Limitname |
|---|---|---|
| OAI_A10_X2 |
|
|
| OAI_A100_40G_X1 |
|
|
| OAI_A100_80G_X1 |
|
|
| OAI_H100_X1 |
|
|
| OAI_H200_X1 |
|
|
- Hardwarepreise finden Sie im Kostenrechner.
- Wenn die Mandantenlimits für das Hosting dieses Modells auf einem dedizierten KI-Cluster nicht ausreichen, fordern Sie eine Erhöhung des relevanten Hardwarelimits an. Beispiel: Fordern Sie eine Erhöhung für das Limit
dedicated-unit-h100-countum 1 an. Siehe Limiterhöhungsanforderungen erstellen.
Clusterperformancebenchmarks
Prüfen Sie die Performancebenchmarks für das Cluster OpenAI gpt-oss-20b (Neu) für verschiedene Anwendungsfälle.
OCI-Release- und -Abgangsdaten
Informationen zu Freigabe- und Abgangsdaten sowie zu Ersatzmodelloptionen finden Sie auf den folgenden Seiten je nach Modus (auf Anforderung oder dediziert):
Modellparameter
Um die Modellantworten zu ändern, können Sie die Werte der folgenden Parameter im Playground oder in der API ändern.
- Maximale Ausgabetoken
-
Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token. Die maximale Länge für Prompt + Ausgabe beträgt 128.000 Token für jede Ausführung. Im Playground werden die maximalen Ausgabetoken für jede Ausführung auf 16.000 Token begrenzt.
Tipp
Legen Sie für große Eingaben mit schwierigen Problemen einen hohen Wert für den Parameter "Maximale Ausgabetoken" fest. - Temperatur
-
Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird. Min: 0, Max: 2, Standard: 1
Tipp
Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen. - Top p
-
Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie
peine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Siepauf 1, um alle Token zu berücksichtigen. Standard: 1 - Frequency Penalty
-
Eine Strafe, die einem Token zugewiesen wird, wenn dieses Token häufig angezeigt wird. Hohe Strafen fördern weniger wiederholte Token und erzeugen eine zufälligere Ausgabe. Auf 0 setzen, um zu deaktivieren. Standard: 0
- Presence Penalty
-
Eine Strafe, die jedem Token zugewiesen wird, wenn es in der Ausgabe angezeigt wird, um die Generierung von Ausgaben mit noch nicht verwendeten Token zu fördern. Auf 0 setzen, um zu deaktivieren. Standard: 0