OpenAI gpt-oss-20b (New)

OCI Generative AI supporta l'accesso al modello OpenAI gpt-oss-20b pre-addestrato.

openai.gpt-oss-20b è un modello di linguaggio a peso aperto e di solo testo progettato per il ragionamento potente e le attività identiche.

Disponibile in queste aree

  • Germania (Centro) - Francoforte
  • Giappone centrale (Osaka)
  • Stati Uniti (Midwest) - Chicago

Caratteristiche principali

  • Nome del modello nell'AI generativa OCI: openai.gpt-oss-20b
  • Dimensione modello: 21 miliardi di parametri
  • Solo modalità testo: immettere testo e ottenere un output di testo. Immagini e input di file, ad esempio file audio, video e documenti, non sono supportati.
  • Knowledge: specializzato in ragionamento avanzato e attività testuali su una vasta gamma di argomenti.
  • Lunghezza contesto: 128.000 token (la lunghezza massima del prompt + della risposta è di 128.000 token per ogni esecuzione). Nel parco giochi, la lunghezza della risposta è limitata a 16.000 gettoni per ogni esecuzione.
  • Eccellenze in questi casi d'uso: a causa dei suoi dati di formazione, questo modello è particolarmente efficace nel settore STEM (scienza, tecnologia, ingegneria e matematica), nella codifica e nella conoscenza generale. Utilizzabile per casi d'uso a bassa latenza, su dispositivo, inferenza locale o iterazione rapida che non richiedono memoria di grandi dimensioni.
  • Chiamata di funzione: Sì, tramite l'API.
  • Motivo: Sì.
  • Knowledge Cutoff: giugno 2024

Per i dettagli sulle funzioni principali, consultare la OpenAI documentazione di gpt-oss.

Modalità su richiesta

Nota

Il modello OpenAI gpt-oss-20b è disponibile solo in modalità su richiesta.
Nome modello Nome modello OCI Nome prodotto pagina determinazione prezzi
OpenAI gpt-oss-20b openai.gpt-oss-20b OpenAI - gpt-oss-20b

Prezzi per:

  • Token input
  • Token output
Puoi raggiungere i modelli di base pre-addestrati nell'intelligenza artificiale generativa attraverso due modalità: on-demand e dedicato. Di seguito sono riportate le funzioni principali per la modalità on-demand.
  • È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.

  • Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
  • Ottimo per la sperimentazione, la prova di concetto e la valutazione del modello.
  • Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).
Importante

Adeguamento limite limitazione dinamica per modalità su richiesta

OCI Generative AI regola in modo dinamico il limite di limitazione delle richieste per ogni tenancy attiva in base alla domanda del modello e alla capacità del sistema per ottimizzare l'allocazione delle risorse e garantire un accesso equo.

Questo adeguamento dipende dai seguenti fattori:

  • Throughput massimo corrente supportato dal modello di destinazione.
  • Capacità del sistema non utilizzata al momento della regolazione.
  • Uso del throughput cronologico di ciascuna tenancy e qualsiasi limite di sostituzione specificato impostato per tale tenancy.

Nota: a causa della limitazione dinamica, i limiti di frequenza non sono documentati e possono cambiare per soddisfare la domanda a livello di sistema.

Suggerimento

A causa dell'adeguamento dinamico del limite di limitazione, si consiglia di implementare una strategia di back-off, che prevede il ritardo delle richieste dopo un rifiuto. Senza una richiesta, le ripetute richieste rapide possono portare a ulteriori rifiuti nel tempo, a una maggiore latenza e a un potenziale blocco temporaneo del client da parte del servizio di intelligenza artificiale generativa. Utilizzando una strategia di back-off, ad esempio una strategia di back-off esponenziale, puoi distribuire le richieste in modo più uniforme, ridurre il carico e migliorare il successo dei nuovi tentativi, seguendo le best practice del settore e migliorando la stabilità e le prestazioni complessive della tua integrazione nel servizio.

Cluster AI dedicato per il modello

Nella lista di aree precedente, le aree non contrassegnate con (solo cluster AI dedicato) dispongono di opzioni cluster AI on-demand e dedicate. Per l'opzione on-demand, non sono necessari cluster ed è possibile raggiungere il modello nell'area di riproduzione della console o tramite l'API. Ulteriori informazioni sulla modalità dedicata.

Per raggiungere un modello tramite un cluster AI dedicato in qualsiasi area elencata, devi creare un endpoint per tale modello su un cluster AI dedicato. Per le dimensioni dell'unità cluster corrispondenti a questo modello, vedere la tabella riportata di seguito.

Modello base Cluster di ottimizzazione Cluster di hosting Informazioni pagina determinazione prezzi Richiedi aumento limite cluster
  • Nome modello: OpenAI gpt-oss-20b
  • Nome modello OCI: openai.gpt-oss-20b
Non disponibile per l'ottimizzazione
  • Dimensione unità: OAI_H100_X1
  • Unità obbligatorie: 1
  • Nome prodotto pagina determinazione prezzi: OpenAI - Dedicated
  • Per l'Hosting, Moltiplica il Prezzo Unitario: x1
  • Nome limite: dedicated-unit-h100-count
  • Per l'hosting, richiedere l'aumento del limite entro: 1
Suggerimento

Se non si dispone di limiti di cluster sufficienti nella tenancy per l'hosting del modello OpenAI gpt-oss-20b in un cluster AI dedicato, richiedere il limite dedicated-unit-h100-count da aumentare di 1.

Benchmark sulle prestazioni del cluster

Esaminare i benchmark delle prestazioni del cluster OpenAI gpt-oss-20b (Nuovo) per casi d'uso diversi.

Date rilascio e smobilizzo

Modello Data di rilascio Data smobilizzo su richiesta Data smobilizzo modalità dedicata
openai.gpt-oss-20b 2025-11-17 Almeno un mese dopo il rilascio del 1° modello di sostituzione. Almeno 6 mesi dopo il rilascio del 1o modello di sostituzione.
Importante

Per un elenco di tutte le linee temporali del modello e dei relativi dettagli, vedere Ritiro dei modelli.

Parametri modello

Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.

Numero massimo di token di output

Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati. La lunghezza massima del prompt + output è di 128.000 token per ogni esecuzione. Nel campo di gioco, i token di output massimi sono limitati a 16.000 token per ogni esecuzione.

Suggerimento

Per input di grandi dimensioni con problemi difficili, impostare un valore elevato per il parametro del numero massimo di token di output.
Temperatura

Livello di casualità utilizzato per generare il testo di output. Min: 0, Max: 2, Predefinito: 1

Suggerimento

Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate.
Top p

Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Assegnare a p un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostare p su 1 per considerare tutti i token. Impostazione predefinita: 1

Penalità di frequenza

Penale assegnata a un token quando tale token appare frequentemente. Le sanzioni elevate incoraggiano un minor numero di token ripetuti e producono un output più casuale. Impostare su 0 per disabilitare. Predefinito: 0

Penalità di presenza

Penalità assegnata a ciascun token quando viene visualizzato nell'output per incoraggiare la generazione di output con token non utilizzati. Impostare su 0 per disabilitare. Predefinito: 0