OpenAI gpt-oss-20b

OCI Generative AI supporta l'accesso al modello OpenAI gpt-oss-20b pre-addestrato.

openai.gpt-oss-20b è un modello di linguaggio a peso aperto e di solo testo progettato per il ragionamento potente e le attività identiche.

Aree per questo modello

Importante

Per le aree supportate, i tipi di endpoint (cluster AI su richiesta o dedicati) e l'hosting (AI generativa OCI o chiamate esterne) per questo modello, vedere la pagina Modelli per area. Per informazioni dettagliate sulle aree, vedere la pagina Aree AI generative.

Accedi a questo modello

Accedere a questo modello tramite la console, l'API e l'interfaccia CLI:
Nota

Gli endpoint API per tutte le region commerciali, sovrane e governative supportate sono elencati nei collegamenti API di gestione e API di inferenza. È possibile accedere a ciascun modello solo tramite le aree supportate.

Caratteristiche principali

  • Nome del modello nell'AI generativa OCI: openai.gpt-oss-20b
  • Dimensione modello: 21 miliardi di parametri
  • Solo modalità testo: immettere testo e ottenere un output di testo. Immagini e input di file, ad esempio file audio, video e documenti, non sono supportati.
  • Knowledge: specializzato in ragionamento avanzato e attività testuali su una vasta gamma di argomenti.
  • Lunghezza contesto: 128.000 token (la lunghezza massima del prompt + della risposta è di 128.000 token per ogni esecuzione). Nel parco giochi, la lunghezza della risposta è limitata a 16.000 gettoni per ogni esecuzione.
  • Escelte in questi casi d'uso: a causa dei suoi dati di formazione, questo modello è particolarmente adatto per STEM (scienza, tecnologia, ingegneria e matematica), codifica e conoscenza generale. Utilizzabile per casi d'uso a bassa latenza, su dispositivo, inferenza locale o iterazione rapida che non richiedono memoria di grandi dimensioni.
  • Chiamata di funzione: Sì, tramite l'API.
  • Motivo: Sì.
  • Knowledge Cutoff: giugno 2024

Per i dettagli sulle funzioni principali, consultare la OpenAI documentazione di gpt-oss.

Cluster AI dedicato per il modello

Per i modelli in modalità on-demand, non sono necessari cluster. Accedervi tramite il parco giochi e l'API della console. Per i modelli disponibili in modalità dedicata, utilizzare gli endpoint creati su cluster AI dedicati. Ulteriori informazioni sulla modalità dedicata.

Nella tabella seguente sono elencate le dimensioni delle unità hardware, le aree disponibili e i limiti del servizio per i cluster AI dedicati. Questo modello non è disponibile per l'ottimizzazione.

Dimensione unità hardware Regioni disponibili Nome limite
OAI_A10_X2
  • Emirati Arabi Uniti (Est) - Dubai
  • Germania (Centro) - Francoforte
  • Stati Uniti (Est) - Ashburn
  • Stati Uniti (Midwest) - Chicago
  • Nome limite: dedicated-unit-a10-count
  • Richiedi aumento entro: 2
OAI_A100_40G_X1
  • Emirati Arabi Uniti (Est) - Dubai
  • Nome limite: dedicated-unit-a100-40g-count
  • Richiedi aumento entro: 1
OAI_A100_80G_X1
  • Stati Uniti (Ovest) - Phoenix
  • Stati Uniti (Midwest) - Chicago
  • Nome limite: dedicated-unit-a100-80g-count
  • Richiedi aumento entro: 1
OAI_H100_X1
  • Brasile (Est) - San Paolo
  • Germania (Centro) - Francoforte
  • India (Sud) - Hyderabad
  • Giappone centrale (Osaka)
  • Regno Unito (Sud) - Londra
  • Stati Uniti (Est) - Ashburn
  • Stati Uniti (Midwest) - Chicago
  • Nome limite: dedicated-unit-h100-count
  • Richiedi aumento entro: 1
OAI_H200_X1
  • Arabia Saudita centrale (Riad)
  • Nome limite: dedicated-unit-h200-count
  • Richiedi aumento entro: 1
Importante

  • Per i prezzi dell'hardware, consulta il stima dei costi.
  • Se i limiti della tenancy non sono sufficienti per l'hosting di questo modello in un cluster AI dedicato, richiedere un aumento per il limite hardware pertinente. Ad esempio, richiedere un aumento di 1 per il limite dedicated-unit-h100-count. Vedere Creazione di una richiesta di aumento del limite.

Benchmark sulle prestazioni del cluster

Esaminare i benchmark delle prestazioni del cluster OpenAI gpt-oss-20b (Nuovo) per casi d'uso diversi.

Parametri modello

Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.

Numero massimo di token di output

Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati. La lunghezza massima del prompt + output è di 128.000 token per ogni esecuzione. Nel campo di gioco, i token di output massimi sono limitati a 16.000 token per ogni esecuzione.

Suggerimento

Per input di grandi dimensioni con problemi difficili, impostare un valore elevato per il parametro del numero massimo di token di output.
Temperatura

Livello di casualità utilizzato per generare il testo di output. Min: 0, Max: 2, Predefinito: 1

Suggerimento

Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate.
Top p

Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Assegnare a p un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostare p su 1 per considerare tutti i token. Impostazione predefinita: 1

Penalità di frequenza

Penale assegnata a un token quando tale token appare frequentemente. Le sanzioni elevate incoraggiano un minor numero di token ripetuti e producono un output più casuale. Impostare su 0 per disabilitare. Predefinito: 0

Penalità di presenza

Penalità assegnata a ciascun token quando viene visualizzato nell'output per incoraggiare la generazione di output con token non utilizzati. Impostare su 0 per disabilitare. Predefinito: 0