OpenAI gpt-oss-20b

O OCI Generative AI suporta acesso ao modelo OpenAI gpt-oss-20b pré-treinado.

O openai.gpt-oss-20b é um modelo de linguagem somente texto, de peso aberto, projetado para raciocínio avançado e tarefas ágeis.

Regiões para este Modelo

Importante

Para regiões suportadas, tipos de ponto final (clusters de IA sob demanda ou dedicados) e hospedagem (OCI Generative AI ou chamadas externas) para esse modelo, consulte a página Modelos por Região. Para obter detalhes sobre as regiões, consulte a página Regiões de IA Generativa.

Acessar este Modelo

Acesse esse modelo por meio da Console, API e CLI:

Observação

Os pontos finais de API para todas as regiões comerciais, soberanas e governamentais suportadas são listados nos links API de Gerenciamento e API de Inferência. Você só pode acessar cada modelo por meio de suas regiões suportadas.

Principais Recursos

Nome do modelo na OCI Generative AI: openai.gpt-oss-20b
Tamanho do Modelo: 21 bilhões de parâmetros
Somente Modo de Texto: insira o texto e obtenha uma saída de texto. Imagens e entradas de arquivos, como arquivos de áudio, vídeo e documento, não são suportadas.
Conhecimento: Especializado em raciocínio avançado e tarefas baseadas em texto em uma ampla gama de assuntos.
Tamanho do Contexto: 128.000 tokens (o tamanho máximo do prompt + da resposta é de 128.000 tokens para cada execução). No playground, o comprimento da resposta é limitado a 16.000 tokens para cada execução.
Excels em Estes Casos de Uso: Por causa de seus dados de treinamento, esse modelo é especialmente b em STEM (ciência, tecnologia, engenharia e matemática), codificação e conhecimento geral. Use para casos de uso de baixa latência, no dispositivo, inferência local ou iteração rápida que não exigem memória grande.
Chamada de Função: Sim, por meio da API.
Tem Argumento: Sim.
Knowledge Cutoff: junho de 2024

Para obter detalhes sobre os principais recursos, consulte a documentação do gpt-oss OpenAI.

Modo sob Demanda


Nome do Modelo	Nome do Modelo do OCI	Nome do Produto da Página de Precificação
OpenAI gpt-oss-20b	`openai.gpt-oss-20b`	OpenAI - gpt-oss-20b Preços para: Tokens de entrada Tokens de Saída

Saiba mais sobre o Modo sob Demanda.

Cluster de IA Dedicado para o Modelo

Para modelos no modo sob demanda, nenhum cluster é necessário. Acesse-os por meio do playground da Console e da API. Para modelos disponíveis no modo dedicado, use pontos finais criados em clusters de IA dedicados. Saiba mais sobre o Modo Dedicado.

A tabela a seguir lista tamanhos de unidades de hardware, regiões disponíveis e limites de serviço para clusters de IA dedicados. Este modelo não está disponível para ajuste fino.


Tamanho da Unidade de Hardware	Regiões Disponíveis	Nome do Limite
OAI_A10_X2	Centro da Alemanha (Frankfurt) Leste dos EUA (Ashburn) Centro-Oeste dos EUA (Chicago)	Nome do Limite: `dedicated-unit-a10-count` Solicitar Aumento por: 2
OAI_A100_80G_X1	Centro-Oeste dos EUA (Chicago)	Nome do Limite: `dedicated-unit-a100-80g-count` Solicitar Aumento por: 1
OAI_H100_X1	Leste do Brasil (São Paulo) Centro da Alemanha (Frankfurt) Sul da Índia (Hyderabad) Centro do Japão (Osaka) Sul do Reino Unido (Londres) Leste dos EUA (Ashburn) Centro-Oeste dos EUA (Chicago)	Nome do Limite: `dedicated-unit-h100-count` Solicitar Aumento por: 1

Importante

Para saber os preços do hardware, consulte o Estimador de custos.
Se os limites da tenancy forem insuficientes para hospedar esse modelo em um cluster de IA dedicado, solicite um aumento para o limite de hardware relevante. Por exemplo, solicite um aumento para o limite dedicated-unit-h100-count em 1. Consulte Solicitando um Aumento do Limite de Serviço.

Benchmarks de Desempenho do Cluster

Revise os benchmarks de desempenho do cluster OpenAI gpt-oss-20b (Novo) para diferentes casos de uso.

Datas de Lançamento e Baixa do OCI

Para datas de liberação e baixa e opções de modelo de substituição, consulte as seguintes páginas com base no modo (sob demanda ou dedicado):

Parâmetros de Modelo

Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.

Máximo de tokens de saída: O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados. O comprimento máximo de prompt + saída é de 128.000 tokens para cada execução. No playground, o máximo de tokens de saída é limitado a 16.000 tokens para cada execução.

Dica

Para entradas grandes com problemas difíceis, defina um valor alto para o parâmetro de tokens de saída máxima.
Temperatura: O nível de aleatoriedade usado para gerar o texto de saída. Mín.: 0, Máx.: 2, Padrão: 1

Dica

Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas.
Top p: Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a p um número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p como 1 para considerar todos os tokens. Padrão: 1
Penalidade de frequência: Uma penalidade atribuída a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória. Defina como 0 para desativar. Padrão: 0
Penalidade de presença: Uma multa atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados. Defina como 0 para desativar. Padrão: 0

Documentação do Oracle Cloud Infrastructure