OpenAI gpt-oss-20b (New)

O OCI Generative AI suporta acesso ao modelo OpenAI gpt-oss-20b pré-treinado.

O openai.gpt-oss-20b é um modelo de linguagem somente texto, de peso aberto, projetado para raciocínio avançado e tarefas ágeis.

Disponível nestas regiões

  • Centro da Alemanha (Frankfurt)
  • Centro do Japão (Osaka)
  • Centro-Oeste dos EUA (Chicago)

Principais Recursos

  • Nome do modelo na OCI Generative AI: openai.gpt-oss-20b
  • Tamanho do Modelo: 21 bilhões de parâmetros
  • Somente Modo de Texto: insira o texto e obtenha uma saída de texto. Imagens e entradas de arquivos, como arquivos de áudio, vídeo e documento, não são suportadas.
  • Conhecimento: Especializado em raciocínio avançado e tarefas baseadas em texto em uma ampla gama de assuntos.
  • Tamanho do Contexto: 128.000 tokens (o tamanho máximo do prompt + da resposta é de 128.000 tokens para cada execução). No playground, o comprimento da resposta é limitado a 16.000 tokens para cada execução.
  • Excels em Estes Casos de Uso: Devido aos seus dados de treinamento, esse modelo é especialmente forte em STEM (ciência, tecnologia, engenharia e matemática), codificação e conhecimento geral. Use para casos de uso de baixa latência, no dispositivo, inferência local ou iteração rápida que não exigem memória grande.
  • Chamada de Função: Sim, por meio da API.
  • Tem Argumento: Sim.
  • Knowledge Cutoff: junho de 2024

Para obter detalhes sobre os principais recursos, consulte a documentação do gpt-oss OpenAI.

Modo sob Demanda

Observação

O modelo OpenAI gpt-oss-20b só está disponível no modo sob demanda.
Nome do Modelo Nome do Modelo do OCI Nome do Produto da Página de Precificação
OpenAI gpt-oss-20b openai.gpt-oss-20b OpenAI - gpt-oss-20b

Preços para:

  • Tokens de entrada
  • Tokens de Saída
Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado. Veja a seguir os principais recursos do modo sob demanda:
  • Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.

  • Baixa barreira para começar a usar IA generativa.
  • Ótimo para experimentação, prova de conceito e avaliação de modelo.
  • Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).
Importante

Ajuste de Limite de Controle Dinâmico para Modo Sob Demanda

A OCI Generative AI ajusta dinamicamente o limite de limitação de solicitações para cada tenancy ativa com base na demanda do modelo e na capacidade do sistema para otimizar a alocação de recursos e garantir um acesso justo.

Esse ajuste depende dos seguintes fatores:

  • O throughput máximo atual suportado pelo modelo de destino.
  • Qualquer capacidade do sistema não utilizada no momento do ajuste.
  • O uso histórico do throughput de cada tenancy e quaisquer limites de substituição especificados definidos para essa tenancy.

Nota: Devido à limitação dinâmica, os limites de taxa não são documentados e podem ser alterados para atender à demanda de todo o sistema.

Dica

Devido ao ajuste do limite de limitação dinâmica, recomendamos a implementação de uma estratégia de back-off, que envolve o atraso de solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais de sua integração ao serviço.

Cluster de IA Dedicado para o Modelo

Na lista de regiões anteriores, as regiões que não estão marcadas com (somente cluster de IA dedicado) têm opções de cluster de IA on-demand e dedicadas. Para a opção sob demanda, você não precisa de clusters e pode acessar o modelo no playground da Console ou por meio da API. Saiba mais sobre o modo dedicado.

Para acessar um modelo por meio de um cluster de IA dedicado em qualquer região listada, você deve criar um ponto final para esse modelo em um cluster de IA dedicado. Para o tamanho da unidade de cluster que corresponde a este modelo, consulte a tabela a seguir.

Modelo Base Cluster de Ajuste Cluster de Hosts Informações da Página de Preços Aumento do Limite do Cluster de Solicitações
  • Nome do Modelo: OpenAI gpt-oss-20b
  • Nome do Modelo do OCI: openai.gpt-oss-20b
Não disponível para ajuste fino
  • Tamanho da Unidade: OAI_H100_X1
  • Unidades Obrigatórias: 1
  • Nome do produto da página de preços: OpenAI - Dedicated
  • Para Hospedagem, Multiplique o Preço Unitário: x1
  • Nome do Limite: dedicated-unit-h100-count
  • Para Hospedagem, Solicitar Aumento do Limite por: 1
Dica

Se você não tiver limites de cluster suficientes em sua tenancy para hospedar o modelo OpenAI gpt-oss-20b em um cluster de IA dedicado, solicite que o limite dedicated-unit-h100-count aumente em 1.

Benchmarks de Desempenho do Cluster

Revise os benchmarks de desempenho do cluster OpenAI gpt-oss-20b (Novo) para diferentes casos de uso.

Datas de Liberação e Baixa

Modelo Data de Liberação Data de Aposentadoria Sob Demanda Data de Baixa do Modo Dedicado
openai.gpt-oss-20b 2025-11-17 Pelo menos um mês após o lançamento do 1o modelo de substituição. Pelo menos 6 meses após o lançamento do 1o modelo de substituição.
Importante

Para obter uma lista de todas as linhas de tempo do modelo e detalhes de baixa, consulte Desativando os Modelos.

Parâmetros de Modelo

Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.

Máximo de tokens de saída

O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados. O comprimento máximo de prompt + saída é de 128.000 tokens para cada execução. No playground, o máximo de tokens de saída é limitado a 16.000 tokens para cada execução.

Dica

Para entradas grandes com problemas difíceis, defina um valor alto para o parâmetro de tokens de saída máxima.
Temperatura

O nível de aleatoriedade usado para gerar o texto de saída. Mín.: 0, Máx.: 2, Padrão: 1

Dica

Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas.
Top p

Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a p um número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p como 1 para considerar todos os tokens. Padrão: 1

Penalidade de frequência

Uma penalidade atribuída a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória. Defina como 0 para desativar. Padrão: 0

Penalidade de presença

Uma multa atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados. Defina como 0 para desativar. Padrão: 0