OpenAI gpt-oss-120b (Beta)

Importante

Pre-General Availability: 2025-09-09

Esta documentação está em um status de Pré-disponibilidade Geral (Pré-GA) e destina-se somente a fins de demonstração e uso preliminar. O documento pode não ser específico para o equipamento ("hardware") no qual você está usando o programa de computador ("software"). A Oracle Corporation e suas empresas afiliadas não fornecem quaisquer garantias relacionadas à documentação e estão isentas de qualquer responsabilidade decorrente de perdas, despesas ou danos incorridos no uso desta documentação.

Esta documentação não é um compromisso da Oracle em entregar qualquer material, código, funcionalidade ou serviços. Esta documentação e os programas e serviços Pré-GA da Oracle estão sujeitos a alterações a qualquer momento sem aviso prévio e, portanto, não devem ser considerados na tomada de decisões de compra. O desenvolvimento, a liberação e a data de disponibilidade de quaisquer recursos ou funcionalidades para programas e serviços Pré-GA da Oracle são de critério exclusivo da Oracle. Todas as datas de lançamento ou outras previsões de eventos futuros estão sujeitas a alterações. A disponibilidade futura de qualquer programa ou serviço futuro da Oracle não deverá ser considerada na celebração de qualquer contrato de licença ou de serviço com a Oracle.

Consulte Avisos Legais da Oracle.

O openai.gpt-oss-120b é um modelo de linguagem somente texto, de peso aberto, projetado para raciocínio avançado e tarefas ágeis.

Disponível nestas regiões

Centro da Alemanha (Frankfurt) (somente sob demanda)
Centro do Japão (Osaka) (somente sob demanda)
Centro-Oeste dos EUA (Chicago) (somente sob demanda)

Principais Recursos

Nome do modelo na OCI Generative AI: openai.gpt-oss-120b
Tamanho do Modelo: 117 bilhões de parâmetros
Disponível sob Demanda: Acesse esse modelo sob demanda, por meio do playground da Console ou da API.
Somente Modo de Texto: insira o texto e obtenha uma saída de texto. Imagens e entradas de arquivos, como arquivos de áudio, vídeo e documento, não são suportadas.
Conhecimento: Especializado em raciocínio avançado e tarefas baseadas em texto em uma ampla gama de assuntos.
Tamanho do Contexto: 128.000 tokens (o tamanho máximo do prompt + da resposta é de 128.000 tokens para cada execução). No playground, o comprimento da resposta é limitado a 16.000 tokens para cada execução.
Excels em Estes Casos de Uso: Devido aos seus dados de treinamento, esse modelo é especialmente forte em STEM (ciência, tecnologia, engenharia e matemática), codificação e conhecimento geral. Adequado para tarefas de alto raciocínio e nível de produção.
Chamada de Função: Sim, por meio da API.
Tem Argumento: Sim.
Knowledge Cutoff: junho de 2024

Para obter detalhes sobre os principais recursos, consulte a documentação do gpt-oss OpenAI.

Modo sob Demanda

Observação

O modelo OpenAI gpt-oss-120b (Beta) só está disponível no modo sob demanda.


Nome do Modelo	Nome do Modelo do OCI	Obtendo Acesso
OpenAI gpt-oss-120b (Beta)	`openai.gpt-oss-120b`	Contact Oracle Beta Programs

Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado. Veja a seguir os principais recursos do modo sob demanda:

Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.
Baixa barreira para começar a usar IA generativa.
Ótimo para experimentação, prova de conceito e avaliação de modelo.
Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).

Importante

Ajuste de Limite de Controle Dinâmico para Modo Sob Demanda

A OCI Generative AI ajusta dinamicamente o limite de limitação de solicitações para cada tenancy ativa com base na demanda do modelo e na capacidade do sistema para otimizar a alocação de recursos e garantir um acesso justo.

Esse ajuste depende dos seguintes fatores:

O throughput máximo atual suportado pelo modelo de destino.
Qualquer capacidade do sistema não utilizada no momento do ajuste.
O uso histórico do throughput de cada tenancy e quaisquer limites de substituição especificados definidos para essa tenancy.

Nota: Devido à limitação dinâmica, os limites de taxa não são documentados e podem ser alterados para atender à demanda de todo o sistema.

Dica

Devido ao ajuste do limite de limitação dinâmica, recomendamos a implementação de uma estratégia de back-off, que envolve o atraso de solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais de sua integração ao serviço.

Data de Liberação


Modelo	Data de lançamento beta	Data de Aposentadoria Sob Demanda	Data de Baixa do Modo Dedicado
`openai.gpt-oss-120b`	2,025-9-9	Provisório	Este modelo não está disponível para o modo dedicado.

Importante

Para saber mais sobre a descontinuação e a desativação do modelo do OCI Generative AI, consulte Desativando os Modelos.

Parâmetros de Modelo

Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.

Máximo de tokens de saída: O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados. O comprimento máximo de prompt + saída é de 128.000 tokens para cada execução. No playground, o máximo de tokens de saída é limitado a 16.000 tokens para cada execução.

Dica

Para entradas grandes com problemas difíceis, defina um valor alto para o parâmetro de tokens de saída máxima.
Temperatura: O nível de aleatoriedade usado para gerar o texto de saída. Mín.: 0, Máx.: 2, Padrão: 1

Dica

Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas.
Top p: Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a p um número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p como 1 para considerar todos os tokens. Padrão: 1
Penalidade de frequência: Uma penalidade atribuída a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória. Defina como 0 para desativar. Padrão: 0
Penalidade de presença: Uma multa atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados. Defina como 0 para desativar. Padrão: 0