OpenAI gpt-oss-20b (Beta)

Importante

Pre-General Availability: 2025-09-09

Esta documentación se encuentra en estado previo a Disponibilidad General y tiene una finalidad exclusivamente demostrativa y preliminar. Puede que no sea específica del hardware en el que se esté utilizando el software. Ni Oracle Corporation ni sus filiales son responsables de ofrecer cualquier tipo de garantía sobre esta documentación y renuncian explícitamente a ello; además no se harán responsables de las pérdidas, los costos o los daños en los que se incurra como consecuencia del uso de esta documentación.

Esta documentación no constituye ningún compromiso por parte de Oracle de proporcionar ningún tipo de material, código, funcionalidad o servicio. Esta documentación, así como los programas y servicios identificados como Versión Previa a su Disponibilidad General de Oracle, están sujetos a cambio en cualquier momento y sin previo aviso y, por tanto, no deben tomarse en consideración como base para la adopción de decisiones de compra. El desarrollo, lanzamiento y plazo de disponibilidad de cualesquiera funciones o funcionalidades de los programas y servicios identificados como Versión Previa a su Disponibilidad General de Oracle quedan a la sola discreción de Oracle. Todas las fechas de lanzamiento y otras predicciones de eventos futuros están sujetas a cambio. La disponibilidad futura de cualquier programa o servicio futuro de Oracle no debe considerarse como base para la formalización de cualquier acuerdo de licencia o servicios con Oracle.

Consulte Oracle Legal Notices.

openai.gpt-oss-20b es un modelo de lenguaje de solo texto y de peso abierto diseñado para realizar potentes tareas de razonamiento y agénticas.

Disponible en estas regiones

Centro de Alemania (Fráncfort) (solo bajo demanda)
Centro de Japón (Osaka) (solo bajo demanda)
Medio oeste de EE. UU. (Chicago) (solo bajo demanda)

Características clave

Nombre del modelo en OCI Generative AI: openai.gpt-oss-20b
Tamaño de modelo: 21 mil millones de parámetros
Disponible bajo demanda: acceda a este modelo bajo demanda, a través del patio de la consola o la API.
Solo modo de texto: introduzca el texto y obtenga una salida de texto. No se admiten imágenes ni entradas de archivos, como archivos de audio, vídeo y documentos.
Conocimiento: especializado en razonamiento avanzado y tareas basadas en texto en una amplia gama de temas.
Longitud de contexto: 128 000 tokens (la petición de datos máxima + la longitud de respuesta es de 128 000 tokens por cada ejecución). En el patio de recreo, la longitud de respuesta se limita a 16.000 tokens por cada ejecución.
Excels en estos casos de uso: debido a sus datos de entrenamiento, este modelo es especialmente sólido en STEM (ciencia, tecnología, ingeniería y matemáticas), codificación y conocimiento general. Se utiliza para casos de uso de baja latencia, en el dispositivo, inferencia local o iteración rápida que no requieren memoria grande.
Llamadas a funciones: sí, a través de la API.
Tiene razonamiento: sí.
Corte de conocimiento: junio de 2024

Para obtener detalles sobre las funciones clave, consulte la OpenAI gpt-oss documentation.

Modo bajo demanda

Nota

El modelo OpenAI gpt-oss-20b (Beta) solo está disponible en el modo bajo demanda.


Nombre de modelo	Nombre de modelo de OCI	Obtención de acceso
OpenAI gpt-oss-20b (Beta)	`openai.gpt-oss-20b`	Contact Oracle Beta Programs

Puede acceder a los modelos fundamentales previamente entrenados en IA generativa mediante dos modos: bajo demanda y dedicado. A continuación, se muestran las funciones clave para el modo bajo demanda:

Paga sobre la marcha por cada llamada de inferencia cuando utiliza los modelos en el patio de recreo o cuando llama a los modelos a través de la API.
Baja barrera para empezar a utilizar la IA generativa.
Ideal para la experimentación, la prueba de concepto y la evaluación de modelos.
Disponible para los modelos preentrenados en regiones que no se muestran como (solo cluster de IA dedicado).

Importante

Ajuste de límite de limitación dinámica para el modo bajo demanda

OCI Generative AI ajusta dinámicamente el límite de limitación de solicitudes para cada arrendamiento activo en función de la demanda del modelo y la capacidad del sistema para optimizar la asignación de recursos y garantizar un acceso justo.

Este ajuste depende de los siguientes factores:

Rendimiento máximo actual soportado por el modelo de destino.
Cualquier capacidad del sistema no utilizada en el momento del ajuste.
El uso del rendimiento histórico de cada arrendamiento y cualquier límite de sustitución especificado definido para ese arrendamiento.

Nota: Debido a la limitación dinámica, los límites de velocidad no están documentados y pueden cambiar para satisfacer la demanda en todo el sistema.

Consejo

Debido al ajuste de límite de limitación dinámica, recomendamos implementar una estrategia de retroceso, que implica retrasar las solicitudes después de un rechazo. Sin una, las solicitudes rápidas repetidas pueden provocar más rechazos a lo largo del tiempo, una mayor latencia y un posible bloqueo temporal del cliente por parte del servicio de IA generativa. Al utilizar una estrategia de retroceso, como una estrategia de retroceso exponencial, puede distribuir las solicitudes de manera más uniforme, reducir la carga y mejorar el éxito de los reintentos, siguiendo las mejores prácticas del sector y mejorando la estabilidad y el rendimiento generales de su integración en el servicio.

Fecha de liberación


Modelo	Fecha de lanzamiento beta	Fecha de baja bajo demanda	Fecha de baja en modo dedicado
`openai.gpt-oss-20b`	2.025-9-9	Provisional	Este modelo no está disponible para el modo dedicado.

Importante

Para obtener más información sobre el desuso y la baja del modelo de OCI Generative AI, consulte Baja de los modelos.

Parámetros de Modelo

Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.

Máximo de tokens de salida: Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados. La longitud máxima de petición de datos + salida es de 128.000 tokens para cada ejecución. En el patio de recreo, el máximo de tokens de salida está limitado a 16.000 tokens por cada ejecución.

Consejo

Para entradas grandes con problemas difíciles, defina un valor alto para el parámetro de tokens de salida máximo.
Temperatura: Nivel de aleatoriedad utilizado para generar el texto de salida. Mínimo: 0, Máximo: 2, Valor por defecto: 1

Consejo

Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta.
p principales: Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a p un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Defina p en 1 para considerar todos los tokens. Valor por Defecto: 1
Penalización de frecuencia: Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria. Establecido en 0 para desactivar. Valor por Defecto: 0
Penalización de presencia: Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado. Establecido en 0 para desactivar. Valor por Defecto: 0