OpenAI gpt-oss-20b (Beta)

Importante

Consulte Oracle Legal Notices.

openai.gpt-oss-20b es un modelo de lenguaje de solo texto y de peso abierto diseñado para realizar potentes tareas de razonamiento y agénticas.

Disponible en estas regiones

  • Centro de Alemania (Fráncfort) (solo bajo demanda)
  • Centro de Japón (Osaka) (solo bajo demanda)
  • Medio oeste de EE. UU. (Chicago) (solo bajo demanda)

Características clave

  • Nombre del modelo en OCI Generative AI: openai.gpt-oss-20b
  • Tamaño de modelo: 21 mil millones de parámetros
  • Disponible bajo demanda: acceda a este modelo bajo demanda, a través del patio de la consola o la API.
  • Solo modo de texto: introduzca el texto y obtenga una salida de texto. No se admiten imágenes ni entradas de archivos, como archivos de audio, vídeo y documentos.
  • Conocimiento: especializado en razonamiento avanzado y tareas basadas en texto en una amplia gama de temas.
  • Longitud de contexto: 128 000 tokens (la petición de datos máxima + la longitud de respuesta es de 128 000 tokens por cada ejecución). En el patio de recreo, la longitud de respuesta se limita a 16.000 tokens por cada ejecución.
  • Excels en estos casos de uso: debido a sus datos de entrenamiento, este modelo es especialmente sólido en STEM (ciencia, tecnología, ingeniería y matemáticas), codificación y conocimiento general. Se utiliza para casos de uso de baja latencia, en el dispositivo, inferencia local o iteración rápida que no requieren memoria grande.
  • Llamadas a funciones: sí, a través de la API.
  • Tiene razonamiento: sí.
  • Corte de conocimiento: junio de 2024

Para obtener detalles sobre las funciones clave, consulte la OpenAI gpt-oss documentation.

Modo bajo demanda

Nota

El modelo OpenAI gpt-oss-20b (Beta) solo está disponible en el modo bajo demanda.
Nombre de modelo Nombre de modelo de OCI Obtención de acceso
OpenAI gpt-oss-20b (Beta) openai.gpt-oss-20b Contact Oracle Beta Programs
Puede acceder a los modelos fundamentales previamente entrenados en IA generativa mediante dos modos: bajo demanda y dedicado. A continuación, se muestran las funciones clave para el modo bajo demanda:
  • Paga sobre la marcha por cada llamada de inferencia cuando utiliza los modelos en el patio de recreo o cuando llama a los modelos a través de la API.

  • Baja barrera para empezar a utilizar la IA generativa.
  • Ideal para la experimentación, la prueba de concepto y la evaluación de modelos.
  • Disponible para los modelos preentrenados en regiones que no se muestran como (solo cluster de IA dedicado).
Importante

Ajuste de límite de limitación dinámica para el modo bajo demanda

OCI Generative AI ajusta dinámicamente el límite de limitación de solicitudes para cada arrendamiento activo en función de la demanda del modelo y la capacidad del sistema para optimizar la asignación de recursos y garantizar un acceso justo.

Este ajuste depende de los siguientes factores:

  • Rendimiento máximo actual soportado por el modelo de destino.
  • Cualquier capacidad del sistema no utilizada en el momento del ajuste.
  • El uso del rendimiento histórico de cada arrendamiento y cualquier límite de sustitución especificado definido para ese arrendamiento.

Nota: Debido a la limitación dinámica, los límites de velocidad no están documentados y pueden cambiar para satisfacer la demanda en todo el sistema.

Consejo

Debido al ajuste de límite de limitación dinámica, recomendamos implementar una estrategia de retroceso, que implica retrasar las solicitudes después de un rechazo. Sin una, las solicitudes rápidas repetidas pueden provocar más rechazos a lo largo del tiempo, una mayor latencia y un posible bloqueo temporal del cliente por parte del servicio de IA generativa. Al utilizar una estrategia de retroceso, como una estrategia de retroceso exponencial, puede distribuir las solicitudes de manera más uniforme, reducir la carga y mejorar el éxito de los reintentos, siguiendo las mejores prácticas del sector y mejorando la estabilidad y el rendimiento generales de su integración en el servicio.

Fecha de liberación

Modelo Fecha de lanzamiento beta Fecha de baja bajo demanda Fecha de baja en modo dedicado
openai.gpt-oss-20b 2.025-9-9 Provisional Este modelo no está disponible para el modo dedicado.
Importante

Para obtener más información sobre el desuso y la baja del modelo de OCI Generative AI, consulte Baja de los modelos.

Parámetros de Modelo

Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.

Máximo de tokens de salida

Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados. La longitud máxima de petición de datos + salida es de 128.000 tokens para cada ejecución. En el patio de recreo, el máximo de tokens de salida está limitado a 16.000 tokens por cada ejecución.

Consejo

Para entradas grandes con problemas difíciles, defina un valor alto para el parámetro de tokens de salida máximo.
Temperatura

Nivel de aleatoriedad utilizado para generar el texto de salida. Mínimo: 0, Máximo: 2, Valor por defecto: 1

Consejo

Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta.
p principales

Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a p un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Defina p en 1 para considerar todos los tokens. Valor por Defecto: 1

Penalización de frecuencia

Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria. Establecido en 0 para desactivar. Valor por Defecto: 0

Penalización de presencia

Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado. Establecido en 0 para desactivar. Valor por Defecto: 0