OpenAI gpt-oss-120b (New)
OCI Generative AI admite el acceso al modelo OpenAI gpt-oss-120b previamente entrenado.
openai.gpt-oss-120b es un modelo de lenguaje de solo texto y de peso abierto diseñado para realizar potentes tareas de razonamiento y agénticas.
Disponible en estas regiones
- Centro de Alemania (Fráncfort)
- Centro de Japón (Osaka)
- Medio Oeste de EE. UU. (Chicago)
Acceder a este modelo
Características clave
- Nombre del modelo en OCI Generative AI:
openai.gpt-oss-120b - Tamaño de modelo: 117 mil millones de parámetros
- Solo modo de texto: introduzca el texto y obtenga una salida de texto. No se admiten imágenes ni entradas de archivos, como archivos de audio, vídeo y documentos.
- Conocimiento: especializado en razonamiento avanzado y tareas basadas en texto en una amplia gama de temas.
- Longitud de contexto: 128 000 tokens (la petición de datos máxima + la longitud de respuesta es de 128 000 tokens por cada ejecución). En el patio de recreo, la longitud de respuesta se limita a 16.000 tokens por cada ejecución.
- Excels en estos casos de uso: debido a sus datos de entrenamiento, este modelo es especialmente sólido en STEM (ciencia, tecnología, ingeniería y matemáticas), codificación y conocimiento general. Adecuado para tareas de alto razonamiento y nivel de producción.
- Llamadas a funciones: sí, a través de la API.
- Tiene razonamiento: sí.
- Corte de conocimiento: junio de 2024
Para obtener detalles sobre las funciones clave, consulte la OpenAI gpt-oss documentation.
Modo bajo demanda
El modelo OpenAI gpt-oss-120b (Beta) solo está disponible en el modo bajo demanda.
| Nombre de modelo | Nombre de modelo de OCI | Nombre de producto de página de asignación de precios |
|---|---|---|
| OpenAI gpt-oss-120b | openai.gpt-oss-120b |
OpenAI - gpt-oss-120b Precios para:
|
-
Paga sobre la marcha por cada llamada de inferencia cuando utiliza los modelos en el patio de recreo o cuando llama a los modelos a través de la API.
- Baja barrera para empezar a utilizar la IA generativa.
- Ideal para la experimentación, la prueba de concepto y la evaluación de modelos.
- Disponible para los modelos preentrenados en regiones que no se muestran como (solo cluster de IA dedicado).
Ajuste de límite de limitación dinámica para el modo bajo demanda
OCI Generative AI ajusta dinámicamente el límite de limitación de solicitudes para cada arrendamiento activo en función de la demanda del modelo y la capacidad del sistema para optimizar la asignación de recursos y garantizar un acceso justo.
Este ajuste depende de los siguientes factores:
- Rendimiento máximo actual soportado por el modelo de destino.
- Cualquier capacidad del sistema no utilizada en el momento del ajuste.
- El uso del rendimiento histórico de cada arrendamiento y cualquier límite de sustitución especificado definido para ese arrendamiento.
Nota: Debido a la limitación dinámica, los límites de velocidad no están documentados y pueden cambiar para satisfacer la demanda en todo el sistema.
Debido al ajuste de límite de limitación dinámica, recomendamos implementar una estrategia de retroceso, que implica retrasar las solicitudes después de un rechazo. Sin una, las solicitudes rápidas repetidas pueden provocar más rechazos a lo largo del tiempo, una mayor latencia y un posible bloqueo temporal del cliente por parte del servicio de IA generativa. Al utilizar una estrategia de retroceso, como una estrategia de retroceso exponencial, puede distribuir las solicitudes de manera más uniforme, reducir la carga y mejorar el éxito de los reintentos, siguiendo las mejores prácticas del sector y mejorando la estabilidad y el rendimiento generales de su integración en el servicio.
Cluster de IA dedicado para el modelo
En la lista de regiones anterior, las regiones que no están marcadas con (solo cluster de AI dedicado) tienen opciones de cluster de AI a demanda y dedicado. Para la opción a demanda, no necesita clusters y puede acceder al modelo en el patio de la consola o a través de la API. Obtenga información sobre el modo dedicado.
Para acceder a un modelo a través de un cluster de IA dedicado en cualquier región de la lista, debe crear un punto final para ese modelo en un cluster de IA dedicado. Para ver el tamaño de la unidad de cluster que coincide con este modelo, consulte la siguiente tabla.
| Modelo base | Cluster de Ajuste | Cluster de alojamiento | Información de página de asignación de precios | Aumento de límite de cluster de solicitud |
|---|---|---|---|---|
|
No disponible para ajuste |
|
|
|
Si no tiene suficientes límites de cluster en su arrendamiento para alojar el modelo OpenAI gpt-oss-120b en un cluster de AI dedicado, solicite que el límite dedicated-unit-h100-count aumente en 2.
Referencias de rendimiento de cluster
Revise las referencias de rendimiento del cluster OpenAI gpt-oss-120b (Nuevo) para diferentes casos de uso.
Fechas de liberación y baja
| Modelo | Fecha de liberación | Fecha de baja bajo demanda | Fecha de baja en modo dedicado |
|---|---|---|---|
openai.gpt-oss-120b
|
2025-11-17 | Al menos un mes después de la publicación del 1er modelo de sustitución. | Al menos 6 meses después de la liberación del 1er modelo de reemplazo. |
Para obtener una lista de todas las líneas de tiempo de modelo y los detalles de baja, consulte Baja de los modelos.
Parámetros de Modelo
Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.
- Máximo de tokens de salida
-
Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados. La longitud máxima de petición de datos + salida es de 128.000 tokens para cada ejecución. En el patio de recreo, el máximo de tokens de salida está limitado a 16.000 tokens por cada ejecución.
Consejo
Para entradas grandes con problemas difíciles, defina un valor alto para el parámetro de tokens de salida máximo. - Temperatura
-
Nivel de aleatoriedad utilizado para generar el texto de salida. Mínimo: 0, Máximo: 2, Valor por defecto: 1
Consejo
Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta. - p principales
-
Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a
pun número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Definapen 1 para considerar todos los tokens. Valor por Defecto: 1 - Penalización de frecuencia
-
Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria. Establecido en 0 para desactivar. Valor por Defecto: 0
- Penalización de presencia
-
Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado. Establecido en 0 para desactivar. Valor por Defecto: 0