OpenAI gpt-oss-20b
OCI Generative AI admite el acceso al modelo OpenAI gpt-oss-20b previamente entrenado.
openai.gpt-oss-20b es un modelo de lenguaje de solo texto y de peso abierto diseñado para realizar potentes tareas de razonamiento y agénticas.
Regiones para este modelo
Para las regiones soportadas, los tipos de punto final (clusters de IA dedicados o bajo demanda) y el alojamiento (OCI Generative AI o llamadas externas) para este modelo, consulte la página Modelos por región. Para obtener más información sobre las regiones, consulte la página Regiones de IA generativa.
Acceder a este modelo
Los puntos finales de API para todas las regiones comerciales, soberanas y gubernamentales soportadas se muestran en los enlaces API de gestión y API de inferencia. Puede acceder a cada modelo solo a través de sus regiones soportadas.
Características clave
- Nombre del modelo en OCI Generative AI:
openai.gpt-oss-20b - Tamaño de modelo: 21 mil millones de parámetros
- Solo modo de texto: introduzca el texto y obtenga una salida de texto. No se admiten imágenes ni entradas de archivos, como archivos de audio, vídeo y documentos.
- Conocimiento: especializado en razonamiento avanzado y tareas basadas en texto en una amplia gama de temas.
- Longitud de contexto: 128 000 tokens (la petición de datos máxima + la longitud de respuesta es de 128 000 tokens por cada ejecución). En el patio de recreo, la longitud de respuesta se limita a 16.000 tokens por cada ejecución.
- Excels en estos casos de uso: debido a sus datos de entrenamiento, este modelo es especialmente b en STEM (ciencia, tecnología, ingeniería y matemáticas), codificación y conocimiento general. Se utiliza para casos de uso de baja latencia, en el dispositivo, inferencia local o iteración rápida que no requieren memoria grande.
- Llamadas a funciones: sí, a través de la API.
- Tiene razonamiento: sí.
- Corte de conocimiento: junio de 2024
Para obtener detalles sobre las funciones clave, consulte la OpenAI gpt-oss documentation.
Modo bajo demanda
| Nombre de modelo | Nombre de modelo de OCI | Nombre de producto de página de asignación de precios |
|---|---|---|
| OpenAI gpt-oss-20b | openai.gpt-oss-20b |
OpenAI - gpt-oss-20b Precios para:
|
Obtenga más información sobre el modo bajo demanda.
Cluster de IA dedicado para el modelo
Para los modelos en modo bajo demanda, no se necesitan clusters; acceda a ellos a través del área de juegos de la consola y la API. Para los modelos disponibles en el modo dedicado, utilice puntos finales creados en clusters de IA dedicados. Obtenga información sobre el modo dedicado.
En la siguiente tabla, se muestran los tamaños de las unidades de hardware, las regiones disponibles y los límites de servicio para los clusters de IA dedicados. Este modelo no está disponible para el ajuste.
| Tamaño de unidad de hardware | Regiones disponibles | Nombre de límite |
|---|---|---|
| OAI_A10_X2 |
|
|
| OAI_A100_80G_X1 |
|
|
| OAI_H100_X1 |
|
|
- Para conocer los precios del hardware, consulte el estimador de costos.
- Si los límites de arrendamiento no son suficientes para alojar este modelo en un cluster de AI dedicado, solicite un aumento para el límite de hardware correspondiente. Por ejemplo, solicite un aumento para el límite
dedicated-unit-h100-counten 1. Consulte Solicitud de aumento del límite de servicio.
Referencias de rendimiento de cluster
Revise las referencias de rendimiento del cluster OpenAI gpt-oss-20b (Nuevo) para diferentes casos de uso.
Fechas de lanzamiento y baja de OCI
Para conocer las fechas de lanzamiento y baja y las opciones del modelo de sustitución, consulte las siguientes páginas en función del modo (bajo demanda o dedicado):
Parámetros de Modelo
Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.
- Máximo de tokens de salida
-
Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados. La longitud máxima de petición de datos + salida es de 128.000 tokens para cada ejecución. En el patio de recreo, el máximo de tokens de salida está limitado a 16.000 tokens por cada ejecución.
Consejo
Para entradas grandes con problemas difíciles, defina un valor alto para el parámetro de tokens de salida máximo. - Temperatura
-
Nivel de aleatoriedad utilizado para generar el texto de salida. Mínimo: 0, Máximo: 2, Valor por defecto: 1
Consejo
Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta. - p principales
-
Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a
pun número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Definapen 1 para considerar todos los tokens. Valor por Defecto: 1 - Penalización de frecuencia
-
Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria. Establecido en 0 para desactivar. Valor por Defecto: 0
- Penalización de presencia
-
Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado. Establecido en 0 para desactivar. Valor por Defecto: 0