Meta Llama 4 Maverick
Los modelos Llama 4 aprovechan una arquitectura de mezcla de expertos (MoE), lo que permite capacidades de procesamiento eficientes y potentes. Estos modelos están optimizados para la comprensión multimodal, las tareas multilingües, la codificación, la llamada a herramientas y la alimentación de sistemas ágentes. Consulte las siguientes secciones para obtener más información sobre el modelo meta.llama-4-maverick-17b-128e-instruct-fp8.
Regiones para este modelo
Para las regiones soportadas, los tipos de punto final (clusters de IA dedicados o bajo demanda) y el alojamiento (OCI Generative AI o llamadas externas) para este modelo, consulte la página Modelos por región. Para obtener más información sobre las regiones, consulte la página Regiones de IA generativa.
Acceder a este modelo
Los puntos finales de API para todas las regiones comerciales, soberanas y gubernamentales soportadas se muestran en los enlaces API de gestión y API de inferencia. Puede acceder a cada modelo solo a través de sus regiones soportadas.
Características clave
- Serie Meta Llama 4
-
- Capacidades multimodales: los modelos Llama 4 son de forma nativa multimodal, capaces de procesar e integrar varios tipos de datos, incluidos texto e imágenes. Introduzca texto e imágenes y obtenga una salida de texto.
- Soporte multilingüe: formación en datos que abarcan 200 idiomas, con soporte de ajuste para 12 idiomas, incluidos árabe, inglés, francés, alemán, hindi, indonesio, italiano, portugués, español, tagalo, tailandés y vietnamita. La comprensión de la imagen se limita al inglés.
- Implementación eficiente: pequeña huella de GPU.
- Knowledge Cutoff: agosto de 2024
- Restricciones de Uso: La Política de Uso Aceptable de Lama 4 restringe su uso en la Unión Europea (UE).
- Meta Llama 4 Maverick
-
- Arquitectura: Similar a Meta Llama Scout, este modelo cuenta con 17 mil millones de parámetros activos, pero dentro de un marco más amplio de alrededor de 400 mil millones de parámetros, utilizando 128 expertos.
- Ventana de contexto: admite una longitud de contexto de 512 000 tokens. (La longitud máxima de petición de datos + respuesta es de 512 000 tokens para cada ejecución).
- Rendimiento: coincide con los modelos avanzados en las tareas de codificación y razonamiento.
- Otras funciones
-
- Inferencia bajo demanda disponible en Chicago.
- Para la inferencia bajo demanda, la longitud de la respuesta está limitada a 4.000 tokens por cada ejecución.
- Para el modo dedicado, la longitud de la respuesta no está limitada y la longitud del contexto es de 512 000 tokens.
- En la consola, introduzca una imagen
.pngo.jpgde 5 MB o menos. - Para API, introduzca una imagen codificada
base64en cada ejecución. Una imagen de 512 x 512 se convierte en aproximadamente 1.610 tokens.
Modo bajo demanda
Consulte la siguiente tabla para ver el nombre del producto bajo demanda de este modelo en la página de precios.
| Nombre de modelo | Nombre de modelo de OCI | Nombre de producto de página de asignación de precios |
|---|---|---|
| Meta Llama 4 Maverick | meta.llama-4-maverick-17b-128e-instruct-fp8 |
Meta Llama 4 Maverick |
Cluster de IA dedicado para el modelo
Para los modelos en modo bajo demanda, no se necesitan clusters; acceda a ellos a través del área de juegos de la consola y la API. Para los modelos disponibles en el modo dedicado, utilice puntos finales creados en clusters de IA dedicados. Obtenga información sobre el modo dedicado.
Para acceder a un modelo a través de un cluster de IA dedicado en cualquier región de la lista, debe crear un punto final para ese modelo en un cluster de IA dedicado. Para ver el tamaño de la unidad de cluster que coincide con este modelo, consulte la siguiente tabla.
| Modelo base | Cluster de Ajuste | Cluster de alojamiento | Información de página de asignación de precios | Aumento de límite de cluster de solicitud |
|---|---|---|---|---|
|
No disponible para ajuste |
|
|
|
Si no tiene suficientes límites de cluster en su arrendamiento para alojar el modelo Meta Llama 4 Maverick en un cluster de AI dedicado, solicite que el límite dedicated-unit-llama2-70-count aumente en 4.
Reglas de punto final para clusters
- Un cluster de AI dedicado puede contener hasta 50 puntos finales.
- Utilice estos puntos finales para crear alias que apunten al mismo modelo base o a la misma versión de un modelo personalizado, pero no a ambos tipos.
- Varios puntos finales para el mismo modelo facilitan su asignación a diferentes usuarios o propósitos.
| Tamaño de unidad de cluster de alojamiento | Reglas de punto final |
|---|---|
| Large Generic 2 |
|
-
Para aumentar el volumen de llamadas soportado por un cluster de alojamiento, aumente el recuento de instancias editando el cluster de AI dedicado. Consulte Updating a Dedicated AI Cluster.
-
Para más de 50 puntos finales por cluster, solicite un aumento del límite,
endpoint-per-dedicated-unit-count. Consulte Solicitud de un aumento del límite de servicio y Límites de servicio para la IA generativa.
Referencias de rendimiento de cluster
Revise las referencias de rendimiento del cluster Meta Llama 4 Maverick para diferentes casos de uso.
Fechas de lanzamiento y baja de OCI
Para conocer las fechas de lanzamiento y baja y las opciones del modelo de sustitución, consulte las siguientes páginas en función del modo (bajo demanda o dedicado):
Parámetros de Modelo
Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.
- Máximo de tokens de salida
-
Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados.
- Temperatura
-
Nivel de aleatoriedad utilizado para generar el texto de salida.
Consejo
Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta. - p principales
-
Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a
pun número decimal positivo entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Definapen 1 para considerar todos los tokens. - k principales
-
Método de muestreo en el que el modelo selecciona el siguiente token aleatoriamente de los tokens más probables
top k. Un valor alto parakgenera una salida más aleatoria, lo que hace que el texto de salida suene más natural. El valor predeterminado para k es 0 para los modelosCohere Commandy -1 para los modelosMeta Llama, lo que significa que el modelo debe tener en cuenta todos los tokens y no utilizar este método. - Penalización de frecuencia
-
Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.
Para los modelos de la familia Meta Llama, esta penalización puede ser positiva o negativa. Los números positivos animan al modelo a utilizar nuevos tokens y los números negativos animan al modelo a repetir los tokens. Establecido en 0 para desactivar.
- Penalización de presencia
-
Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado. Para los modelos de la familia Meta Llama, esta penalización puede ser positiva o negativa. Establecido en 0 para desactivar.
- Valor inicial
-
Parámetro que hace el mejor esfuerzo para muestrear tokens de forma determinista. Cuando se asigna un valor a este parámetro, el modelo de lenguaje grande tiene como objetivo devolver el mismo resultado para las solicitudes repetidas cuando asigna el mismo valor inicial y los mismos parámetros para las solicitudes.
Los valores permitidos son enteros y la asignación de un valor inicial grande o pequeño no afecta al resultado. La asignación de un número para el parámetro inicial es similar a etiquetar la solicitud con un número. El modelo de lenguaje grande tiene como objetivo generar el mismo conjunto de tokens para el mismo entero en solicitudes consecutivas. Esta función es especialmente útil para depurar y probar. El parámetro inicial no tiene ningún valor máximo para la API y, en la consola, su valor máximo es 9999. Si deja el valor inicial en blanco en la consola o si es nulo en la API, se desactiva esta función.
Advertencia
Es posible que el parámetro inicial no produzca el mismo resultado a largo plazo, ya que las actualizaciones del modelo en el servicio OCI Generative AI pueden invalidar el valor inicial.