Meta Llama 3.2 11B Vision

El modelo meta.llama-3.2-11b-vision-instruct ofrece funciones de comprensión de texto e imágenes y está disponible para alojamiento dedicado. En comparación con Llama 3.2 90B Visión, Llama 3.2 11B Visión proporciona capacidades multimodales robustas en una forma más compacta.

Disponible en estas regiones

  • Este de Brasil (São Paulo) (solo cluster de IA dedicado)
  • Sur de Reino Unido (Londres) (solo cluster de IA dedicado)
  • Japan Central (Osaka) (solo cluster de IA dedicado)
  • Medio oeste de EE. UU. (Chicago) (solo cluster de IA dedicado)

Características clave

Características principales
  • Soporte multimodal: introduzca texto e imágenes y obtenga una salida de texto.
  • Tamaño de modelo: el modelo tiene 11 mil millones de parámetros.
  • Longitud de contexto: 128 000 tokens (petición de datos máxima + longitud de respuesta: 128 000 tokens por cada ejecución)
  • Soporte multilingüe: inglés, francés, alemán, hindi, italiano, portugués, español y tailandés
Acerca de la función de visión a través del soporte multimodal

Envíe una imagen, haga preguntas sobre la imagen y obtenga una salida de texto como:

  • Títulos avanzados de imágenes
  • Descripción detallada de una imagen.
  • Respuestas a preguntas sobre una imagen.
  • Información sobre gráficos en una imagen.
Más detalles
  • En el patio de recreo, para agregar la siguiente imagen y texto, debe borrar el chat que da como resultado la pérdida del contexto de la conversación anterior borrando el chat.
  • El inglés es el único idioma admitido para la opción de imagen más texto.
  • Opción multilingüe soportada para la opción de solo texto.
  • En la consola, introduzca una imagen .png o .jpg de 5 MB o menos.
  • Para API, introduzca una imagen codificada base64 en cada ejecución. Una imagen de 512 x 512 se convierte en aproximadamente 1.610 tokens.

Cluster de IA dedicado para el modelo

Para acceder a un modelo a través de un cluster de IA dedicado en cualquier región de la lista, debe crear un punto final para ese modelo en un cluster de IA dedicado. Para ver el tamaño de la unidad de cluster que coincide con este modelo, consulte la siguiente tabla.

Modelo base Cluster de Ajuste Cluster de alojamiento Información de página de asignación de precios Aumento de límite de cluster de solicitud
  • Nombre de modelo: Meta Llama 3.2 11B Vision
  • Nombre del modelo de OCI: meta.llama-3.2-11b-vision-instruct
No disponible para ajuste
  • Tamaño de unidad: Small Generic V2
  • Unidades necesarias: 1
  • Nombre del Producto de la Página de Precios: Large Meta - Dedicated
  • Para Hosting, Multiplicar el Precio Unitario: x(0.5)
  • Nombre de límite: dedicated-unit-llama2-70-count
  • Para el alojamiento, solicite un aumento del límite en:1
Consejo

  • Si no tiene suficientes límites de cluster en su arrendamiento para alojar el modelo Meta Llama 3.2 11B Vision en un cluster de AI dedicado, solicite que el límite dedicated-unit-llama2-70-count aumente en 1.

  • Revise las referencias de rendimiento del cluster Meta Llama 3.2 11B Vision para diferentes casos de uso.

Fechas de liberación y baja

Modelo Fecha de liberación Fecha de baja bajo demanda Fecha de baja en modo dedicado
meta.llama-3.2-11b-vision-instruct 2.024-11-14 La opción bajo demanda no está disponible para este modelo. Al menos 6 meses después de la liberación del 1er modelo de reemplazo.
Importante

Para obtener una lista de todas las líneas de tiempo de modelo y los detalles de baja, consulte Baja de los modelos.

Parámetros de Modelo

Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.

Máximo de tokens de salida

Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados.

Temperatura

Nivel de aleatoriedad utilizado para generar el texto de salida.

Consejo

Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta.
p principales

Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a p un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Defina p en 1 para considerar todos los tokens.

k principales

Método de muestreo en el que el modelo selecciona el siguiente token aleatoriamente de los tokens más probables top k. Un valor alto para k genera una salida más aleatoria, lo que hace que el texto de salida suene más natural. El valor predeterminado para k es 0 para los modelos Cohere Command y -1 para los modelos Meta Llama, lo que significa que el modelo debe tener en cuenta todos los tokens y no utilizar este método.

Penalización de frecuencia

Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.

Para los modelos de la familia Meta Llama, esta penalización puede ser positiva o negativa. Los números positivos animan al modelo a utilizar nuevos tokens y los números negativos animan al modelo a repetir los tokens. Establecido en 0 para desactivar.

Penalización de presencia

Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado.

Valor inicial

Parámetro que hace el mejor esfuerzo para muestrear tokens de forma determinista. Cuando se asigna un valor a este parámetro, el modelo de lenguaje grande tiene como objetivo devolver el mismo resultado para las solicitudes repetidas cuando asigna el mismo valor inicial y los mismos parámetros para las solicitudes.

Los valores permitidos son enteros y la asignación de un valor inicial grande o pequeño no afecta al resultado. La asignación de un número para el parámetro inicial es similar a etiquetar la solicitud con un número. El modelo de lenguaje grande tiene como objetivo generar el mismo conjunto de tokens para el mismo entero en solicitudes consecutivas. Esta función es especialmente útil para depurar y probar. El parámetro inicial no tiene ningún valor máximo para la API y, en la consola, su valor máximo es 9999. Si deja el valor inicial en blanco en la consola o si es nulo en la API, se desactiva esta función.

Advertencia

Es posible que el parámetro inicial no produzca el mismo resultado a largo plazo, ya que las actualizaciones del modelo en el servicio OCI Generative AI pueden invalidar el valor inicial.