Meta Llama 3.3 (70B)

El modelo meta.llama-3.3-70b-instruct está disponible para inferencias bajo demanda, alojamiento dedicado y ajuste, y ofrece un mejor rendimiento que Llama 3.1 70B y Llama 3.2 90B para tareas de texto.

Regiones para este modelo

Importante

Para las regiones soportadas, los tipos de punto final (clusters de IA dedicados o bajo demanda) y el alojamiento (OCI Generative AI o llamadas externas) para este modelo, consulte la página Modelos por región. Para obtener más información sobre las regiones, consulte la página Regiones de IA generativa.

Características clave

  • El modelo tiene 70 mil millones de parámetros.
  • Acepta entradas de sólo texto y produce salidas de sólo texto.
  • Utiliza el mismo formato de petición que Llama 3.1 70B.
  • Admite el mismo intérprete de código que Llama 3.1 70B y conserva la longitud de contexto de 128 000 tokens. (Petición de datos máxima + longitud de respuesta: 128.000 tokens para cada ejecución).
  • En comparación con su predecesor de Llama 3.1 70B, responde con un mejor razonamiento, codificación, matemáticas y seguimiento de instrucciones. Consulte la tarjeta modelo Llama 3.3.
  • Disponible para inferencias bajo demanda, alojamiento dedicado y ajuste.
  • Para la inferencia bajo demanda, la longitud de la respuesta está limitada a 4.000 tokens por cada ejecución.
  • Para el modo dedicado, la longitud de la respuesta no se limita y la longitud del contexto es de 128 000 tokens.

Meta Llama 3.3 Variantes

El modelo Meta Llama 3.3 (70B) se ofrece en dos variantes: el estándar meta.llama-3.3-70b-instruct y el optimizado meta.llama-3.3-70b-instruct-fp8-dynamic (versión dinámica FP8). A excepción de algunas regiones, ambas variantes se ofrecen en las mismas regiones. La disponibilidad varía según la región y el modo (clusters de IA dedicados o a demanda). Consulte Modelos por región para obtener la lista completa y los detalles completos.

Variante estándar: meta.llama-3.3-70b-instruct
  • Rendimiento: proporciona un rendimiento de precisión total.
  • Ajuste correcto: puede ajustar este modelo con su conjunto de datos en regiones comerciales (OC1). El ajuste detallado no está soportado para los modelos de las regiones OC4 y OC19.
  • Cuándo utilizar: lo mejor para tareas de uso general que requieren una alta precisión, como el razonamiento complejo, la generación de contenido y cualquier caso de uso en el que sea necesario ajustar.
Variante FP8 dinámica: meta.llama-3.3-70b-instruct-fp8-dynamic
  • Rendimiento: utiliza FP8 (punto flotante de 8 bits), un formato numérico de precisión reducida que representa números de punto flotante con 8 bits para acelerar la inferencia. En comparación con los formatos de 16 bits, como FP16, FP8 reduce a la mitad los requisitos de ancho de banda de memoria, lo que puede aumentar el rendimiento computacional y reducir el consumo de energía de GPU.
  • Eficiencia: optimizada para la eficiencia, esta variante ofrece una inferencia más rápida con una pérdida de precisión mínima para muchas tareas.
  • Ajuste correcto: no disponible.
  • Cuándo utilizar: seleccione esta variante para escenarios sensibles a la latencia y de gran volumen, como aplicaciones en tiempo real, servicios a gran escala o inferencia optimizada para costos, en los que la velocidad y la eficiencia son más importantes que el ajuste o la máxima precisión. Esta variante es la mejor para entornos de producción centrados en el rendimiento en lugar de la personalización.
Nota

Para las solicitudes de API, especifique siempre el ID de modelo exacto.

Modo bajo demanda

Consulte la siguiente tabla para ver el nombre del producto bajo demanda de este modelo en la página de precios.

Nombre de modelo Nombre de modelo de OCI Nombre de producto de página de asignación de precios
Meta Llama 3.3 (70B) (estándar) meta.llama-3.3-70b-instruct Large Meta
Meta Llama 3.3 (70B) (FP8 dinámico) meta.llama-3.3-70b-instruct-fp8-dynamic Large Meta

Obtenga más información sobre el modo bajo demanda.

Cluster de IA dedicado para el modelo

Para los modelos en modo bajo demanda, no se necesitan clusters. Accede a ellos a través del área de juegos de la consola y la API. Para los modelos disponibles en el modo dedicado, utilice puntos finales creados en clusters de IA dedicados. Obtenga información sobre el modo dedicado.

En la siguiente tabla, se muestran los tamaños de las unidades de hardware y los límites de servicio para los clusters de AI dedicados.

Modelo base Cluster de Ajuste Cluster de alojamiento Información de página de asignación de precios Aumento de límite de cluster de solicitud
  • Nombre de modelo: Meta Llama 3.3 (70B) (Standard)
  • Nombre del modelo de OCI: meta.llama-3.3-70b-instruct
  • Tamaño de unidad: Large Generic
  • Unidades necesarias: 2

    Ajuste no disponible para EU Sovereign Central (Fráncfort) (OC19) y UK Gov South (Londres) (OC4))

  • Tamaño de unidad: Large Generic
  • Unidades necesarias: 1
  • Nombre del Producto de la Página de Precios: Large Meta - Dedicated
  • Por Hosting, Multiplicar el Precio Unitario: x2
  • Para el ajuste, multiplique el precio unitario: x4
  • Nombre de límite: dedicated-unit-llama2-70-count
  • Para el alojamiento, solicite un aumento del límite en: 2
  • Para el ajuste, solicite un aumento del límite en: 4
  • Nombre de modelo: Meta Llama 3.3 (70B) (FP8 dinámico)
  • Nombre del modelo de OCI: meta.llama-3.3-70b-instruct-fp8-dynamic
No disponible para ajuste

Para UAE East (Dubai):

  • Tamaño de unidad: LARGE_GENERIC_V1
  • Unidades necesarias: 1

Para otras regiones disponibles:

  • Tamaño de unidad: Large Generic
  • Unidades necesarias: 1
  • Nombre del Producto de la Página de Precios: Large Meta - Dedicated
  • Por Hosting, Multiplicar el Precio Unitario: x2
  • Nombre de límite: dedicated-unit-llama2-70-count
  • Para el alojamiento, solicite un aumento del límite en: 2
Consejo

  • Si no tiene suficientes límites de cluster en el arrendamiento para alojar el modelo Meta Llama 3.3 (70B) (fp8 estándar o dinámico) en un cluster de AI dedicado, solicite que el límite dedicated-unit-llama2-70-count aumente en 2.
  • Para el ajuste, solicite que el límite dedicated-unit-llama2-70-count aumente en 4.

Reglas de punto final para clusters

  • Un cluster de AI dedicado puede contener hasta 50 puntos finales.
  • Utilice estos puntos finales para crear alias que apunten al mismo modelo base o a la misma versión de un modelo personalizado, pero no a ambos tipos.
  • Varios puntos finales para el mismo modelo facilitan su asignación a diferentes usuarios o propósitos.
Tamaño de unidad de cluster de alojamiento Reglas de punto final
Large Generic para meta.llama-3.3-70b-instruct
  • Modelo base: para ejecutar el ⁇ meta.llama-3.3-70b-instruct ⁇ modelo en varios puntos finales, cree tantos puntos finales como necesite en un cluster Large Generic (tamaño de unidad).
  • Modelo personalizado: lo mismo se aplica a un modelo personalizado que se crea sobre meta.llama-3.3-70b-instruct: cree el número necesario de puntos finales en un cluster Large Generic (tamaño de unidad).
Large Generic para meta.llama-3.3-70b-instruct-fp8-dynamic
  • Modelo base: para ejecutar el ⁇ meta.llama-3.3-70b-instruct-fp8-dynamic ⁇ modelo en varios puntos finales, cree tantos puntos finales como necesite en un cluster Large Generic (tamaño de unidad).
  • Modelo personalizado: no puede ajustar meta.llama-3.3-70b-instruct-fp8-dynamic, por lo que no puede crear ni alojar modelos personalizados creados a partir de esa base.
LARGE_GENERIC_V1 para meta.llama-3.3-70b-instruct-fp8-dynamic (solo UAE East (Dubai))
  • Modelo base: para ejecutar el ⁇ meta.llama-3.3-70b-instruct-fp8-dynamic ⁇ modelo en varios puntos finales en UAE East (Dubai), cree tantos puntos finales como necesite en un cluster LARGE_GENERIC_V1 (tamaño de unidad).
  • Modelo personalizado: no puede ajustar ⁇ meta.llama-3.3-70b-instruct-fp8-dynamic, por lo que no puede crear ni alojar modelos personalizados creados a partir de esa base en UAE East (Dubai).
Consejo

Referencias de rendimiento de cluster

Revise las referencias de rendimiento del cluster Meta Llama 3.3 (70B) para diferentes casos de uso.

Parámetros de Modelo

Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.

Máximo de tokens de salida

Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados.

Temperatura

Nivel de aleatoriedad utilizado para generar el texto de salida.

Consejo

Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta.
p principales

Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a p un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Defina p en 1 para considerar todos los tokens.

k principales

Método de muestreo en el que el modelo selecciona el siguiente token aleatoriamente de los tokens más probables top k. Un valor alto para k genera una salida más aleatoria, lo que hace que el texto de salida suene más natural. El valor predeterminado para k es 0 para los modelos Cohere Command y -1 para los modelos Meta Llama, lo que significa que el modelo debe tener en cuenta todos los tokens y no utilizar este método.

Penalización de frecuencia

Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.

Para los modelos de la familia Meta Llama, esta penalización puede ser positiva o negativa. Los números positivos animan al modelo a utilizar nuevos tokens y los números negativos animan al modelo a repetir los tokens. Establecido en 0 para desactivar.

Penalización de presencia

Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado.

Valor inicial

Parámetro que hace el mejor esfuerzo para muestrear tokens de forma determinista. Cuando se asigna un valor a este parámetro, el modelo de lenguaje grande tiene como objetivo devolver el mismo resultado para las solicitudes repetidas cuando asigna el mismo valor inicial y los mismos parámetros para las solicitudes.

Los valores permitidos son enteros y la asignación de un valor inicial grande o pequeño no afecta al resultado. La asignación de un número para el parámetro inicial es similar a etiquetar la solicitud con un número. El modelo de lenguaje grande tiene como objetivo generar el mismo conjunto de tokens para el mismo entero en solicitudes consecutivas. Esta función es especialmente útil para depurar y probar. El parámetro inicial no tiene ningún valor máximo para la API y, en la consola, su valor máximo es 9999. Si deja el valor inicial en blanco en la consola o si es nulo en la API, se desactiva esta función.

Advertencia

Es posible que el parámetro inicial no produzca el mismo resultado a largo plazo, ya que las actualizaciones del modelo en el servicio OCI Generative AI pueden invalidar el valor inicial.