Meta Llama 3 (70B)

El modelo meta.llama-3-70b-instruct se ha dado de baja.

Importante

El modelo meta.llama-3-70b-instruct ya se ha retirado. Consulte Retirada de los modelos para conocer los modelos de sustitución sugeridos.

Acerca de los modelos retirados

Baja para modo bajo demanda: Cuando un modelo se retira en el modo bajo demanda, ya no está disponible para su uso en el patio de juegos de servicios de IA generativa o a través de la API de inferencia de IA generativa.

Baja para modo dedicado

Cuando se retira un modelo en el modo dedicado, ya no se puede crear un cluster de IA dedicado para el modelo retirado, pero se sigue ejecutando un cluster de IA dedicado activo que ejecuta un modelo retirado. Un modelo personalizado que se está ejecutando en un modelo retirado también sigue estando disponible para clusters de IA dedicados activos y puede seguir creando nuevos clusters de IA dedicados con un modelo personalizado que se creó en un modelo retirado. Sin embargo, Oracle ofrece soporte limitado para estos escenarios, y es posible que la ingeniería de Oracle le pida que actualice a un modelo soportado para resolver problemas relacionados con su modelo.

Para solicitar que un modelo permanezca activo más tiempo que la fecha de jubilación en un modo dedicado, cree un ticket de soporte.

Disponible en estas regiones

Si está ejecutando este modelo en un cluster de IA dedicado, este modelo estaría en una de estas regiones:

Este de Brasil (São Paulo)
Centro de Alemania (Fráncfort)
Sur de Reino Unido (Londres)
Medio Oeste de EE. UU. (Chicago)

Acceder a este modelo

Acceda a este modelo a través de la consola, la API y la CLI:

Características clave

Tamaño de modelo: 70 mil millones de parámetros
Longitud de contexto: 8.000 tokens (petición de datos máxima + longitud de respuesta: 8.000 tokens para cada ejecución).
Conocimiento: tiene un amplio conocimiento general, desde la generación de ideas hasta el análisis de texto y la redacción de contenido escrito, como correos electrónicos, publicaciones de blog y descripciones.

Modo bajo demanda

El modelo cohere.embed-english-light-image-v3.0 se da de baja y, por lo tanto, no está disponible en el modo bajo demanda.

Cluster de IA dedicado para el modelo

Para acceder a un modelo a través de un cluster de IA dedicado en cualquier región de la lista, debe crear un punto final para ese modelo en un cluster de IA dedicado. Si ha creado un cluster de AI dedicado para este modelo, esta es la información sobre el cluster:


Modelo base	Cluster de Ajuste	Cluster de alojamiento	Información de página de asignación de precios	Aumento de límite de cluster de solicitud
Nombre de modelo: Meta Llama 3 Nombre de modelo de OCI: `meta.llama-3-70b-instruct` (retirado)	Tamaño de unidad: Large Generic Unidades necesarias: 2	Tamaño de unidad: Large Generic Unidades necesarias: 1	Nombre del Producto de la Página de Precios: Large Meta - Dedicated Por Hosting, Multiplicar el Precio Unitario: x2 Para el ajuste, multiplique el precio unitario: x4	Nombre de límite: `dedicated-unit-llama2-70-count` Para el alojamiento, solicite un aumento del límite en: 2 Para el ajuste, solicite un aumento del límite en: 4

Nota

Al alojar el modelo Meta Llama 3 en un cluster de IA dedicado, se utilizan 2 recuentos de unidades del límite de servicio, dedicated-unit-llama2-70-count.
Al ajustar el modelo Meta Llama 3 en un cluster de AI dedicado, se utilizan 4 recuentos de unidades del límite de servicio, dedicated-unit-llama2-70-count.

Reglas de punto final para clusters

Un cluster de AI dedicado puede contener hasta 50 puntos finales.
Utilice estos puntos finales para crear alias que apunten al mismo modelo base o a la misma versión de un modelo personalizado, pero no a ambos tipos.
Varios puntos finales para el mismo modelo facilitan su asignación a diferentes usuarios o propósitos.


Tamaño de unidad de cluster de alojamiento	Reglas de punto final
Large Generic	Modelo base: para ejecutar el ⁇ `meta.llama-3-70b-instruct` ⁇ modelo en varios puntos finales, cree tantos puntos finales como necesite en un cluster Large Generic (tamaño de unidad). Modelo personalizado: lo mismo se aplica a un modelo personalizado que se crea sobre `meta.llama-3-70b-instruct`: cree el número necesario de puntos finales en un cluster Large Generic (tamaño de unidad).

Consejo

Para aumentar el volumen de llamadas soportado por un cluster de alojamiento, aumente el recuento de instancias editando el cluster de AI dedicado. Consulte Updating a Dedicated AI Cluster.
Para más de 50 puntos finales por cluster, solicite un aumento del límite, endpoint-per-dedicated-unit-count. Consulte Solicitud de un aumento del límite de servicio y Límites de servicio para la IA generativa.

Referencias de rendimiento de cluster

Revise las referencias de rendimiento del cluster Meta Llama 3 (70B) para diferentes casos de uso.

Fechas de liberación y baja


Modelo	Fecha de liberación	Fecha de baja bajo demanda	Fecha de baja en modo dedicado
`meta.llama-3-70b-instruct`	2.024-6-4	`2.024-11-12`	`2.025-8-7`

Importante

Para obtener una lista de todas las líneas de tiempo de modelo y los detalles de baja, consulte Baja de los modelos.

Parámetros de Modelo

Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.

Máximo de tokens de salida

Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados.

Temperatura

Nivel de aleatoriedad utilizado para generar el texto de salida.

Consejo

Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta.

p principales

Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a p un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Defina p en 1 para considerar todos los tokens.

k principales

Método de muestreo en el que el modelo selecciona el siguiente token aleatoriamente de los tokens más probables top k. Un valor alto para k genera una salida más aleatoria, lo que hace que el texto de salida suene más natural. El valor predeterminado para k es 0 para los modelos Cohere Command y -1 para los modelos Meta Llama, lo que significa que el modelo debe tener en cuenta todos los tokens y no utilizar este método.

Penalización de frecuencia

Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.

Para los modelos de la familia Meta Llama, esta penalización puede ser positiva o negativa. Los números positivos animan al modelo a utilizar nuevos tokens y los números negativos animan al modelo a repetir los tokens. Establecido en 0 para desactivar.

Penalización de presencia

Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado.

Valor inicial

Parámetro que hace el mejor esfuerzo para muestrear tokens de forma determinista. Cuando se asigna un valor a este parámetro, el modelo de lenguaje grande tiene como objetivo devolver el mismo resultado para las solicitudes repetidas cuando asigna el mismo valor inicial y los mismos parámetros para las solicitudes.

Los valores permitidos son enteros y la asignación de un valor inicial grande o pequeño no afecta al resultado. La asignación de un número para el parámetro inicial es similar a etiquetar la solicitud con un número. El modelo de lenguaje grande tiene como objetivo generar el mismo conjunto de tokens para el mismo entero en solicitudes consecutivas. Esta función es especialmente útil para depurar y probar. El parámetro inicial no tiene ningún valor máximo para la API y, en la consola, su valor máximo es 9999. Si deja el valor inicial en blanco en la consola o si es nulo en la API, se desactiva esta función.

Advertencia

Es posible que el parámetro inicial no produzca el mismo resultado a largo plazo, ya que las actualizaciones del modelo en el servicio OCI Generative AI pueden invalidar el valor inicial.

Documentación de Oracle Cloud Infrastructure