Meta Llama 3.3 (70B)
El modelo meta.llama-3.3-70b-instruct
está disponible para inferencias bajo demanda, alojamiento dedicado y ajuste, y ofrece un mejor rendimiento que Llama 3.1 70B y Llama 3.2 90B para tareas de texto.
Disponible en estas regiones
- Este de Brasil (São Paulo)
- Centro de Alemania (Fráncfort)
- Sur de India (Hyderabad) (solo clúster de IA dedicada)
- Centro de Japón (Osaka)
- Saudi Arabia Central (Riyadh) (solo cluster de IA dedicado)
- Sur de Reino Unido (Londres)
- Medio Oeste de EE. UU. (Chicago)
Características clave
- El modelo tiene 70 mil millones de parámetros.
- Acepta entradas de sólo texto y produce salidas de sólo texto.
- Utiliza el mismo formato de petición que Llama 3.1 70B.
- Admite el mismo intérprete de código que Llama 3.1 70B y conserva la longitud de contexto de 128 000 tokens. (Petición de datos máxima + longitud de respuesta: 128.000 tokens para cada ejecución).
- En comparación con su predecesor de Llama 3.1 70B, responde con un mejor razonamiento, codificación, matemáticas y seguimiento de instrucciones. Consulte la tarjeta modelo Llama 3.3.
- Disponible para inferencias bajo demanda, alojamiento dedicado y ajuste.
- Para la inferencia bajo demanda, la longitud de la respuesta está limitada a 4.000 tokens por cada ejecución.
- Para el modo dedicado, la longitud de la respuesta no se limita y la longitud del contexto es de 128 000 tokens.
- Puede ajustar este modelo con su juego de datos.
Modo bajo demanda
-
Paga sobre la marcha por cada llamada de inferencia cuando utiliza los modelos en el patio de recreo o cuando llama a los modelos a través de la API.
- Baja barrera para empezar a utilizar la IA generativa.
- Ideal para experimentar, probar conceptos y evaluar los modelos.
- Disponible para los modelos preentrenados en regiones que no se muestran como (solo cluster de IA dedicado).
Para garantizar un acceso fiable a los modelos de IA generativa en el modo bajo demanda, recomendamos implementar una estrategia de retroceso, que implica retrasar las solicitudes después de un rechazo. Sin una, las solicitudes rápidas repetidas pueden provocar más rechazos a lo largo del tiempo, una mayor latencia y un posible bloqueo temporal del cliente por parte del servicio de IA generativa. Al utilizar una estrategia de retroceso, como una estrategia de retroceso exponencial, puede distribuir las solicitudes de manera más uniforme, reducir la carga y mejorar el éxito de los reintentos, siguiendo las mejores prácticas del sector y mejorando la estabilidad y el rendimiento generales de su integración en el servicio.
Consulte la siguiente tabla para ver el nombre del producto de este modelo en la página de precios.
Nombre de modelo | Nombre de modelo de OCI | Nombre de producto de página de asignación de precios |
---|---|---|
Meta Llama 3.3 | meta.llama-3.3-70b-instruct |
Large Meta |
Cluster de IA dedicado para el modelo
En la lista de regiones anterior, las regiones que no están marcadas con (solo cluster de AI dedicado) tienen opciones de cluster de AI a demanda y dedicado. Para la opción a demanda, no necesita clusters y puede acceder al modelo en el patio de la consola o a través de la API. Obtenga información sobre el modo dedicado.
Para acceder a un modelo a través de un cluster de IA dedicado en cualquier región de la lista, debe crear un punto final para ese modelo en un cluster de IA dedicado. Para ver el tamaño de la unidad de cluster que coincide con este modelo, consulte la siguiente tabla.
Modelo base | Cluster de Ajuste | Cluster de alojamiento | Información de página de asignación de precios | Aumento de límite de cluster de solicitud |
---|---|---|---|---|
|
|
|
|
|
-
Si no tiene suficientes límites de cluster en su arrendamiento para alojar el modelo Meta Llama 3.3 (70B) en un cluster de AI dedicado, solicite que el límite
dedicated-unit-llama2-70-count
aumente en 2. - Para el ajuste, solicite que el límite
dedicated-unit-llama2-70-count
aumente en 4. - Revise las referencias de rendimiento del cluster Meta Llama 3.3 (70B) para diferentes casos de uso.
Fechas de liberación y baja
Modelo | Fecha de liberación | Fecha de baja bajo demanda | Fecha de baja en modo dedicado |
---|---|---|---|
meta.llama-3.3-70b-instruct
|
2.025-2-7 | Al menos un mes después de la publicación del 1er modelo de sustitución. | Al menos 6 meses después de la liberación del 1er modelo de reemplazo. |
Para obtener una lista de todas las líneas de tiempo de modelo y los detalles de baja, consulte Baja de los modelos.
Parámetros de Modelo
Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.
- Máximo de tokens de salida
-
Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados.
- Temperatura
-
Nivel de aleatoriedad utilizado para generar el texto de salida.
Consejo
Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta. - p principales
-
Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a
p
un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Definap
en 1 para considerar todos los tokens. - k principales
-
Método de muestreo en el que el modelo selecciona el siguiente token aleatoriamente de los tokens más probables
top k
. Un valor alto parak
genera una salida más aleatoria, lo que hace que el texto de salida suene más natural. El valor predeterminado para k es 0 para los modelosCohere Command
y -1 para los modelosMeta Llama
, lo que significa que el modelo debe tener en cuenta todos los tokens y no utilizar este método. - Penalización de frecuencia
-
Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.
Para los modelos de la familia Meta Llama, esta penalización puede ser positiva o negativa. Los números positivos animan al modelo a utilizar nuevos tokens y los números negativos animan al modelo a repetir los tokens. Establecido en 0 para desactivar.
- Penalización de presencia
-
Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado.
- Valor inicial
-
Parámetro que hace el mejor esfuerzo para muestrear tokens de forma determinista. Cuando se asigna un valor a este parámetro, el modelo de lenguaje grande tiene como objetivo devolver el mismo resultado para las solicitudes repetidas cuando asigna el mismo valor inicial y los mismos parámetros para las solicitudes.
Los valores permitidos son enteros y la asignación de un valor inicial grande o pequeño no afecta al resultado. La asignación de un número para el parámetro inicial es similar a etiquetar la solicitud con un número. El modelo de lenguaje grande tiene como objetivo generar el mismo conjunto de tokens para el mismo entero en solicitudes consecutivas. Esta función es especialmente útil para depurar y probar. El parámetro inicial no tiene ningún valor máximo para la API y, en la consola, su valor máximo es 9999. Si deja el valor inicial en blanco en la consola o si es nulo en la API, se desactiva esta función.
Advertencia
Es posible que el parámetro inicial no produzca el mismo resultado a largo plazo, ya que las actualizaciones del modelo en el servicio OCI Generative AI pueden invalidar el valor inicial.