Meta Llama 3.1 (405B)

Revise las referencias de rendimiento para el modelo meta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B)) alojado en una unidad Large Generic 2 de un cluster de IA dedicado en OCI Generative AI.

  • Consulte los detalles del modelo y revise las siguientes secciones:
    • Regiones disponibles para este modelo.
    • Clusters de IA dedicados para alojar este modelo.
  • Revise las métricas.
Importante

Puede alojar el modelo meta.llama-3.1-405b-instruct solo en un cluster de AI dedicado de tipo Large Generic 2. Este tipo tiene como objetivo proporcionar un mejor rendimiento con menos hardware y un costo menor que su predecesor, Large Generic 4.

En las siguientes tablas, se proporcionan referencias que se realizaron para el modelo meta.llama-3.1-405b-instruct alojado en una unidad Gran genérico 2 y en una unidad Gran genérico 4. Si el modelo está alojado en el tipo de cluster predecesor Large Generic 4, compare las siguientes tablas para decidir si aloja el modelo en esta nueva unidad.

Longitud aleatoria

Este escenario imita los casos de uso de generación de texto en los que se desconoce el tamaño de la petición de datos y la respuesta con antelación. Debido a las longitudes de respuesta y petición de datos desconocidas, hemos utilizado un enfoque estocástico donde tanto la longitud de la petición de datos como la de la respuesta siguen una distribución normal. La longitud de la petición de datos sigue una distribución normal con una media de 480 tokens y una desviación estándar de 240 tokens. La longitud de respuesta sigue a una distribución normal con una media de 300 tokens y una desviación estándar de 150 tokens.

El modelo meta.llama-3.1-405b-instruct alojado en una unidad Large Generic 2 de un cluster de AI dedicado
Simultaneidad Velocidad de inferencia a nivel de token (token/second) Rendimiento a nivel de token (token/segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por minuto) (RPM)
1 27,44 26,84 11,66 5,1
2 26,56 51,93 11,44 10,39
4 25,66 100,31 11,97 19,89
8 24,98 193,34 11,96 39,48
16 20,73 322,99 14,86 63,76
32 18,39 562,55 16,5 114,21
64 15,05 877,61 20,42 180,76
128 10,79 1.210,61 29,53 241,73
256 8,67 1.301,65 47,22 282,78
El modelo meta.llama-3.1-405b-instruct alojado en una unidad Large Generic 4 predecesora de un cluster de AI dedicado
Simultaneidad Velocidad de inferencia a nivel de token (token/second) Rendimiento a nivel de token (token/segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por minuto) (RPM)
1 32,66 25,79 10,78 5,56
2 31,36 50,81 10,06 11,68
4 29,86 96,01 10,87 21,52
8 27,89 170,45 10,87 34,09
16 24,74 282,52 13,51 60,35
32 21,51 457,24 16,73 91,42
64 17,68 676,9 18,29 152,47
128 13,06 1.035,08 25,59 222,67
256 7,82 1.302,71 41,88 289,08

Chat

Este escenario abarca casos de uso de chat y diálogo en los que la petición de datos y las respuestas son cortas. La petición de datos y la longitud de respuesta se fijan a 100 tokens.

El modelo meta.llama-3.1-405b-instruct alojado en una unidad Large Generic 2 de un cluster de AI dedicado
Simultaneidad Velocidad de inferencia a nivel de token (token/second) Rendimiento a nivel de token (token/segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por minuto) (RPM)
1 27,38 26,65 3,74 15,99
2 26,43 51,3 3,88 30,78
4 25,92 100,61 3,96 60,36
8 25,52 196,72 4,06 118,03
16 21,24 328,32 4,84 196,99
32 19,32 588,59 5,36 353,15
64 16,73 1.003,22 6,29 601,93
128 12,56 1.433,27 8,59 859,96
256 8,6 1.586,86 8,59 952,11
El modelo meta.llama-3.1-405b-instruct alojado en una unidad Large Generic 4 predecesora de un cluster de AI dedicado
Simultaneidad Velocidad de inferencia a nivel de token (token/second) Rendimiento a nivel de token (token/segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por minuto) (RPM)
1 28,93 21,65 4,6 13,01
2 31,72 50,89 3,9 30,54
4 30,86 91,23 4,17 54,74
8 29,61 163,06 4,33 97,84
16 27,66 277,48 4,49 166,49
32 26,01 615,83 4,77 369,5
64 22,49 1.027,87 5,67 616,77
128 17,22 1.527,06 7,37 616,77
256 10,67 1.882,65 11,44 1.131,71

Generación pesada

Este escenario es para casos de uso intensos de generación y respuesta de modelo. Por ejemplo, una descripción larga del trabajo generada a partir de una breve lista de viñetas de elementos. En este caso, la longitud de petición de datos se fija a 100 tokens y la longitud de respuesta se fija a 1.000 tokens.

El modelo meta.llama-3.1-405b-instruct alojado en una unidad Large Generic 2 de un cluster de AI dedicado
Simultaneidad Velocidad de inferencia a nivel de token (token/second) Rendimiento a nivel de token (token/segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por minuto) (RPM)
1 27,35 26,65 36,65 1,6
2 26,72 49,97 37,53 3
4 26,21 99,94 38,27 6
8 26,42 199,89 38 11,99
16 22,6 346,45 44,45 20,79
32 21,97 692,91 45,77 41,57
64 20,1 1.177,63 50,14 70,66
128 17,06 2.086,85 60,7 125,21
256 11,05 2.024,72 109,59 121,48
El modelo meta.llama-3.1-405b-instruct alojado en una unidad Large Generic 4 predecesora de un cluster de AI dedicado
Simultaneidad Velocidad de inferencia a nivel de token (token/second) Rendimiento a nivel de token (token/segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por minuto) (RPM)
1 31,28 26,55 18,5 3,24
2 30,79 50,88 16,14 7,12
4 29,46 93,36 18,15 12,09
8 28,2 170,2 19,4 21,4
16 26,37 271,8 17,73 40,56
32 25,24 419,13 21,06 55,06
64 22,19 755,43 24,38 98,29
128 17,43 1.248,19 29,45 168
256 11,27 1.794,88 44,85 236,65

RAG

El escenario de generación aumentada de recuperación (RAG) tiene una petición de datos muy larga y una respuesta corta, como el resumen de casos de uso. La longitud de petición de datos se fija a 2.000 tokens y la longitud de respuesta se fija a 200 tokens.

El modelo meta.llama-3.1-405b-instruct alojado en una unidad Large Generic 2 de un cluster de AI dedicado
Simultaneidad Velocidad de inferencia a nivel de token (token/second) Rendimiento a nivel de token (token/segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por minuto) (RPM)
1 27,3 25,65 7,74 7,69
2 25,7 48,3 8,21 14,49
4 23,48 88,27 8,96 26,48
8 20,09 150,57 10,52 45,17
16 14,89 223,85 14,1 67,15
32 10,97 330,1 19,1 99,03
64 8,8 386,54 32,06 115,96
128 8,82 386,74 62,04 116,02
256 8,82 375,21 119,99 112,56
El modelo meta.llama-3.1-405b-instruct alojado en una unidad Large Generic 4 predecesora de un cluster de AI dedicado
Simultaneidad Velocidad de inferencia a nivel de token (token/second) Rendimiento a nivel de token (token/segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por minuto) (RPM)
1 32,94 25,28 7,91 7,58
2 31,31 49,05 8,15 14,71
4 28,85 87,28 8,85 26,18
8 24,24 141,04 10,42 42,31
16 20,31 219,48 12,52 65,85
32 15,99 366,75 16,7 110,03
64 11,03 485,78 24,63 145,74
128 8,27 560,24 41,22 168,07
256 8,01 583,97 74,21 175,19