Meta Llama 3.1 (405B)

Rivedere i benchmark delle prestazioni per il modello meta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B)) ospitato su un'unità Large Generic 2 di un cluster AI dedicato in OCI Generative AI.

Vedere i dettagli del modello ed esaminare le sezioni riportate di seguito.
- Aree disponibili per questo modello.
- Dimensione unità cluster AI dedicata per l'hosting di questo modello.
Esaminare le metriche.

Importante

È possibile ospitare il modello meta.llama-3.1-405b-instruct solo su un cluster AI dedicato di tipo Generico grande 2. Questo tipo di dati ha lo scopo di fornire un throughput migliore con meno hardware e un costo inferiore rispetto al precedente, Generico grande 4.

Le tabelle seguenti forniscono i benchmark eseguiti per il modello meta.llama-3.1-405b-instruct ospitato su un'unità Generica grande 2 e su un'unità Generica grande 4. Se il modello è ospitato nel tipo di cluster predecessore Generico grande 4, confrontare le tabelle riportate di seguito per decidere se ospitare il modello nella nuova unità.

Lunghezza casuale

Questo scenario imita i casi d'uso di generazione testo in cui la dimensione del prompt e della risposta è sconosciuta in anticipo. A causa della lunghezza del prompt e della risposta sconosciuta, abbiamo utilizzato un approccio stocastico in cui sia la lunghezza del prompt che la lunghezza della risposta seguono una distribuzione normale. La lunghezza del prompt segue una distribuzione normale con una media di 480 token e una deviazione standard di 240 token. La lunghezza della risposta segue una distribuzione normale con una media di 300 token e una deviazione standard di 150 token.

Il modello meta.llama-3.1-405b-instruct ospitato su un'unità Large Generic 2 di un cluster AI dedicato


Concorrenza	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al minuto) (RPM)
1	27,44	26,84	11,66	5,1
2	26,56	51,93	11,44	10,39
4	25,66	100,31	11,97	19,89
8	24,98	193,34	11,96	39,48
16	20,73	322,99	14,86	63,76
32	18,39	562,55	16,5	114,21
64	15,05	877,61	20,42	180,76
128	10,79	1.210,61	29,53	241,73
256	8,67	1.301,65	47,22	282,78

Il modello meta.llama-3.1-405b-instruct ospitato su un'unità Large Generic 4 predecessore di un cluster AI dedicato


Concorrenza	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al minuto) (RPM)
1	32,66	25,79	10,78	5,56
2	31,36	50,81	10,06	11,68
4	29,86	96,01	10,87	21,52
8	27,89	170,45	10,87	34,09
16	24,74	282,52	13,51	60,35
32	21,51	457,24	16,73	91,42
64	17,68	676,9	18,29	152,47
128	13,06	1.035,08	25,59	222,67
256	7,82	1.302,71	41,88	289,08

Chat

Questo scenario copre i casi d'uso di chat e finestre di dialogo in cui il prompt e le risposte sono brevi. La lunghezza del prompt e della risposta è fissata a 100 token.

Il modello meta.llama-3.1-405b-instruct ospitato su un'unità Large Generic 2 di un cluster AI dedicato


Concorrenza	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al minuto) (RPM)
1	27,38	26,65	3,74	15,99
2	26,43	51,3	3,88	30,78
4	25,92	100,61	3,96	60,36
8	25,52	196,72	4,06	118,03
16	21,24	328,32	4,84	196,99
32	19,32	588,59	5,36	353,15
64	16,73	1.003,22	6,29	601,93
128	12,56	1.433,27	8,59	859,96
256	8,6	1.586,86	8,59	952,11

Il modello meta.llama-3.1-405b-instruct ospitato su un'unità Large Generic 4 predecessore di un cluster AI dedicato


Concorrenza	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al minuto) (RPM)
1	28,93	21,65	4,6	13,01
2	31,72	50,89	3,9	30,54
4	30,86	91,23	4,17	54,74
8	29,61	163,06	4,33	97,84
16	27,66	277,48	4,49	166,49
32	26,01	615,83	4,77	369,5
64	22,49	1.027,87	5,67	616,77
128	17,22	1.527,06	7,37	616,77
256	10,67	1.882,65	11,44	1.131,71

Generazione pesante

Questo scenario si riferisce a casi d'uso intensi di generazione e risposta modello. Ad esempio, una descrizione lunga del lavoro generata da un breve elenco puntato di elementi. In questo caso, la lunghezza del prompt è fissata a 100 token e la lunghezza della risposta è fissata a 1.000 token.

Il modello meta.llama-3.1-405b-instruct ospitato su un'unità Large Generic 2 di un cluster AI dedicato


Concorrenza	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al minuto) (RPM)
1	27,35	26,65	36,65	1,6
2	26,72	49,97	37,53	3
4	26,21	99,94	38,27	6
8	26,42	199,89	38	11,99
16	22,6	346,45	44,45	20,79
32	21,97	692,91	45,77	41,57
64	20,1	1.177,63	50,14	70,66
128	17,06	2.086,85	60,7	125,21
256	11,05	2.024,72	109,59	121,48

Il modello meta.llama-3.1-405b-instruct ospitato su un'unità Large Generic 4 predecessore di un cluster AI dedicato


Concorrenza	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al minuto) (RPM)
1	31,28	26,55	18,5	3,24
2	30,79	50,88	16,14	7,12
4	29,46	93,36	18,15	12,09
8	28,2	170,2	19,4	21,4
16	26,37	271,8	17,73	40,56
32	25,24	419,13	21,06	55,06
64	22,19	755,43	24,38	98,29
128	17,43	1.248,19	29,45	168
256	11,27	1.794,88	44,85	236,65

RAG

Lo scenario di retrieval-augmented generation (RAG) ha un prompt molto lungo e una risposta breve, ad esempio il riepilogo dei casi d'uso. La lunghezza del prompt è fissata a 2.000 token e la lunghezza della risposta è fissata a 200 token.

Il modello meta.llama-3.1-405b-instruct ospitato su un'unità Large Generic 2 di un cluster AI dedicato


Concorrenza	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al minuto) (RPM)
1	27,3	25,65	7,74	7,69
2	25,7	48,3	8,21	14,49
4	23,48	88,27	8,96	26,48
8	20,09	150,57	10,52	45,17
16	14,89	223,85	14,1	67,15
32	10,97	330,1	19,1	99,03
64	8,8	386,54	32,06	115,96
128	8,82	386,74	62,04	116,02
256	8,82	375,21	119,99	112,56

Il modello meta.llama-3.1-405b-instruct ospitato su un'unità Large Generic 4 predecessore di un cluster AI dedicato


Concorrenza	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al minuto) (RPM)
1	32,94	25,28	7,91	7,58
2	31,31	49,05	8,15	14,71
4	28,85	87,28	8,85	26,18
8	24,24	141,04	10,42	42,31
16	20,31	219,48	12,52	65,85
32	15,99	366,75	16,7	110,03
64	11,03	485,78	24,63	145,74
128	8,27	560,24	41,22	168,07
256	8,01	583,97	74,21	175,19

Documentazione dell'infrastruttura Oracle Cloud

Meta Llama 3.1 (405B)

Lunghezza casuale

Chat

Generazione pesante

RAG