Meta Llama 3.2 11B Vision

OCI生成AIの専用AIクラスタの1つの Small Generic V2 ユニットでホストされるmeta.llama-3.2-11b-vision-instruct (Meta Llama 3.2 11B Vision)モデルのパフォーマンス・ベンチマークを確認します。

- このモデルの使用可能なリージョンを参照してください。
- このモデルをホストするための専用AIクラスタ・ユニット・サイズをモデル・ページで確認します。
- メトリックを確認します。

ランダム長

このシナリオでは、プロンプトとレスポンスのサイズが事前に不明であるテキスト生成のユースケースを模倣します。プロンプト長とレスポンス長が不明なため、プロンプト長とレスポンス長の両方が正規分布に従う確率的アプローチを使用しました。プロンプト長は、平均480トークンと標準偏差240トークンの正規分布に従います。レスポンスの長さは、平均300トークンと標準偏差150トークンの正規分布に従います。


同時実行性	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	105.74	104.30	2.75	21.70
2	103.21	204.22	2.82	42.40
4	99.41	393.69	3.10	77.10
8	93.98	745.29	3.26	146.70
16	81.62	1,294.14	3.64	262.60
32	60.55	1,924.74	4.97	384.40
64	60.54	1,928.70	10.03	379.40
128	62.57	1,912.53	19.68	383.09
256	60.00	1,911.45	38.36	386.14

チャット

このシナリオでは、プロンプトと応答が短いチャットおよびダイアログのユースケースについて説明します。プロンプトとレスポンスの長さはそれぞれ100トークンに固定されています。


同時実行性	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	111.04	109.67	0.91	65.80
2	108.57	212.33	0.91	127.40
4	105.67	408.00	0.91	244.80
8	102.65	408.00	1.02	461.60
16	96.48	1,370.66	1.13	822.40
32	78.96	2,110.49	1.42	822.40
64	89.80	2,522.64	2.41	1,513.58
128	89.69	2,516.96	4.94	1,510.17
256	90.27	2,517.19	9.96	1,510.31

世代重

このシナリオは、生成およびモデル・レスポンスの多いユース・ケース用です。たとえば、項目の短い箇条書きリストから生成される長い職務内容です。この場合、プロンプト長は100トークンに固定され、レスポンス長は1,000トークンに固定されます。


同時実行性	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	106.36	105.00	9.41	6.30
2	104.89	206.67	9.55	12.40
4	101.93	400.00	9.84	24.00
8	98.89	773.33	10.17	46.40
16	91.20	1,439.99	11.07	86.40
32	72.13	2,239.98	14.03	134.40
64	72.29	2,293.30	27.49	137.60
128	72.30	2,239.89	53.75	134.39
256	72.27	2,239.84	102.37	134.39

RAG

検索拡張生成(RAG)シナリオには、非常に長いプロンプトと、ユース・ケースの要約などの短いレスポンスがあります。プロンプト長は2,000トークンに固定され、レスポンス長は200トークンに固定されます。


同時実行性	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	105.23	101.67	1.95	30.50
2	100.86	191.33	2.08	57.40
4	96.79	348.00	2.28	104.40
8	86.60	568.00	2.77	170.40
16	72.41	837.33	3.73	251.20
32	43.23	1,002.66	6.19	300.80
64	47.43	1,066.65	11.63	320.00
128	47.45	1,066.62	23.25	319.99
256	47.41	1,066.60	45.83	319.98

Oracle Cloud Infrastructureドキュメント

Meta Llama 3.2 11B Vision

ランダム長

チャット

世代重

RAG