Meta Llama 3.3 (70B)
OCI生成AIの専用AIクラスタの1つの Large Generic ユニットでホストされているmeta.llama-3.3-70b-instruct (Meta Llama 3.3 (70B))モデルのパフォーマンス・ベンチマークを確認します。 
ランダム長
このシナリオは、プロンプトおよびレスポンスのサイズが事前に不明であるテキスト生成のユース・ケースを模倣します。プロンプト長と応答長が不明なため、プロンプト長と応答長の両方が正規分布に従う確率的アプローチを使用しました。プロンプトの長さは、平均480個のトークンと240個のトークンの標準偏差を持つ正規分布に従います。応答の長さは、平均300トークンと標準偏差150トークンの正規分布に従います。
| 同時実行性 | トークン・レベルの推論速度(トークン/秒) | トークン・レベルのスループット(トークン/秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/分) (RPM) | 
|---|---|---|---|---|
| 1 | 53.62 | 52.71 | 5.43 | 10.97 | 
| 2 | 52.65 | 102.99 | 5.48 | 21.65 | 
| 4 | 52.06 | 205.56 | 5.58 | 42.61 | 
| 8 | 51.06 | 393.93 | 5.68 | 82.31 | 
| 16 | 46.755 | 715.89 | 6.08 | 152.11 | 
| 32 | 39.55 | 1,152.97 | 7.80 | 228.8 | 
| 64 | 31.22 | 1,663.88 | 9.36 | 353.91 | 
| 128 | 23.00 | 2,055.51 | 13.94 | 433.91 | 
| 256 | 17.44 | 1,873.44 | 22.85 | 427.95 | 
チャット
このシナリオでは、プロンプトとレスポンスが短いチャットおよびダイアログのユースケースについて説明します。プロンプトとレスポンスの長さはそれぞれ100個のトークンに固定されます。
| 同時実行性 | トークン・レベルの推論速度(トークン/秒) | トークン・レベルのスループット(トークン/秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/分) (RPM) | 
|---|---|---|---|---|
| 1 | 53.62 | 52.60 | 1.89 | 31.56 | 
| 2 | 52.63 | 102.67 | 1.93 | 61.60 | 
| 4 | 53.06 | 205.27 | 1.93 | 123.16 | 
| 8 | 52.47 | 394.66 | 1.97 | 236.79 | 
| 16 | 49.27 | 715.55 | 2.11 | 429.33 | 
| 32 | 42.71 | 1,198.53 | 2.46 | 719.12 | 
| 64 | 37.25 | 2,017.51 | 2.90 | 1,210.76 | 
| 128 | 28.28 | 2,414.71 | 4.15 | 1,448.83 | 
| 256 | 18.26 | 2,576.59 | 7.21 | 1,545.96 | 
ジェネレーションヘビー
このシナリオは、生成およびモデル・レスポンスの重いユースケース用です。たとえば、アイテムの短い箇条書きリストから生成される長いジョブの説明です。この場合、プロンプトの長さは100トークンに固定され、レスポンスの長さは1,000トークンに固定されます。
| 同時実行性 | トークン・レベルの推論速度(トークン/秒) | トークン・レベルのスループット(トークン/秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/分) (RPM) | 
|---|---|---|---|---|
| 1 | 53.55 | 53.21 | 18.70 | 3.19 | 
| 2 | 52.83 | 103.10 | 18.97 | 6.19 | 
| 4 | 53.40 | 206.18 | 18.77 | 12.37 | 
| 8 | 53.25 | 412.36 | 18.85 | 24.74 | 
| 16 | 51.53 | 812.24 | 19.48 | 48.73 | 
| 32 | 45.99 | 1,447.02 | 21.861 | 86.82 | 
| 64 | 45.99 | 2,599.88 | 23.81 | 156.00 | 
| 128 | 34.76 | 4,216.35 | 29.32 | 252.98 | 
| 256 | 23.72 | 3,826.77 | 44.02 | 229.61 | 
RAG
検索拡張生成(RAG)シナリオには、非常に長いプロンプトがあり、ユースケースの要約などの短いレスポンスがあります。プロンプトの長さは2,000トークンに固定され、レスポンスの長さは200トークンに固定されます。
| 同時実行性 | トークン・レベルの推論速度(トークン/秒) | トークン・レベルのスループット(トークン/秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/分) (RPM) | 
|---|---|---|---|---|
| 1 | 53.37 | 50.55 | 3.93 | 15.16 | 
| 2 | 51.06 | 96.43 | 4.11 | 28.93 | 
| 4 | 48.31 | 183.35 | 4.33 | 55.01 | 
| 8 | 41.85 | 309.97 | 5.05 | 92.99 | 
| 16 | 33.93 | 489.93 | 6.29 | 146.98 | 
| 32 | 23.61 | 663.30 | 9.12 | 198.99 | 
| 64 | 18.27 | 724.11 | 15.87 | 217.23 | 
| 128 | 18.27 | 724.07 | 28.49 | 217.22 | 
| 256 | 18.35 | 709.78 | 45.89 | 212.94 |