Meta Llama 4 Scout

OCI生成AIの専用AIクラスタの1つのLarge Generic V2ユニットでホストされているmeta.llama-4-scout-17b-16e-instruct (Meta Llama 4 Scout)モデルのパフォーマンス・ベンチマークを確認します。

  • モデルの詳細を参照し、次のセクションを確認してください:
    • このモデルで使用可能なリージョン。
    • このモデルをホストするための専用AIクラスタ。
  • メトリックを確認します。

ランダム長

このシナリオは、プロンプトおよびレスポンスのサイズが事前に不明であるテキスト生成のユース・ケースを模倣します。プロンプト長と応答長が不明なため、プロンプト長と応答長の両方が正規分布に従う確率的アプローチを使用しました。プロンプトの長さは、平均480トークンと標準偏差240トークンの正規分布に従います。応答の長さは、平均300トークンと標準偏差150トークンの正規分布に従います。

同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 92.72 90.52 3.27 0.30
2 88.13 172.60 3.45 0.58
4 79.93 312.02 3.73 1.06
8 68.97 535.50 4.37 1.80
16 56.50 858.80 5.35 2.88
32 42.99 1,257.61 7.08 4.19
64 34.16 1,892.06 8.16 6.90
128 26.42 2,466.57 10.87 9.05
256 18.93 2,681.16 14.86 10.98

チャット

このシナリオでは、プロンプトとレスポンスが短いチャットおよびダイアログのユースケースについて説明します。プロンプトとレスポンスの長さはそれぞれ100個のトークンに固定されます。

同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 92.91 90.04 1.11 0.90
2 88.13 169.96 1.17 1.70
4 82.43 315.60 1.26 3.16
8 71.26 542.50 1.46 5.42
16 61.21 920.58 1.72 9.21
32 46.96 1,390.24 2.24 13.90
64 38.84 2,154.82 2.76 21.55
128 30.96 2,985.03 3.62 29.85
256 24.12 3,206.01 5.19 32.06

ジェネレーションヘビー

このシナリオは、生成およびモデル・レスポンスの重いユースケース用です。たとえば、アイテムの短い箇条書きリストから生成される長いジョブの説明です。この場合、プロンプトの長さは100トークンに固定され、レスポンスの長さは1,000トークンに固定されます。

同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 92.86 92.17 10.80 0.09
2 88.78 175.46 11.30 0.18
4 82.03 324.26 12.24 0.32
8 72.13 573.25 13.92 0.57
16 61.02 967.61 16.47 0.97
32 47.76 1,515.78 21.07 1.52
64 40.09 2,538.03 25.13 2.54
128 32.14 4,039.30 31.46 4.04
256 23.74 4,208.18 43.48 4.21

RAG

検索拡張生成(RAG)シナリオには、非常に長いプロンプトがあり、ユースケースの要約などの短いレスポンスがあります。プロンプトの長さは2,000トークンに固定され、レスポンスの長さは200トークンに固定されます。

同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 92.63 88.45 2.25 0.44
2 87.44 164.27 2.42 0.82
4 80.56 291.06 2.73 1.46
8 69.78 482.27 3.28 2.41
16 52.24 740.45 4.27 3.70
32 38.50 1,044.96 6.04 5.22
64 26.35 1,305.62 8.98 6.53
128 16.00 1,348.21 16.19 6.74
256 16.00 1,303.90 26.68 6.52