Meta Llama 3.1 (405B)
OCI生成AIの専用AIクラスタの1つのLarge Generic 2ユニットでホストされているmeta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B))モデルのパフォーマンス・ベンチマークを確認します。
meta.llama-3.1-405b-instruct
モデルは、大規模汎用2タイプの専用AIクラスタでのみホストできます。このタイプは、以前のLarge Generic 4よりも少ないハードウェアと低いコストで、より優れたスループットを提供することを目的としています。
次の表に、1つの大規模汎用2ユニットおよび1つの大規模汎用4ユニットでホストされているmeta.llama-3.1-405b-instruct
モデルに対して実行されたベンチマークを示します。モデルが先行クラスタ・タイプの大規模汎用4でホストされている場合は、次の表を比較して、この新規ユニットでモデルをホストするかどうかを決定します。
ランダム長
このシナリオは、プロンプトおよびレスポンスのサイズが事前に不明であるテキスト生成のユース・ケースを模倣します。プロンプト長と応答長が不明なため、プロンプト長と応答長の両方が正規分布に従う確率的アプローチを使用しました。プロンプトの長さは、平均480個のトークンと240個のトークンの標準偏差を持つ正規分布に従います。応答の長さは、平均300トークンと標準偏差150トークンの正規分布に従います。
- 専用AIクラスタの1つのLarge Generic 2ユニットでホストされる
meta.llama-3.1-405b-instruct
モデル -
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分) (RPM) 1 27.44 26.84 11.66 5.10 2 26.56 51.93 11.44 10.39 4 25.66 100.31 11.97 19.89 8 24.98 193.34 11.96 39.48 16 20.73 322.99 14.86 63.76 32 18.39 562.55 16.50 114.21 64 15.05 877.61 20.42 180.76 128 10.79 1,210.61 29.53 241.73 256 8.67 1,301.65 47.22 282.78 - 専用AIクラスタの1つの先行作業Large Generic 4ユニットでホストされる
meta.llama-3.1-405b-instruct
モデル -
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分) (RPM) 1 32.66 25.79 10.78 5.56 2 31.36 50.81 10.06 11.68 4 29.86 96.01 10.87 21.52 8 27.89 170.45 10.87 34.09 16 24.74 282.52 13.51 60.35 32 21.51 457.24 16.73 91.42 64 17.68 676.90 18.29 152.47 128 13.06 1,035.08 25.59 222.67 256 7.82 1,302.71 41.88 289.08
チャット
このシナリオでは、プロンプトとレスポンスが短いチャットおよびダイアログのユースケースについて説明します。プロンプトとレスポンスの長さはそれぞれ100個のトークンに固定されます。
- 専用AIクラスタの1つのLarge Generic 2ユニットでホストされる
meta.llama-3.1-405b-instruct
モデル -
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分) (RPM) 1 27.38 26.65 3.74 15.99 2 26.43 51.30 3.88 30.78 4 25.92 100.61 3.96 60.36 8 25.52 196.72 4.06 118.03 16 21.24 328.32 4.84 196.99 32 19.32 588.59 5.36 353.15 64 16.73 1,003.22 6.29 601.93 128 12.56 1,433.27 8.59 859.96 256 8.60 1,586.86 8.59 952.11 - 専用AIクラスタの1つの先行作業Large Generic 4ユニットでホストされる
meta.llama-3.1-405b-instruct
モデル -
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分) (RPM) 1 28.93 21.65 4.60 13.01 2 31.72 50.89 3.90 30.54 4 30.86 91.23 4.17 54.74 8 29.61 163.06 4.33 97.84 16 27.66 277.48 4.49 166.49 32 26.01 615.83 4.77 369.50 64 22.49 1,027.87 5.67 616.77 128 17.22 1,527.06 7.37 616.77 256 10.67 1,882.65 11.44 1,131.71
ジェネレーションヘビー
このシナリオは、生成およびモデル・レスポンスの重いユースケース用です。たとえば、アイテムの短い箇条書きリストから生成される長いジョブの説明です。この場合、プロンプトの長さは100トークンに固定され、レスポンスの長さは1,000トークンに固定されます。
- 専用AIクラスタの1つのLarge Generic 2ユニットでホストされる
meta.llama-3.1-405b-instruct
モデル -
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分) (RPM) 1 27.35 26.65 36.65 1.60 2 26.72 49.97 37.53 3.00 4 26.21 99.94 38.27 6.00 8 26.42 199.89 38.00 11.99 16 22.60 346.45 44.45 20.79 32 21.97 692.91 45.77 41.57 64 20.10 1,177.63 50.14 70.66 128 17.06 2,086.85 60.70 125.21 256 11.05 2,024.72 109.59 121.48 - 専用AIクラスタの1つの先行作業Large Generic 4ユニットでホストされる
meta.llama-3.1-405b-instruct
モデル -
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分) (RPM) 1 31.28 26.55 18.50 3.24 2 30.79 50.88 16.14 7.12 4 29.46 93.36 18.15 12.09 8 28.20 170.20 19.40 21.40 16 26.37 271.80 17.73 40.56 32 25.24 419.13 21.06 55.06 64 22.19 755.43 24.38 98.29 128 17.43 1,248.19 29.45 168.00 256 11.27 1,794.88 44.85 236.65
RAG
検索拡張生成(RAG)シナリオには、非常に長いプロンプトがあり、ユースケースの要約などの短いレスポンスがあります。プロンプトの長さは2,000トークンに固定され、レスポンスの長さは200トークンに固定されます。
- 専用AIクラスタの1つのLarge Generic 2ユニットでホストされる
meta.llama-3.1-405b-instruct
モデル -
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分) (RPM) 1 27.30 25.65 7.74 7.69 2 25.70 48.30 8.21 14.49 4 23.48 88.27 8.96 26.48 8 20.09 150.57 10.52 45.17 16 14.89 223.85 14.10 67.15 32 10.97 330.10 19.10 99.03 64 8.80 386.54 32.06 115.96 128 8.82 386.74 62.04 116.02 256 8.82 375.21 119.99 112.56 - 専用AIクラスタの1つの先行作業Large Generic 4ユニットでホストされる
meta.llama-3.1-405b-instruct
モデル -
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分) (RPM) 1 32.94 25.28 7.91 7.58 2 31.31 49.05 8.15 14.71 4 28.85 87.28 8.85 26.18 8 24.24 141.04 10.42 42.31 16 20.31 219.48 12.52 65.85 32 15.99 366.75 16.70 110.03 64 11.03 485.78 24.63 145.74 128 8.27 560.24 41.22 168.07 256 8.01 583.97 74.21 175.19