シナリオ3: 生成AIにおける生成重視のベンチマーク

世代重視のシナリオは、世代/モデル・レスポンスの多いユースケースです。たとえば、アイテムの短い箇条書きリストから生成される長いジョブの説明です。

生成量の多いシナリオは、次のトークン長で実行されます。

  • プロンプトの長さは100トークンに固定されています
  • レスポンスの長さは1,000トークンに固定されます
重要

ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。

  1. 同時リクエストの数。
  2. プロンプト内のトークンの数。
  3. レスポンス内のトークンの数。
  4. リクエスト間の(2)および(3)の差異。

ホスティング専用AIクラスタのベンチマークで使用される用語を確認します。シナリオとその説明のリストは、チャットおよびテキスト生成のシナリオを参照してください。生成の重いシナリオは次のリージョンで実行されます。

Germany Central (Frankfurt)

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 50.18 50.14 20.43 2.94
2 49.28 97.61 20.78 5.72
4 48.22 186.82 21.32 10.94
8 47.20 365.89 21.75 21.43
16 44.69 650.22 22.89 38.03
32 37.29 989.98 27.31 58.04
64 29.53 1621.76 32.68 95.08
128 19.17 1784.76 53.14 104.56
256 10.79 2271.18 94.78 133.05
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k v1.2 (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 47.20 50.32 3.53 16.65
2 45.06 98.42 3.61 32.48
4 43.85 165.60 3.26 63.91
8 40.56 292.22 3.04 133.20
16 38.35 416.13 3.61 171.22
32 28.68 557.5 4.64 219.01
64 15.19 613.72 9.65 171.83
128 10.74 664.11 11.67 233.87
256 5.83 721.50 22.78 253.54

US Midwest (Chicago)

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 30.53 30.51 33.58 1.79
2 29.78 59.01 34.42 3.45
4 28.88 112.35 35.48 6.58
8 27.67 215.18 36.99 12.61
16 24.85 364.06 40.99 21.34
32 20.51 552.34 49.60 32.35
64 16.12 900.39 59.36 52.72
128 10.17 980.45 100.27 57.43
256 6.30 1334.59 162.08 78.19
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k v1.2 (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 47.20 50.32 3.53 16.65
2 45.06 98.42 3.61 32.48
4 43.85 165.60 3.26 63.91
8 40.56 292.22 3.04 133.20
16 38.35 416.13 3.61 171.22
32 28.68 557.5 4.64 219.01
64 15.19 613.72 9.65 171.83
128 10.74 664.11 11.67 233.87
256 5.83 721.50 22.78 253.54
モデル: 専用AIクラスタの1つのLarge Cohereユニットでホストされるcohere.command (Cohere Command 52 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 35.78 33.43 10.98 5.33
8 31.41 99.67 13.87 16.61
32 28.49 237.1 19.48 40.24
128 23.01 326.93 53.13 54.89
モデル: 専用AIクラスタの1つのSmall Cohereユニットでホストされるcohere.command-light (Cohere Command Light 6 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 80.38 83.61 9.19 6.34
8 45.96 278.91 13.89 22.46
32 23.90 493.78 27.34 41.13
128 5.12 565.06 82.15 44.89
モデル: 専用AIクラスタの1つのLlama2 70ユニットでホストされるmeta.llama-2-70b-chat (Llama2 70 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 18.12 17.58 21.44 2.72
8 15.96 64.28 26.83 8.91
32 13.72 195.48 29.43 27.99
128 8.61 541.75 48.50 71.52