シナリオ1: 生成AIの確率的長さのベンチマーク

このシナリオでは、プロンプトとレスポンスのサイズが事前に不明であるテキスト生成のユースケースを模倣します。このシナリオでは、プロンプトとレスポンスの長さが不明なため、確率的アプローチを使用して、プロンプトとレスポンスの長さの両方が正規分布に従います。

  • プロンプトの長さは、平均480トークンと標準偏差240トークンの正規分布に従います
  • レスポンスの長さは、平均300トークンと標準偏差150トークンの正規分布に従います。
重要

ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。

  1. 同時リクエストの数。
  2. プロンプト内のトークンの数。
  3. レスポンス内のトークンの数。
  4. リクエスト間の(2)および(3)の差異。

ホスティング専用AIクラスタのベンチマークで使用される用語を確認します。シナリオとその説明のリストは、チャットおよびテキスト生成のシナリオを参照してください。融合シナリオは次の領域で実行されます。

Germany Central (Frankfurt)

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 49.76 49.58 6.42 9.33
2 48.04 95.38 6.80 17.53
4 46.09 181.21 6.99 33.60
8 44.19 330.46 7.43 60.67
16 40.56 591.52 8.40 104.42
32 31.35 869.36 9.68 168.46
64 23.87 1062.52 12.57 201.11
128 16.86 1,452.66 17.64 276.09
256 9.84 1,792.81 30.08 347.26
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k v1.2 (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 51.30 50.46 4.63 12.75
2 51.06 97.86 5.07 23.14
4 47.52 186.75 5.30 44.48
8 43.55 305.45 5.68 75.18
16 36.49 505.11 6.71 127.88
32 29.02 768.40 8.84 177.03
64 18.57 735.37 14.55 168.00
128 12.59 809.50 21.27 186.76
256 6.54 859.45 38.69 200.42

US Midwest (Chicago)

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 30.51 30.36 10.47 5.73
2 28.85 57.37 11.09 10.68
4 27.99 108.49 11.13 21.08
8 25.61 196.68 13.27 34.65
16 21.97 318.82 15.36 56.37
32 16.01 428.45 18.55 82.88
64 11.60 563.70 24.31 108.58
128 7.50 650.40 40.64 40.64
256 4.58 927.31 67.42 172.42
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k v1.2 (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 51.30 50.46 4.63 12.75
2 51.06 97.86 5.07 23.14
4 47.52 186.75 5.30 44.48
8 43.55 305.45 5.68 75.18
16 36.49 505.11 6.71 127.88
32 29.02 768.40 8.84 177.03
64 18.57 735.37 14.55 168.00
128 12.59 809.50 21.27 186.76
256 6.54 859.45 38.69 200.42
モデル: 専用AIクラスタの1つのLarge Cohereユニットでホストされるcohere.command (Cohere Command 52 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 36.32 31.29 8.15 7.12
8 30.15 106.03 13.19 23.86
32 23.94 204.41 23.90 45.84
128 14.36 254.54 65.26 56.58
モデル: 専用AIクラスタの1つのSmall Cohereユニットでホストされるcohere.command-light (Cohere Command Light 6 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 69.17 69.19 3.57 15.69
8 38.75 208.22 6.54 45.08
32 17.98 337.35 13.49 75.50
128 4.01 397.36 37.69 92.17
モデル: 専用AIクラスタの1つのLlama2 70ユニットでホストされるmeta.llama-2-70b-chat (Llama2 70 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 17.86 17.18 13.60 4.32
8 14.48 68.62 16.63 16.58
32 9.82 174.40 20.78 44.58
128 3.89 319.34 43.87 85.33