シナリオ4: 生成AIのチャットボット・ベンチマーク

チャットボット・シナリオでは、プロンプトとレスポンスが短くなるチャットボット/会話のユースケースについて説明します。

  • プロンプトの長さは100トークンに固定されています。
  • レスポンスの長さは100トークンに固定されます。
重要

ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。

  1. 同時リクエストの数。
  2. プロンプト内のトークンの数。
  3. レスポンス内のトークンの数。
  4. リクエスト間の(2)および(3)の差異。

ホスティング専用AIクラスタのベンチマークで使用される用語を確認します。シナリオとその説明のリストは、チャットおよびテキスト生成のシナリオを参照してください。生成の重いシナリオは次のリージョンで実行されます。

Germany Central (Frankfurt)

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 52.05 52.57 1.95 30.80
2 50.70 100.90 2.00 59.19
4 49.96 192.32 2.06 112.89
8 47.75 369.74 2.15 216.13
16 44.36 643.94 2.30 377.65
32 36.74 982.39 2.74 576.42
64 31.27 1605.80 3.23 942.49
128 20.59 1,841.44 4.96 1,082.95
256 11.49 2,333.32 8.88 1,368.63
モデル: 専用AIクラスタの1つのCohere Small V2ユニットでホストされるcohere.command-r-16k v1.2 (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 42.36 38.82 2.23 26.07
2 42.49 77.95 2.18 52.86
4 42.15 155.04 2.15 106.28
8 39.72 274.21 2.33 192.82
16 37.28 527.72 2.36 366.20
32 32.87 828.91 2.88 538.91
64 24.48 1,175.93 3.40 816.00
128 19.21 1,522.53 5.38 1,023.93
256 10.11 1,668.07 8.49 1,127.35

US Midwest (Chicago)

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 31.07 31.12 3.28 18.29
2 30.33 59.43 3.40 34.88
4 29.39 113.76 3.51 66.48
8 27.14 210.00 3.77 123.22
16 24.04 351.38 4.24 205.78
32 19.40 523.68 5.23 306.44
64 16.12 837.45 6.28 491.00
128 9.48 920.97 10.63 541.91
256 5.73 1,211.95 17.79 713.19
モデル: 専用AIクラスタの1つのCohere Small V2ユニットでホストされるcohere.command-r-16k v1.2 (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 42.36 38.82 2.23 26.07
2 42.49 77.95 2.18 52.86
4 42.15 155.04 2.15 106.28
8 39.72 274.21 2.33 192.82
16 37.28 527.72 2.36 366.20
32 32.87 828.91 2.88 538.91
64 24.48 1,175.93 3.40 816.00
128 19.21 1,522.53 5.38 1,023.93
256 10.11 1,668.07 8.49 1,127.35
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command (Cohere Command 52 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 34.98 28.85 3.21 17.30
8 29.51 119.83 5.34 71.62
32 27.44 293.58 5.91 177.09
128 25.56 482.88 6.67 291.95
モデル: 専用AIクラスタの1つのSmall Cohereユニットでホストされるcohere.command-light (Cohere Command Light 6 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 71.85 54.49 1.74 30.21
8 41.91 191.52 2.87 105.63
32 31.37 395.49 3.55 216.87
128 28.27 557.57 3.9 302.44
モデル: 専用AIクラスタの1つのLlama2 70ユニットでホストされるmeta.llama-2-70b-chat(Llama2 (70 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 17.65 15.92 5.88 9.76
8 14.95 91.02 6.44 59.32
32 12.14 238.73 8.33 148.11
128 7.81 411.52 12.44 259.44