シナリオ2: 生成AIでのRetrieval-Augmented Generation (RAG)ベンチマーク

RAGシナリオには、非常に長いプロンプトと短い応答があります。このシナリオでは、サマリーのユースケースも模倣します。

  • プロンプトの長さは2,000トークンに固定されています。
  • レスポンスの長さは200トークンに固定されます。
重要

ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。

  1. 同時リクエストの数。
  2. プロンプト内のトークンの数。
  3. レスポンス内のトークンの数。
  4. リクエスト間の(2)および(3)の差異。

ホスティング専用AIクラスタのベンチマークで使用される用語を確認します。シナリオとその説明のリストは、チャットおよびテキスト生成のシナリオを参照してください。取得拡張生成シナリオは、次のリージョンで実行されます。

Germany Central (Frankfurt)

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 47.78 47.82 4.28 14.02
2 45.51 90.14 4.50 26.42
4 42.24 164.92 4.81 48.51
8 37.44 289.82 5.48 85.13
16 28.00 421.00 7.19 123.72
32 18.73 542.99 10.65 159.56
64 11.63 668.78 16.17 196.44
128 6.20 700.83 32.89 205.70
256 3.97 756.00 54.71 222.02
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k v1.2 (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 49.33 47.66 4.14 14.24
2 45.65 86.90 4.50 26.04
4 40.32 152.10 5.09 45.51
8 30.69 235.78 6.57 70.43
16 24.60 310.44 9.74 93.07
32 9.95 307.32 18.21 91.81
64 5.43 297.06 31.41 89.08
128 4.44 313.47 44.90 93.89
256 2.36 312.97 85.35 93.53

US Midwest (Chicago)

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 28.84 28.82 7.11 8.44
2 26.52 52.69 7.66 15.51
4 24.23 94.86 8.38 27.92
8 20.01 155.97 10.21 45.76
16 14.34 216.26 14.12 63.43
32 9.33 275.28 21.30 80.89
64 5.68 334.46 32.55 98.11
128 3.13 364.18 64.59 106.94
256 1.59 359.21 128.67 105.44
モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k v1.2 (Cohere Command R)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 49.33 47.66 4.14 14.24
2 45.65 86.90 4.50 26.04
4 40.32 152.10 5.09 45.51
8 30.69 235.78 6.57 70.43
16 24.60 310.44 9.74 93.07
32 9.95 307.32 18.21 91.81
64 5.43 297.06 31.41 89.08
128 4.44 313.47 44.90 93.89
256 2.36 312.97 85.35 93.53
モデル: 専用AIクラスタの1つのLarge Cohereユニットでホストされるcohere.command (Cohere Command 52 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 33.13 25.28 6.68 8.62
8 23.24 90.64 13.29 29.84
32 13.03 163.48 26.56 54.21
128 5.60 186.31 65.30 61.32
モデル: 専用AIクラスタの1つのSmall Cohereユニットでホストされるcohere.command-light (Cohere Command Light 6 B)モデル
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 56.71 50.88 3.14 17.61
8 24.70 148.42 6.15 53.93
32 11.06 235.31 13.37 85.14
128 3.40 280.3 31.64 105.77