シナリオ2: 生成AIでのRetrieval-Augmented Generation (RAG)ベンチマーク
RAGシナリオには、非常に長いプロンプトと短い応答があります。このシナリオでは、サマリーのユースケースも模倣します。
- プロンプトの長さは2,000トークンに固定されています。
- レスポンスの長さは200トークンに固定されます。
重要
ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。
- 同時リクエストの数。
- プロンプト内のトークンの数。
- レスポンス内のトークンの数。
- リクエスト間の(2)および(3)の差異。
ホスティング専用AIクラスタのベンチマークで使用される用語を確認します。シナリオとその説明のリストは、チャットおよびテキスト生成のシナリオを参照してください。取得拡張生成シナリオは、次のリージョンで実行されます。
Germany Central (Frankfurt)
- モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3-70b-instruct
(Meta Llama 3)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 47.78 47.82 4.28 14.02 2 45.51 90.14 4.50 26.42 4 42.24 164.92 4.81 48.51 8 37.44 289.82 5.48 85.13 16 28.00 421.00 7.19 123.72 32 18.73 542.99 10.65 159.56 64 11.63 668.78 16.17 196.44 128 6.20 700.83 32.89 205.70 256 3.97 756.00 54.71 222.02 - モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-16k v1.2
(Cohere Command R)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 49.33 47.66 4.14 14.24 2 45.65 86.90 4.50 26.04 4 40.32 152.10 5.09 45.51 8 30.69 235.78 6.57 70.43 16 24.60 310.44 9.74 93.07 32 9.95 307.32 18.21 91.81 64 5.43 297.06 31.41 89.08 128 4.44 313.47 44.90 93.89 256 2.36 312.97 85.35 93.53
US Midwest (Chicago)
- モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされる
meta.llama-3-70b-instruct
(Meta Llama 3)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 28.84 28.82 7.11 8.44 2 26.52 52.69 7.66 15.51 4 24.23 94.86 8.38 27.92 8 20.01 155.97 10.21 45.76 16 14.34 216.26 14.12 63.43 32 9.33 275.28 21.30 80.89 64 5.68 334.46 32.55 98.11 128 3.13 364.18 64.59 106.94 256 1.59 359.21 128.67 105.44 - モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされる
cohere.command-r-16k v1.2
(Cohere Command R)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 49.33 47.66 4.14 14.24 2 45.65 86.90 4.50 26.04 4 40.32 152.10 5.09 45.51 8 30.69 235.78 6.57 70.43 16 24.60 310.44 9.74 93.07 32 9.95 307.32 18.21 91.81 64 5.43 297.06 31.41 89.08 128 4.44 313.47 44.90 93.89 256 2.36 312.97 85.35 93.53 - モデル: 専用AIクラスタの1つのLarge Cohereユニットでホストされる
cohere.command
(Cohere Command 52 B)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 33.13 25.28 6.68 8.62 8 23.24 90.64 13.29 29.84 32 13.03 163.48 26.56 54.21 128 5.60 186.31 65.30 61.32 - モデル: 専用AIクラスタの1つのSmall Cohereユニットでホストされる
cohere.command-light
(Cohere Command Light 6 B)モデル -
同時 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM) 1 56.71 50.88 3.14 17.61 8 24.70 148.42 6.15 53.93 32 11.06 235.31 13.37 85.14 128 3.40 280.3 31.64 105.77