シナリオ2: 生成AIでのRetrieval-Augmented Generation (RAG)ベンチマーク

RAGシナリオには、非常に長いプロンプトと短い応答があります。このシナリオでは、サマリーのユースケースも模倣します。

重要

ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。

ホスティング専用AIクラスタのベンチマークで使用される用語を確認します。シナリオとその説明のリストは、チャットおよびテキスト生成のシナリオを参照してください。取得拡張生成シナリオは、次のリージョンで実行されます。

Germany Central (Frankfurt)

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	47.78	47.82	4.28	14.02
2	45.51	90.14	4.50	26.42
4	42.24	164.92	4.81	48.51
8	37.44	289.82	5.48	85.13
16	28.00	421.00	7.19	123.72
32	18.73	542.99	10.65	159.56
64	11.63	668.78	16.17	196.44
128	6.20	700.83	32.89	205.70
256	3.97	756.00	54.71	222.02

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k v1.2 (Cohere Command R)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	49.33	47.66	4.14	14.24
2	45.65	86.90	4.50	26.04
4	40.32	152.10	5.09	45.51
8	30.69	235.78	6.57	70.43
16	24.60	310.44	9.74	93.07
32	9.95	307.32	18.21	91.81
64	5.43	297.06	31.41	89.08
128	4.44	313.47	44.90	93.89
256	2.36	312.97	85.35	93.53

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	28.84	28.82	7.11	8.44
2	26.52	52.69	7.66	15.51
4	24.23	94.86	8.38	27.92
8	20.01	155.97	10.21	45.76
16	14.34	216.26	14.12	63.43
32	9.33	275.28	21.30	80.89
64	5.68	334.46	32.55	98.11
128	3.13	364.18	64.59	106.94
256	1.59	359.21	128.67	105.44

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k v1.2 (Cohere Command R)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	49.33	47.66	4.14	14.24
2	45.65	86.90	4.50	26.04
4	40.32	152.10	5.09	45.51
8	30.69	235.78	6.57	70.43
16	24.60	310.44	9.74	93.07
32	9.95	307.32	18.21	91.81
64	5.43	297.06	31.41	89.08
128	4.44	313.47	44.90	93.89
256	2.36	312.97	85.35	93.53

モデル: 専用AIクラスタの1つのLarge Cohereユニットでホストされるcohere.command (Cohere Command 52 B)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	33.13	25.28	6.68	8.62
8	23.24	90.64	13.29	29.84
32	13.03	163.48	26.56	54.21
128	5.60	186.31	65.30	61.32

モデル: 専用AIクラスタの1つのSmall Cohereユニットでホストされるcohere.command-light (Cohere Command Light 6 B)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	56.71	50.88	3.14	17.61
8	24.70	148.42	6.15	53.93
32	11.06	235.31	13.37	85.14
128	3.40	280.3	31.64	105.77