シナリオ1: 生成AIの確率的長さのベンチマーク

このシナリオでは、プロンプトとレスポンスのサイズが事前に不明であるテキスト生成のユースケースを模倣します。このシナリオでは、プロンプトとレスポンスの長さが不明なため、確率的アプローチを使用して、プロンプトとレスポンスの長さの両方が正規分布に従います。

重要

ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。

ホスティング専用AIクラスタのベンチマークで使用される用語を確認します。シナリオとその説明のリストは、チャットおよびテキスト生成のシナリオを参照してください。融合シナリオは次の領域で実行されます。

Germany Central (Frankfurt)

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	49.76	49.58	6.42	9.33
2	48.04	95.38	6.80	17.53
4	46.09	181.21	6.99	33.60
8	44.19	330.46	7.43	60.67
16	40.56	591.52	8.40	104.42
32	31.35	869.36	9.68	168.46
64	23.87	1062.52	12.57	201.11
128	16.86	1,452.66	17.64	276.09
256	9.84	1,792.81	30.08	347.26

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k v1.2 (Cohere Command R)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	51.30	50.46	4.63	12.75
2	51.06	97.86	5.07	23.14
4	47.52	186.75	5.30	44.48
8	43.55	305.45	5.68	75.18
16	36.49	505.11	6.71	127.88
32	29.02	768.40	8.84	177.03
64	18.57	735.37	14.55	168.00
128	12.59	809.50	21.27	186.76
256	6.54	859.45	38.69	200.42

モデル: 専用AIクラスタの1つのLarge Genericユニットでホストされるmeta.llama-3-70b-instruct (Meta Llama 3)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	30.51	30.36	10.47	5.73
2	28.85	57.37	11.09	10.68
4	27.99	108.49	11.13	21.08
8	25.61	196.68	13.27	34.65
16	21.97	318.82	15.36	56.37
32	16.01	428.45	18.55	82.88
64	11.60	563.70	24.31	108.58
128	7.50	650.40	40.64	40.64
256	4.58	927.31	67.42	172.42

モデル: 専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-16k v1.2 (Cohere Command R)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	51.30	50.46	4.63	12.75
2	51.06	97.86	5.07	23.14
4	47.52	186.75	5.30	44.48
8	43.55	305.45	5.68	75.18
16	36.49	505.11	6.71	127.88
32	29.02	768.40	8.84	177.03
64	18.57	735.37	14.55	168.00
128	12.59	809.50	21.27	186.76
256	6.54	859.45	38.69	200.42

モデル: 専用AIクラスタの1つのLarge Cohereユニットでホストされるcohere.command (Cohere Command 52 B)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	36.32	31.29	8.15	7.12
8	30.15	106.03	13.19	23.86
32	23.94	204.41	23.90	45.84
128	14.36	254.54	65.26	56.58

モデル: 専用AIクラスタの1つのSmall Cohereユニットでホストされるcohere.command-light (Cohere Command Light 6 B)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	69.17	69.19	3.57	15.69
8	38.75	208.22	6.54	45.08
32	17.98	337.35	13.49	75.50
128	4.01	397.36	37.69	92.17

モデル: 専用AIクラスタの1つのLlama2 70ユニットでホストされるmeta.llama-2-70b-chat (Llama2 70 B)モデル


同時	トークン・レベルの推論速度(トークン/秒)	トークン・レベルのスループット(トークン/秒)	リクエスト・レベルのレイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/分)(RPM)
1	17.86	17.18	13.60	4.32
8	14.48	68.62	16.63	16.58
32	9.82	174.40	20.78	44.58
128	3.89	319.34	43.87	85.33