Cohere Command 52 B

OCI生成AIの専用AIクラスタの1つの Large Cohere ユニットでホストされるcohere.command (Cohere Command 52 B)モデルのパフォーマンス・ベンチマークを確認します。

ランダム長

このシナリオでは、プロンプトとレスポンスのサイズが事前に不明であるテキスト生成のユースケースを模倣します。プロンプト長とレスポンス長が不明なため、プロンプト長とレスポンス長の両方が正規分布に従う確率的アプローチを使用しました。プロンプト長は、平均480トークンと標準偏差240トークンの正規分布に従います。レスポンスの長さは、平均300トークンと標準偏差150トークンの正規分布に従います。

同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベル・レイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 36.32 31.29 8.15 7.12
8 30.15 106.03 13.19 23.86
32 23.94 204.41 23.90 45.84
128 14.36 254.54 65.26 56.58

チャット

このシナリオでは、プロンプトと応答が短いチャットおよびダイアログのユースケースについて説明します。プロンプトとレスポンスの長さはそれぞれ100トークンに固定されています。

同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベル・レイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 34.98 28.85 3.21 17.30
8 29.51 119.83 5.34 71.62
32 27.44 293.58 5.91 177.09
128 25.56 482.88 6.67 291.95

世代重

このシナリオは、生成およびモデル・レスポンスの多いユース・ケース用です。たとえば、項目の短い箇条書きリストから生成される長い職務内容です。この場合、プロンプト長は100トークンに固定され、レスポンス長は1,000トークンに固定されます。

同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベル・レイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 35.78 33.43 10.98 5.33
8 31.41 99.67 13.87 16.61
32 28.49 237.1 19.48 40.24
128 23.01 326.93 53.13 54.89

RAG

検索拡張生成(RAG)シナリオには、非常に長いプロンプトと、ユース・ケースの要約などの短いレスポンスがあります。プロンプト長は2,000トークンに固定され、レスポンス長は200トークンに固定されます。

同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベル・レイテンシ(秒) リクエスト・レベルのスループット(リクエスト/分)(RPM)
1 33.13 25.28 6.68 8.62
8 23.24 90.64 13.29 29.84
32 13.03 163.48 26.56 54.21
128 5.60 186.31 65.30 61.32