Cohere Command A

OCI生成AIの専用AIクラスタの1つのLARGE_COHERE_V3ユニットでホストされているcohere.command-a-03-2025 (Cohere Command A)モデルのパフォーマンス・ベンチマークを確認します。

  • モデルの詳細を参照し、次のセクションを確認してください:
    • このモデルで使用可能なリージョン。
    • このモデルをホストするための専用AIクラスタ。
  • メトリックを確認します。

ランダム長

このシナリオは、プロンプトおよびレスポンスのサイズが事前に不明であるテキスト生成のユース・ケースを模倣します。プロンプト長と応答長が不明なため、プロンプト長と応答長の両方が正規分布に従う確率的アプローチを使用しました。プロンプトの長さは、平均480トークンと標準偏差240トークンの正規分布に従います。応答の長さは、平均300トークンと標準偏差150トークンの正規分布に従います。

UAE東部(ドバイ)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのLARGE_COHERE_V3ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 36.07 33.25 8.55 0.12
2 35.41 64.98 8.48 0.23
4 34.37 123.92 8.97 0.44
8 32.22 231.51 9.41 0.84
16 28.11 396.14 10.77 1.44
32 23.12 634.55 13.25 2.24
64 22.17 619.43 25.02 2.28
128 21.90 622.78 42.94 2.38
256 19.89 482.91 60.27 1.86
UAE東部(ドバイ)リージョンの専用AIクラスタの1つのSMALL_COHERE_4ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 29.72 27.28 10.34 0.09
2 28.97 53.23 10.43 0.19
4 27.52 102.17 11.18 0.35
8 25.51 184.06 12.69 0.62
16 20.65 298.17 15.01 1.03
32 15.40 419.11 19.19 1.54
64 9.99 514.52 30.97 1.84
128 8.34 484.54 58.04 1.75
256 6.87 352.45 87.80 1.33

チャット

このシナリオでは、プロンプトとレスポンスが短いチャットおよびダイアログのユースケースについて説明します。プロンプトとレスポンスの長さはそれぞれ100個のトークンに固定されます。

UAE東部(ドバイ)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのLARGE_COHERE_V3ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 35.92 28.36 3.29 0.30
2 35.93 57.53 3.25 0.61
4 35.49 109.42 3.38 1.17
8 34.22 198.45 3.70 2.13
16 31.51 333.75 4.29 3.57
32 26.64 517.73 5.50 5.51
64 19.91 516.36 10.57 5.51
128 19.88 514.45 18.96 5.49
256 20.15 511.25 29.19 5.46
UAE東部(ドバイ)リージョンの専用AIクラスタの1つのSMALL_COHERE_4ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 29.97 24.46 3.80 0.26
2 29.74 49.35 3.76 0.53
4 29.25 92.17 4.01 0.99
8 28.28 162.54 4.52 1.74
16 26.43 260.60 5.56 2.79
32 21.33 365.80 7.78 3.90
64 14.60 466.61 11.96 4.99
128 5.28 431.36 24.06 4.61
256 5.40 430.52 38.72 4.61

ジェネレーションヘビー

このシナリオは、生成およびモデル・レスポンスの重いユースケース用です。たとえば、アイテムの短い箇条書きリストから生成される長いジョブの説明です。この場合、プロンプトの長さは100トークンに固定され、レスポンスの長さは1,000トークンに固定されます。

UAE東部(ドバイ)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのLARGE_COHERE_V3ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 35.51 32.66 27.39 0.03
2 35.16 67.73 26.98 0.07
4 35.13 130.61 27.38 0.14
8 34.25 260.45 28.22 0.28
16 32.80 497.46 29.63 0.54
32 30.80 915.24 32.10 0.98
64 29.67 916.69 61.12 0.99
128 29.94 852.79 109.34 0.92
256 29.98 726.60 127.26 0.78
UAE東部(ドバイ)リージョンの専用AIクラスタの1つのSMALL_COHERE_4ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 29.13 27.76 32.84 0.03
2 28.95 55.79 32.85 0.06
4 28.60 105.88 33.57 0.11
8 27.07 197.75 35.56 0.21
16 24.51 370.30 39.85 0.40
32 20.29 602.00 49.21 0.65
64 13.96 792.68 70.80 0.85
128 9.81 708.10 122.64 0.76
256 9.41 600.13 196.22 0.64

RAG

検索拡張生成(RAG)シナリオには、非常に長いプロンプトがあり、ユースケースの要約などの短いレスポンスがあります。プロンプトの長さは2,000トークンに固定され、レスポンスの長さは200トークンに固定されます。

UAE東部(ドバイ)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのLARGE_COHERE_V3ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 34.27 28.56 6.25 0.16
2 34.29 56.05 6.38 0.31
4 31.44 100.94 7.08 0.56
8 29.00 171.12 8.35 0.95
16 23.98 259.25 10.94 1.44
32 15.11 338.19 16.28 1.86
64 12.10 332.78 31.24 1.84
128 11.95 320.85 58.38 1.78
256 10.81 22.63 62.65 0.13
UAE東部(ドバイ)リージョンの専用AIクラスタの1つのSMALL_COHERE_4ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 26.47 22.75 7.69 0.13
2 26.48 43.67 8.10 0.24
4 25.90 78.72 9.08 0.44
8 23.15 125.73 11.27 0.71
16 17.93 177.70 15.91 0.99
32 8.33 206.41 26.81 1.14
64 8.25 205.11 50.65 1.14
128 6.53 117.32 121.12 0.66
256 7.74 9.14 76.55 0.05