Cohere Rerank 3.5
OCI生成AIの専用AIクラスタの1つのRERANK_COHEREユニットでホストされているcohere.rerank.3-5
(Cohere Rerank 3.5)モデルのパフォーマンス・ベンチマークを確認します。
再ランク・モデルは、問合せおよびテキストのリストを入力として取得し、その妥当性スコアに基づいてテキストを問合せにランク付けします。つまり、各テキストが問合せにどの程度一致するかです。
- 3.5 ベンチマーク・シナリオの再ランク付け
-
- queryは、すべてのシナリオの 100トークンです。
- すべてのシナリオには、10,000トークンの長さのサポート・ドキュメントが1つのみあります。
- 各シナリオでは、この10,000トークン・ドキュメントを
max_tokens_per_doc
パラメータに基づいてチャンク化します。これらの値は64、128、256、512、1024、2048、および4096です。 - 最大チャンク・サイズは4096トークンで、これはRerank 3.5モデルが1パスで処理できる最大トークンです。
- 文書の長さは10,000トークンで、モデルのコンテキスト長は4096トークンであるため、すべてのシナリオで文書はチャンクに分割されます。
- 各チャンクには次のものが含まれます。
- トークンのパディング: 入力がモデルの予期される形式に適合することを確認します。
- 問合せ: 100トークン。
- ドキュメント・セクション: たとえば、4096トークンの
max_tokens_per_doc
の場合、各チャンクには次のドキュメント・セクションのいずれかが含まれます。- ドキュメントセクション1: 0から3,992トークンまでのドキュメント。
- ドキュメント・セクション2: 3,993から7,985トークンまでのドキュメント。
- ドキュメント・セクション3: 7,986から9,999トークンまでのドキュメント。このセクションは、ドキュメントの長さが10,000トークンのみであるため、他の2つのセクションより小さくなります。
- 各ベンチマーク・シナリオは、R(max_tokens_per_doc、 100)によって定義されます。
R(64,100)
バッチサイズ | 最初のトークンまでの時間(TTFT)(秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) |
---|---|---|---|
1 | 0.13 | 0.13 | 7.64 |
2 | 0.11 | 0.11 | 8.96 |
4 | 0.11 | 0.11 | 9.12 |
8 | 0.11 | 0.11 | 9.06 |
24 | 0.12 | 0.12 | 8.33 |
48 | 0.14 | 0.14 | 7.19 |
96 | 0.17 | 0.17 | 5.86 |
R(128,100)
バッチサイズ | 最初のトークンまでの時間(TTFT)(秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) |
---|---|---|---|
1 | 0.11 | 0.11 | 9.15 |
2 | 0.11 | 0.11 | 9.12 |
4 | 0.11 | 0.11 | 9.00 |
8 | 0.11 | 0.11 | 8.81 |
24 | 0.13 | 0.13 | 7.71 |
48 | 0.16 | 0.16 | 6.34 |
96 | 0.20 | 0.20 | 4.81 |
R(256,100)
バッチサイズ | 最初のトークンまでの時間(TTFT)(秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) |
---|---|---|---|
1 | 0.11 | 0.11 | 9.10 |
2 | 0.11 | 0.11 | 9.03 |
4 | 0.11 | 0.11 | 8.73 |
8 | 0.12 | 0.12 | 8.14 |
24 | 0.15 | 0.15 | 6.47 |
48 | 0.20 | 0.20 | 4.91 |
96 | 0.28 | 0.28 | 3.52 |
R(512,100)
バッチサイズ | 最初のトークンまでの時間(TTFT)(秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) |
---|---|---|---|
1 | 0.11 | 0.11 | 8.94 |
2 | 0.11 | 0.11 | 8.61 |
4 | 0.12 | 0.12 | 7.91 |
8 | 0.14 | 0.14 | 6.85 |
24 | 0.20 | 0.20 | 4.87 |
48 | 0.30 | 0.30 | 3.22 |
96 | 0.54 | 0.54 | 1.83 |
R(1024,100)
バッチサイズ | 最初のトークンまでの時間(TTFT)(秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) |
---|---|---|---|
1 | 0.12 | 0.12 | 8.11 |
2 | 0.13 | 0.13 | 7.22 |
4 | 0.15 | 0.15 | 6.24 |
8 | 0.19 | 0.19 | 4.99 |
24 | 0.45 | 0.45 | 2.20 |
48 | 0.73 | 0.73 | 1.34 |
96 | 1.38 | 1.38 | 0.72 |
R(2048,100)
バッチサイズ | 最初のトークンまでの時間(TTFT)(秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) |
---|---|---|---|
1 | 0.15 | 0.15 | 6.13 |
2 | 0.18 | 0.18 | 5.14 |
4 | 0.25 | 0.25 | 3.84 |
8 | 0.38 | 0.38 | 2.52 |
24 | 1.05 | 1.05 | 0.94 |
48 | 2.01 | 2.01 | 0.49 |
96 | 3.77 | 3.77 | 0.26 |
R(4096,100)
バッチサイズ | 最初のトークンまでの時間(TTFT)(秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) |
---|---|---|---|
1 | 7.35 | 7.35 | 4.65 |
2 | 7.35 | 7.35 | 3.71 |
4 | 7.35 | 7.35 | 2.43 |
8 | 7.35 | 7.35 | 1.24 |
24 | 7.35 | 7.35 | 0.49 |
48 | 7.35 | 7.35 | 0.26 |
96 | 7.35 | 7.35 | 0.14 |