Cohere Rerank 3.5
OCI生成AIの専用AIクラスタの1つのRERANK_COHEREユニットでホストされているcohere.rerank.3-5 (Cohere Rerank 3.5)モデルのパフォーマンス・ベンチマークを確認します。
再ランク・モデルは、問合せおよびテキストのリストを入力として取得し、その妥当性スコアに基づいてテキストを問合せにランク付けします。つまり、各テキストが問合せにどの程度一致するかです。
ドキュメントサイズ: 64トークン
このシナリオは、再ランク・モデルに適用されます。このシナリオでは、すべてのドキュメントが同じサイズで、それぞれ64個のトークンであり、これらのドキュメントの1、2、4、8、24、48および96を再ランク付けするためのベンチマークが提供されます。
| ドキュメントの数 | 最初のトークンまでの時間(TTFT)(秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 
|---|---|---|---|
| 1 | 0.13 | 0.13 | 7.64 | 
| 2 | 0.11 | 0.11 | 8.96 | 
| 4 | 0.11 | 0.11 | 9.12 | 
| 8 | 0.11 | 0.11 | 9.06 | 
| 24 | 0.12 | 0.12 | 8.33 | 
| 48 | 0.14 | 0.14 | 7.19 | 
| 96 | 0.17 | 0.17 | 5.86 | 
ドキュメントサイズ: 128トークン
このシナリオは、再ランク・モデルに適用されます。このシナリオでは、すべてのドキュメントが同じサイズで、それぞれ128個のトークンであり、これらのドキュメントの1、2、4、8、24、48および96を再ランク付けするためのベンチマークが提供されます。
| ドキュメントの数 | 最初のトークンまでの時間(TTFT)(秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 
|---|---|---|---|
| 1 | 0.11 | 0.11 | 9.15 | 
| 2 | 0.11 | 0.11 | 9.12 | 
| 4 | 0.11 | 0.11 | 9.00 | 
| 8 | 0.11 | 0.11 | 8.81 | 
| 24 | 0.13 | 0.13 | 7.71 | 
| 48 | 0.16 | 0.16 | 6.34 | 
| 96 | 0.20 | 0.20 | 4.81 | 
ドキュメントサイズ: 256トークン
このシナリオは、再ランク・モデルに適用されます。このシナリオでは、すべてのドキュメントが同じサイズで、それぞれ256個のトークンであり、これらのドキュメントの1、2、4、8、24、48および96を再ランク付けするためのベンチマークが提供されます。
| ドキュメントの数 | 最初のトークンまでの時間(TTFT)(秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 
|---|---|---|---|
| 1 | 0.11 | 0.11 | 9.10 | 
| 2 | 0.11 | 0.11 | 9.03 | 
| 4 | 0.11 | 0.11 | 8.73 | 
| 8 | 0.12 | 0.12 | 8.14 | 
| 24 | 0.15 | 0.15 | 6.47 | 
| 48 | 0.20 | 0.20 | 4.91 | 
| 96 | 0.28 | 0.28 | 3.52 | 
ドキュメントサイズ: 512トークン
このシナリオは、再ランク・モデルに適用されます。このシナリオでは、すべてのドキュメントが同じサイズで、それぞれ512個のトークンであり、これらのドキュメントの1、2、4、8、24、48および96を再ランク付けするためのベンチマークが提供されます。
| ドキュメントの数 | 最初のトークンまでの時間(TTFT)(秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 
|---|---|---|---|
| 1 | 0.11 | 0.11 | 8.94 | 
| 2 | 0.11 | 0.11 | 8.61 | 
| 4 | 0.12 | 0.12 | 7.91 | 
| 8 | 0.14 | 0.14 | 6.85 | 
| 24 | 0.20 | 0.20 | 4.87 | 
| 48 | 0.30 | 0.30 | 3.22 | 
| 96 | 0.54 | 0.54 | 1.83 | 
ドキュメントサイズ: 1024トークン
このシナリオは、再ランク・モデルに適用されます。このシナリオでは、すべてのドキュメントが同じサイズで、それぞれ1,024個のトークンであり、これらのドキュメントの1、2、4、8、24、48および96を再ランク付けするためのベンチマークが提供されます。
| ドキュメントの数 | 最初のトークンまでの時間(TTFT)(秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 
|---|---|---|---|
| 1 | 0.12 | 0.12 | 8.11 | 
| 2 | 0.13 | 0.13 | 7.22 | 
| 4 | 0.15 | 0.15 | 6.24 | 
| 8 | 0.19 | 0.19 | 4.99 | 
| 24 | 0.45 | 0.45 | 2.20 | 
| 48 | 0.73 | 0.73 | 1.34 | 
| 96 | 1.38 | 1.38 | 0.72 | 
ドキュメントサイズ: 2048トークン
このシナリオは、再ランク・モデルに適用されます。このシナリオでは、すべてのドキュメントが同じサイズで、それぞれ2,048個のトークンであり、これらのドキュメントの1、2、4、8、24、48および96を再ランク付けするためのベンチマークが提供されます。
| ドキュメントの数 | 最初のトークンまでの時間(TTFT)(秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 
|---|---|---|---|
| 1 | 0.15 | 0.15 | 6.13 | 
| 2 | 0.18 | 0.18 | 5.14 | 
| 4 | 0.25 | 0.25 | 3.84 | 
| 8 | 0.38 | 0.38 | 2.52 | 
| 24 | 1.05 | 1.05 | 0.94 | 
| 48 | 2.01 | 2.01 | 0.49 | 
| 96 | 3.77 | 3.77 | 0.26 | 
ドキュメントサイズ: 4096トークン
このシナリオは、再ランク・モデルに適用されます。このシナリオでは、すべてのドキュメントが同じサイズで、それぞれ4,096個のトークンであり、これらのドキュメントの1、2、4、8、24、48および96を再ランク付けするためのベンチマークが提供されます。
| ドキュメントの数 | 最初のトークンまでの時間(TTFT)(秒) | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 
|---|---|---|---|
| 1 | 7.35 | 7.35 | 4.65 | 
| 2 | 7.35 | 7.35 | 3.71 | 
| 4 | 7.35 | 7.35 | 2.43 | 
| 8 | 7.35 | 7.35 | 1.24 | 
| 24 | 7.35 | 7.35 | 0.49 | 
| 48 | 7.35 | 7.35 | 0.26 | 
| 96 | 7.35 | 7.35 | 0.14 |