Cohere Embed Multilingual Light Image 3
OCI生成AIの専用AIクラスタの1つの Embed Cohere ユニットでホストされているcohere.embed-multilingual-light-image-v3.0 (Cohere Embed Multilingual Light Image 3)モデルのパフォーマンス・ベンチマークを確認します。 
テキスト埋め込み
このシナリオは、埋込みモデルにのみ適用されます。このシナリオは、ベクトル・データベースのデータ取込みパイプラインの一部として生成を埋め込むことを模倣します。このシナリオでは、すべてのリクエストが同じサイズ(96ドキュメント)で、それぞれに512トークンがあります。たとえば、大きいPDFファイルの集まりで、ユーザーがベクトルDBに取り込む30,000以上の単語を含む各ファイルがあります。
| 同時実行性 | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/分) (RPM) | 
|---|---|---|
| 1 | 1.69 | 42 | 
| 8 | 3.80 | 118 | 
| 32 | 14.26 | 126 | 
| 128 | 37.17 | 138 | 
より軽い埋め込み
このシナリオは、埋込みモデルにのみ適用されます。このより軽い埋込みシナリオは埋込みシナリオに似ていますが、各リクエストのサイズを512個のトークンを持つ16個のドキュメントに減らす点が異なります。このシナリオでは、より少ない単語の小さいファイルをサポートできます。
| 同時実行性 | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/分) (RPM) | 
|---|---|---|
| 1 | 1.03 | 54 | 
| 8 | 1.35 | 300 | 
| 32 | 3.11 | 570 | 
| 128 | 11.50 | 888 | 
イメージ埋込み
このシナリオは、イメージ入力のある埋込みモデルにのみ適用されます。各シナリオで、I(M、N): 高さNpxおよび幅Mpxのイメージは、高さMおよび幅Nピクセルのイメージを表します。たとえば、I(1024,512)は、高さが1,024ピクセル、幅が512ピクセルのイメージです。
I(512,512)
次の表は、高さと幅が512ピクセルのイメージのシナリオで、専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-multilingual-light-image-v3.0を使用した専用AIクラスタ・ベンチマークのホスティングを示しています。
| 同時実行性 | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 
|---|---|---|
| 1 | 0.13 | 6.55 | 
| 2 | 0.13 | 12.24 | 
| 4 | 0.13 | 23.34 | 
| 8 | 0.15 | 39.37 | 
| 16 | 0.19 | 63.04 | 
| 32 | 0.32 | 77.26 | 
| 64 | 0.57 | 82.07 | 
| 128 | 1.12 | 89.98 | 
| 256 | 2.28 | 87.84 | 
I(1024,512)
次の表は、高さが1,024ピクセル、幅が512ピクセルのイメージのシナリオで、専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-multilingual-light-image-v3.0を使用したホスティング専用AIクラスタ・ベンチマークを示しています。
| 同時実行性 | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 
|---|---|---|
| 1 | 0.14 | 5.55 | 
| 2 | 0.14 | 10.66 | 
| 4 | 0.15 | 19.14 | 
| 8 | 0.17 | 30.56 | 
| 16 | 0.24 | 45.75 | 
| 32 | 0.46 | 55.68 | 
| 64 | 0.87 | 63.16 | 
| 128 | 1.54 | 68.16 | 
| 256 | 2.15 | 77.06 | 
I(2048年、2048年)
次の表は、高さと幅が2,048ピクセルのイメージのシナリオで、専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-multilingual-light-image-v3.0を使用した専用AIクラスタ・ベンチマークのホスティングを示しています。
| 同時実行性 | リクエスト・レベルのレイテンシ(秒) | リクエスト・レベルのスループット(リクエスト/秒) (RPS) | 
|---|---|---|
| 1 | 0.27 | 2.70 | 
| 2 | 0.30 | 4.78 | 
| 4 | 0.29 | 10.44 | 
| 8 | 0.34 | 18.21 | 
| 16 | 0.57 | 22.27 | 
| 32 | 1.09 | 25.08 | 
| 64 | 2.14 | 26.24 | 
| 128 | 4.34 | 26.27 | 
| 256 | 9.58 | 23.61 |