Cohere Embed Multilingual 3
OCI生成AIの専用AIクラスタの1つのEmbed Cohereユニットでホストされているcohere.embed-multilingual-v3.0
(Cohere Embed Multilingual 3)モデルのパフォーマンス・ベンチマークを確認します。
テキスト埋め込み
このシナリオは、テキスト入力を含む埋込みモデルにのみ適用されます。このシナリオは、ベクトル・データベースのデータ取込みパイプラインの一部として生成を埋め込むことを模倣します。各シナリオでは、すべてのリクエストが同じサイズ(96ドキュメント)で、それぞれが同じ数のトークンを持ちます。たとえば、512トークンのシナリオでは、大きなPDFファイルの集合を模倣します。各ファイルには、ユーザーがベクトルDBに取り込む30,000以上の単語が含まれています。
64 トークン
次の表に、96ドキュメント、ドキュメントごとに64トークンというシナリオのベンチマークを示します。
- サウジアラビア中央部(リヤド)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 0.10 0.10 9.86 607.39 2 0.10 0.10 9.66 1,192.60 4 0.11 0.11 9.30 2,295.80 8 0.11 0.11 8.69 4,296.59 24 0.15 0.15 6.69 9,900.74 48 0.19 0.19 5.10 15,114.13 96 0.28 0.28 3.43 20,339.92 - サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 0.09 0.09 11.29 697.03 2 0.09 0.09 11.06 1,365.27 4 0.09 0.09 10.58 2,616.91 8 0.10 0.10 9.78 4,818.35 24 0.14 0.14 7.18 10,639.81 48 0.18 0.18 5.32 15,775.42 96 0.28 0.28 3.46 20,495.80
128 トークン
次の表に、96ドキュメント、1ドキュメント当たり128トークンのシナリオのベンチマークを示します。
- サウジアラビア中央部(リヤド)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 0.10 0.10 9.78 1,243.08 2 0.10 0.10 9.55 2,428.37 4 0.11 0.11 9.16 4,660.31 8 0.12 0.12 8.42 8,561.42 24 0.15 0.15 6.31 19,255.04 48 0.21 0.21 4.62 28,172.80 96 0.31 0.31 3.01 36,706.87 - サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 0.09 0.09 11.28 1,435.60 2 0.09 0.09 10.92 2,773.25 4 0.09 0.09 10.36 5,284.49 8 0.10 0.10 9.41 9,575.47 24 0.14 0.14 6.78 20,686.00 48 0.20 0.20 4.82 29,426.82 96 0.35 0.35 2.64 32,277.12
256 トークン
次の表に、96ドキュメント、1ドキュメント当たり256トークンのシナリオのベンチマークを示します。
- サウジアラビア中央部(リヤド)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 0.10 0.10 9.65 2,493.61 2 0.10 0.10 9.37 4,840.64 4 0.11 0.11 8.81 9,107.30 8 0.12 0.12 7.88 16,286.08 24 0.17 0.17 5.50 34,074.47 48 0.24 0.24 3.85 47,783.85 96 0.43 0.43 2.16 53,652.55
512 トークン
次の表は、96ドキュメント、ドキュメントごとに512トークンというシナリオのベンチマークを示しています。
- サウジアラビア中央部(リヤド)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 0.10 0.10 9.21 4,791.85 2 0.11 0.11 8.74 9,094.38 4 0.12 0.12 7.76 16,165.29 8 0.15 0.15 6.39 26,582.37 24 0.23 0.23 4.03 50,284.92 48 0.37 0.37 2.44 61,014.65 96 0.63 0.63 1.42 71,048.17 - サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 0.09 0.09 10.34 5,379.92 2 0.10 0.10 9.79 10,190.27 4 0.11 0.11 8.67 18,059.39 8 0.13 0.13 7.00 29,158.44 24 0.22 0.22 4.20 52,493.14 48 0.36 0.36 2.36 58,908.72 96 0.62 0.62 1.44 71,746.46
1,024 トークン
次の表に、96ドキュメント、1ドキュメント当たり1,024トークンのシナリオのベンチマークを示します。
- サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 0.09 0.09 8.96 9,348.26 2 0.10 0.10 8.25 17,233.64 4 0.12 0.12 6.87 28,670.18 8 0.15 0.15 5.37 44,877.47 24 0.28 0.28 2.86 71,733.22 48 0.53 0.53 1.52 76,050.39 96 0.99 0.99 0.80 80,597.64
2,048 トークン
次の表に、96ドキュメント、1ドキュメント当たり2,048トークンのシナリオのベンチマークを示します。
- サウジアラビア中央部(リヤド)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 0.11 0.11 8.16 17,069.42 2 0.13 0.13 7.17 30,023.10 4 0.15 0.15 5.82 48,737.45 8 0.21 0.21 4.21 70,449.76 24 0.48 0.48 1.79 90,090.74 48 0.93 0.93 0.92 92,553.18 96 1.68 1.68 0.51 101,574.61 - サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 0.10 0.10 6.27 13,116.54 2 0.12 0.12 5.65 23,647.68 4 0.14 0.14 4.70 39,382.39 8 0.20 0.20 3.32 55,564.63 24 0.48 0.48 1.37 68,783.08 48 0.89 0.89 0.73 72,944.21 96 1.66 1.66 0.39 77,928.29
8,096 トークン
次の表に、96ドキュメント、1ドキュメント当たり8,096トークンのシナリオのベンチマークを示します。
- サウジアラビア中央部(リヤド)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 0.15 0.15 5.40 44,724.35 2 0.20 0.20 4.05 67,118.88 4 0.31 0.31 2.59 85,752.57 8 0.59 0.59 1.41 93,369.42 24 1.56 1.56 0.53 105,492.68 48 2.84 2.84 0.29 115,098.50 96 5.27 5.27 0.15 121,706.97 - サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 0.14 0.14 1.32 10,962.57 2 0.19 0.19 1.06 17,550.18 4 0.29 0.29 0.76 25,090.59 8 0.56 0.56 0.38 25,436.88 24 1.52 1.52 0.15 30,238.80 48 2.79 2.79 0.11 43,355.58 96 5.21 5.21 0.05 42,052.47
32,000 トークン
次の表に、96ドキュメント、1ドキュメント当たり32,000トークンのシナリオのベンチマークを示します。
- サウジアラビア中央部(リヤド)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 0.38 0.38 1.90 62,367.46 2 0.57 0.57 1.30 85,209.04 4 1.05 1.05 0.75 97,631.79 8 1.91 1.91 0.42 109,411.13 24 5.12 5.12 0.16 122,915.27 - サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 0.36 0.36 0.01 198.49 8 2.13 2.13 0.37 94,825.57 24 5.78 5.78 0.14 104,466.77
128,000 トークン
次の表に、96ドキュメント、1ドキュメント当たり128,000トークンのシナリオのベンチマークを示します。
- サウジアラビア中央部(リヤド)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 1.00 1.00 0.99 121,894.93 2 2.26 2.26 0.44 134,957.95 4 3.36 3.36 0.29 146,216.07 - サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのEmbed Cohereユニットでホストされる
cohere.embed-multilingual-v3.0
モデル。 -
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒) 1 1.10 1.10 0.90 109,801.35 2 2.01 2.01 0.49 120,154.57 4 3.74 3.74 0.26 129,080.96