Cohere Embed 4

OCI生成AIの専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-v4.0 (Cohere Embed 4)モデルのパフォーマンス・ベンチマークを確認します。

- このモデルの使用可能なリージョンを参照してください。
- このモデルをホストするための専用AIクラスタ・ユニット・サイズをモデル・ページで確認します。
- メトリックを確認します。

テキストの埋込み

このシナリオは、テキスト入力を含む埋込みモデルにのみ適用されます。このシナリオでは、ベクトル・データベースのデータ取込みパイプラインの一部として生成を埋め込むことを模倣します。各シナリオでは、すべてのリクエストが同じサイズであり、96ドキュメントであり、それぞれが同じ数のトークンを持ちます。たとえば、512トークンのシナリオでは、大きなPDFファイルの集合を模倣します。各ファイルには、ユーザーがベクトルDBに収集する30,000以上の単語が含まれます。

64 トークン

次の表に、96ドキュメント、1ドキュメント当たり64トークンのシナリオのベンチマークを示します。

サウジアラビア中央部(リヤド)リージョンを除くすべてのリージョンの専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-v4.0モデル。


同時実行性	最初のトークンまでの時間(TTFT)(秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)	合計スループット(トークン/秒)
1	0.09	0.09	11.15	668.45
2	0.09	0.09	10.79	1,293.27
4	0.10	0.10	9.88	2,370.14
8	0.11	0.11	8.55	4,105.40
24	0.19	0.19	5.10	7,360.01
48	0.31	0.31	3.10	8,933.99
96	0.54	0.54	1.78	10,282.68

サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-v4.0モデル。


同時実行性	最初のトークンまでの時間(TTFT)(秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)	合計スループット(トークン/秒)
1	0.10	0.10	9.50	570.59
2	0.11	0.11	9.23	1,107.06
4	0.11	0.11	8.92	2,141.09
8	0.12	0.12	8.08	3,865.74
24	0.18	0.18	5.43	7,801.83
48	0.28	0.28	3.49	10,077.82
96	0.47	0.47	2.07	11,961.63

128 トークン

次の表に、96ドキュメント、1ドキュメント当たり128トークンのシナリオのベンチマークを示します。


同時実行性	最初のトークンまでの時間(TTFT)(秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)	合計スループット(トークン/秒)
1	0.09	0.09	11.27	1,381.70
2	0.09	0.09	10.67	2,617.09
4	0.10	0.10	9.67	4,750.20
8	0.12	0.12	8.14	7,990.79
24	0.22	0.22	4.29	12,624.79
48	0.35	0.35	2.76	16,251.43
96	0.64	0.64	1.51	17,735.38

サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-v4.0モデル。


同時実行性	最初のトークンまでの時間(TTFT)(秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)	合計スループット(トークン/秒)
1	0.10	0.10	9.69	1,189.24
2	0.10	0.10	9.38	2,301.32
4	0.11	0.11	8.89	4,357.61
8	0.12	0.12	8.00	7,854.35
24	0.19	0.19	5.01	14,749.07
48	0.29	0.29	3.34	19,707.08
96	0.50	0.50	1.92	22,589.75

512 トークン

次の表に、96ドキュメント、1ドキュメント当たり512トークンのシナリオのベンチマークを示します。


同時実行性	最初のトークンまでの時間(TTFT)(秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)	合計スループット(トークン/秒)
1	0.09	0.09	10.83	5,410.49
2	0.10	0.10	9.65	9,642.11
4	0.12	0.12	7.52	15,025.97
8	0.16	0.16	5.90	23,556.71
24	0.35	0.35	2.71	32,451.55
48	0.68	0.68	1.39	33,273.59
96	1.25	1.25	0.75	36,072.10

サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-v4.0モデル。


同時実行性	最初のトークンまでの時間(TTFT)(秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)	合計スループット(トークン/秒)
1	0.10	0.10	9.44	4,715.27
2	0.11	0.11	9.06	9,051.76
4	0.11	0.11	8.42	16,813.69
8	0.14	0.14	6.86	27,394.77
24	0.24	0.24	3.88	46,487.91
48	0.42	0.42	2.17	51,986.90
96	0.77	0.77	1.18	56,778.17

1,024 トークン

次の表に、96ドキュメント、1ドキュメント当たり1,024トークンのシナリオのベンチマークを示します。


同時実行性	最初のトークンまでの時間(TTFT)(秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)	合計スループット(トークン/秒)
1	0.09	0.09	9.55	9,559.38
2	0.12	0.12	1.30	2,601.06
4	0.15	0.15	6.06	24,284.74
8	0.23	0.23	4.05	32,432.49
24	0.60	0.60	1.56	37,501.74
48	1.09	1.09	0.85	40,893.60
96	2.11	2.11	0.31	29,835.31

サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-v4.0モデル。


同時実行性	最初のトークンまでの時間(TTFT)(秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)	合計スループット(トークン/秒)
1	0.10	0.10	9.14	9,158.45
2	0.11	0.11	8.64	17,307.93
4	0.13	0.13	7.25	29,048.00
8	0.16	0.16	5.51	44,150.34
24	0.38	0.38	2.38	57,261.32
48	0.64	0.64	1.39	66,942.72
96	1.20	1.20	0.74	70,865.77

2,048 トークン

次の表に、96ドキュメント、1ドキュメント当たり2,048トークンのシナリオのベンチマークを示します。


同時実行性	最初のトークンまでの時間(TTFT)(秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)	合計スループット(トークン/秒)
1	0.11	0.11	7.58	15,203.74
2	0.14	0.14	6.09	24,431.99
4	0.22	0.22	4.00	32,065.33
8	0.37	0.37	2.48	39,802.12
24	1.02	1.02	0.90	43,230.02
48	2.00	2.00	0.46	44,251.96

サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-v4.0モデル。


同時実行性	最初のトークンまでの時間(TTFT)(秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)	合計スループット(トークン/秒)
1	0.11	0.11	8.35	16,740.19
2	0.12	0.12	7.14	28,651.67
4	0.16	0.16	5.54	44,470.30
8	0.23	0.23	3.70	59,426.49
24	0.59	0.59	1.46	70,295.49
48	1.11	1.11	0.78	75,560.01
96	2.08	2.08	0.42	80,426.61

8,096 トークン

次の表に、96ドキュメント、1ドキュメント当たり8,096トークンのシナリオのベンチマークを示します。


同時実行性	最初のトークンまでの時間(TTFT)(秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)	合計スループット(トークン/秒)
1	0.25	0.25	3.31	26,290.24
2	0.42	0.42	2.05	32,530.08
4	0.82	0.82	1.09	34,646.38
8	1.59	1.59	0.57	36,389.86
24	4.47	4.47	0.20	39,049.48
48	8.75	8.75	0.11	40,180.09
96	17.30	17.30	0.05	39,843.97

サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-v4.0モデル。


同時実行性	最初のトークンまでの時間(TTFT)(秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)	合計スループット(トークン/秒)
1	0.17	0.17	4.57	36,262.71
2	0.26	0.26	3.14	49,882.53
4	0.50	0.50	1.69	53,606.93
8	0.90	0.90	0.96	60,838.78
24	2.38	2.38	0.36	69,450.50
48	4.52	4.52	0.19	73,294.47
96	8.72	8.72	0.10	76,456.16

32,000 トークン

次の表に、96ドキュメント、1ドキュメント当たり32,000トークンのシナリオのベンチマークを示します。


同時実行性	最初のトークンまでの時間(TTFT)(秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)	合計スループット(トークン/秒)
1	0.92	0.92	0.89	27,968.24
2	1.74	1.74	0.50	31,141.92
4	2.92	2.92	0.30	37,838.06
8	5.73	5.73	0.16	39,090.65
24	16.86	16.86	0.05	40,623.28

サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-v4.0モデル。


同時実行性	最初のトークンまでの時間(TTFT)(秒)	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)	合計スループット(トークン/秒)
1	0.53	0.53	1.41	44,178.97
2	0.88	0.88	0.90	56,692.99
4	1.58	1.58	0.52	65,690.47
8	2.99	2.99	0.28	70,962.43
24	8.47	8.47	0.10	75,910.53
48	16.60	16.60	0.05	77,493.42

イメージ埋込み

このシナリオは、イメージ入力を含む埋込みモデルにのみ適用されます。各シナリオで、I(M、N): Image with height Npx and width Mpxは、高さがMで幅がNピクセルのイメージを表します。たとえば、I(1024,512)は、高さが1,024ピクセル、幅が512ピクセルのイメージです。

I(512,512)

次の表に、高さと幅が512ピクセルのイメージのシナリオのベンチマークを示します。


同時実行性	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1	0.18	4.76
2	0.19	8.89
4	0.27	13.17
8	0.49	14.84
16	0.94	16.14
32	1.84	16.45
64	3.66	16.38
128	7.27	16.06
256	13.57	16.00

サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-v4.0モデル。


同時実行性	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1	0.15	4.98
2	0.16	10.30
4	0.17	19.51
8	0.21	32.83
16	0.33	43.06
32	0.65	44.02
64	1.32	43.77
128	2.71	41.90
256	5.29	40.35

I(1024,512)

次の表に、高さが1,024ピクセル、幅が512ピクセルのイメージのシナリオのベンチマークを示します。


同時実行性	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1	0.25	3.42
2	0.25	6.72
4	0.38	9.17
8	0.78	9.52
16	1.52	10.04
32	2.93	10.50
64	5.75	10.48
128	11.23	10.52
256	19.97	10.13

サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-v4.0モデル。


同時実行性	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1	0.19	3.91
2	0.19	8.29
4	0.22	15.05
8	0.36	19.68
16	0.67	22.08
32	1.35	22.21
64	2.71	22.00
128	5.44	21.09
256	10.20	21.29

I(2048,2048)

次の表に、高さと幅が2,048ピクセルのイメージのシナリオのベンチマークを示します。


同時実行性	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1	0.86	1.04
2	0.98	1.73
4	1.84	2.04
8	3.02	1.42
16	7.71	2.03
32	14.93	2.10
64	25.73	1.98
128	26.92	1.86
256	27.29	1.91

サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つの Embed Cohere ユニットでホストされるcohere.embed-v4.0モデル。


同時実行性	リクエスト・レベル・レイテンシ(秒)	リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1	0.66	1.25
2	0.69	2.49
4	1.07	3.40
8	2.24	3.41
16	4.57	3.40
32	9.22	3.37
64	18.53	3.30
128	24.61	2.77
256	25.78	2.71

Oracle Cloud Infrastructureドキュメント

Cohere Embed 4

テキストの埋込み

64 トークン

128 トークン

512 トークン

1,024 トークン

2,048 トークン

8,096 トークン

32,000 トークン

イメージ埋込み

I(512,512)

I(1024,512)

I(2048,2048)