Cohere Embed 4

Revise las referencias de rendimiento para el modelo cohere.embed-v4.0 (Cohere Embed 4) alojado en una unidad Embed Cohere de un cluster de IA dedicado en OCI Generative AI.

- Consulte las regiones disponibles para este modelo.
- Revise el tamaño de unidad de cluster de AI dedicado para alojar este modelo en la página de modelo.
- Revise las métricas.

Incrustaciones de texto

Este escenario solo se aplica a los modelos de embebido con entrada de texto. Este escenario imita la generación de incrustaciones como parte del pipeline de ingestión de datos de una base de datos vectorial. En cada escenario, todas las solicitudes tienen el mismo tamaño, es decir, 96 documentos, cada uno con el mismo número de tokens. Por ejemplo, para el escenario de 512 tokens imita una colección de archivos PDF grandes, cada archivo con más de 30,000 palabras que un usuario ingiere en una base de datos vectorial.

64 Tokens

En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 64 tokens por documento.

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,09	0,09	11,15	668,45
2	0,09	0,09	10,79	1.293,27
4	0,1	0,1	9,88	2.370,14
8	0,11	0,11	8,55	4.105,4
24	0,19	0,19	5,1	7.360,01
48	0,31	0,31	3,1	8.933,99
96	0,54	0,54	1,78	10.282,68

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,1	0,1	9,5	570,59
2	0,11	0,11	9,23	1.107,06
4	0,11	0,11	8,92	2.141,09
8	0,12	0,12	8,08	3.865,74
24	0,18	0,18	5,43	7.801,83
48	0,28	0,28	3,49	10.077,82
96	0,47	0,47	2,07	11.961,63

128 Tokens

En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 128 tokens por documento.

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,09	0,09	11,27	1.381,7
2	0,09	0,09	10,67	2.617,09
4	0,1	0,1	9,67	4.750,2
8	0,12	0,12	8,14	7.990,79
24	0,22	0,22	4,29	12.624,79
48	0,35	0,35	2,76	16.251,43
96	0,64	0,64	1,51	17.735,38

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,1	0,1	9,69	1.189,24
2	0,1	0,1	9,38	2.301,32
4	0,11	0,11	8,89	4.357,61
8	0,12	0,12	8	7.854,35
24	0,19	0,19	5,01	14.749,07
48	0,29	0,29	3,34	19.707,08
96	0,5	0,5	1,92	22.589,75

512 Tokens

En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 512 tokens por documento.

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,09	0,09	10,83	5.410,49
2	0,1	0,1	9,65	9.642,11
4	0,12	0,12	7,52	15.025,97
8	0,16	0,16	5,9	23.556,71
24	0,35	0,35	2,71	32.451,55
48	0,68	0,68	1,39	33.273,59
96	1,25	1,25	0,75	36.072,1

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,1	0,1	9,44	4.715,27
2	0,11	0,11	9,06	9.051,76
4	0,11	0,11	8,42	16.813,69
8	0,14	0,14	6,86	27.394,77
24	0,24	0,24	3,88	46.487,91
48	0,42	0,42	2,17	51.986,9
96	0,77	0,77	1,18	56.778,17

1,024 Tokens

En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 1.024 tokens por documento.

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,09	0,09	9,55	9.559,38
2	0,12	0,12	1,3	2.601,06
4	0,15	0,15	6,06	24.284,74
8	0,23	0,23	4,05	32.432,49
24	0,6	0,6	1,56	37.501,74
48	1,09	1,09	0,85	40.893,6
96	2,11	2,11	0,31	29.835,31

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,1	0,1	9,14	9.158,45
2	0,11	0,11	8,64	17.307,93
4	0,13	0,13	7,25	29.048
8	0,16	0,16	5,51	44.150,34
24	0,38	0,38	2,38	57.261,32
48	0,64	0,64	1,39	66.942,72
96	1,2	1,2	0,74	70.865,77

2,048 Tokens

En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 2.048 tokens por documento.

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,11	0,11	7,58	15.203,74
2	0,14	0,14	6,09	24.431,99
4	0,22	0,22	4	32.065,33
8	0,37	0,37	2,48	39.802,12
24	1,02	1,02	0,9	43.230,02
48	2	2	0,46	44.251,96

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,11	0,11	8,35	16.740,19
2	0,12	0,12	7,14	28.651,67
4	0,16	0,16	5,54	44.470,3
8	0,23	0,23	3,7	59.426,49
24	0,59	0,59	1,46	70.295,49
48	1,11	1,11	0,78	75.560,01
96	2,08	2,08	0,42	80.426,61

8,096 Tokens

En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 8.096 tokens por documento.

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,25	0,25	3,31	26.290,24
2	0,42	0,42	2,05	32.530,08
4	0,82	0,82	1,09	34.646,38
8	1,59	1,59	0,57	36.389,86
24	4,47	4,47	0,2	39.049,48
48	8,75	8,75	0,11	40.180,09
96	17,3	17,3	0,05	39.843,97

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,17	0,17	4,57	36.262,71
2	0,26	0,26	3,14	49.882,53
4	0,5	0,5	1,69	53.606,93
8	0,9	0,9	0,96	60.838,78
24	2,38	2,38	0,36	69.450,5
48	4,52	4,52	0,19	73.294,47
96	8,72	8,72	0,1	76.456,16

32,000 tokens

En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 32 000 tokens por documento.

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,92	0,92	0,89	27.968,24
2	1,74	1,74	0,5	31.141,92
4	2,92	2,92	0,3	37.838,06
8	5,73	5,73	0,16	39.090,65
24	16,86	16,86	0,05	40.623,28

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,53	0,53	1,41	44.178,97
2	0,88	0,88	0,9	56.692,99
4	1,58	1,58	0,52	65.690,47
8	2,99	2,99	0,28	70.962,43
24	8,47	8,47	0,1	75.910,53
48	16,6	16,6	0,05	77.493,42

Incrustaciones de imágenes

Este escenario solo se aplica a los modelos de incrustación con entrada de imagen. En cada escenario, I(M,N): la imagen con Npx de altura y Mpx de ancho representa una imagen con la altura de M y el ancho de N píxeles. Por ejemplo, I(1024,512) es una imagen con una altura de 1,024 píxeles y un ancho de 512 píxeles.

I(512 512)

En las siguientes tablas se muestran las referencias para un escenario de una imagen con la altura y el ancho de 512 píxeles.

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1	0,18	4,76
2	0,19	8,89
4	0,27	13,17
8	0,49	14,84
16	0,94	16,14
32	1,84	16,45
64	3,66	16,38
128	7,27	16,06
256	13,57	16

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1	0,15	4,98
2	0,16	10,3
4	0,17	19,51
8	0,21	32,83
16	0,33	43,06
32	0,65	44,02
64	1,32	43,77
128	2,71	41,9
256	5,29	40,35

I(1024 512)

En las siguientes tablas se muestran las referencias de un escenario de una imagen con una altura de 1.024 píxeles y un ancho de 512 píxeles.

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1	0,25	3,42
2	0,25	6,72
4	0,38	9,17
8	0,78	9,52
16	1,52	10,04
32	2,93	10,5
64	5,75	10,48
128	11,23	10,52
256	19,97	10,13

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1	0,19	3,91
2	0,19	8,29
4	0,22	15,05
8	0,36	19,68
16	0,67	22,08
32	1,35	22,21
64	2,71	22
128	5,44	21,09
256	10,2	21,29

I(2048,2048)

En las siguientes tablas se muestran las referencias para un escenario de una imagen con una altura y un ancho de 2.048 píxeles.

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1	0,86	1,04
2	0,98	1,73
4	1,84	2,04
8	3,02	1,42
16	7,71	2,03
32	14,93	2,1
64	25,73	1,98
128	26,92	1,86
256	27,29	1,91

El modelo cohere.embed-v4.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1	0,66	1,25
2	0,69	2,49
4	1,07	3,4
8	2,24	3,41
16	4,57	3,4
32	9,22	3,37
64	18,53	3,3
128	24,61	2,77
256	25,78	2,71

Documentación de Oracle Cloud Infrastructure

Cohere Embed 4

Incrustaciones de texto

64 Tokens

128 Tokens

512 Tokens

1,024 Tokens

2,048 Tokens

8,096 Tokens

32,000 tokens

Incrustaciones de imágenes

I(512 512)

I(1024 512)

I(2048,2048)