Cohere Embed Multilingual 3

Revise las referencias de rendimiento para el modelo cohere.embed-multilingual-v3.0 (Cohere Embed Multilingual 3) alojado en una unidad Embed Cohere de un cluster de IA dedicado en OCI Generative AI.

- Consulte las regiones disponibles para este modelo.
- Revise el tamaño de unidad de cluster de AI dedicado para alojar este modelo en la página de modelo.
- Revise las métricas.

Incrustaciones de texto

Este escenario solo se aplica a los modelos de embebido con entrada de texto. Este escenario imita la generación de incrustaciones como parte del pipeline de ingestión de datos de una base de datos vectorial. En cada escenario, todas las solicitudes tienen el mismo tamaño, es decir, 96 documentos, cada uno con el mismo número de tokens. Por ejemplo, para el escenario de 512 tokens imita una colección de archivos PDF grandes, cada archivo con más de 30,000 palabras que un usuario ingiere en una base de datos vectorial.

64 Tokens

En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 64 tokens por documento.

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,1	0,1	9,86	607,39
2	0,1	0,1	9,66	1.192,6
4	0,11	0,11	9,3	2.295,8
8	0,11	0,11	8,69	4.296,59
24	0,15	0,15	6,69	9.900,74
48	0,19	0,19	5,1	15.114,13
96	0,28	0,28	3,43	20.339,92

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,09	0,09	11,29	697,03
2	0,09	0,09	11,06	1.365,27
4	0,09	0,09	10,58	2.616,91
8	0,1	0,1	9,78	4.818,35
24	0,14	0,14	7,18	10.639,81
48	0,18	0,18	5,32	15.775,42
96	0,28	0,28	3,46	20.495,8

128 Tokens

En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 128 tokens por documento.

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,1	0,1	9,78	1.243,08
2	0,1	0,1	9,55	2.428,37
4	0,11	0,11	9,16	4.660,31
8	0,12	0,12	8,42	8.561,42
24	0,15	0,15	6,31	19.255,04
48	0,21	0,21	4,62	28.172,8
96	0,31	0,31	3,01	36.706,87

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,09	0,09	11,28	1.435,6
2	0,09	0,09	10,92	2.773,25
4	0,09	0,09	10,36	5.284,49
8	0,1	0,1	9,41	9.575,47
24	0,14	0,14	6,78	20.686
48	0,2	0,2	4,82	29.426,82
96	0,35	0,35	2,64	32.277,12

256 Tokens

En la siguiente tabla se muestran las referencias para un escenario de 96 documentos, 256 tokens por documento.

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,1	0,1	9,65	2.493,61
2	0,1	0,1	9,37	4.840,64
4	0,11	0,11	8,81	9.107,3
8	0,12	0,12	7,88	16.286,08
24	0,17	0,17	5,5	34.074,47
48	0,24	0,24	3,85	47.783,85
96	0,43	0,43	2,16	53.652,55

512 Tokens

En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 512 tokens por documento.

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,1	0,1	9,21	4.791,85
2	0,11	0,11	8,74	9.094,38
4	0,12	0,12	7,76	16.165,29
8	0,15	0,15	6,39	26.582,37
24	0,23	0,23	4,03	50.284,92
48	0,37	0,37	2,44	61.014,65
96	0,63	0,63	1,42	71.048,17

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,09	0,09	10,34	5.379,92
2	0,1	0,1	9,79	10.190,27
4	0,11	0,11	8,67	18.059,39
8	0,13	0,13	7	29.158,44
24	0,22	0,22	4,2	52.493,14
48	0,36	0,36	2,36	58.908,72
96	0,62	0,62	1,44	71.746,46

1,024 Tokens

En la siguiente tabla se muestran las referencias para un escenario de 96 documentos, 1.024 tokens por documento.

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,09	0,09	8,96	9.348,26
2	0,1	0,1	8,25	17.233,64
4	0,12	0,12	6,87	28.670,18
8	0,15	0,15	5,37	44.877,47
24	0,28	0,28	2,86	71.733,22
48	0,53	0,53	1,52	76.050,39
96	0,99	0,99	0,8	80.597,64

2,048 Tokens

En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 2.048 tokens por documento.

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,11	0,11	8,16	17.069,42
2	0,13	0,13	7,17	30.023,1
4	0,15	0,15	5,82	48.737,45
8	0,21	0,21	4,21	70.449,76
24	0,48	0,48	1,79	90.090,74
48	0,93	0,93	0,92	92.553,18
96	1,68	1,68	0,51	101.574,61

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,1	0,1	6,27	13.116,54
2	0,12	0,12	5,65	23.647,68
4	0,14	0,14	4,7	39.382,39
8	0,2	0,2	3,32	55.564,63
24	0,48	0,48	1,37	68.783,08
48	0,89	0,89	0,73	72.944,21
96	1,66	1,66	0,39	77.928,29

8,096 Tokens

En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 8.096 tokens por documento.

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,15	0,15	5,4	44.724,35
2	0,2	0,2	4,05	67.118,88
4	0,31	0,31	2,59	85.752,57
8	0,59	0,59	1,41	93.369,42
24	1,56	1,56	0,53	105.492,68
48	2,84	2,84	0,29	115.098,5
96	5,27	5,27	0,15	121.706,97

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,14	0,14	1,32	10.962,57
2	0,19	0,19	1,06	17.550,18
4	0,29	0,29	0,76	25.090,59
8	0,56	0,56	0,38	25.436,88
24	1,52	1,52	0,15	30.238,8
48	2,79	2,79	0,11	43.355,58
96	5,21	5,21	0,05	42.052,47

32,000 tokens

En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 32 000 tokens por documento.

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,38	0,38	1,9	62.367,46
2	0,57	0,57	1,3	85.209,04
4	1,05	1,05	0,75	97.631,79
8	1,91	1,91	0,42	109.411,13
24	5,12	5,12	0,16	122.915,27

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,36	0,36	0,01	198,49
8	2,13	2,13	0,37	94.825,57
24	5,78	5,78	0,14	104.466,77

128 000 tokens

En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 128 000 tokens por documento.

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	1	1	0,99	121.894,93
2	2,26	2,26	0,44	134.957,95
4	3,36	3,36	0,29	146.216,07

El modelo cohere.embed-multilingual-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	1,1	1,1	0,9	109.801,35
2	2,01	2,01	0,49	120.154,57
4	3,74	3,74	0,26	129.080,96

Documentación de Oracle Cloud Infrastructure

Cohere Embed Multilingual 3

Incrustaciones de texto

64 Tokens

128 Tokens

256 Tokens

512 Tokens

1,024 Tokens

2,048 Tokens

8,096 Tokens

32,000 tokens

128 000 tokens