Documentación de Oracle Cloud Infrastructure

Saltar al contenido principal

Cohere Embed Multilingual Image 3

Revise las referencias de rendimiento para el modelo cohere.embed-multilingual-image-v3.0 (Cohere Embed Multilingual Image 3) alojado en una unidad Embed Cohere de un cluster de IA dedicado en OCI Generative AI.

- Consulte las regiones disponibles para este modelo.
- Revise el tamaño de unidad de cluster de AI dedicado para alojar este modelo en la página de modelo.
- Revise las métricas.

Incrustaciones de texto

Este escenario solo se aplica a los modelos de embebido con entrada de texto. Este escenario imita la generación de incrustaciones como parte del pipeline de ingestión de datos de una base de datos vectorial. En cada escenario, todas las solicitudes tienen el mismo tamaño, es decir, 96 documentos, cada uno con el mismo número de tokens. Por ejemplo, para el escenario de 512 tokens imita una colección de archivos PDF grandes, cada archivo con más de 30,000 palabras que un usuario ingiere en una base de datos vectorial.

64 Tokens

En la siguiente tabla se muestran las referencias para un escenario de 96 documentos, 64 tokens por documento.

El modelo cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado.


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,1	0,1	9,86	607,39
2	0,1	0,1	9,66	1.192,6
4	0,11	0,11	9,3	2.295,8
8	0,11	0,11	8,69	4.296,59
24	0,15	0,15	6,69	9.900,74
48	0,19	0,19	5,1	15.114,13
96	0,28	0,28	3,43	20.339,92

128 Tokens

En la siguiente tabla se muestran las referencias para un escenario de 96 documentos, 128 tokens por documento.

El modelo cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado.


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,1	0,1	9,78	1.243,08
2	0,1	0,1	9,55	2.428,37
4	0,11	0,11	9,16	4.660,31
8	0,12	0,12	8,42	8.561,42
24	0,15	0,15	6,31	19.255,04
48	0,21	0,21	4,62	28.172,8
96	0,31	0,31	3,01	36.706,87

256 Tokens

En la siguiente tabla se muestran las referencias para un escenario de 96 documentos, 256 tokens por documento.

El modelo cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado.


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,1	0,1	9,65	2.493,61
2	0,1	0,1	9,37	4.840,64
4	0,11	0,11	8,81	9.107,3
8	0,12	0,12	7,88	16.286,08
24	0,17	0,17	5,5	34.074,47
48	0,24	0,24	3,85	47.783,85
96	0,43	0,43	2,16	53.652,55

512 Tokens

En la siguiente tabla se muestran las referencias para un escenario de 96 documentos, 512 tokens por documento.

El modelo cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado.


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,1	0,1	9,21	4.791,85
2	0,11	0,11	8,74	9.094,38
4	0,12	0,12	7,76	16.165,29
8	0,15	0,15	6,39	26.582,37
24	0,23	0,23	4,03	50.284,92
48	0,37	0,37	2,44	61.014,65
96	0,63	0,63	1,42	71.048,17

1,024 Tokens

En la siguiente tabla se muestran las referencias para un escenario de 96 documentos, 1.024 tokens por documento.

El modelo cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado.


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,09	0,09	8,96	9.348,26
2	0,1	0,1	8,25	17.233,64
4	0,12	0,12	6,87	28.670,18
8	0,15	0,15	5,37	44.877,47
24	0,28	0,28	2,86	71.733,22
48	0,53	0,53	1,52	76.050,39
96	0,99	0,99	0,8	80.597,64

2,048 Tokens

En la siguiente tabla se muestran las referencias para un escenario de 96 documentos, 2.048 tokens por documento.

El modelo cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado.


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,11	0,11	8,16	17.069,42
2	0,13	0,13	7,17	30.023,1
4	0,15	0,15	5,82	48.737,45
8	0,21	0,21	4,21	70.449,76
24	0,48	0,48	1,79	90.090,74
48	0,93	0,93	0,92	92.553,18
96	1,68	1,68	0,51	101.574,61

8,096 Tokens

En la siguiente tabla se muestran las referencias para un escenario de 96 documentos, 8.096 tokens por documento.

El modelo cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado.


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,15	0,15	5,4	44.724,35
2	0,2	0,2	4,05	67.118,88
4	0,31	0,31	2,59	85.752,57
8	0,59	0,59	1,41	93.369,42
24	1,56	1,56	0,53	105.492,68
48	2,84	2,84	0,29	115.098,5
96	5,27	5,27	0,15	121.706,97

32,000 tokens

En la siguiente tabla se muestran las referencias para un escenario de 96 documentos, 32 000 tokens por documento.

El modelo cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado.


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,38	0,38	1,9	62.367,46
2	0,57	0,57	1,3	85.209,04
4	1,05	1,05	0,75	97.631,79
8	1,91	1,91	0,42	109.411,13
24	5,12	5,12	0,16	122.915,27

128 000 tokens

En la siguiente tabla se muestran las referencias para un escenario de 96 documentos, 128 000 tokens por documento.

El modelo cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado.


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	1	1	0,99	121.894,93
2	2,26	2,26	0,44	134.957,95
4	3,36	3,36	0,29	146.216,07

Incrustaciones de imágenes

Este escenario solo se aplica a los modelos de incrustación con entrada de imagen. En cada escenario, I(M,N): la imagen con Npx de altura y Mpx de ancho representa una imagen con la altura de M y el ancho de N píxeles. Por ejemplo, I(1024,512) es una imagen con una altura de 1,024 píxeles y un ancho de 512 píxeles.

I(512 512)

En la siguiente tabla, se muestran las referencias de cluster de AI dedicado de hosting con cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado, en un escenario de una imagen con la altura y el ancho de 512 píxeles.


Simultaneidad	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1	0,13	6,5
2	0,13	12,2
4	0,14	22,71
8	0,15	39,19
16	0,19	62,23
32	0,31	80,75
64	0,46	113,57
128	1,25	83,8
256	2,6	80,95

I(1024 512)

En la siguiente tabla, se muestran las referencias de cluster de AI dedicado de hosting con cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado, en un escenario de una imagen con una altura de 1.024 píxeles y un ancho de 512 píxeles.


Simultaneidad	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1	0,14	5,79
2	0,14	10,67
4	0,16	18,74
8	0,17	32,08
16	0,24	47,64
32	0,44	58,76
64	0,93	60,67
128	1,71	64,96
256	3,06	68,54

I(2048,2048)

En la siguiente tabla, se muestran las referencias de cluster de AI dedicado de hosting con cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado, en un escenario de una imagen con la altura y el ancho de 2.048 píxeles.


Simultaneidad	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1	0,26	2,82
2	0,3	4,77
4	0,29	10,43
8	0,34	18,14
16	0,57	21,93
32	1,09	25,44
64	2,08	26,99
128	4,14	26,24
256	10,17	23,6

Imagen multilingüe incrustada de Cohere 3
Incrustaciones de texto
Incrustaciones de imágenes