Cohere Embed 4
Revise las referencias de rendimiento para el modelo cohere.embed-v4.0
(Cohere Embed 4) alojado en una unidad Embed Cohere de un cluster de IA dedicado en OCI Generative AI.
Incrustaciones de texto
Este escenario solo se aplica a los modelos de embebido con entrada de texto. Este escenario imita la generación de incrustaciones como parte del pipeline de ingestión de datos de una base de datos vectorial. En cada escenario, todas las solicitudes tienen el mismo tamaño, es decir, 96 documentos, cada uno con el mismo número de tokens. Por ejemplo, para el escenario de 512 tokens imita una colección de archivos PDF grandes, cada archivo con más de 30,000 palabras que un usuario ingiere en una base de datos vectorial.
64 Tokens
En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 64 tokens por documento.
- El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,09 0,09 11,15 668,45 2 0,09 0,09 10,79 1.293,27 4 0,1 0,1 9,88 2.370,14 8 0,11 0,11 8,55 4.105,4 24 0,19 0,19 5,1 7.360,01 48 0,31 0,31 3,1 8.933,99 96 0,54 0,54 1,78 10.282,68 - El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,1 0,1 9,5 570,59 2 0,11 0,11 9,23 1.107,06 4 0,11 0,11 8,92 2.141,09 8 0,12 0,12 8,08 3.865,74 24 0,18 0,18 5,43 7.801,83 48 0,28 0,28 3,49 10.077,82 96 0,47 0,47 2,07 11.961,63
128 Tokens
En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 128 tokens por documento.
- El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,09 0,09 11,27 1.381,7 2 0,09 0,09 10,67 2.617,09 4 0,1 0,1 9,67 4.750,2 8 0,12 0,12 8,14 7.990,79 24 0,22 0,22 4,29 12.624,79 48 0,35 0,35 2,76 16.251,43 96 0,64 0,64 1,51 17.735,38 - El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,1 0,1 9,69 1.189,24 2 0,1 0,1 9,38 2.301,32 4 0,11 0,11 8,89 4.357,61 8 0,12 0,12 8 7.854,35 24 0,19 0,19 5,01 14.749,07 48 0,29 0,29 3,34 19.707,08 96 0,5 0,5 1,92 22.589,75
512 Tokens
En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 512 tokens por documento.
- El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,09 0,09 10,83 5.410,49 2 0,1 0,1 9,65 9.642,11 4 0,12 0,12 7,52 15.025,97 8 0,16 0,16 5,9 23.556,71 24 0,35 0,35 2,71 32.451,55 48 0,68 0,68 1,39 33.273,59 96 1,25 1,25 0,75 36.072,1 - El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,1 0,1 9,44 4.715,27 2 0,11 0,11 9,06 9.051,76 4 0,11 0,11 8,42 16.813,69 8 0,14 0,14 6,86 27.394,77 24 0,24 0,24 3,88 46.487,91 48 0,42 0,42 2,17 51.986,9 96 0,77 0,77 1,18 56.778,17
1,024 Tokens
En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 1.024 tokens por documento.
- El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,09 0,09 9,55 9.559,38 2 0,12 0,12 1,3 2.601,06 4 0,15 0,15 6,06 24.284,74 8 0,23 0,23 4,05 32.432,49 24 0,6 0,6 1,56 37.501,74 48 1,09 1,09 0,85 40.893,6 96 2,11 2,11 0,31 29.835,31 - El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,1 0,1 9,14 9.158,45 2 0,11 0,11 8,64 17.307,93 4 0,13 0,13 7,25 29.048 8 0,16 0,16 5,51 44.150,34 24 0,38 0,38 2,38 57.261,32 48 0,64 0,64 1,39 66.942,72 96 1,2 1,2 0,74 70.865,77
2,048 Tokens
En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 2.048 tokens por documento.
- El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,11 0,11 7,58 15.203,74 2 0,14 0,14 6,09 24.431,99 4 0,22 0,22 4 32.065,33 8 0,37 0,37 2,48 39.802,12 24 1,02 1,02 0,9 43.230,02 48 2 2 0,46 44.251,96 - El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,11 0,11 8,35 16.740,19 2 0,12 0,12 7,14 28.651,67 4 0,16 0,16 5,54 44.470,3 8 0,23 0,23 3,7 59.426,49 24 0,59 0,59 1,46 70.295,49 48 1,11 1,11 0,78 75.560,01 96 2,08 2,08 0,42 80.426,61
8,096 Tokens
En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 8.096 tokens por documento.
- El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,25 0,25 3,31 26.290,24 2 0,42 0,42 2,05 32.530,08 4 0,82 0,82 1,09 34.646,38 8 1,59 1,59 0,57 36.389,86 24 4,47 4,47 0,2 39.049,48 48 8,75 8,75 0,11 40.180,09 96 17,3 17,3 0,05 39.843,97 - El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,17 0,17 4,57 36.262,71 2 0,26 0,26 3,14 49.882,53 4 0,5 0,5 1,69 53.606,93 8 0,9 0,9 0,96 60.838,78 24 2,38 2,38 0,36 69.450,5 48 4,52 4,52 0,19 73.294,47 96 8,72 8,72 0,1 76.456,16
32,000 tokens
En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 32 000 tokens por documento.
- El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,92 0,92 0,89 27.968,24 2 1,74 1,74 0,5 31.141,92 4 2,92 2,92 0,3 37.838,06 8 5,73 5,73 0,16 39.090,65 24 16,86 16,86 0,05 40.623,28 - El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,53 0,53 1,41 44.178,97 2 0,88 0,88 0,9 56.692,99 4 1,58 1,58 0,52 65.690,47 8 2,99 2,99 0,28 70.962,43 24 8,47 8,47 0,1 75.910,53 48 16,6 16,6 0,05 77.493,42
Incrustaciones de imágenes
Este escenario solo se aplica a los modelos de incrustación con entrada de imagen. En cada escenario, I(M,N): la imagen con Npx de altura y Mpx de ancho representa una imagen con la altura de M
y el ancho de N
píxeles. Por ejemplo, I(1024,512) es una imagen con una altura de 1,024 píxeles y un ancho de 512 píxeles.
I(512 512)
En las siguientes tablas se muestran las referencias para un escenario de una imagen con la altura y el ancho de 512 píxeles.
- El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) 1 0,18 4,76 2 0,19 8,89 4 0,27 13,17 8 0,49 14,84 16 0,94 16,14 32 1,84 16,45 64 3,66 16,38 128 7,27 16,06 256 13,57 16 - El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) 1 0,15 4,98 2 0,16 10,3 4 0,17 19,51 8 0,21 32,83 16 0,33 43,06 32 0,65 44,02 64 1,32 43,77 128 2,71 41,9 256 5,29 40,35
I(1024 512)
En las siguientes tablas se muestran las referencias de un escenario de una imagen con una altura de 1.024 píxeles y un ancho de 512 píxeles.
- El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) 1 0,25 3,42 2 0,25 6,72 4 0,38 9,17 8 0,78 9,52 16 1,52 10,04 32 2,93 10,5 64 5,75 10,48 128 11,23 10,52 256 19,97 10,13 - El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) 1 0,19 3,91 2 0,19 8,29 4 0,22 15,05 8 0,36 19,68 16 0,67 22,08 32 1,35 22,21 64 2,71 22 128 5,44 21,09 256 10,2 21,29
I(2048,2048)
En las siguientes tablas se muestran las referencias para un escenario de una imagen con una altura y un ancho de 2.048 píxeles.
- El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) 1 0,86 1,04 2 0,98 1,73 4 1,84 2,04 8 3,02 1,42 16 7,71 2,03 32 14,93 2,1 64 25,73 1,98 128 26,92 1,86 256 27,29 1,91 - El modelo
cohere.embed-v4.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) 1 0,66 1,25 2 0,69 2,49 4 1,07 3,4 8 2,24 3,41 16 4,57 3,4 32 9,22 3,37 64 18,53 3,3 128 24,61 2,77 256 25,78 2,71