Cohere Embed Multilingual 3
Revise las referencias de rendimiento para el modelo cohere.embed-multilingual-v3.0
(Cohere Embed Multilingual 3) alojado en una unidad Embed Cohere de un cluster de IA dedicado en OCI Generative AI.
Incrustaciones de texto
Este escenario solo se aplica a los modelos de embebido con entrada de texto. Este escenario imita la generación de incrustaciones como parte del pipeline de ingestión de datos de una base de datos vectorial. En cada escenario, todas las solicitudes tienen el mismo tamaño, es decir, 96 documentos, cada uno con el mismo número de tokens. Por ejemplo, para el escenario de 512 tokens imita una colección de archivos PDF grandes, cada archivo con más de 30,000 palabras que un usuario ingiere en una base de datos vectorial.
64 Tokens
En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 64 tokens por documento.
- El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,1 0,1 9,86 607,39 2 0,1 0,1 9,66 1.192,6 4 0,11 0,11 9,3 2.295,8 8 0,11 0,11 8,69 4.296,59 24 0,15 0,15 6,69 9.900,74 48 0,19 0,19 5,1 15.114,13 96 0,28 0,28 3,43 20.339,92 - El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,09 0,09 11,29 697,03 2 0,09 0,09 11,06 1.365,27 4 0,09 0,09 10,58 2.616,91 8 0,1 0,1 9,78 4.818,35 24 0,14 0,14 7,18 10.639,81 48 0,18 0,18 5,32 15.775,42 96 0,28 0,28 3,46 20.495,8
128 Tokens
En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 128 tokens por documento.
- El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,1 0,1 9,78 1.243,08 2 0,1 0,1 9,55 2.428,37 4 0,11 0,11 9,16 4.660,31 8 0,12 0,12 8,42 8.561,42 24 0,15 0,15 6,31 19.255,04 48 0,21 0,21 4,62 28.172,8 96 0,31 0,31 3,01 36.706,87 - El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,09 0,09 11,28 1.435,6 2 0,09 0,09 10,92 2.773,25 4 0,09 0,09 10,36 5.284,49 8 0,1 0,1 9,41 9.575,47 24 0,14 0,14 6,78 20.686 48 0,2 0,2 4,82 29.426,82 96 0,35 0,35 2,64 32.277,12
256 Tokens
En la siguiente tabla se muestran las referencias para un escenario de 96 documentos, 256 tokens por documento.
- El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,1 0,1 9,65 2.493,61 2 0,1 0,1 9,37 4.840,64 4 0,11 0,11 8,81 9.107,3 8 0,12 0,12 7,88 16.286,08 24 0,17 0,17 5,5 34.074,47 48 0,24 0,24 3,85 47.783,85 96 0,43 0,43 2,16 53.652,55
512 Tokens
En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 512 tokens por documento.
- El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,1 0,1 9,21 4.791,85 2 0,11 0,11 8,74 9.094,38 4 0,12 0,12 7,76 16.165,29 8 0,15 0,15 6,39 26.582,37 24 0,23 0,23 4,03 50.284,92 48 0,37 0,37 2,44 61.014,65 96 0,63 0,63 1,42 71.048,17 - El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,09 0,09 10,34 5.379,92 2 0,1 0,1 9,79 10.190,27 4 0,11 0,11 8,67 18.059,39 8 0,13 0,13 7 29.158,44 24 0,22 0,22 4,2 52.493,14 48 0,36 0,36 2,36 58.908,72 96 0,62 0,62 1,44 71.746,46
1,024 Tokens
En la siguiente tabla se muestran las referencias para un escenario de 96 documentos, 1.024 tokens por documento.
- El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,09 0,09 8,96 9.348,26 2 0,1 0,1 8,25 17.233,64 4 0,12 0,12 6,87 28.670,18 8 0,15 0,15 5,37 44.877,47 24 0,28 0,28 2,86 71.733,22 48 0,53 0,53 1,52 76.050,39 96 0,99 0,99 0,8 80.597,64
2,048 Tokens
En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 2.048 tokens por documento.
- El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,11 0,11 8,16 17.069,42 2 0,13 0,13 7,17 30.023,1 4 0,15 0,15 5,82 48.737,45 8 0,21 0,21 4,21 70.449,76 24 0,48 0,48 1,79 90.090,74 48 0,93 0,93 0,92 92.553,18 96 1,68 1,68 0,51 101.574,61 - El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,1 0,1 6,27 13.116,54 2 0,12 0,12 5,65 23.647,68 4 0,14 0,14 4,7 39.382,39 8 0,2 0,2 3,32 55.564,63 24 0,48 0,48 1,37 68.783,08 48 0,89 0,89 0,73 72.944,21 96 1,66 1,66 0,39 77.928,29
8,096 Tokens
En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 8.096 tokens por documento.
- El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,15 0,15 5,4 44.724,35 2 0,2 0,2 4,05 67.118,88 4 0,31 0,31 2,59 85.752,57 8 0,59 0,59 1,41 93.369,42 24 1,56 1,56 0,53 105.492,68 48 2,84 2,84 0,29 115.098,5 96 5,27 5,27 0,15 121.706,97 - El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,14 0,14 1,32 10.962,57 2 0,19 0,19 1,06 17.550,18 4 0,29 0,29 0,76 25.090,59 8 0,56 0,56 0,38 25.436,88 24 1,52 1,52 0,15 30.238,8 48 2,79 2,79 0,11 43.355,58 96 5,21 5,21 0,05 42.052,47
32,000 tokens
En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 32 000 tokens por documento.
- El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,38 0,38 1,9 62.367,46 2 0,57 0,57 1,3 85.209,04 4 1,05 1,05 0,75 97.631,79 8 1,91 1,91 0,42 109.411,13 24 5,12 5,12 0,16 122.915,27 - El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 0,36 0,36 0,01 198,49 8 2,13 2,13 0,37 94.825,57 24 5,78 5,78 0,14 104.466,77
128 000 tokens
En las siguientes tablas se muestran las referencias para un escenario de 96 documentos, 128 000 tokens por documento.
- El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para todas las regiones, excepto para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 1 1 0,99 121.894,93 2 2,26 2,26 0,44 134.957,95 4 3,36 3,36 0,29 146.216,07 - El modelo
cohere.embed-multilingual-v3.0
alojado en una unidad Embed Cohere de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh). -
Simultaneidad Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) Rendimiento Global Total (tokens/segundo) 1 1,1 1,1 0,9 109.801,35 2 2,01 2,01 0,49 120.154,57 4 3,74 3,74 0,26 129.080,96