Cohere Embed Multilingual Light 3
Revise las referencias de rendimiento para el modelo cohere.embed-multilingual-light-v3.0
(Cohere Embed Multilingual Light 3) alojado en una unidad Embed Cohere de un cluster de IA dedicado en OCI Generative AI.
Incrustos
Este escenario solo se aplica a los modelos de embebido. Este escenario imita la generación de incrustaciones como parte del pipeline de ingestión de datos de una base de datos vectorial. En este escenario, todas las solicitudes tienen el mismo tamaño, que es de 96 documentos, cada uno con 512 tokens. Un ejemplo sería una colección de archivos PDF grandes, cada archivo con más de 30.000 palabras que un usuario desea ingerir en una base de datos vectorial.
Simultaneidad | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por minuto) (RPM) |
---|---|---|
1 | 1,69 | 42 |
8 | 3,8 | 118 |
32 | 14,26 | 126 |
128 | 37,17 | 138 |
Embebidos más ligeros
Este escenario solo se aplica a los modelos de embebido. Este escenario de incrustaciones más ligeras es similar al escenario de incrustaciones, excepto que reducimos el tamaño de cada solicitud a 16 documentos, cada uno con 512 tokens. Los archivos más pequeños con menos palabras podrían ser compatibles con este escenario.
Simultaneidad | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por minuto) (RPM) |
---|---|---|
1 | 1,03 | 54 |
8 | 1,35 | 300 |
32 | 3,11 | 570 |
128 | 11,5 | 888 |