Cohere Embed Multilingual Image 3

Revise las referencias de rendimiento para el modelo cohere.embed-multilingual-image-v3.0 (Cohere Embed Multilingual Image 3) alojado en una unidad Embed Cohere de un cluster de IA dedicado en OCI Generative AI.

  • Consulte los detalles del modelo y revise las siguientes secciones:
    • Regiones disponibles para este modelo.
    • Clusters de IA dedicados para alojar este modelo.
  • Revise las métricas.

Incrustaciones de texto

Este escenario solo se aplica a los modelos de embebido. Este escenario imita la generación de incrustaciones como parte del pipeline de ingestión de datos de una base de datos vectorial. En este escenario, todas las solicitudes tienen el mismo tamaño, que es de 96 documentos, cada uno con 512 tokens. Un ejemplo sería una colección de archivos PDF grandes, cada archivo con más de 30.000 palabras que un usuario desea ingerir en una base de datos vectorial.

Simultaneidad Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por minuto) (RPM)
1 2,25 24
8 4,33 120
32 14,94 144
128 49,21 198

Incrustaciones de texto más claro

Este escenario solo se aplica a los modelos de embebido. Este escenario de incrustaciones más ligeras es similar al escenario de incrustaciones, excepto que reducimos el tamaño de cada solicitud a 16 documentos, cada uno con 512 tokens. Los archivos más pequeños con menos palabras podrían ser compatibles con este escenario.

Simultaneidad Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por minuto) (RPM)
1 1,28 42
8 1,38 288
32 3,44 497
128 11,94 702

Incrustaciones de imágenes

Este escenario solo se aplica a los modelos de incrustación con entrada de imagen. En cada escenario, I(M,N): la imagen con Npx de altura y Mpx de ancho representa una imagen con la altura de M y el ancho de N píxeles. Por ejemplo, I(1024,512) es una imagen con una altura de 1,024 píxeles y un ancho de 512 píxeles.

I(512 512)

En la siguiente tabla, se muestran las referencias de cluster de AI dedicado de hosting con cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado, en un escenario de una imagen con la altura y el ancho de 512 píxeles.

Simultaneidad Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,13 6,5
2 0,13 12,2
4 0,14 22,71
8 0,15 39,19
16 0,19 62,23
32 0,31 80,75
64 0,46 113,57
128 1,25 83,8
256 2,6 80,95

I(1024 512)

En la siguiente tabla, se muestran las referencias de cluster de AI dedicado de hosting con cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado, en un escenario de una imagen con una altura de 1.024 píxeles y un ancho de 512 píxeles.

Simultaneidad Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,14 5,79
2 0,14 10,67
4 0,16 18,74
8 0,17 32,08
16 0,24 47,64
32 0,44 58,76
64 0,93 60,67
128 1,71 64,96
256 3,06 68,54

I(2048,2048)

En la siguiente tabla, se muestran las referencias de cluster de AI dedicado de hosting con cohere.embed-multilingual-image-v3.0 alojado en una unidad Embed Cohere de un cluster de AI dedicado, en un escenario de una imagen con la altura y el ancho de 2.048 píxeles.

Simultaneidad Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,26 2,82
2 0,3 4,77
4 0,29 10,43
8 0,34 18,14
16 0,57 21,93
32 1,09 25,44
64 2,08 26,99
128 4,14 26,24
256 10,17 23,6