Cohere Embed Multilingual Light Image 3
Revise os benchmarks de desempenho do modelo cohere.embed-multilingual-light-image-v3.0
(Cohere Embed Multilingual Light Image 3) hospedado em uma unidade Embed Cohere de um cluster de IA dedicado na OCI Generative AI.
Incorporações de Texto
Esse cenário se aplica apenas aos modelos de incorporação. Esse cenário imita a geração incorporada como parte do pipeline de ingestão de dados de um banco de dados vetorial. Nesse cenário, todas as solicitações têm o mesmo tamanho, que é de 96 documentos, cada um com 512 tokens. Um exemplo seria uma coleção de arquivos PDF grandes, cada arquivo com mais de 30.000 palavras que um usuário deseja ingerir em um banco de dados vetorial.
Simultânea | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
---|---|---|
1 | 1.69 | 42 |
8 | 3.8 | 118 |
32 | 14.26 | 126 |
128 | 37.17 | 138 |
Embeddings mais leves
Esse cenário se aplica apenas aos modelos de incorporação. Esse cenário de incorporação mais leve é semelhante ao cenário de incorporação, exceto que reduzimos o tamanho de cada solicitação para 16 documentos, cada um com 512 tokens. Neste cenário, é possível dar suporte a arquivos menores com menos palavras.
Simultânea | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
---|---|---|
1 | 1.03 | 54 |
8 | 1.35 | 300 |
32 | 3.11 | 570 |
128 | 11.5 | 888 |
Incorporações de imagens
Esse cenário se aplica somente aos modelos de incorporação com entrada de imagem. Em cada cenário, I(M,N): Imagem com altura Npx e largura Mpx representa uma imagem com a altura de M
e a largura de N
pixels. Por exemplo, I(1024,512) é uma imagem com a altura de 1.024 pixels e a largura de 512 pixels.
I(512.512)
A tabela a seguir mostra hospedando benchmarks de cluster do AI dedicado com o cohere.embed-multilingual-light-image-v3.0
hospedado em uma unidade Embed Cohere de um cluster do AI dedicado, em um cenário de uma imagem com altura e largura de 512 pixels.
Simultânea | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|
1 | 0.13 | 6.55 |
2 | 0.13 | 12.24 |
4 | 0.13 | 23.34 |
8 | 0.15 | 39.37 |
16 | 0.19 | 63.04 |
32 | 0.32 | 77.26 |
64 | 0.57 | 82.07 |
128 | 1.12 | 89.98 |
256 | 2.28 | 87.84 |
I(1024.512)
A tabela a seguir mostra hospedando benchmarks de cluster do AI dedicado com o cohere.embed-multilingual-light-image-v3.0
hospedado em uma unidade Embed Cohere de um cluster do AI dedicado, em um cenário de uma imagem com a altura de 1.024 pixels e a largura de 512 pixels.
Simultânea | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|
1 | 0.14 | 5.55 |
2 | 0.14 | 10.66 |
4 | 0.15 | 19.14 |
8 | 0.17 | 30.56 |
16 | 0.24 | 45.75 |
32 | 0.46 | 55.68 |
64 | 0.87 | 63.16 |
128 | 1.54 | 68.16 |
256 | 2.15 | 77.06 |
I(2048.2048)
A tabela a seguir mostra hospedando benchmarks de cluster de IA dedicado com o cohere.embed-multilingual-light-image-v3.0
hospedado em uma unidade Embed Cohere de um cluster de IA dedicado, em um cenário de uma imagem com a altura e a largura de 2.048 pixels.
Simultânea | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|
1 | 0.27 | 2.7 |
2 | 0.3 | 4.78 |
4 | 0.29 | 10.44 |
8 | 0.34 | 18.21 |
16 | 0.57 | 22.27 |
32 | 1.09 | 25.08 |
64 | 2.14 | 26.24 |
128 | 4.34 | 26.27 |
256 | 9.58 | 23.61 |