Cohere Embed Multilingual Image 3
Revise os benchmarks de desempenho do modelo cohere.embed-multilingual-image-v3.0 (Cohere Embed Multilingual Image 3) hospedado em uma unidade Embed Cohere de um cluster de IA dedicado na OCI Generative AI.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Incorporações de Texto
Esse cenário se aplica somente aos modelos de incorporação com entrada de texto. Esse cenário imita a geração incorporada como parte do pipeline de ingestão de dados de um banco de dados vetorial. Em cada cenário, todas as solicitações têm o mesmo tamanho, ou seja, 96 documentos, cada um com o mesmo número de tokens. Por exemplo, para o cenário de 512 tokens imita uma coleção de arquivos PDF grandes, cada arquivo com mais de 30.000 palavras que um usuário ingeriria em um banco de dados vetorial.
64 Tokens
A tabela a seguir mostra os benchmarks de um cenário de 96 documentos, 64 tokens por documento.
- O modelo
cohere.embed-multilingual-image-v3.0hospedado em uma unidade Embed Cohere de um cluster de IA dedicado. -
Simultânea Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,1 0,1 9,86 607,39 2 0,1 0,1 9,66 1.192,6 4 0,11 0,11 9,3 2.295,8 8 0,11 0,11 8,69 4.296,59 24 0,15 0,15 6,69 9.900,74 48 0,19 0,19 5,1 15.114,13 96 0,28 0,28 3,43 20.339,92
128 Tokens
A tabela a seguir mostra os benchmarks de um cenário de 96 documentos, 128 tokens por documento.
- O modelo
cohere.embed-multilingual-image-v3.0hospedado em uma unidade Embed Cohere de um cluster de IA dedicado. -
Simultânea Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,1 0,1 9,78 1.243,08 2 0,1 0,1 9,55 2.428,37 4 0,11 0,11 9,16 4.660,31 8 0,12 0,12 8,42 8.561,42 24 0,15 0,15 6,31 19.255,04 48 0,21 0,21 4,62 28.172,8 96 0,31 0,31 3,01 36.706,87
256 Tokens
A tabela a seguir mostra os benchmarks de um cenário de 96 documentos, 256 tokens por documento.
- O modelo
cohere.embed-multilingual-image-v3.0hospedado em uma unidade Embed Cohere de um cluster de IA dedicado. -
Simultânea Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,1 0,1 9,65 2.493,61 2 0,1 0,1 9,37 4.840,64 4 0,11 0,11 8,81 9.107,3 8 0,12 0,12 7,88 16.286,08 24 0,17 0,17 5,5 34.074,47 48 0,24 0,24 3,85 47.783,85 96 0,43 0,43 2,16 53.652,55
512 Tokens
A tabela a seguir mostra os benchmarks de um cenário de 96 documentos, 512 tokens por documento.
- O modelo
cohere.embed-multilingual-image-v3.0hospedado em uma unidade Embed Cohere de um cluster de IA dedicado. -
Simultânea Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,1 0,1 9,21 4.791,85 2 0,11 0,11 8,74 9.094,38 4 0,12 0,12 7,76 16.165,29 8 0,15 0,15 6,39 26.582,37 24 0,23 0,23 4,03 50.284,92 48 0,37 0,37 2,44 61.014,65 96 0,63 0,63 1,42 71.048,17
1,024 Tokens
A tabela a seguir mostra os benchmarks de um cenário de 96 documentos, 1.024 tokens por documento.
- O modelo
cohere.embed-multilingual-image-v3.0hospedado em uma unidade Embed Cohere de um cluster de IA dedicado. -
Simultânea Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,09 0,09 8,96 9.348,26 2 0,1 0,1 8,25 17.233,64 4 0,12 0,12 6,87 28.670,18 8 0,15 0,15 5,37 44.877,47 24 0,28 0,28 2,86 71.733,22 48 0,53 0,53 1,52 76.050,39 96 0,99 0,99 0,8 80.597,64
2,048 Tokens
A tabela a seguir mostra os benchmarks de um cenário de 96 documentos, 2.048 tokens por documento.
- O modelo
cohere.embed-multilingual-image-v3.0hospedado em uma unidade Embed Cohere de um cluster de IA dedicado. -
Simultânea Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,11 0,11 8,16 17.069,42 2 0,13 0,13 7,17 30.023,1 4 0,15 0,15 5,82 48.737,45 8 0,21 0,21 4,21 70.449,76 24 0,48 0,48 1,79 90.090,74 48 0,93 0,93 0,92 92.553,18 96 1,68 1,68 0,51 101.574,61
8,096 Tokens
A tabela a seguir mostra os benchmarks de um cenário de 96 documentos, 8.096 tokens por documento.
- O modelo
cohere.embed-multilingual-image-v3.0hospedado em uma unidade Embed Cohere de um cluster de IA dedicado. -
Simultânea Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,15 0,15 5,4 44.724,35 2 0,2 0,2 4,05 67.118,88 4 0,31 0,31 2,59 85.752,57 8 0,59 0,59 1,41 93.369,42 24 1,56 1,56 0,53 105.492,68 48 2,84 2,84 0,29 115.098,5 96 5,27 5,27 0,15 121.706,97
32,000 Tokens
A tabela a seguir mostra os benchmarks de um cenário de 96 documentos, 32.000 tokens por documento.
- O modelo
cohere.embed-multilingual-image-v3.0hospedado em uma unidade Embed Cohere de um cluster de IA dedicado. -
Simultânea Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,38 0,38 1,9 62.367,46 2 0,57 0,57 1,3 85.209,04 4 1,05 1,05 0,75 97.631,79 8 1,91 1,91 0,42 109.411,13 24 5,12 5,12 0,16 122.915,27
128,000 Tokens
A tabela a seguir mostra os benchmarks de um cenário de 96 documentos, 128.000 tokens por documento.
- O modelo
cohere.embed-multilingual-image-v3.0hospedado em uma unidade Embed Cohere de um cluster de IA dedicado. -
Simultânea Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 1 1 0,99 121.894,93 2 2,26 2,26 0,44 134.957,95 4 3,36 3,36 0,29 146.216,07
Incorporações de imagens
Esse cenário se aplica somente aos modelos de incorporação com entrada de imagem. Em cada cenário, I(M,N): Imagem com altura Npx e largura Mpx representa uma imagem com a altura de M e a largura de N pixels. Por exemplo, I(1024,512) é uma imagem com a altura de 1.024 pixels e a largura de 512 pixels.
I(512.512)
A tabela a seguir mostra hospedando benchmarks de cluster do AI dedicado com o cohere.embed-multilingual-image-v3.0 hospedado em uma unidade Embed Cohere de um cluster do AI dedicado, em um cenário de uma imagem com altura e largura de 512 pixels.
| Simultânea | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|
| 1 | 0,13 | 6,5 |
| 2 | 0,13 | 12,2 |
| 4 | 0,14 | 22,71 |
| 8 | 0,15 | 39,19 |
| 16 | 0,19 | 62,23 |
| 32 | 0,31 | 80,75 |
| 64 | 0,46 | 113,57 |
| 128 | 1,25 | 83,8 |
| 256 | 2,6 | 80,95 |
I(1024.512)
A tabela a seguir mostra hospedando benchmarks de cluster do AI dedicado com o cohere.embed-multilingual-image-v3.0 hospedado em uma unidade Embed Cohere de um cluster do AI dedicado, em um cenário de uma imagem com a altura de 1.024 pixels e a largura de 512 pixels.
| Simultânea | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|
| 1 | 0,14 | 5,79 |
| 2 | 0,14 | 10,67 |
| 4 | 0,16 | 18,74 |
| 8 | 0,17 | 32,08 |
| 16 | 0,24 | 47,64 |
| 32 | 0,44 | 58,76 |
| 64 | 0,93 | 60,67 |
| 128 | 1,71 | 64,96 |
| 256 | 3,06 | 68,54 |
I(2048.2048)
A tabela a seguir mostra hospedando benchmarks de cluster de IA dedicado com o cohere.embed-multilingual-image-v3.0 hospedado em uma unidade Embed Cohere de um cluster de IA dedicado, em um cenário de uma imagem com a altura e a largura de 2.048 pixels.
| Simultânea | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|
| 1 | 0,26 | 2,82 |
| 2 | 0,3 | 4,77 |
| 4 | 0,29 | 10,43 |
| 8 | 0,34 | 18,14 |
| 16 | 0,57 | 21,93 |
| 32 | 1,09 | 25,44 |
| 64 | 2,08 | 26,99 |
| 128 | 4,14 | 26,24 |
| 256 | 10,17 | 23,6 |