Cohere Command R 08-2024

Revise os benchmarks de desempenho do modelo cohere.command-r-08-2024 (Cohere Command R 08-2024) hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado na OCI Generative AI.

  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Clusters de IA dedicados para hospedar este modelo.
  • Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

O modelo cohere.command-r-08-2024 hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 66.43 52.84 2.68 0.37
2 64.11 105.8 3.01 0.66
4 59.66 198.97 3.27 1.2
8 53.36 357.07 3.62 2.16
16 44.39 583.18 3.88 3.92
32 35.61 906.21 5.03 5.81
64 24.01 1,073.21 6.86 7.67
128 15.89 1,034.44 12.18 7.96
256 16.24 1,052.12 19.47 8.19
O modelo cohere.command-r-08-2024 hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 77.29 69.62 3.89 0.26
2 76.36 138.03 4.03 0.49
4 73.69 266.03 4.03 0.98
8 70.41 505.38 4.33 1.8
16 63.38 888.54 4.57 3.33
32 55.54 1,540.69 5.83 5.14
64 42.29 2,201.45 6.93 8.12
128 28.35 2,496.73 10.5 9.7
256 28.69 2,394.67 18.04 9.02

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

O modelo cohere.command-r-08-2024 hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 67.4 46.63 1.58 0.63
2 65.55 90.56 1.59 1.24
4 61.38 173.89 1.71 2.31
8 55.53 317.1 1.81 4.32
16 49.01 555.54 2.03 7.49
32 41.59 843.26 2.53 11.59
64 29.63 1,231.41 3.31 16.86
128 19.64 1,340.32 5.57 18.54
256 20.1 1,313.56 9.41 17.91
O modelo cohere.command-r-08-2024 hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 76.4 59.84 1.61 0.62
2 75.94 118.12 1.62 1.22
4 75.32 233.5 1.64 2.41
8 73.41 450.63 1.69 4.65
16 70.81 835.46 1.76 8.64
32 66.82 1,407.97 1.95 14.53
64 58.49 2,320.21 2.42 23.97
128 46.58 2,866.51 3.35 29.55
256 42.43 3,057.44 5.26 31.58

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

O modelo cohere.command-r-08-2024 hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 67.35 54.93 2.82 0.35
2 65.72 106.49 2.96 0.67
4 62.54 205.55 2.99 1.32
8 57.08 361.81 2.99 2.56
16 51.99 668.26 3.44 4.41
32 44.49 1,060.46 3.79 7.52
64 35.05 1,633.24 4.89 11.02
128 25.59 1,676.8 7.09 13.5
256 26.23 1,609.94 11.96 12.5
O modelo cohere.command-r-08-2024 hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 76.15 77.02 4.62 0.23
2 78.71 151.85 12.97 0.15
4 77.94 296.54 13.07 0.3
8 76.05 587 13.41 0.59
16 73.99 1,132.69 13.81 1.14
32 69.18 2,085.87 14.88 2.1
64 60.54 3,520.34 17.26 3.55
128 47.76 5,511.72 22.13 5.56
256 47.14 5,432.58 36.85 5.48

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

O modelo cohere.command-r-08-2024 hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 65.07 48.27 2.62 0.38
2 59.6 89.68 2.84 0.7
4 50.85 156.94 3.23 1.22
8 40.68 247.23 4.06 1.93
16 28.73 351.66 5.6 2.76
32 18.19 425.94 8.82 3.37
64 9.78 440.59 15.46 3.61
128 5.86 392.06 29.1 3.55
256 6.13 425.79 48.52 3.47
O modelo cohere.command-r-08-2024 hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 76.63 64.4 2.97 0.33
2 74.08 122.71 3.11 0.64
4 69.81 223.99 3.38 1.17
8 62.8 382.46 3.93 1.99
16 53.08 584.74 5.01 3.04
32 40.67 809.47 7.2 4.21
64 21.57 946.96 11.98 4.9
128 10.4 866.21 23.76 4.5
256 9.6 830.4 41.13 4.31