Cohere Command R+

Revise os benchmarks de desempenho do modelo cohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024) hospedado em uma unidade Large Cohere V2 de um cluster de IA dedicado na OCI Generative AI.

  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Clusters de IA dedicados para hospedar este modelo.
  • Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 122.46 101.28 4.31 13.21
2 114.38 177.67 5.7 17.78
4 107.48 367.88 5.09 45.22
8 95.32 644.56 7.23 62.61
16 82.42 1,036.84 7.91 62.61
32 66.46 1,529.28 10.12 145.82
64 45.7 1,924.84 12.43 206.26
128 33.96 2,546.35 18.22 272.53
256 23.86 2,914.77 30.75 298.88

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 112.29 95.11 1.82 31.65
2 109.27 186.61 1.91 60.55
4 104.19 350.17 1.98 115.7
8 93.66 625.1 2.24 200.55
16 84.6 1,087.14 2.46 354.44
32 68.8 1,718.2 2.96 557.7
64 53.25 2,455.21 3.53 827.78
128 38.02 3,366.97 5.48 1,113.31
256 25.19 3,983.61 8.35 1,322.15

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 126.4 110.9 13.07 4.57
2 122.93 213.92 13.33 8.87
4 117.03 403.27 15.32 15.26
8 106.11 707.45 16.86 26.78
16 98.06 1,258.94 18.22 47.94
32 86.74 2,147.82 21.04 79.38
64 72.43 3,011.59 25.5 107.48
128 55.8 5,058.49 32.38 191.22
256 36.56 5,025.93 52.34 189.68

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 107.17 94.33 4.17 14.12
2 100.71 176.04 4.44 26.35
4 90.03 310.18 4.96 46.44
8 70.71 493.3 6.26 73.86
16 53.45 716.66 8.2 108.07
32 35.6 929.63 12.22 139.13
64 21.75 1,150.16 18.41 172.14
128 17.99 1,209.36 31.93 181.05
256 9.19 1,213.82 53.31 181.7