Cohere Command R

Revise os benchmarks de desempenho do modelo cohere.command-r-16k (Cohere Command R) hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado na OCI Generative AI.

  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Clusters de IA dedicados para hospedar este modelo.
  • Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 51.3 50.46 4.63 12.75
2 51.06 97.86 5.07 23.14
4 47.52 186.75 5.3 44.48
8 43.55 305.45 5.68 75.18
16 36.49 505.11 6.71 127.88
32 29.02 768.4 8.84 177.03
64 18.57 735.37 14.55 168
128 12.59 809.5 21.27 186.76
256 6.54 859.45 38.69 200.42

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 42.36 38.82 2.23 26.07
2 42.49 77.95 2.18 52.86
4 42.15 155.04 2.15 106.28
8 39.72 274.21 2.33 192.82
16 37.28 527.72 2.36 366.2
32 32.87 828.91 2.88 538.91
64 24.48 1,175.93 3.4 816
128 19.21 1,522.53 5.38 1,023.93
256 10.11 1,668.07 8.49 1,127.35

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 47.2 50.32 3.53 16.65
2 45.06 98.42 3.61 32.48
4 43.85 165.6 3.26 63.91
8 40.56 292.22 3.04 133.2
16 38.35 416.13 3.61 171.22
32 28.68 557.5 4.64 219.01
64 15.19 613.72 9.65 171.83
128 10.74 664.11 11.67 233.87
256 5.83 721.5 22.78 253.54

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 49.33 47.66 4.14 14.24
2 45.65 86.9 4.5 26.04
4 40.32 152.1 5.09 45.51
8 30.69 235.78 6.57 70.43
16 24.6 310.44 9.74 93.07
32 9.95 307.32 18.21 91.81
64 5.43 297.06 31.41 89.08
128 4.44 313.47 44.9 93.89
256 2.36 312.97 85.35 93.53