Cohere Command R+ 08-2024 (tp4)

Revise os benchmarks de desempenho do modelo cohere.command-r-plus-08-2024-tp4-64k (Cohere Command R+ 08-2024 (tp4)) hospedado em uma unidade Large Cohere de um cluster de IA dedicado na OCI Generative AI.

  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Clusters de IA dedicados para hospedar este modelo.
  • Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo (RPS)
1 32.58 30 6.22 0.16
2 31.55 58.34 6.38 0.31
4 29.11 108.83 6.8 0.58
8 25.1 183.23 7.48 1.05
16 21.5 310.06 8.78 1.75
32 17.09 463.86 10.76 2.71
64 11.11 559.95 15.13 3.56
128 7.04 564.99 24.79 3.88
256 6.79 538.17 41.5 3.75

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 33.49 29.22 2.93 0.34
2 32.5 56.4 3.01 0.66
4 30.58 104.8 3.23 1.23
8 25.49 178.61 3.79 2.07
16 22.82 309.48 4.31 3.59
32 18.93 483.12 5.32 5.59
64 13.84 655.57 7.55 7.71
128 9.94 840.47 11.98 9.72
256 8.57 743.99 20.73 8.59

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 33.58 31.58 8.57 0.12
2 32.98 51.12 9.65 0.17
4 32 80.11 9.74 0.27
8 27.24 204.28 11.31 0.7
16 25.1 366.64 11.73 1.3
32 22.16 626.35 14.38 2.06
64 17.22 861.29 17.18 3.08
128 13.62 1,076.15 24.63 4.11
256 13.66 1,018.4 39.1 3.91

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 33.41 25.69 3.09 0.32
2 29.81 45.2 3.36 0.59
4 24.22 72.06 4.09 0.95
8 16.45 103.47 5.85 1.33
16 11.02 131.39 8.67 1.77
32 5.92 144.29 14.56 2.04
64 3.37 137.64 26.18 2.05
128 3.2 132.83 48.95 2.06
256 2.26 9.77 82.37 0.12