Cohere Command R+ 08-2024

Revise os benchmarks de desempenho do modelo cohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024) hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado na OCI Generative AI.

  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Clusters de IA dedicados para hospedar este modelo.
  • Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo (RPS)
1 59.4 51.39 3.97 0.25
2 56.82 99.37 4.07 0.49
4 53.54 187.3 4.29 0.92
8 45.14 321.74 4.98 1.57
16 37.45 527.84 6.06 2.52
32 31.06 835.95 7.05 4.17
64 21.23 1,013.92 9.91 5.36
128 12.27 1,013.5 15.17 6.28
256 11.97 711.27 41.84 4.49
O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 68.26 57.04 4.56 0.22
2 66.98 113.61 4.65 0.43
4 63.73 217.25 4.94 0.8
8 59.32 403.93 5.15 1.53
16 54.51 737.83 5.63 2.75
32 45.65 1,213.09 6.57 4.55
64 35.81 1,791.62 8.42 6.71
128 24.2 2,030.12 11.87 8.22
256 23.53 2,064.19 19.82 8.42

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 59.64 44.86 1.99 0.5
2 57.81 87.16 2.02 0.98
4 54.31 164.73 2.12 1.86
8 46.73 290.36 2.43 3.22
16 40.77 496.24 2.76 5.52
32 34.74 786.28 3.53 8.77
64 25.08 1,074.45 4.57 12.13
128 17.46 1,402.86 7.15 15.58
256 14.68 1,321.52 12.48 14.82
O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 69.01 47.06 1.97 0.5
2 67.99 92.76 1.99 1
4 66.71 182.12 2.03 1.95
8 64.71 345.04 2.09 3.7
16 61.79 658.79 2.19 7.06
32 57.74 1,196.06 2.37 12.79
64 50.01 1,861.32 2.86 19.97
128 37.88 2,266.4 4 24.28
256 35.73 2,753.63 6.15 29.5

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 58.51 48.56 4.08 0.24
2 55.59 91.08 4.35 0.46
4 51.26 162.12 4.87 0.81
8 42.35 251.89 6.25 1.26
16 32.91 371.92 8.47 1.86
32 28.74 555.48 11.29 2.78
64 15.69 627.51 19 3.14
128 7.11 577.71 36.95 2.9
256 6.27 541.87 63.18 2.72
O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 66.69 62.92 14.14 0.07
2 66.4 123.84 14.32 0.14
4 64.72 244.79 14.51 0.27
8 63.87 486.7 14.9 0.53
16 60.49 915.45 15.54 1.02
32 57.09 1,708.15 16.57 1.89
64 49.88 2,943.89 18.9 3.3
128 40.01 4,514.92 23.89 5.05
256 39.84 4,740.55 39.5 5.26

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 61.54 58.82 12.2 0.08
2 59.46 113.88 14.32 0.14
4 56.83 216.43 13.34 0.29
8 50.35 383.52 14.16 0.55
16 45.71 681.87 16.28 0.94
32 42.04 1,203.12 16.03 1.81
64 32.83 1,870.11 19.12 2.99
128 24.8 2,728.79 27.59 3.96
256 24.51 2,532.47 43.73 3.69
O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 69.52 54.09 3.46 0.29
2 67.31 103.91 3.62 0.55
4 63.19 189.23 3.91 1.01
8 57.13 331.56 4.48 1.77
16 48.48 524.4 5.64 2.79
32 38.31 735.33 7.84 3.9
64 22.66 894.11 12.58 4.73
128 10.61 819.11 24.39 4.35
256 9.16 803.95 42.18 4.25