Cohere Command R+ 08-2024
Revise os benchmarks de desempenho do modelo cohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024) hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado na OCI Generative AI.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
- O modelo
cohere.command-r-plus-08-2024hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,58 59,4 51,39 3,97 0,25 177,94 2 0,54 56,82 99,37 4,07 0,49 343,94 4 0,55 53,54 187,3 4,29 0,92 629,78 8 0,55 45,14 321,74 4,98 1,57 1.086,9 16 0,58 37,45 527,84 6,06 2,52 1.803,26 32 0,71 31,06 835,95 7,05 4,17 2.930,36 64 1,12 21,23 1.013,92 9,91 5,36 3.690,25 128 2,46 12,27 1.013,5 15,17 6,28 4.184,62 256 28,89 11,97 711,27 41,84 4,49 2.995,92 - O modelo
cohere.command-r-plus-08-2024hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,67 68,26 57,04 4,56 0,22 159,08 2 0,68 66,98 113,61 4,65 0,43 320,69 4 0,69 63,73 217,25 4,94 0,8 576,2 8 0,69 59,32 403,93 5,15 1,53 1.175,95 16 0,7 54,51 737,83 5,63 2,75 2.092,64 32 0,74 45,65 1.213,09 6,57 4,55 3.306,18 64 0,94 35,81 1.791,62 8,42 6,71 4.945,78 128 1,81 24,2 2.030,12 11,87 8,22 5.947,53 256 9,35 23,53 2.064,19 19,82 8,42 6.063,79
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
- O modelo
cohere.command-r-plus-08-2024hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,51 59,64 44,86 1,99 0,5 93,29 2 0,5 57,81 87,16 2,02 0,98 182,21 4 0,51 54,31 164,73 2,12 1,86 344,89 8 0,52 46,73 290,36 2,43 3,22 601,4 16 0,57 40,77 496,24 2,76 5,52 1.031,61 32 0,97 34,74 786,28 3,53 8,77 1.634,87 64 1,03 25,08 1.074,45 4,57 12,13 2.249,96 128 1,93 17,46 1.402,86 7,15 15,58 2.908,96 256 6,39 14,68 1.321,52 12,48 14,82 2.754,62 - O modelo
cohere.command-r-plus-08-2024hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,64 69,01 47,06 1,97 0,5 96,12 2 0,63 67,99 92,76 1,99 1 189,46 4 0,64 66,71 182,12 2,03 1,95 370,65 8 0,66 64,71 345,04 2,09 3,7 704,19 16 0,7 61,79 658,79 2,19 7,06 1.343,09 32 0,76 57,74 1.196,06 2,37 12,79 2.437,58 64 1,01 50,01 1.861,32 2,86 19,97 3.798,59 128 1,53 37,88 2.266,4 4 24,28 4.611,58 256 3,56 35,73 2.753,63 6,15 29,5 5.616,33
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
- O modelo
cohere.command-r-plus-08-2024hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,53 61,54 58,82 12,2 0,08 66,68 2 0,53 59,46 113,88 14,32 0,14 127,24 4 0,52 56,83 216,43 13,34 0,29 244,89 8 0,52 50,35 383,52 14,16 0,55 436,81 16 0,55 45,71 681,87 16,28 0,94 772,85 32 0,61 42,04 1.203,12 16,03 1,81 1.378,76 64 0,85 32,83 1.870,11 19,12 2,99 2.159,32 128 1,72 24,8 2.728,79 27,59 3,96 3.112,68 256 17,43 24,51 2.532,47 43,73 3,69 2.889,44 - O modelo
cohere.command-r-plus-08-2024hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,65 66,69 62,92 14,14 0,07 69,68 2 0,66 66,4 123,84 14,32 0,14 137,02 4 0,66 64,72 244,79 14,51 0,27 271,17 8 0,67 63,87 486,7 14,9 0,53 538,49 16 0,71 60,49 915,45 15,54 1,02 1.014,47 32 0,77 57,09 1.708,15 16,57 1,89 1.891,81 64 1,02 49,88 2.943,89 18,9 3,3 3.263,78 128 1,56 40,01 4.514,92 23,89 5,05 5.003,86 256 16,89 39,84 4.740,55 39,5 5,26 5.250,54
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
- O modelo
cohere.command-r-plus-08-2024hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,68 58,51 48,56 4,08 0,24 533,48 2 0,77 55,59 91,08 4,35 0,46 1.001,07 4 0,98 51,26 162,12 4,87 0,81 1.784,54 8 1,52 42,35 251,89 6,25 1,26 2.768,79 16 2,3 32,91 371,92 8,47 1,86 4.093,1 32 3,91 28,74 555,48 11,29 2,78 6.108,24 64 5,98 15,69 627,51 19 3,14 6.898,71 128 8,99 7,11 577,71 36,95 2,9 6.359,07 256 31,42 6,27 541,87 63,18 2,72 5.975,51 - O modelo
cohere.command-r-plus-08-2024hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0,76 69,52 54,09 3,46 0,29 625,42 2 0,82 67,31 103,91 3,62 0,55 1.200,85 4 0,94 63,19 189,23 3,91 1,01 2.198,58 8 1,18 57,13 331,56 4,48 1,77 3.858,68 16 1,7 48,48 524,4 5,64 2,79 6.090,47 32 2,68 38,31 735,33 7,84 3,9 8.523,79 64 4,09 22,66 894,11 12,58 4,73 10.335,98 128 6,69 10,61 819,11 24,39 4,35 9.499,74 256 21,64 9,16 803,95 42,18 4,25 9.287,02