Benchmarks de Desempenho do Cluster de IA Dedicado no Serviço Generative AI
Revise a velocidade de inferência, a latência e o throughput em vários cenários quando um ou mais usuários simultâneos chamam grandes modelos de linguagem hospedados em clusters de IA dedicados na OCI Generative AI.
Os benchmarks são fornecidos para modelos nas seguintes famílias:
As métricas a seguir são usadas para os benchmarks. Para definições de métrica, consulte Sobre as Métricas.
Métrica | Unidade |
---|---|
Velocidade de inferência no nível do token | tokens por segundo (TPS) |
Throughput no nível do token | tokens por segundo (TPS) |
Latência no nível da solicitação | segundos |
Throughput no nível da solicitação | solicitações por minuto (RPM) ou solicitações por segundo (RPS) |
Sobre as Métricas
Verifique as definições das métricas de benchmark a seguir.
- Métrica 1: Velocidade de inferência no nível do token
-
Essa métrica é definida como o número de tokens de saída gerados por unidade de latência de ponta a ponta.
Para aplicativos em que a velocidade média de leitura humana é necessária, os usuários devem se concentrar em cenários em que a velocidade é de 5 tokens/segundo ou mais, que é a velocidade média de leitura humana.
Em outros cenários que exigem uma geração de token quase em tempo real mais rápida, como 15 tokens/segundo de velocidade de inferência, por exemplo, em cenários de diálogo e bate-papo em que o número de usuários simultâneos que poderiam ser atendidos é menor e a taxa de transferência geral é menor.
- Métrica 2: Throughput no nível do token
-
Essa métrica quantifica a média do número total de tokens gerados pelo servidor em todas as solicitações simultâneas do usuário. Ele fornece uma medida agregada da capacidade e eficiência do servidor para atender solicitações entre os usuários.
Quando a velocidade de inferência é menos crítica, como nas tarefas de processamento em lote off-line, o foco deve ser onde o throughput atinge o pico e, portanto, a eficiência de custo do servidor é mais alta. Isso indica a capacidade do LLM de lidar com um alto número de solicitações simultâneas, ideal para processamento em lote ou tarefas em segundo plano em que a resposta imediata não é essencial.
Observação: O benchmark de throughput no nível do token foi feito usando a ferramenta LLMPerf. O cálculo de throughput tem um problema em que inclui o tempo necessário para codificar o texto gerado para computação de token.
- Métrica 3: Latência no nível da solicitação
-
Esta métrica representa o tempo médio decorrido entre o envio da solicitação e o tempo necessário para concluir a solicitação, como após a geração do último token da solicitação.
- Métrica 4: Throughput no nível da solicitação
-
O número de solicitações atendidas por unidade de tempo, por minuto ou por segundo.
- Concorrência
-
Número de usuários que fazem solicitações ao mesmo tempo.
O desempenho (velocidade de referência, throughput, latência) de um cluster de IA dedicado de hospedagem depende dos cenários de tráfego que passam pelo modelo que ele está hospedando. Os cenários de tráfego dependem de:
- O número de solicitações concorrentes.
- O número de tokens no prompt.
- O número de tokens na resposta.
- A variação de (2) e (3) entre solicitações.