Puntos de referencia de rendimiento de cluster de IA dedicado en IA generativa
Revise la velocidad de inferencia, la latencia y el rendimiento en varios escenarios en los que uno o más usuarios simultáneos llaman a modelos de lenguaje grandes alojados en clusters de IA dedicados en OCI Generative AI.
Las referencias se proporcionan para los modelos de las siguientes familias:
Las siguientes métricas se utilizan para las referencias. Para conocer las definiciones de métricas, consulte Acerca de las Métricas.
Métrica | Unidad |
---|---|
Velocidad de inferencia de nivel de token | tokens por segundo (TPS) |
Rendimiento a nivel de token | tokens por segundo (TPS) |
Latencia de nivel de solicitud | segundos |
Rendimiento a nivel de solicitud | solicitudes por minuto (RPM) o solicitudes por segundo (RPS) |
Acerca de las métricas
Revise las definiciones de las siguientes métricas de referencia.
- Métrica 1: Velocidad de inferencia a nivel de token
-
Esta métrica se define como el número de tokens de salida generados por unidad de latencia completa.
Para las aplicaciones en las que se requiere una velocidad de lectura humana promedio, los usuarios deben centrarse en escenarios en los que la velocidad sea de 5 tokens/segundo o más, que es la velocidad de lectura humana promedio.
En otros escenarios que requieren una generación de tokens casi en tiempo real más rápida, como 15 tokens/segundo de velocidad de inferencia, por ejemplo, en escenarios de diálogo y chat donde el número de usuarios simultáneos que se podrían servir es menor y el rendimiento general es menor.
- Métrica 2: Rendimiento a nivel de token
-
Esta métrica cuantifica el promedio de tokens generados por el servidor en todas las solicitudes de usuario simultáneas. Proporciona una medida agregada de la capacidad y la eficiencia del servidor para atender las solicitudes entre los usuarios.
Cuando la velocidad de inferencia es menos crítica, como en las tareas de procesamiento por lotes fuera de línea, el foco debe estar en los picos de rendimiento y, por lo tanto, la rentabilidad del servidor es mayor. Esto indica la capacidad del LLM para manejar un gran número de solicitudes simultáneas, ideal para el procesamiento por lotes o tareas en segundo plano donde la respuesta inmediata no es esencial.
Nota: La referencia de rendimiento global de nivel de token se ha realizado mediante la herramienta LLMPerf. El cálculo de rendimiento tiene un problema en el que incluye el tiempo necesario para codificar el texto generado para el cálculo de token.
- Métrica 3: Latencia de nivel de solicitud
-
Esta métrica representa el tiempo medio transcurrido entre el envío de la solicitud y el tiempo que tardó en completarla, por ejemplo, después de que se generó el último token de la solicitud.
- Métrica 4: Rendimiento a nivel de solicitud
-
Número de solicitudes atendidas por unidad de tiempo, ya sea por minuto o por segundo.
- Simulación
-
Número de usuarios que realizan solicitudes al mismo tiempo.
El rendimiento (velocidad de inferencia, rendimiento, latencia) de un cluster de IA dedicado de hosting depende de los escenarios de tráfico que atraviesan el modelo que aloja. Los escenarios de tráfico dependen de:
- Número de solicitudes simultáneas.
- El número de tokens en la petición de datos.
- El número de tokens en la respuesta.
- Variación de (2) y (3) entre solicitudes.