Benchmark di prestazioni del cluster AI dedicato nell'AI generativa
Esamina la velocità, la latenza e il throughput dell'inferenza in diversi scenari quando uno o più utenti concorrenti chiamano modelli di linguaggio di grandi dimensioni ospitati su cluster AI dedicati nell'AI generativa OCI.
I parametri di riferimento sono forniti per i modelli nelle seguenti famiglie:
Per i benchmark vengono utilizzati i parametri riportati di seguito. Per le definizioni delle metriche, vedere Informazioni sulle metriche.
Metrica | Unità |
---|---|
Velocità inferenza a livello di token | token al secondo (TPS) |
Throughput a livello di token | token al secondo (TPS) |
Latenza a livello di richiesta | secondi |
Throughput a livello di richiesta | richieste al minuto (RPM) o richieste al secondo (RPS) |
Informazioni sulle metriche
Esaminare le definizioni per le metriche di benchmark riportate di seguito.
- Metrica 1: velocità di inferenza a livello di token
-
Questa metrica viene definita come il numero di token di output generati per unità di latenza end-to-end.
Per le applicazioni in cui è richiesta la corrispondenza con la velocità media di lettura umana, gli utenti dovrebbero concentrarsi su scenari in cui la velocità è di 5 token/secondo o più, che è la velocità media di lettura umana.
In altri scenari che richiedono una generazione di token quasi in tempo reale più rapida, ad esempio 15 token/seconda velocità di inferenza, ad esempio negli scenari di dialogo e chat in cui il numero di utenti concorrenti che potrebbero essere serviti è inferiore e il throughput complessivo è inferiore.
- Metrica 2: throughput a livello di token
-
Questa metrica quantifica il numero totale medio di token generati dal server in tutte le richieste utente simultanee. Fornisce una misura aggregata della capacità e dell'efficienza del server per soddisfare le richieste tra gli utenti.
Quando la velocità di inferenza è meno critica, ad esempio nei task di elaborazione batch offline, l'attenzione dovrebbe essere concentrata sui picchi di throughput e quindi sull'efficienza dei costi del server. Ciò indica la capacità di LLM di gestire un numero elevato di richieste concorrenti, ideale per l'elaborazione batch o task in background in cui la risposta immediata non è essenziale.
Nota: il benchmark di throughput a livello di token è stato eseguito utilizzando lo strumento LLMPerf. Il calcolo del throughput presenta un problema in cui include il tempo necessario per codificare il testo generato per il calcolo del token.
- Metrica 3: latenza a livello di richiesta
-
Questa metrica rappresenta il tempo medio trascorso tra la sottomissione della richiesta e il tempo necessario per completare la richiesta, ad esempio dopo la generazione dell'ultimo token della richiesta.
- Metrica 4: throughput a livello di richiesta
-
Numero di richieste servite per unità di tempo, al minuto o al secondo.
- Accesso concorrente
-
Numero di utenti che effettuano richieste contemporaneamente.
Le prestazioni (velocità di inferenza, throughput, latenza) di un cluster AI dedicato di hosting dipendono dagli scenari di traffico che attraversano il modello che ospita. Gli scenari di traffico dipendono da:
- Il numero di richieste concorrenti.
- Il numero di token nel prompt.
- Il numero di token nella risposta.
- Varianza di (2) e (3) tra le richieste.