Benchmark per le prestazioni del cluster AI dedicati in AI generativa

Esamina la velocità, la latenza e il throughput dell'inferenza in diversi scenari quando uno o più utenti concorrenti chiamano modelli di linguaggio di grandi dimensioni ospitati su cluster AI dedicati nell'AI generativa OCI.

I parametri di riferimento sono forniti per i modelli nelle seguenti famiglie:

Per i benchmark vengono utilizzati i parametri riportati di seguito. Per le definizioni delle metriche, vedere Informazioni sulle metriche.

Metriche benchmark
Metrica Unità
Time to First Token (TTFT) secondi
Velocità inferenza a livello di token token al secondo (TPS)
Throughput a livello di token token al secondo (TPS)
Latenza a livello di richiesta secondi
Throughput a livello di richiesta richieste al minuto (RPM) o richieste al secondo (RPS)
Throughput totale (input + output) del server token al secondo (TPS)

Informazioni sulle metriche

Esaminare le definizioni per le metriche di benchmark riportate di seguito.

Metrica 1: Time to First Token (TTFT)

Il tempo necessario affinché un modello generi e generi il suo primo token (o risposta iniziale) dopo aver ricevuto una query di input.

Metrica 2: velocità di inferenza a livello di token

Questa metrica è definita come il numero di token di output generati per unità di latenza end-to-end.

Per le applicazioni in cui è richiesta la corrispondenza con la velocità media di lettura umana, gli utenti dovrebbero concentrarsi su scenari in cui la velocità è di 5 token/secondo o più, che è la velocità media di lettura umana.

In altri scenari che richiedono una generazione di token quasi in tempo reale più rapida, ad esempio 15 token/seconda velocità di inferenza, ad esempio negli scenari di dialogo e chat in cui il numero di utenti concorrenti che potrebbero essere serviti è inferiore e il throughput complessivo è inferiore.

Metrica 3: throughput a livello di token

Questa metrica quantifica il numero totale media di token generati dal server in tutte le richieste utente simultanee. Fornisce una misura aggregata di capacità ed efficienza del server per soddisfare le richieste tra gli utenti.

Quando la velocità di inferenza è meno critica, ad esempio nelle attività di elaborazione batch offline, l'attenzione dovrebbe essere concentrata sui picchi di throughput e, pertanto, sull'efficienza dei costi del server. Ciò indica la capacità dell'LLM di gestire un numero elevato di richieste concorrenti, ideale per l'elaborazione in batch o task in background in cui la risposta immediata non è essenziale.

Nota: il benchmark di throughput a livello di token è stato eseguito utilizzando lo strumento LLMPerf. Il calcolo del throughput ha un problema in cui include il tempo necessario per codificare il testo generato per il calcolo del token.

Metrica 4: latenza a livello di richiesta

Questa metrica rappresenta il tempo medio trascorso tra la sottomissione della richiesta e il tempo necessario per completare la richiesta, ad esempio dopo la generazione dell'ultimo token della richiesta.

Metrica 5: throughput a livello di richiesta

Numero di richieste servite per unità di tempo, al minuto o al secondo.

Metrica 6: throughput totale

Il throughput di input e output del server

Concorrenza

Numero di utenti che effettuano richieste contemporaneamente.

Importante

Le prestazioni (velocità di inferenza, throughput, latenza) di un cluster AI dedicato hosting dipendono dagli scenari di traffico che attraversano il modello che ospita. Gli scenari di traffico dipendono da:

  1. Numero di richieste concorrenti.
  2. Il numero di token nel prompt.
  3. Il numero di token nella risposta.
  4. Varianza dei punti (2) e (3) tra le richieste.