Benchmark di prestazioni del cluster AI dedicato nell'AI generativa

Esamina la velocità, la latenza e il throughput dell'inferenza in diversi scenari quando uno o più utenti concorrenti chiamano modelli di linguaggio di grandi dimensioni ospitati su cluster AI dedicati nell'AI generativa OCI.

I parametri di riferimento sono forniti per i modelli nelle seguenti famiglie:

Per i benchmark vengono utilizzati i parametri riportati di seguito. Per le definizioni delle metriche, vedere Informazioni sulle metriche.

Metriche benchmark
Metrica	Unità
Time to First Token (TTFT)	secondi
Velocità inferenza a livello di token	token al secondo (TPS)
Throughput a livello di token	token al secondo (TPS)
Latenza a livello di richiesta	secondi
Throughput a livello di richiesta	richieste al minuto (RPM) o richieste al secondo (RPS)
Throughput totale (input + output) del server	token al secondo (TPS)

Informazioni sulle metriche

Esaminare le definizioni per le metriche di benchmark riportate di seguito.

Metrica 1: Time to First Token (TTFT)

Il tempo necessario affinché un modello generi e generi il suo primo token (o risposta iniziale) dopo aver ricevuto una query di input.

Metrica 2: velocità di inferenza a livello di token

Questa metrica viene definita come il numero di token di output generati per unità di latenza end-to-end.

Per le applicazioni in cui è richiesta la corrispondenza con la velocità media di lettura umana, gli utenti dovrebbero concentrarsi su scenari in cui la velocità è di 5 token/secondo o più, che è la velocità media di lettura umana.

In altri scenari che richiedono una generazione di token quasi in tempo reale più rapida, ad esempio 15 token/seconda velocità di inferenza, ad esempio negli scenari di dialogo e chat in cui il numero di utenti concorrenti che potrebbero essere serviti è inferiore e il throughput complessivo è inferiore.

Metrica 3: throughput a livello di token

Questa metrica quantifica il numero totale medio di token generati dal server in tutte le richieste utente simultanee. Fornisce una misura aggregata della capacità e dell'efficienza del server per soddisfare le richieste tra gli utenti.

Quando la velocità di inferenza è meno critica, ad esempio nei task di elaborazione batch offline, l'attenzione dovrebbe essere concentrata sui picchi di throughput e quindi sull'efficienza dei costi del server. Ciò indica la capacità di LLM di gestire un numero elevato di richieste concorrenti, ideale per l'elaborazione batch o task in background in cui la risposta immediata non è essenziale.

Nota: il benchmark di throughput a livello di token è stato eseguito utilizzando lo strumento LLMPerf. Il calcolo del throughput presenta un problema in cui include il tempo necessario per codificare il testo generato per il calcolo del token.

Metrica 4: latenza a livello di richiesta

Questa metrica rappresenta il tempo medio trascorso tra la sottomissione della richiesta e il tempo necessario per completare la richiesta, ad esempio dopo la generazione dell'ultimo token della richiesta.

Metrica 5: throughput a livello di richiesta

Numero di richieste servite per unità di tempo, al minuto o al secondo.

Metrica 6: throughput totale

Il throughput di input e output del server

Accesso concorrente: Numero di utenti che effettuano richieste contemporaneamente.

Importante

Le prestazioni (velocità di inferenza, throughput, latenza) di un cluster AI dedicato di hosting dipendono dagli scenari di traffico che attraversano il modello che ospita. Gli scenari di traffico dipendono da:

Il numero di richieste concorrenti.
Il numero di token nel prompt.
Il numero di token nella risposta.
Varianza di (2) e (3) tra le richieste.

Documentazione di Oracle Cloud Infrastructure

Benchmark di prestazioni del cluster AI dedicato nell'AI generativa

Informazioni sulle metriche