Benchmarks für die Performance von dedizierten KI-Clustern in generativer KI

Sehen Sie sich die Inferenzgeschwindigkeit, Latenz und den Durchsatz in mehreren Szenarien an, wenn ein oder mehrere gleichzeitige Benutzer große Sprachmodelle aufrufen, die auf dedizierten KI-Clustern in OCI Generative AI gehostet werden.

Die Benchmarks werden für Modelle in den folgenden Familien bereitgestellt:

Die folgenden Metriken werden für die Benchmarks verwendet. Metrikdefinitionen finden Sie unter Metriken.

Benchmarkmetriken
Metrik Maßeinheit
Inferenzgeschwindigkeit auf Tokenebene Token pro Sekunde (TPS)
Durchsatz auf Tokenebene Token pro Sekunde (TPS)
Latenz auf Anforderungsebene Sekunden
Durchsatz auf Anforderungsebene Anforderungen pro Minute (RPM) oder Anforderungen pro Sekunde (RPS)

Informationen zu Metriken

Prüfen Sie die Definitionen für die folgenden Benchmarkmetriken.

Metrik 1: Inferenzgeschwindigkeit auf Tokenebene

Diese Metrik ist definiert als die Anzahl der Ausgabe-Token, die pro Einheit der End-to-End-Latenz generiert werden.

Für Anwendungen, bei denen eine Übereinstimmung mit der durchschnittlichen menschlichen Lesegeschwindigkeit erforderlich ist, sollten sich die Benutzer auf Szenarien konzentrieren, bei denen die Geschwindigkeit 5 Token/Sekunde oder mehr beträgt, was die durchschnittliche menschliche Lesegeschwindigkeit ist.

In anderen Szenarien, in denen eine schnellere Tokengenerierung in der Nähe von Echtzeit erforderlich ist, wie z. B. 15 Token/zweite Inferenzgeschwindigkeit, z. B. in Dialog- und Chatszenarios, bei denen die Anzahl der gleichzeitigen Benutzer, die bedient werden könnten, geringer ist und der Gesamtdurchsatz geringer ist.

Kennzahl 2: Durchsatz auf Tokenebene

Diese Metrik quantifiziert die durchschnittliche Gesamtanzahl der vom Server generierten Token über alle gleichzeitigen Benutzeranforderungen hinweg. Es bietet ein aggregiertes Maß an Serverkapazität und -effizienz, um Anforderungen über Benutzer hinweg zu verarbeiten.

Wenn die Inferenzgeschwindigkeit weniger kritisch ist, z.B. bei Offline-Batchverarbeitungsaufgaben, sollte der Schwerpunkt darauf liegen, wo die Durchsatzspitzen liegen und daher die Serverkosteneffizienz am höchsten ist. Dies gibt die Fähigkeit des LLM an, eine große Anzahl von gleichzeitigen Anforderungen zu verarbeiten, ideal für die Batchverarbeitung oder Hintergrundaufgaben, bei denen eine sofortige Reaktion nicht erforderlich ist.

Hinweis: Die Durchsatzbenchmark auf Tokenebene wurde mit dem Tool LLMPerf durchgeführt. Die Berechnung des Durchsatzes hat ein Problem, bei dem sie die Zeit enthält, die für die Codierung des generierten Textes für die Tokenberechnung erforderlich ist.

Metrik 3: Latenz auf Anforderungsebene

Diese Metrik gibt die durchschnittliche Zeit zwischen der Anforderungsweiterleitung und der Zeit an, die für den Abschluss der Anforderung benötigt wurde, z.B. nachdem das letzte Token der Anforderung generiert wurde.

Kennzahl 4: Durchsatz auf Anforderungsebene

Die Anzahl der Anforderungen pro Zeiteinheit, entweder pro Minute oder pro Sekunde.

Parallelität

Anzahl der Benutzer, die gleichzeitig Anforderungen stellen.

Wichtig

Die Performance (Inferenzgeschwindigkeit, Durchsatz, Latenz) eines dedizierten Hosting-KI-Clusters hängt von den Trafficszenarios ab, die das gehostete Modell durchlaufen. Verkehrsszenarien hängen ab von:

  1. Die Anzahl der gleichzeitigen Anforderungen.
  2. Die Anzahl der Token in der Eingabeaufforderung.
  3. Die Anzahl der Token in der Antwort.
  4. Die Abweichung von (2) und (3) zwischen Anforderungen.