Benchmarks für die Performance von dedizierten KI-Clustern in generativer KI
Sehen Sie sich die Inferenzgeschwindigkeit, Latenz und den Durchsatz in mehreren Szenarien an, wenn ein oder mehrere gleichzeitige Benutzer große Sprachmodelle aufrufen, die auf dedizierten KI-Clustern in OCI Generative AI gehostet werden.
Die Benchmarks werden für Modelle in den folgenden Familien bereitgestellt:
Die folgenden Metriken werden für die Benchmarks verwendet. Metrikdefinitionen finden Sie unter Metriken.
Metrik | Maßeinheit |
---|---|
Inferenzgeschwindigkeit auf Tokenebene | Token pro Sekunde (TPS) |
Durchsatz auf Tokenebene | Token pro Sekunde (TPS) |
Latenz auf Anforderungsebene | Sekunden |
Durchsatz auf Anforderungsebene | Anforderungen pro Minute (RPM) oder Anforderungen pro Sekunde (RPS) |
Informationen zu Metriken
Prüfen Sie die Definitionen für die folgenden Benchmarkmetriken.
- Metrik 1: Inferenzgeschwindigkeit auf Tokenebene
-
Diese Metrik ist definiert als die Anzahl der Ausgabe-Token, die pro Einheit der End-to-End-Latenz generiert werden.
Für Anwendungen, bei denen eine Übereinstimmung mit der durchschnittlichen menschlichen Lesegeschwindigkeit erforderlich ist, sollten sich die Benutzer auf Szenarien konzentrieren, bei denen die Geschwindigkeit 5 Token/Sekunde oder mehr beträgt, was die durchschnittliche menschliche Lesegeschwindigkeit ist.
In anderen Szenarien, in denen eine schnellere Tokengenerierung in der Nähe von Echtzeit erforderlich ist, wie z. B. 15 Token/zweite Inferenzgeschwindigkeit, z. B. in Dialog- und Chatszenarios, bei denen die Anzahl der gleichzeitigen Benutzer, die bedient werden könnten, geringer ist und der Gesamtdurchsatz geringer ist.
- Kennzahl 2: Durchsatz auf Tokenebene
-
Diese Metrik quantifiziert die durchschnittliche Gesamtanzahl der vom Server generierten Token über alle gleichzeitigen Benutzeranforderungen hinweg. Es bietet ein aggregiertes Maß an Serverkapazität und -effizienz, um Anforderungen über Benutzer hinweg zu verarbeiten.
Wenn die Inferenzgeschwindigkeit weniger kritisch ist, z.B. bei Offline-Batchverarbeitungsaufgaben, sollte der Schwerpunkt darauf liegen, wo die Durchsatzspitzen liegen und daher die Serverkosteneffizienz am höchsten ist. Dies gibt die Fähigkeit des LLM an, eine große Anzahl von gleichzeitigen Anforderungen zu verarbeiten, ideal für die Batchverarbeitung oder Hintergrundaufgaben, bei denen eine sofortige Reaktion nicht erforderlich ist.
Hinweis: Die Durchsatzbenchmark auf Tokenebene wurde mit dem Tool LLMPerf durchgeführt. Die Berechnung des Durchsatzes hat ein Problem, bei dem sie die Zeit enthält, die für die Codierung des generierten Textes für die Tokenberechnung erforderlich ist.
- Metrik 3: Latenz auf Anforderungsebene
-
Diese Metrik gibt die durchschnittliche Zeit zwischen der Anforderungsweiterleitung und der Zeit an, die für den Abschluss der Anforderung benötigt wurde, z.B. nachdem das letzte Token der Anforderung generiert wurde.
- Kennzahl 4: Durchsatz auf Anforderungsebene
-
Die Anzahl der Anforderungen pro Zeiteinheit, entweder pro Minute oder pro Sekunde.
- Parallelität
-
Anzahl der Benutzer, die gleichzeitig Anforderungen stellen.
Die Performance (Inferenzgeschwindigkeit, Durchsatz, Latenz) eines dedizierten Hosting-KI-Clusters hängt von den Trafficszenarios ab, die das gehostete Modell durchlaufen. Verkehrsszenarien hängen ab von:
- Die Anzahl der gleichzeitigen Anforderungen.
- Die Anzahl der Token in der Eingabeaufforderung.
- Die Anzahl der Token in der Antwort.
- Die Abweichung von (2) und (3) zwischen Anforderungen.