Dedizierte KI-Clusterperformancebenchmarks in generativer KI

Sehen Sie sich die Inferenzgeschwindigkeit, Latenz und den Durchsatz in mehreren Szenarien an, wenn ein oder mehrere gleichzeitige Benutzer große Sprachmodelle aufrufen, die auf dedizierten KI-Clustern in OCI Generative AI gehostet werden.

Die Benchmarks werden für Modelle in den folgenden Familien bereitgestellt:

Die folgenden Metriken werden für die Benchmarks verwendet. Metrikdefinitionen finden Sie unter Metriken.

Benchmarkmetriken
Metrik Einheit
Zeit bis zum ersten Token (TTFT) Sekunden
Inferenzgeschwindigkeit auf Tokenebene Token pro Sekunde (TPS)
Durchsatz auf Tokenebene Token pro Sekunde (TPS)
Latenz auf Anforderungsebene Sekunden
Durchsatz auf Anforderungsebene Anforderungen pro Minute (RPM) oder Anforderungen pro Sekunde (RPS)
Gesamtdurchsatz (Eingabe + Ausgabe) des Servers Token pro Sekunde (TPS)

Informationen zu Metriken

Prüfen Sie die Definitionen für die folgenden Benchmarkmetriken.

Kennzahl 1: Time-to-First-Token (TTFT)

Die Zeit, die ein Modell benötigt, um sein erstes Token (oder seine erste Antwort) nach dem Empfang einer Eingabeabfrage zu generieren und auszugeben.

Metrik 2: Inferenzgeschwindigkeit auf Tokenebene

Diese Metrik ist definiert als die Anzahl der Ausgabetoken, die pro Einheit der End-to-End-Latenz generiert werden.

Für Anwendungen, bei denen eine Übereinstimmung mit der durchschnittlichen menschlichen Lesegeschwindigkeit erforderlich ist, sollten sich Benutzer auf Szenarien konzentrieren, bei denen die Geschwindigkeit 5 Token/Sekunde oder mehr beträgt, was die durchschnittliche menschliche Lesegeschwindigkeit ist.

In anderen Szenarien, in denen eine schnellere Tokengenerierung nahezu in Echtzeit erforderlich ist, wie z. B. 15 Token/zweite Inferenzgeschwindigkeit, z. B. in Dialog- und Chatszenarios, bei denen die Anzahl der gleichzeitigen Benutzer, die bedient werden könnten, geringer ist und der Gesamtdurchsatz geringer ist.

Kennzahl 3: Durchsatz auf Tokenebene

Diese Metrik quantifiziert die durchschnittliche Gesamtanzahl von Token, die vom Server für alle gleichzeitigen Benutzeranforderungen generiert wurden. Es bietet ein Gesamtmaß an Serverkapazität und -effizienz, um Anfragen für alle Benutzer zu bearbeiten.

Wenn die Inferenzgeschwindigkeit weniger kritisch ist, z. B. bei Offline-Batchverarbeitungsaufgaben, sollte der Fokus darauf liegen, wo die Durchsatzspitzen liegen und somit die Serverkosteneffizienz am höchsten ist. Dies gibt die Fähigkeit des LLM an, eine hohe Anzahl gleichzeitiger Anforderungen zu verarbeiten, ideal für Batch-Verarbeitung oder Hintergrundaufgaben, bei denen eine sofortige Reaktion nicht erforderlich ist.

Hinweis: Die Durchsatzbenchmark auf Tokenebene wurde mit dem Tool LLMPerf erstellt. Die Durchsatzberechnung weist ein Problem auf, bei dem sie die Zeit enthält, die für die Codierung des generierten Texts für die Tokenberechnung erforderlich ist.

Metrik 4: Latenz auf Anforderungsebene

Diese Metrik stellt die durchschnittliche Zeit zwischen der Anforderungsweiterleitung und der Zeit dar, die für den Abschluss der Anforderung benötigt wurde, z.B. nachdem das letzte Token der Anforderung generiert wurde.

Kennzahl 5: Durchsatz auf Anforderungsebene

Die Anzahl der Anforderungen pro Zeiteinheit, entweder pro Minute oder pro Sekunde.

Kennzahl 6: Gesamtdurchsatz

Der Eingangs- und Ausgangsdurchsatz des Servers

Nebenläufigkeit

Anzahl der Benutzer, die gleichzeitig Anforderungen stellen.

Wichtig

Die Performance (Inferenzgeschwindigkeit, Durchsatz, Latenz) eines dedizierten Hosting-KI-Clusters hängt von den Verkehrsszenarios ab, die durch das Modell gehen, das es hostet. Verkehrsszenarien hängen ab von:

  1. Die Anzahl der gleichzeitig ausgeführten Prozesse.
  2. Die Anzahl der Token in der Eingabeaufforderung.
  3. Die Anzahl der Token in der Antwort.
  4. Die Abweichung von (2) und (3) über Anforderungen hinweg.