生成AIでの専用AIクラスタ・パフォーマンス・ベンチマーク
1人以上の同時ユーザーがOCI生成AIの専用AIクラスタでホストされている大規模言語モデルを呼び出す場合の、いくつかのシナリオでの推論速度、レイテンシおよびスループットを確認します。
ベンチマークは、次のファミリのモデルに対して提供されます。
ベンチマークには、次のメトリックが使用されます。メトリック定義については、メトリックについてを参照してください。
| メトリック | 単位 |
|---|---|
| 最初のトークンまでの時間(TTFT) | 秒 |
| トークン・レベルの推論速度 | トークン/秒(TPS) |
| トークン・レベルのスループット | トークン/秒(TPS) |
| リクエスト・レベルのレイテンシ | 秒 |
| リクエスト・レベルのスループット | 1分当たりのリクエスト数(RPM)または1秒当たりのリクエスト数(RPS) |
| サーバーの合計スループット(入力+出力) | トークン/秒(TPS) |
メトリックについて
次のベンチマーク・メトリックの定義を確認します。
- メトリック1:Time to First Token (TTFT)
-
入力問合せの受信後にモデルが最初のトークン(または初期レスポンス)を生成および出力するのにかかる時間。
- メトリック2: トークン・レベルの推論速度
-
このメトリックは、エンドツーエンド・レイテンシ単位ごとに生成される出力トークンの数として定義されます。
平均的な読み上げ速度が要求されるアプリケーションでは、速度が5トークン/秒以上のシナリオ(人間の平均読み上げ速度)に焦点を当てる必要があります。
他のシナリオでは、15トークン/秒の推論速度など、ほぼリアルタイムのトークン生成を高速化する必要があります。たとえば、ダイアログやチャット・シナリオでは、提供可能な同時ユーザー数が少なく、全体的なスループットが低くなります。
- メトリック3: トークン・レベルのスループット
-
このメトリックは、すべての同時ユーザー・リクエストでサーバーによって生成されたトークンの平均合計数を定量化します。ユーザー間のリクエストを処理するためのサーバーの容量と効率の集計メジャーを提供します。
オフラインのバッチ処理タスクなど、推論速度がそれほど重要でない場合、焦点はスループットがピークとなり、したがってサーバーのコスト効率が最も高くなります。これは、大量の同時リクエストを処理するLLMの容量を示します。即時レスポンスが不要なバッチ処理やバックグラウンド・タスクに最適です。
ノート:トークン・レベルのスループット・ベンチマークは、LLMPerfツールを使用して実行されました。スループット計算には、生成されたテキストをトークン計算用にエンコードするために必要な時間が含まれる問題があります。
- メトリック4: リクエスト・レベルのレイテンシ
-
このメトリックは、リクエストの最後のトークンの生成後など、リクエストの送信からリクエストの完了までにかかった時間の平均経過時間を表します。
- メトリック5: リクエスト・レベルのスループット
-
1分当たりまたは1秒当たりの1単位時間当たりのリクエスト数。
- メトリック6: 合計スループット
-
サーバーの入力および出力スループット
- 同時実行性
-
同時にリクエストを行うユーザーの数。
ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを経由するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。
- 同時リクエストの数。
- プロンプト内のトークンの数。
- レスポンスのトークンの数。
- リクエスト間の(2)および(3)の差異。