生成AIにおける専用AIクラスタのパフォーマンス・ベンチマーク
1人以上の同時ユーザーがOCI生成AIの専用AIクラスタでホストされている大規模言語モデルを呼び出す場合、いくつかのシナリオで推論の速度、レイテンシおよびスループットを確認します。
ベンチマークは、次のファミリのモデルに対して提供されます。
ベンチマークには、次のメトリックが使用されます。メトリックの定義は、メトリックについてを参照してください。
メトリック | 単位 |
---|---|
トークン・レベルの推論速度 | トークン/秒(TPS) |
トークン・レベルのスループット | トークン/秒(TPS) |
リクエスト・レベルのレイテンシ | 秒 |
リクエスト・レベルのスループット | 1分当たりのリクエスト(RPM)または1秒当たりのリクエスト(RPS) |
メトリックについて
次のベンチマーク・メトリックの定義を確認します。
- メトリック1: トークン・レベルの推論速度
-
このメトリックは、エンドツーエンド・レイテンシの単位ごとに生成される出力トークンの数として定義されます。
平均的な人間の読書速度を一致させる必要があるアプリケーションでは、ユーザーは、平均的な人間の読書速度である5トークン/秒以上の速度であるシナリオに焦点を当てる必要があります。
15トークン/秒の推論速度など、ほぼリアルタイムのトークン生成を高速化する必要がある他のシナリオでは、たとえば、処理可能な同時ユーザー数が少なく、全体的なスループットが低いダイアログやチャット・シナリオなどです。
- メトリック2: トークン・レベルのスループット
-
このメトリックは、すべての同時ユーザー・リクエストでサーバーによって生成されたトークンの平均合計数を定量化します。これは、ユーザー全体のリクエストを処理するためのサーバーの容量と効率の総計測を提供します。
オフライン・バッチ処理タスクなど、推論速度がそれほど重要でない場合、焦点はスループットがピークとなり、サーバー・コスト効率が最も高くなります。これは、大量のコンカレント要求を処理するLLMの能力を示します。即時応答が必須ではないバッチ処理またはバックグラウンド・タスクに最適です。
ノート:トークン・レベルのスループット・ベンチマークは、LLMPerfツールを使用して実行されました。スループット計算には、トークン計算用に生成されたテキストをエンコードするために必要な時間が含まれる問題があります。
- メトリック3: リクエスト・レベルのレイテンシ
-
このメトリックは、リクエスト送信からリクエスト完了までの平均経過時間(リクエストの最後のトークンの生成後など)を表します。
- メトリック4: リクエスト・レベルのスループット
-
1分あたりまたは1秒あたりに処理された要求の数。
- 同時
-
同時にリクエストを実行するユーザーの数。
ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。
- 同時リクエストの数。
- プロンプト内のトークンの数。
- レスポンス内のトークンの数。
- リクエスト間の(2)および(3)の差異。