生成AIにおける専用AIクラスタのパフォーマンス・ベンチマーク

1人以上の同時ユーザーがOCI生成AIの専用AIクラスタでホストされている大規模言語モデルを呼び出す場合、いくつかのシナリオで推論の速度、レイテンシおよびスループットを確認します。

ベンチマークは、次のファミリのモデルに対して提供されます。

ベンチマークには、次のメトリックが使用されます。メトリックの定義は、メトリックについてを参照してください。

メンチマーク・メトリック
メトリック 単位
トークン・レベルの推論速度 トークン/秒(TPS)
トークン・レベルのスループット トークン/秒(TPS)
リクエスト・レベルのレイテンシ
リクエスト・レベルのスループット 1分当たりのリクエスト(RPM)または1秒当たりのリクエスト(RPS)

メトリックについて

次のベンチマーク・メトリックの定義を確認します。

メトリック1: トークン・レベルの推論速度

このメトリックは、エンドツーエンド・レイテンシの単位ごとに生成される出力トークンの数として定義されます。

平均的な人間の読書速度を一致させる必要があるアプリケーションでは、ユーザーは、平均的な人間の読書速度である5トークン/秒以上の速度であるシナリオに焦点を当てる必要があります。

15トークン/秒の推論速度など、ほぼリアルタイムのトークン生成を高速化する必要がある他のシナリオでは、たとえば、処理可能な同時ユーザー数が少なく、全体的なスループットが低いダイアログやチャット・シナリオなどです。

メトリック2: トークン・レベルのスループット

このメトリックは、すべての同時ユーザー・リクエストでサーバーによって生成されたトークンの平均合計数を定量化します。これは、ユーザー全体のリクエストを処理するためのサーバーの容量と効率の総計測を提供します。

オフライン・バッチ処理タスクなど、推論速度がそれほど重要でない場合、焦点はスループットがピークとなり、サーバー・コスト効率が最も高くなります。これは、大量のコンカレント要求を処理するLLMの能力を示します。即時応答が必須ではないバッチ処理またはバックグラウンド・タスクに最適です。

ノート:トークン・レベルのスループット・ベンチマークは、LLMPerfツールを使用して実行されました。スループット計算には、トークン計算用に生成されたテキストをエンコードするために必要な時間が含まれる問題があります。

メトリック3: リクエスト・レベルのレイテンシ

このメトリックは、リクエスト送信からリクエスト完了までの平均経過時間(リクエストの最後のトークンの生成後など)を表します。

メトリック4: リクエスト・レベルのスループット

1分あたりまたは1秒あたりに処理された要求の数。

同時

同時にリクエストを実行するユーザーの数。

重要

ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。

  1. 同時リクエストの数。
  2. プロンプト内のトークンの数。
  3. レスポンス内のトークンの数。
  4. リクエスト間の(2)および(3)の差異。