生成AIにおける専用AIクラスタのパフォーマンス・ベンチマーク
1人以上の同時ユーザーがOCI生成AIの専用AIクラスタでホストされている大規模言語モデルを呼び出す場合、いくつかのシナリオで推論の速度、レイテンシおよびスループットを確認します。
ベンチマークは、次のファミリのモデルに対して提供されます。
ベンチマークには、次のメトリックが使用されます。メトリックの定義は、メトリックについてを参照してください。
| メトリック | 単位 | 
|---|---|
| 最初のトークンまでの時間(TTFT) | 秒 | 
| トークン・レベルの推論速度 | トークン/秒(TPS) | 
| トークン・レベルのスループット | トークン/秒(TPS) | 
| リクエスト・レベルのレイテンシ | 秒 | 
| リクエスト・レベルのスループット | 1分当たりのリクエスト(RPM)または1秒当たりのリクエスト(RPS) | 
| サーバーの合計スループット(入力+出力) | トークン/秒(TPS) | 
メトリックについて
次のベンチマーク・メトリックの定義を確認します。
- メトリック1:Time to First Token (TTFT)
- 
入力問合せの受信後に、モデルが最初のトークン(または初期レスポンス)を生成および出力するのにかかる時間。 
- メトリック2: トークン・レベルの推論速度
- 
このメトリックは、エンドツーエンド・レイテンシの単位ごとに生成される出力トークンの数として定義されます。 平均的な人間の読書速度を一致させる必要があるアプリケーションでは、ユーザーは、平均的な人間の読書速度である5トークン/秒以上の速度であるシナリオに焦点を当てる必要があります。 15トークン/秒の推論速度など、ほぼリアルタイムのトークン生成を高速化する必要がある他のシナリオでは、たとえば、処理可能な同時ユーザー数が少なく、全体的なスループットが低いダイアログやチャット・シナリオなどです。 
- メトリック3: トークン・レベルのスループット
- 
このメトリックは、すべての同時ユーザー・リクエストでサーバーによって生成されたトークンの平均合計数を定量化します。これは、ユーザー全体のリクエストを処理するためのサーバーの容量と効率の総計測を提供します。 オフライン・バッチ処理タスクなど、推論速度がそれほど重要でない場合、焦点はスループットがピークとなり、サーバー・コスト効率が最も高くなります。これは、大量のコンカレント要求を処理するLLMの能力を示します。即時応答が必須ではないバッチ処理またはバックグラウンド・タスクに最適です。 ノート:トークン・レベルのスループット・ベンチマークは、LLMPerfツールを使用して実行されました。スループット計算には、トークン計算用に生成されたテキストをエンコードするために必要な時間が含まれる問題があります。 
- メトリック4: リクエスト・レベルのレイテンシ
- 
このメトリックは、リクエスト送信からリクエスト完了までの平均経過時間(リクエストの最後のトークンの生成後など)を表します。 
- メトリック5: リクエスト・レベルのスループット
- 
1分あたりまたは1秒あたりに処理された要求の数。 
- メトリック6: 合計スループット
- 
サーバーの入力および出力スループット 
- 同時
- 
同時にリクエストを実行するユーザーの数。 
ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。
- 同時リクエストの数。
- プロンプト内のトークンの数。
- レスポンス内のトークンの数。
- リクエスト間の(2)および(3)の差異。