AIエージェントのモニターおよび評価

AIエージェントのパフォーマンスを監視してインサイトを取得し、エージェントの正確性を評価します。また、エージェントとのインタラクションを追跡し、実際の使用パターンを把握し、一般的なエラーを特定し、全体的なパフォーマンスを測定することもできます。

モニタリング- モニタリングはパフォーマンスを追跡し、エージェントが本番でどのように動作するかについてのインサイトを提供します。エージェントを監視して、レスポンス時間とトークン数が時間の経過とともに維持されるようにします。ここに記録されたエラーも表示されます。
評価- エージェントをデプロイする前に評価し、エージェントが本番環境の準備ができていることを確認します。エージェントがレスポンスの正確性、レスポンス時間およびトークンの使用状況をテストして、品質基準を満たします。エージェントに変更を加えた後、またはモデルの更新後に、評価を再実行して、エージェントが期待どおりに実行し続けることを確認します。このプロアクティブなアプローチは、ユーザーの質の高いエクスペリエンスを維持するのに役立ちます。

この表は、いくつかの主要なメトリック、その説明、およびモニタリングまたは評価の可用性の概要を示しています。

メトリック	説明	評価可能	モニターに使用可能
エラー率	エラーで終了したユーザー・セッションの割合。	Yes	Yes
エラー数	記録されたエラーの合計数。	Yes	Yes
セッション数	エージェントで開始された会話の合計数。	Yes	Yes
P99レイテンシ	ユーザーの99%の最大待機時間(ミリ秒)。エージェントのプロンプトまたは構造を確認および最適化する必要がある領域が表示されます。	Yes	Yes
P50レイテンシ	50%のユーザーの最大待機時間(ミリ秒)。パフォーマンスの問題の識別に役立ちます。このメトリックをモニタリング結果または評価結果の詳細に表示できます。	Yes	Yes
トークン合計	すべてのエージェントが使用するトークンの累積数。	Yes	Yes
入力トークン数	リクエストに対してLLMに送信されたトークンの合計数。これには、システム・プロンプト、ユーザー・メッセージ、取得またはコンテキスト・データ、チャット履歴、ツール定義または機能定義が含まれます。	いいえ	Yes
出力トークン数	LLMによって生成された、LLMに送信されたリクエストの合計トークン。	Yes	Yes
正解の中央値	評価実行全体の正確度スコアの50パーセンタイル。各スコア(0-1)は、評価セットで提供される参照回答とエージェントの回答を比較して計算されます。	Yes	いいえ
セッション数	ユーザーとAIエージェント間の一意の会話セッションの数。 1つのセッションに複数のメッセージや評価実行を含めることができます。	Yes	Yes

前提要件

AI Agent Studioの「モニタリングと評価」タブに表示されるメトリックを集計します。

「ナビゲータ」 > 「ツール」 > 「スケジュール済プロセス」に移動します。
「スケジュール済プロセス」で、「新規プロセスのスケジュール」をクリックします。
タイプは「ジョブ」のままにします。
「AIエージェントの使用状況とメトリックの集計」を検索して選択します。
「AIエージェントの使用状況とメトリックの集計」スケジュール済プロセスを実行します。

このプロセスは、たとえば1日に1回など、繰返しベースで実行するようにスケジュールできます。

プロセスは、AI Agent Studioの「モニタリングと評価」タブに表示されるメトリックを集計します。