エージェントの評価

評価セットを使用して、エージェントのパフォーマンスを評価します。評価セットには、1つ以上のテスト質問、予想されるエージェント・レスポンスおよび測定されるメトリックが含まれます。評価セットは各エージェントに固有であり、エージェントは複数の評価セットを持つことができます。

エージェントの評価セットを作成します。
1. 「ナビゲータ」 > 「ツール」 > AI Agent Studioにアクセスします。
2. 「Monitoring and Evaluation」タブを選択します。
  エージェントで実行される全ての評価が、[評価]タブに表示されます。
3. 評価セットを作成するには、「評価の管理」をクリックし、を選択します。
4. 評価セットの名前、コードおよび説明を入力し、評価するエージェントチームを選択します。
5. 実行モードを選択します。
  順次: 定義した正確な順序で質問を実行します。これは、1つの質問が前の質問のコンテキストに依存する場合に使用します。
  ランダム: 質問をランダムな順序で実行します。
6. 「質問」タブから、エージェントに尋ねる可能性が高い一般的な質問と、エージェントに提供する回答を追加します。質問と回答の両方が簡潔でわかりやすく、ベスト・プラクティスが反映されていることを確認します。
  
  質問と予想回答を個別に追加するか、1列目の質問と2列目の予想回答を含むCSVファイルをアップロードできます。
7. 「メトリック」タブで、各メトリックを編集して、合格基準と不合格基準を設定します。たとえば、正確性スコアが0.7未満の場合にテストが失敗することを示すには、しきい値条件として「<」を選択し、しきい値として0.7を入力します。
8. [作成]を選択して、評価セットを保存します。
評価セットを実行します。
1. 「評価の管理」ページで、評価セットの「評価実行の開始」処理を選択します。
2. 評価および実行するエージェント・チームのバージョンを選択します。

結果を分析します。

評価セットをクリックして、評価実行ページを表示します。

評価実行を選択し、[実行結果の表示]アクションを選択します。

[Tab]	表示される情報
レスポンス・パフォーマンス	各質問の予測レスポンスとエージェントからの実際のレスポンスの比較、および評価の各質問のメトリック。トレースは、評価の各質問の詳細なタイムラインに関する情報を提供します。
訂正	正確性スコアの詳細な内訳。 LLMは初期スコアとフィードバックを提供し、「人間による正確性スコア」列にレコード保持に関する独自のフィードバックを追加できます。