エージェントの評価
評価セットを使用して、エージェントのパフォーマンスを評価します。 評価セットには、1つ以上のテスト質問、予想されるエージェント・レスポンスおよび測定されるメトリックが含まれます。 評価セットは各エージェントに固有であり、エージェントは複数の評価セットを持つことができます。
- エージェントの評価セットを作成します。
- にアクセスします。
- 「Monitoring and Evaluation」タブを選択します。
エージェントで実行される全ての評価が、[評価]タブに表示されます。
-
評価セットを作成するには、「評価の管理」をクリックし、
を選択します。 - 評価セットの名前、コードおよび説明を入力し、評価するエージェント チームを選択します。
- 実行モードを選択します。
順次: 定義した正確な順序で質問を実行します。 これは、1つの質問が前の質問のコンテキストに依存する場合に使用します。
ランダム: 質問をランダムな順序で実行します。
-
「質問」タブから、エージェントに尋ねる可能性が高い一般的な質問と、エージェントに提供する回答を追加します。 質問と回答の両方が簡潔でわかりやすく、ベスト・プラクティスが反映されていることを確認します。
質問と予想回答を個別に追加するか、1列目の質問と2列目の予想回答を含むCSVファイルをアップロードできます。
- 「メトリック」タブで、各メトリックを編集して、合格基準と不合格基準を設定します。 たとえば、正確性スコアが0.7未満の場合にテストが失敗することを示すには、しきい値条件として「<」を選択し、しきい値として0.7を入力します。
- [作成]を選択して、評価セットを保存します。
- 評価セットを実行します。
- 「評価の管理」ページで、評価セットの「評価実行の開始」処理を選択します。
- 評価および実行するエージェント・チームのバージョンを選択します。
- 結果を分析します。
- 評価セットをクリックして、評価実行ページを表示します。
-
評価実行を選択し、[実行結果の表示]アクションを選択します。
[Tab] 表示される情報 レスポンス・パフォーマンス - 各質問の予測レスポンスとエージェントからの実際のレスポンスの比較、および評価の各質問のメトリック。
- トレースは、評価の各質問の詳細なタイムラインに関する情報を提供します。
訂正 正確性スコアの詳細な内訳。 LLMは初期スコアとフィードバックを提供し、「人間による正確性スコア」列にレコード保持に関する独自のフィードバックを追加できます。