評価データ・セットの作成
評価データ・セットの例を次に示します:
数値 | 問合せ | 予想回答 |
---|---|---|
ACME_UTD_SPD_001 | カバー | いいえ、アロマセラピはカバーされていません。 提供されているコンテキストによると、アロマセラピは、UnitedHealthcareメディカル・プランではカバーされていない「代替治療」の下にリストされています。 |
ACME_UTD_SPD_002 | 温度計を支払いますか | 提供されているコンテキストに基づいて、温度計はUnitedHealthcare医療プランの対象にはなりません。 具体的には、「MEDICAL SUPPLIES AND APPLIANCES」というタイトルのドキュメントでは、温度計を除外供給としてリストしています。 |
ACME_UTD_SPD_003 | ユナイテッドで覆われた目のレーザー手術ですか | 提供されたコンテキストに基づき、眼のレーザー手術はUnitedHealthcare Medical Plansではカバーされません。 「VISION」セクションの関連文書テキストには、近視性、遠視性、長視性、および乱視性を修正するための手術およびその他の関連する治療法(放射性角膜切除やレーザー手術などの手順を含む)が、計画除外の下にリストされていることが記載されています。 したがって、これらの手順は、UnitedHealthcare Medical Plansでは説明されません。 |
質問は、ソース・ドキュメントの分析における様々な複雑さに対処するエージェントの能力をテストするように設計する必要があります。 これらの質問を開発するには、次のガイドラインを使用します:
- 「長期コンテキスト」 - 一部の質問では、ドキュメントの遠いセクションに散在する情報が必要です。 エージェントが、複数のページにまたがるような長距離依存関係を正常に解決できるかどうかを確認します。
- 「分散コンテキスト」 - Oracle Fusion AIエージェントがドキュメントの複数の非連続部分から情報を収集し、質問に包括的に回答できるようにします。 これにより、さまざまなセクションの情報を集約および合成するシステムの機能がテストされます。
- 「隠しコンテキスト」 - Oracle Fusion AIエージェントが、テキストの奥深くから特定の詳細、不明瞭な詳細またはわかりにくい詳細を見つけて抽出できるかどうかをテストします。
- 「理由」 - AIエージェントが情報を取得できるだけでなく、推論を適用して正しい回答を提供できるかどうかを確認します。
- Table-Sourced - ドキュメント内の表から正確なデータを解釈および取得するAIエージェントの機能をテストします。