評価の実行
各回答を評価し、スコアリングを指定する必要があります。
- データ・セット内の各質問に対してAIエージェントによって生成された回答を記録します。
- 生成された各アンサーの正解スコアと、スコアが割り当てられた理由の説明を割り当てます。
スコアリングのガイドライン
スコアリングに関する次のガイドラインに従ってください:
- スコアは1から5の間にする必要があります。1は最低、5は最高スコアです。
- 生成されたアンサーが完全に正しくない場合、またはユーザー問合せに関連しない場合は、スコア1を指定します。
- 生成されたアンサーが関連性があるが、誤りが含まれているか、または部分的に正しい場合は、2から3の間のスコアを指定します。
- 生成された回答が適切で完全に正しい場合は、4から5までのスコアを指定します。
評価の例
評価の例を次に示します:
数値 | 問合せ | 予想回答 | AIエージェントの回答 | 訂正スコア | コメント |
---|---|---|---|---|---|
ACME_UPD_SPD_ 001 | カバー | いいえ、アロマセラピはカバーされていません。 提供されているコンテキストによると、アロマセラピは、UnitedHealthcareメディカル・プランではカバーされていない「代替治療」の下にリストされています。 | いいえ、アロマセラピはカバーされていません。 与えられた文脈によると、アロマセラピは、プラン除外の「代替治療」セクションの下にリストされています。これは、プランでカバーされていないことを意味します。 | 5 | 生成された答えは関連性があり、完全に正しく、コンテンツと構造の両方の参照答えに密接に一致し、効果的にアロマセラピが「代替治療」としての分類のために計画の下でカバーされていないことを伝えます |
ACME_UPD_SPD_ 002 | 温度計を支払いますか | 提供されているコンテキストに基づいて、温度計はUnitedHealthcare医療プランの対象にはなりません。 具体的には、「MEDICAL SUPPLIES AND APPLIANCES」というタイトルのドキュメントでは、温度計を除外供給としてリストしています。 | 提供されているコンテキストでの温度計の記述はありません。 答えは「いいえ」で、温度計は支払われません。 | 4 | 生成された回答は適切で正確であり、温度計がカバーされていないという参照回答の結論と一致します。 ただし、この情報のソースに関する参照アンサーに記載されている具体的な詳細が欠けています。これは、文のコンテキストおよび信頼性を理解するのに役立ちます。 |