機械翻訳について

評価の実行

各回答を評価し、スコアリングを指定する必要があります。

  • データ・セット内の各質問に対してAIエージェントによって生成された回答を記録します。
  • 生成された各アンサーの正解スコアと、スコアが割り当てられた理由の説明を割り当てます。

スコアリングのガイドライン

スコアリングに関する次のガイドラインに従ってください:

  • スコアは1から5の間にする必要があります。1は最低、5は最高スコアです。
  • 生成されたアンサーが完全に正しくない場合、またはユーザー問合せに関連しない場合は、スコア1を指定します。
  • 生成されたアンサーが関連性があるが、誤りが含まれているか、または部分的に正しい場合は、2から3の間のスコアを指定します。
  • 生成された回答が適切で完全に正しい場合は、4から5までのスコアを指定します。

評価の例

評価の例を次に示します:

数値 問合せ 予想回答 AIエージェントの回答 訂正スコア コメント
ACME_UPD_SPD_ 001 カバー いいえ、アロマセラピはカバーされていません。 提供されているコンテキストによると、アロマセラピは、UnitedHealthcareメディカル・プランではカバーされていない「代替治療」の下にリストされています。 いいえ、アロマセラピはカバーされていません。 与えられた文脈によると、アロマセラピは、プラン除外の「代替治療」セクションの下にリストされています。これは、プランでカバーされていないことを意味します。 5 生成された答えは関連性があり、完全に正しく、コンテンツと構造の両方の参照答えに密接に一致し、効果的にアロマセラピが「代替治療」としての分類のために計画の下でカバーされていないことを伝えます
ACME_UPD_SPD_ 002 温度計を支払いますか 提供されているコンテキストに基づいて、温度計はUnitedHealthcare医療プランの対象にはなりません。 具体的には、「MEDICAL SUPPLIES AND APPLIANCES」というタイトルのドキュメントでは、温度計を除外供給としてリストしています。 提供されているコンテキストでの温度計の記述はありません。 答えは「いいえ」で、温度計は支払われません。 4 生成された回答は適切で正確であり、温度計がカバーされていないという参照回答の結論と一致します。 ただし、この情報のソースに関する参照アンサーに記載されている具体的な詳細が欠けています。これは、文のコンテキストおよび信頼性を理解するのに役立ちます。