機械翻訳について

評価実行の比較

同じ評価の2つの異なる実行を並べて比較し、レイテンシ、正確性およびトークン使用量の低下や改善を簡単に特定できます。 これにより、エージェントのパフォーマンスが時間の経過とともにどのように変化するか、特に変更を行った後にどのように変化するかを理解できます。
  1. [評価]タブから、評価を選択します。
  2. 2つの実行を選択して、「比較」をクリックします。
    • 「サマリー」タブには、実行間のパフォーマンス差異の概要が表示されます。
    • 「詳細」タブには、実行の詳細な質問ごとの内訳が表示されます。 評価セット内の各質問について、実行1の実際の応答と実行2の実際の応答を直接比較できます。 また、各質問の特定のレイテンシ、使用されたトークンおよびトレース・リンクを比較できるため、パフォーマンスや精度がどこで、なぜ変更されたのかを正確に特定しやすくなります。