Oracle Cloud Infrastructureドキュメント

品質レポート

インテントを簡単に区別できるスキルでは、インテント解決エラーの数が少なくなり、ユーザー採用が改善されます。 品質レポートは、これらの目標の達成に役立ちます。

これらのレポートは、トレーニング・データを作成する際に使用できます。その後、スキルを公開したときに、どの時点での顧客メッセージのフィールド化のインテントを調べる必要がある場合にも使用できます。

データ品質レポートの使用方法

Utterances、提案および履歴ページを使用して、スキルの最初の場所に十分な数のインテントがあるかどうかを確認し、ある場合にこれらのインテントが重複するか、編集が必要かどうか、または本番環境で期待どおりに動作しているかどうかを調べることができます。
  • Utterances-次のようにインテントのペアに品質ランキングを割り当てます:
    • 高-インテントには重複がありません。

    • 中-インテントは似た発話を持ちます。

    • 低-インテント・ペアが十分に区別されていません。

    このページから発話を編集または削除できます。
  • 提案-スキルが実行可能な場合に有効になります。 十分なインテントを追加しているかどうかと、各インテントに十分な数の発話を定義しているかどうかがわかります。

  • 履歴-スキルの解決履歴が表示され、インテントが予想どおりに作業した時間と作業しなかった時間を識別できます。 このフィードバックを使用してスキルを把握できます。

発話

トレーニング・コーパスを構築する際に、発話品質レポートを実行することによって、インテントが相互にどの程度異なるかを評価できます。 このレポートには、様々な組合せのインテント・ペアが表示され、それぞれが該当する発話の類似度に基づいて評価されます。 発話を2つのセットにランダムに分割することで、これらの結果が生成されます: トレーニングおよびテスト。 発話の80%からモデルを作成およびトレーニングし、残りの20%を使用してこのモデルをテストします。 トレーニング・データがまだ多くない場合は、このレポートを「発話ガイドライン」と組み合せることで、高品質のインテントを構築できます。
発話品質レポートの実行

このレポートは、どの発話が類似していないか、または誤分類(不正なインテントに関連している)可能性があるかを確認するために使用します。

  1. レポートを実行する前に、スキルをトレーニングする必要があります。
  2. トレーニングが完了したら、左側のナビゲーション・バーの品質 (これは、左ナビゲーション・バーの品質アイコンのイメージです。)をクリックします。

  3. レポート実行をクリックします。 レポートでは、類似しすぎている発話に基づいてインテント・ペアが評価されます。

    スコア この意味 (および実行する処理)
    スキルによってこれらのインテントを簡単に区別できますが、類似しすぎている発話がある場合もあるため、トレーニング・データの編集と追加を続行してください。
    発話が非常に類似しているため、これらのインテントの意味の違いがあいまいになる可能性があります。 これらのインテント間ではスキルに問題があるため、これらの発話を編集または削除します。
    発話が類似しすぎているため、スキルによって区別できません。 これを修正するには、これらの発話を編集または削除してから、スキルを再トレーニングします。 インテントにさらに発話を追加することもできます。
  4. 必要に応じて、すべて表示をクリックします。 デフォルトでは、このスイッチはオフ(これはオフ位置のすべて表示トグルのイメージです。)に切り替えられるため、レポートでは中および低ランクのインテント・ペアのみが表示されます。 レポートでインテント・ペアが高品質であると評価されただけでは、コーパスが完全であるというわけでも、これ以上の発話は不要というわけでもないことに注意してください。

  5. 必要な場合、ソート・オプションを選択して、インテント・ペアを表示します。

  6. インテント・ペアをクリックします。 レポートには、次の2つのカテゴリがあります:
    • 類似の発話:両方のインテントについて、このレポートには類似していない発話が示されます。 発話にマウス・カーソルを置くと、発話を編集または削除できます。
    • 誤分類される発話-モデルのテストに使用される発話が誤ったインテントに分類される可能性を測定します。

      ヒント:

      デフォルトでは、すべて表示のトグルがオフ(これはオフ位置のすべて表示トグルのイメージです。)になっているため、レポートには中間または低精度発話が表示されます。
      発話 予想されるインテント 観察されたインテント 精度
      このレポートの予想されたインテントごとに、テストで使用された発話を検出します。 発話が最初に作成されたインテントです。 発話が属している可能性があるインテントです。

      発話品質が誤分類の可能性にどのように影響しているか

      低-誤分類の可能性が高いため、インテントの解決率は低くなります。

      中-誤分類の可能性は中程度であるため、インテントが正しく解決される確率は中程度です。

      高い正確なインテント解決は、誤分類の可能性が低いためと考えられます。

  7. 必要に応じて、発話を調整します。

    類似エンティティのスコアに基づき、通常の処置は次のとおりです:
    • 新しい発話を追加します。

    • 類似の発話を変更します。

    • 類似の発話を削除しています。

    • 発話が競合していても、発話を単独のままにします。

    • 共通の発話が多すぎる場合に、2つのインテントを1つのインテントに減らします。 この共通インテントでは、エンティティ(同義語を含むリスト値エンティティなど)を使用して、ユーザー入力の違いを認識します。

    誤分類された発話の場合:
    • 精度を改善するには、想定したインテントに例の発話を追加します。

    • 予期されるインテントよりも観察されたインテントのほうが、発話の数が過度に多い場合は、不要な発話を削除することを検討します。

    ノート

    レポートの結果ではなく、データの変更によってスキルの適用範囲がどのように改善されるかに注目してください。
    インテントに類似した発話を追加することでこのレポートのコンテキスト内の正確性を向上させることができますが、かわりに、各インテントの多様な発話を維持する実際のユーザー入力について理解することに集中する必要があります。 レポートにあわせてインテントを調整した場合、スキルは無駄になります。
  8. 変更が完了したら、スキルを再度再学習し、レポートの再実行をクリックします。

発話品質レポートにおける予期しない結果

レポートで、矛盾するような結果を出力できる場合もあります。 いくつかの問題と考えられる原因を次に示します。

問題 原因
レポートに、高品質のインテント・ペアの類似の発話が示されます。 レポートでは、発話を比較するのみでなく、インテント全体を確認しています。 そのため、インテント・ペアのほとんどの発話が異なる場合、類似点の数が少なくても全体的な品質評価が低下しません。 たとえば、いずれも100件の発話でトレーニングされた2つのインテントは、いくつかの類似の発話が類似していても簡単に区別できます。
レポートでは、低品質ペアの類似の発話は示されません。 これは、発話が共有されていなくても、インテント・ペアがレポート全体で区別されないために発生する場合があります。 発話数が少ない場合や、あいまいで一般的な言葉がその原因になる場合などのファクタもあります。
発話を編集した後も、レポートにそれらの発話が類似として示されます。

発話を削除または編集する場合は、レポートを再実行する前にボットを再トレーニングする必要があります。

提示

データ・セットから開始するときは、提案ページをチェックして、スキルが少なくとも2つのインテント(それぞれ2つ以上のutterancesを持つ)がある最小標準を満たしているかどうかを確認します。

履歴

Utteranceページおよび提案ページは開発時にスキルを評価するのに役立ちますが、トレーニング・データが堅牢であるときは履歴ページを使用します。 このページから実行するレポートは、ユーザー・メッセージとともに、メッセージを解決したインテント、ウィン・マージンによるランキングおよび信頼度レベルを返します。 レポートは、次の確認に役立つように設計されています:
  • 完了した失敗(未解決のインテント)-スキルでユーザー・コメントをそのインテントに分類できない場合。

  • 誤分類される可能性があるユーザー・メッセージ-最上位のインテントと2番目のインテントを区別しているマージンが非常に狭い場合。

  • 低い信頼度レベル-意図したインテントがメッセージを解決したが、低い信頼度レベルで示されるように、かろうじて解決した場合。

履歴レポートの実行
  1. 期間の選択 事前設定された期間(今日、昨日、過去90日間など)の1つを使用するか、先にカスタムを選択してから日付ピッカーを使用して収集期間を設定することで独自の期間を追加できます。

    ヒント:

    このデータをこれ以上フィルタしない場合は、フィルタ基準(これは削除アイコンのイメージです。)を削除してから、検索をクリックします。
  2. レポートを使用して、メッセージを正しく解決したが、低い信頼度レベルまたは小さいマージンでかろうじて解決したインテントについて確認するには、まず、いずれかの演算子(すべてまたはAny)を選択してから、検索基準を適用します。
    add_criteria.pngの説明が続きます
    図add_criteria.pngの説明

  3. 検索をクリックします。 時間枠内の各メッセージについて、このレポートには、スキルがメッセージの解決に使用されたインテントとその2番目の実行者が示されます。 インテントのランキングを反映するために、レポートにはインテントの信頼度ランキングが示され、最上位のインテントには、第2位のインテントとの信頼度の差であるウィン・マージンが示されます。

    ヒント:

    通常、ウィン・マージンは約10%に設定します。

    すべて表示をクリックすると、より低いランクのインテントも表示できます(ある場合)。

    ページの一般セクションを展開すると、メッセージの解決に役立つエンティティと、(フィルタとして設定できる)チャネルを確認できます。
  4. たとえば、上位2つのインテント間のウィン・マージンを大きくすると、メッセージによってコーパスが改善されると考える場合は、インテントの信頼度レベルのラジオ・ボタンを選択して例の追加をクリックします。 コーパスに新しいutteranceを追加したため、スキルを把握する必要があることに注意してください。
失敗レポートの実行

解決率が信頼度しきい値未満であるために、スキルによって未解決として処理されたすべてのメッセージを特定するには、上位インテントの信頼度をスキルの信頼度しきい値プロパティに設定された値より小さい値に設定します。 このレポートから返されたメッセージを既存のインテントに追加したり、ユーザーがスキルで他のなんらかのアクションを実行することを指示している場合は、このメッセージを使用して新しいインテントを定義できます。

低信頼度レポートの実行

上位インテントによってメッセージが解決されたときに、低い信頼度を持つ場合のみ、インテントに属する発話が誤って分類される可能性があるため、その発話を修正する必要があることを示している場合があります。 低信頼度インテントのレポートを実行するには、スキルの信頼度しきい値プロパティに設定された値よりも大きい値に上位インテントの信頼度を設定します。

ウィン・マージンの不足のトラブルシューティング

軽量のウィン・マージンは、ユーザー・メッセージがボットのインテント間のどこに位置するかを示します。 これらのメッセージを確認して、適切なインテントで解決されていることを確認してください。 ウィン・マージンプロパティを設定 > 構成で構成して、ボットが迷惑または複合ユーザー・メッセージに応答するのを助けることもできます。