デジタル・アシスタント・テスト

デジタル・アシスタントを本番にデプロイする前(およびその後)にテストするためのベスト・プラクティスのセットを次に示します。

計画、設計、開発のすべてのステップを完了したら完了すると思ったら、そうではありません。すべてのスキルを単独でテストしましたが、デジタル・アシスタントのコンテキストで再テストする必要があります。

ノート

スキルが完全にテストおよび最適化されていない場合は、デジタル・アシスタントを真剣にテストしても意味がありません。デジタル・アシスタントのバッチ・テストの作成に投資する前に、各スキルが可能なかぎり最適な形になっていることを確認してください。デジタル・アシスタントで他のスキルを使用してテストしても、単独でテストしてもパフォーマンスが良くないスキルはパフォーマンスがよくありません。

発話テスト

要するに、デジタル・アシスタントにスキルを追加してデジタル・アシスタントをトレーニングすると、スキルのインテントのトレーニングに使用されたすべての発話がデジタル・アシスタントによって使用され、スキルの分類子がトレーニングされます。

実行時にデジタル・アシスタントのルーティング・エンジンが、特定のスキルが受信ユーザー・メッセージの一致を表すと確信している場合は、スキルに「候補スキル」のフラグを付けます。構成された信頼度範囲内以上の他のスキルが解決されない場合は、識別された候補者スキルとその一致するインテントに移動し、会話を開始します。

そのため、発話はデジタル・アシスタントでリクエストをルーティングする際に重要になります。そのため、スキルのインテントに正常に解決された発話がまだ解決されるかどうかをテストする必要があります。スキルを単独でテストする方法と同様に、スキルに対して肯定的なテスト、否定的なテストおよび近接テストを実行します。

ポジティブ・テストとネガティブ・テストでは、スキルのインテントのテストに使用した発話が使用されます。テストが正の場合、信頼度しきい値を上回る結果が得られますが、必ずしも単独でテストする場合と同じ信頼度になるとはかぎりません。

近隣のテストでは、デジタル・アシスタントの他のスキルからのテスト発話を使用し、テストするスキルに解決するように構成します。テストを実行すると、発話はテスト対象のスキルを対象としていないため、すべてのテストが失敗するのが理想的です。

Oracle Digital Assistantは、デジタル・アシスタント・レベルでの発話のバッチ・テストをサポートしています。これを使用して、ドキュメントのこの部分で説明するテストを実装できます。

会話テスト

発話テストの結果に問題がなければ、すぐに会話テストを開始できます。このため、特定のスキル・ルーティングにつながった意思決定についても説明する会話テスターがあります。

スキルと同様に、会話テスターを使用して、後でリプレイするためのテスト会話を記録できます。会話をリプレイすることで、スキルを変更しても同じ会話が発生し、異なる動作をしないようにできます。

デジタル・アシスタントのユーザー・テスト

デジタル・アシスタントにサインオフする前に、実際のユーザーにテストしてもらいます。彼らに最低限の指示を与え、彼らがどのようにするかを見なさい。インサイトを使用して、トラフィックの監視、一致するインテントが見つからない発話の識別、一致が間違っている発話の識別、および会話の成功率と失敗率の学習を行うことができます。

次に、ユーザーに注意を払ってもらいたい内容をガイドするために使用できる質問をいくつか示します。

  • ユーザーが、人間ではなくデジタル・アシスタントと対話していることは明らかですか。
  • デジタル・アシスタントは、ユーザーに何ができるか、何ができないかを説明していますか?
  • 経験豊富なユーザーは、最初のメッセージに詳細情報を提供して会話を短くすることができますか?
  • ユーザーは、最初に一連のキーワードを学習したり、会話を開始したりすることなく、デジタル・アシスタントを操作できますか。
  • デジタル・アシスタントは、ユーザーが立ち往生したときに人間のエージェントに連絡するように指示することでエラーを処理しますか。
  • プロンプトが表示されたときに有効な入力を提供できないユーザーに対して、デジタル・アシスタントはヘルプまたは取消オプションを提供しますか。
  • デジタル・アシスタントでは、プロンプトが表示されたら、一般的なユーザー入力オプションのクイック選択が提供されますか(カレンダ入力の作成時に今日または明日の日付を設定するボタンなど)。
  • ボット・ペルソナ(トーンと音声)は、デジタル・アシスタントの会話全体で一貫して使用されますか。
  • デジタル・アシスタントは本当に会話的ですか。それとも、メッセージドリブンではなく、ユーザーにボタンを押すか、リストから選択することを義務付ける領域がありますか。
  • この言語はデジタル・アシスタント・プレーンによって使用されていますか。エキスパートの言語と略語を使用する場合、意図したオーディエンスが理解しますか?
  • ボット・メッセージは簡潔で意味のあるものですか。
  • ボットのメッセージとプロンプトには、ユーザーが会話の現在のステータスを理解するためのコンテキストが含まれていますか。
  • デジタル・アシスタントは、情報の一部を再プロンプトするときに代替プロンプトを使用しますか。
  • デジタル・アシスタントは、指定された入力が明確でない場合(1つのみ指定する必要がある場合、ピザの順序で入力された2つのサイズなど)に、ユーザー入力のあいまいさを解消するために積極的に役立ちますか。

デジタル・アシスタント・テストのチェックリスト

  • ☑ テスト・スイートを使用して、デジタル・アシスタント・レベルでNLUの理解をテストします。
  • ☑異なるコンテキストのインテント解決をテストします(スキルを現在のものとみなすように設定します)。
  • ☑ デジタル・アシスタントの構成設定を確認して、組込みメッセージのメッセージ・テンプレートをニーズおよびボット・ペルソナに適応させます。
  • ☑ デジタル・アシスタントの信頼度設定を使用して、理解を調整します。
  • ☑ 会話テスターを使用して、デジタル・アシスタントがユーザー・メッセージに対する正しい回答を提供していることを確認します。 
  • ☑デジタル・アシスタントのパフォーマンスと動作を実行時に監視します。
  • ☑ユーザーが会話を介してフィードバックを提供するためのフィードバック・ループを実装します。