Entraînement et test des intentions
L'entraînement d'un modèle à l'aide de votre corpus permet au robot de discerner ce que les utilisateurs disent (ou dans certains cas, ce qu'ils essaient de dire).
Vous pouvez améliorer la qualité de la connaissance à l'aide de tests et d'entraînements répétés. Vous contrôlez l'entraînement grâce aux définitions d'intention seulement. Une compétence ne peut pas apprendre par elle-même au cours du clavardage avec l'utilisateur.
Tester les énoncés
Nous vous recommandons de mettre de côté 20 % du corpus pour tester les intentions et d'utiliser les 80 % restants pour les entraîner. Gardez ces deux jeux séparés afin que les énoncés de test, que vous intégrez dans les scénarios, restent "inconnus" pour votre compétence.
Appliquez le fractionnement 80/20 au jeu de données de chaque intention. Répartissez les énoncés de manière aléatoire avant le fractionnement pour permettre aux modèles d'entraînement de pondérer équitablement les termes et schémas des énoncés.
Testeur d'énoncé
Le testeur d'énoncé vous permet d'accéder à la cognition de votre compétence. En entrant des expressions qui ne font pas partie du corpus d'entraînement, vous pouvez déterminer si vos intentions sont bien conçues en examinant le classement de confiance d'intention et l'objet JSON retourné. Ce classement, qui est une évaluation par la compétence du meilleur candidat pour la résolution de l'entrée utilisateur, montre la qualité de la connaissance au moment présent.
Description de l'illustration énoncé-tester-quick-test.png
À l'aide du testeur d'énoncé, vous pouvez effectuer des tests rapides pour des tests uniques, ou vous pouvez inclure un énoncé comme scénario de test pour évaluer la résolution de l'intention dans différentes versions de modèles d'entraînement.
Scénarios de test
Chaque test comporte un énoncé et l'intention vers laquelle il est censé être résolu, ce qui est appelé correspondance d'étiquette. Un scénario de test peut également inclure des valeurs d'entité correspondantes et la langue attendue pour l'énoncé. Vous pouvez exécuter des scénarios de test lorsque vous développez une compétence et, plus tard, lorsque la compétence est en production, vous pouvez utiliser les scénarios de test pour les tests de régression. Dans ce dernier cas, vous pouvez exécuter des scénarios de test pour savoir si une nouvelle version du modèle d'entraînement a eu une incidence négative sur la résolution d'intention.
Comme les scénarios de test que vous créez avec le testeur de conversation, les scénarios de test d'énoncé font partie de la compétence et sont conservés avec chaque version. Si vous étendez une compétence, l'extension hérite des scénarios de test. Alors que les scénarios de test de conversation sont destinés à tester un scénario, les tests d'énoncé sont destinés à tester des fragments de conversation indépendamment, en veillant à ce que chaque énoncé soit résolu en une intention appropriée.
Gérer les scénarios de test
nluTestSuites
qui héberge les suites de tests de la compétence lorsque celle-ci est exportée.Créer des suites de tests
- Cliquez sur + Test Suite.
- Dans l'onglet Général, remplacez le nom de paramètre fictif (TestSuite0001, par exemple) par un nom plus significatif en ajoutant une valeur dans le champ Nom d'affichage.
- Au besoin, ajoutez une description expliquant la fonctionnalité couverte par la suite de tests.
- Alimentez la suite de tests avec des scénarios de test à l'aide de l'une des méthodes suivantes (ou d'une combinaison de ces méthodes) :
- Ajout manuel de scénarios de test (soit en créant un scénario de test, soit en enregistrant un énoncé en tant que scénario de test à partir du testeur d'énoncé).
- Importation de scénarios de test.
Note
Pour affecter un scénario de test à une suite de tests au moyen de l'importation, le champtestSuite
du fichier CSV peut être vide ou doit contenir un nom correspondant à la suite de tests sélectionnée dans la boîte de dialogue d'importation. - Modification d'un scénario de test pour réaffecter sa suite de tests.
- Pour exclure la suite de tests des exécutions de test lancées à l'aide des options All (Toutes) et Run All (Tout exécuter), désactivez Enable Test Suite (Activer la suite de tests).
- Si vous ne voulez pas que la suite de tests soit incluse dans l'exportation de compétence, désactivez Include in Skill Export (Inclure dans l'exportation de compétence). Lorsque vous désactivez cette option pour une suite de tests, elle ne sera pas incluse dans le dossier
nluTestSuites
qui contient les suites de tests de la compétence dans le fichier ZIP exporté.
Créer des scénarios de test d'énoncé
Vous pouvez ajouter des scénarios de test un par un en utilisant le testeur d'énoncé ou la boîte de dialogue New Test Case (Nouveau scénario de test) (accessible en cliquant sur + Test Case (+ scénario de test)), ou en masse en chargeant un fichier CSV.
Chaque cas de test doit appartenir à une suite de tests. Par conséquent, avant de créer un cas de test, vous devez d'abord créer une suite qui reflète une capacité de la compétence ou un aspect des tests d'intention, tels que les tests d'échec, les tests dans le domaine ou les tests hors du domaine.
Conseil :
Pour fournir une couverture adéquate dans vos tests, créez des énoncés de suite de tests qui sont non seulement variés sur le plan conceptuel, mais aussi grammaticalement, car les utilisateurs ne feront pas de demandes de manière uniforme. Vous pouvez ajouter ces dimensions en créant des séries de tests à partir du message d'utilisateur réel interrogé dans le rapport de réentraînement des données clés et également à partir d'entrées provenant de sources multiples collectées à partir de la fabrication de données.Ajouter des scénarios de test à partir du testeur d'énoncé
- Cliquez sur Test Utterances (Énoncés de test).
- Si la compétence est multilingue, sélectionnez la langue principale.
- Entrez l'énoncé, puis cliquez sur Test.
- Cliquez sur Save as Test Case (Enregistrer en tant que scénario de test), puis choisissez une suite de tests.
Créer un scénario de test
- Cliquez sur Go to Test Cases (Aller aux scénarios de test) dans le testeur d'énoncé.
- Cliquez sur + Test Case (+ un scénario de test).
- Remplissez la boîte de dialogue New Test Case (Nouveau scénario de test) :
- Si nécessaire, désactivez le scénario de test.
- Entrez l'énoncé de test.
- Sélectionnez la suite de tests.
- Sélectionnez l'ntention attendue. Si vous créez un scénario de test pour un test d'échec, sélectionnez unresolvedIntent.
- Pour les compétences multilingues, sélectionnez la balise de langue et la langue attendue.
- Cliquez sur Add to Suite (Ajouter à la suite). Dans la page Test Cases (Scénarios de test), vous pouvez supprimer un scénario de test ou modifier un scénario de test, ce qui inclut la réaffectation du scénario à une autre suite de tests.
- Pour tester les valeurs d'entité :
- Activez Test Entities (Entités de test). Puis cliquez sur Continue (Continuer).
- Mettez en surbrillance le mot (ou les mots), puis appliquez une étiquette d'entité en sélectionnant une entité dans la liste. Lorsque vous avez terminé, cliquez sur Ajouter à la suite.
Note
Sélectionnez toujours des mots ou des expressions dans l'énoncé du scénario de test après avoir activé Entités de test. Le scénario de test échouera si vous avez activé Test Entities (Entités de test) mais que vous n'avez mis en surbrillance aucun mot.
Importer des scénarios de test pour des suites de tests de niveau compétence
testSuite
– Nom de la suite de tests à laquelle appartient le scénario de test. Le champtestSuite
de chaque rangée du fichier CSV peut avoir un nom de suite de tests différent ou être vide.- Les scénarios de test avec des champs
testSuite
vides sont ajoutés à une suite de tests que vous sélectionnez lors de l'importation du fichier CSV. Si vous ne sélectionnez pas de suite de tests, elle sera affectée à la suite de tests par défaut. - Les scénarios de test avec des champs
testSuite
alimentés sont affectés à la suite de tests que vous sélectionnez lors de l'importation du fichier CSV uniquement lorsque le nom de la suite de tests sélectionnée correspond au nom indiqué dans le champtestSuite
. - Si une suite de tests portant le nom de celui indiqué dans le champ
testSuite
n'existe pas déjà, elle sera créée après l'importation du fichier CSV.
- Les scénarios de test avec des champs
utterance
– Exemple d'énoncé (obligatoire). Est mappé àquery
dans les versions d'Oracle Digital Assistant antérieures à 21.04.expectedIntent
– L'intention correspondante (obligatoire). Ce champ est mappé àTopIntent
dans les versions d'Oracle Digital Assistant pré-21.04.Conseil :
Importation des versions antérieures à la version 21.04 du fichier CSV vous indique comment reformater les fichiers CSV antérieures à la version 21.04 afin que vous puissiez les utiliser pour les tests en masse.enabled
–TRUE
inclut le scénario dans l'exécution du test.FALSE
l'exclut.languageTag
– Balise de langue (en
, par exemple). En l'absence de valeur, la langue détectée à partir des paramètres de langue de la compétence est utilisée par défaut.expectedLanguageTag
(facultatif) – Pour les compétences multilingues, il s'agit de la balise de langue de la langue à utiliser par le modèle lors de la résolution de l'énoncé de test en intention. Pour que le scénario de test réussisse, cette balise doit correspondre à la langue détectée.expectedEntities
– Entités correspondantes dans l'énoncé du scénario de test, représentées sous la forme d'un tableau d'objetsentityName
. ChaqueentityName
identifie la position de la valeur d'entité dans l'énoncé à l'aide des propriétésbeginOffset
etendOffset
. Ce décalage est déterminé par caractère, et non par mot, et est calculé à partir du premier caractère de l'énoncé (0-1). Par exemple, l'objetentityName
pour la valeur d'entité PizzaSize de petite taille dans Je veux commander une petite pizza est :[{"entityName":"PizzaSize","beginOffset":18,"endOffset":23,"originalString":"small"}, …]
- Cliquez sur Plus, puis sélectionnez Importer.
- Naviguez jusqu'à, puis sélectionnez le fichier CSV.
- Sélectionnez la suite de tests. Le scénario de test ne peut être affecté à la suite de tests sélectionnée que si le champ
testSuite
est vide ou correspond au nom de la suite de tests sélectionnée. - Cliquez sur Charger.
Importation des versions antérieures à la version 21.04 du fichier CSV
query
et TopIntent
, sont ajoutés uniquement à la suite de tests par défaut. Vous pouvez réaffecter ces scénarios de test à d'autres séries de tests individuellement en les modifiant après avoir importé le fichier CSV, ou vous pouvez mettre à jour le fichier CSV au format courant, puis le modifier avant de l'importer comme suit :
- Cliquez sur More (Plus) > Import (Importer).
- Une fois l'importation terminée, sélectionnez Default Test Suite (Suite de tests par défaut), puis cliquez sur More (Plus) > Export Selected Suite (Exporter la suite sélectionnée). Le fichier exporté sera converti au format courant.
- Extrayez le fichier ZIP et modifiez le fichier CSV. Lorsque vous avez terminé, importez de nouveau le fichier CSV ( Plus > Importer). Vous devrez peut-être supprimer les scénarios en double de la suite de tests par défaut.
Note
Si vous chargez le même CSV plusieurs fois avec des modifications mineures, toutes les données nouvelles ou mises à jour seront fusionnées avec les anciennes : de nouvelles mises à jour sont appliquées et de nouvelles rangées sont insérées. Cependant, vous ne pouvez pas supprimer d'énoncés en chargeant un nouveau fichier CSV. Si vous devez supprimer des énoncés, vous devez les supprimer manuellement à partir de l'interface utilisateur.
Créer des exécutions de test
Les tests sont une compilation de cas de test ou de suites de tests visant à évaluer certains aspects de la cognition de la compétence. Le contenu (et le volume) d'une exécution de test dépend de la capacité que vous souhaitez tester. Par conséquent, une exécution de test peut inclure un sous-ensemble de scénarios de test provenant d'une suite de tests, d'une suite de tests complète ou de plusieurs suites de tests.
Les scénarios de test inclus dans une exécution de test sont évalués par rapport au seuil de confiance défini pour la compétence. Pour qu'un scénario de test réussisse dans l'exécution globale du test, il doit résoudre l'intention attendue au seuil de confiance ou au-delà. Si spécifié, le scénario de test doit également satisfaire à la valeur de l'entité et aux critères de correspondance de langue. En consultant les résultats de l'exécution du test, vous pouvez savoir si les modifications apportées à la plate-forme ou à la compétence elle-même ont compromis l'exactitude de la résolution d'intention.
En plus de tester le modèle, vous pouvez également utiliser les résultats de l'exécution du test pour évaluer la fiabilité de vos tests. Par exemple, les résultats montrant que la quasi-totalité des scénarios de test ont réussi peuvent, en surface, indiquer un fonctionnement optimal du modèle. Cependant, un examen des scénarios de test réussis peut révéler que les scénarios de test ne reflètent pas l'entraînement actuel, car leurs énoncés sont trop simples ou ont un chevauchement important en termes de concepts et de verbiage pour lesquels ils effectuent des tests. Par contre, un nombre élevé d'échecs de tests peut indiquer des lacunes dans les données d'entraînement, mais un examen de ces scénarios de test peut révéler que leurs énoncés sont associés aux mauvaises intentions attendues.
- Cliquez sur Run All (Tout exécuter) pour créer une exécution de test pour tous les scénarios d'une suite de tests sélectionnée. (Ou si vous souhaitez exécuter toutes les suites de test, sélectionnez All (Tout), puis cliquez sur Run All (Tout exécuter)).
- Pour créer une exécution de test pour des scénarios sélectionnés dans une suite (ou une exécution de test pour un sous-ensemble de tous les scénarios si vous avez sélectionné All (Tout)), filtrez les scénarios en ajoutant une chaîne correspondant au texte de l'énoncé et à une intention attendue. Sélectionnez les énoncés, puis cliquez sur Run (Exécuter).
- Pour exclure une suite de tests de l'exécution du test, sélectionnez d'abord la suite de tests, ouvrez l'onglet Général, puis désactivez Enable Test Suite (Activer la suite de tests).
- Pour les compétences multilingues, vous pouvez également filtrer par Language Tag et par les options Expected Language (accessibles au moyen d'Optional Attributes).
- Pour créer une exécution de test pour des scénarios sélectionnés dans une suite (ou une exécution de test pour un sous-ensemble de tous les scénarios si vous avez sélectionné All (Tout)), filtrez les scénarios en ajoutant une chaîne correspondant au texte de l'énoncé et à une intention attendue. Sélectionnez les énoncés, puis cliquez sur Run (Exécuter).
- Entrez un nom d'exécution de test qui reflète l'objet du test. Cette étape est facultative.
- Cliquez sur Commencer
- Cliquez sur Test Results (Résultats de test), puis sélectionnez l'exécution du test.
Conseil :
Les exécutions de test qui contiennent un grand nombre de scénarios de test peuvent prendre plusieurs minutes. Pour ces exécutions de test volumineuses, vous devrez peut-être cliquer périodiquement sur Actualiser jusqu'à la fin du test. Un pourcentage remplace le statut En cours pour la mesure Précision et le rapport Intents (Intentions) s'affiche une fois que tous les scénarios de test ont été évalués.
- Sert à consulter les rapports d'exécution des tests. Par exemple, vérifiez d'abord les mesures de haut niveau pour l'exécution du test fournies par le rapport d'aperçu. Ensuite, validez les résultats de test par rapport aux scénarios de test réels en filtrant le rapport Test Cases (Cas de test), qui répertorie tous les scénarios de test inclus dans l'exécution du test, pour les scénarios de test réussis et en échec. Vous pouvez ensuite examiner les résultats de chaque scénario de test. Vous pouvez également comparer la note d'exactitude du rapport Aperçu à la note d'exactitude du rapport Intents (Intentions), qui mesure la capacité du modèle à prédire les intentions correctes. Pour vérifier les scénarios de test répertoriés dans ce rapport, ouvrez le rapport Cas de test et filtrez-les par intentions.
Rapport sommaire d'exécution de test
Le rapport sommaire vous fournit une évaluation globale de la réussite du modèle pour gérer le type d'entrée utilisateur couvert par l'exécution du test. Pour les séries de tests incluses dans l'exécution du test, il indique le nombre total de scénarios de test qui ont été utilisés pour évaluer le modèle et, à partir de ce nombre, le nombre de scénarios de test (fiables et non fiables) qui ont échoué ainsi que le nombre de scénarios de test fiables et peu fiables qui ont réussi. La précision globale du modèle – sa capacité à prédire les intentions attendues au niveau de confiance ou au-dessus de la compétence, à reconnaître les valeurs d'entité et à résoudre les énoncés dans la langue de la compétence – est mesurée par le taux de réussite des tests réussis lors de l'exécution du test.
Description de l'illustration test-run-test-results-summary.png
Mesures du rapport sommaire
- Exactitude – Exactitude du modèle en termes de taux de réussite des scénarios de test réussis (nombre de scénarios de test réussis par rapport au nombre total de scénarios de test inclus dans l'exécution du test).
Note
Les scénarios de test désactivés ne sont pas pris en compte dans la note d'exactitude. Les tests n'ont pas non plus échoué en raison d'erreurs. Tout test ayant échoué est ajouté au nombre d'échecs.Une note de faible précision peut indiquer que l'exécution du test évalue le modèle sur des concepts et une langue qui ne sont pas pris en charge adéquatement par les données d'entraînement. Pour augmenter la note d'exactitude, entraînez de nouveau le modèle avec des énoncés qui reflètent les scénarios de test lors de l'exécution du test.
Cette mesure d'exactitude s'applique à toute l'exécution du test et fournit une note distincte de la mesure d'exactitude dans le rapport Intents (Intentions). Cette mesure correspond au pourcentage de scénarios de test pour lesquels le modèle a satisfait à tous les critères de scénario de test. La note d'exactitude du rapport Intents (Intentions) n'est pas un test de bout en bout. Il s'agit du pourcentage de cas de test où le modèle n'a eu qu'à prédire l'intention attendue à ou au-dessus du seuil de confiance de la compétence. Les autres critères de scénario de test (tels que la valeur d'entité ou la langue de compétence) ne sont pas pris en compte. Compte tenu des critères différents de ce qu'un scénario de test de réussite signifie pour ces deux rapports, leurs notes de précision respectives peuvent ne pas toujours être en phase. La note d'exactitude de la correspondance d'intention peut être supérieure à la note globale d'exécution du test lorsque les données de test ne sont pas alignées sur les données d'entraînement. Le réentraînement du modèle à l'aide d'énoncés prenant en charge les scénarios de test lui permettra de prédire les intentions attendues avec une plus grande confiance, ce qui augmentera la note d'exactitude pour l'exécution du test.
Note
La mesure Exactitude n'est pas disponible tant que l'exécution du test n'est pas terminée et n'est pas disponible pour les exécutions de test terminées lorsque la compétence a été exécutée sur des versions antérieures à la version 22.12 de la plate-forme Oracle Digital Assistant. - Test Cases (Cas de test) – Nombre total de cas de test (fiables et non fiables) inclus dans l'exécution du test. Les scénarios de test ignorés sont inclus dans ce décompte, mais ils ne sont pas pris en compte lors du calcul de la mesure Précision.
- Réussi – Nombre de scénarios de test (fiables et peu fiables) qui ont réussi en se résolvant en intention au seuil de confiance et en mettant en correspondance les valeurs d'entité ou la langue sélectionnées.
- Failed (Échec) – Nombre de scénarios de test (bot fiable et peu fiable) qui n'ont pas réussi à se résoudre à l'intention attendue au seuil de confiance et qui n'ont pas réussi à correspondre aux valeurs d'entité ou à la langue sélectionnées.
To review the actual test cases behind the Passed and Failed metrics in this report, open the Test Cases report and then apply its Passed or Failed filters.
Description of the illustration test-runs-intent-report.png
Répartition de la suite de tests
Le tableau Test Suite Breakdown répertorie les séries de tests incluses dans l'exécution du test et leurs statistiques individuelles. Vous pouvez vérifier les scénarios de test réels appartenant à une suite de tests en cliquant sur le lien dans la colonne Test Suite.
Description de l'illustration test-suite-breakdown.png
Rapport sur les intentions
Les mesures de ce rapport assurent le suivi des correspondances d'étiquette du modèle tout au long des scénarios de test de l'exécution du test. C'est là que le modèle prédit correctement l'intention attendue pour l'énoncé du scénario de test. Dans le contexte de ce rapport, l'exactitude, la réussite et l'échec sont mesurés en termes de scénarios de test où le modèle prédisait l'intention attendue correcte au seuil de confiance ou au-delà. D'autres critères pris en compte dans le rapport sommaire, tels que les correspondances de valeur d'entité ou la langue de compétence, ne sont pas pris en compte. Par conséquent, ce rapport fournit une vue différente de l'exactitude du modèle, qui vous aide à vérifier si l'entraînement en cours permet au modèle de prédire systématiquement les intentions correctes.
Ce rapport n'est pas disponible pour les exécutions de test terminées lorsque la compétence a été exécutée sur une version antérieure à la version 22.12 de la plate-forme Oracle Digital Assistant.
Mesures du rapport sur les intentions
- Cas de test – Nombre de cas de test inclus dans cette exécution de test. Ce total comprend des cas de test fiables et peu fiables. Les scénarios de test ignorés ne sont pas inclus dans ce décompte.
Conseil :
Les liens de scénario de test non fiables pour les mesures Cas de test, Réussite et Échec ouvrent le rapport Cas de test filtré par cas de test non fiables. Cette navigation n'est pas disponible lorsque vous filtrez le rapport par suite de tests. - Exactitude – Exactitude du modèle à mettre en correspondance l'intention attendue à ou au-dessus du seuil de confiance de la compétence dans les scénarios de test lors de cette exécution de test. La sous-mesure Label Match (Correspondance d'étiquette) représente le pourcentage de scénarios de test dans l'exécution du test où le modèle a correctement prédit l'intention attendue, quelle que soit la note de confiance. Étant donné que la correspondance d'étiquettes est un facteur d'échec des scénarios de test et de réussite des scénarios de test, sa note peut être supérieure à la note d'exactitude.
Vous pouvez comparer cette mesure d'exactitude à la mesure d'exactitude à partir du rapport sommaire. Lorsque la note d'exactitude dans le rapport Sommaire est faible, vous pouvez utiliser ce rapport pour déterminer rapidement si les défaillances du modèle peuvent être attribuées à son incapacité à prédire l'intention attendue. Toutefois, lorsque la note d'exactitude de ce rapport est élevée, vous pouvez exclure la mise en correspondance d'étiquettes comme racine du problème et, plutôt que d'avoir à réviser fortement les données d'entraînement pour augmenter la note d'exactitude de l'exécution du test, vous pouvez plutôt vous concentrer sur l'ajout d'énoncés qui reflètent les concepts et la langue dans les énoncés du scénario de test.
- Réussi – Nombre de cas de test (fiables et peu fiables) où le modèle prédisait l'intention attendue au seuil de confiance de la compétence.
- Failed (Échec) – Nombre de cas de test (fiables et peu fiables) où le modèle prédisait l'intention attendue en dessous du seuil de confiance de la compétence.
- Confidence Pass (Réussite de confiance) – Moyenne des notes de confiance pour tous les scénarios de test réussis lors de cette exécution de test.
- Échec de confiance - Moyenne des notes de confiance pour tous les scénarios de test ayant échoué lors de cette exécution de test.
Lorsque vous filtrez le rapport sur les intentions par suite de tests, l'accès au rapport sur les scénarios de test à partir des liens de scénario de test non fiables dans les vignettes Cas de test, Réussite et Échec n'est pas disponible. Ces liens redeviennent actifs lorsque vous supprimez toutes les entrées du champ Filtrer par suite de tests.
Filtrer par suite de tests

Le rapport ajuste les mesures pour chaque suite de tests que vous ajoutez (ou supprimez ensuite). Il tabule les résultats de la mise en correspondance d'intention en fonction du nombre de scénarios de test activés appartenant à la suite de tests sélectionnée.
Vous ne pouvez pas filtrer par séries de tests exécutées sur une plate-forme avant la version 23.06. Pour inclure ces suites de tests, vous devez les réexécuter après la mise à niveau vers la version 23.06 ou une version supérieure.
Le filtrage par suite de tests désactive la navigation vers le rapport Cas de test à partir des liens de cas de test non fiables dans les vignettes Cas de test, Réussite et Échec. Les liens de la colonne Total de la répartition des intentions sont également désactivés. Tous ces liens redeviennent actifs après avoir supprimé toutes les entrées du champ Filtrer par suite de tests.
Répartition des intentions
Le champ Filtrer par intention modifie la vue de la table Répartition des intentions, mais ne modifie pas les mesures globales du rapport. Ces mesures reflètent les entrées (ou le manque d'entrées) dans le champ Filter by Test Suite (Filtrer par suite de tests).
- Intent (Intention) – Nom de l'intention attendue.
- Total - Nombre de scénarios de test, représentés sous forme de lien, pour l'intention attendue. Vous pouvez accéder au rapport Test Cases en cliquant sur ce lien.
Note
Vous ne pouvez pas naviguer jusqu'au rapport Cas de test lorsque vous avez appliqué un filtre de suite de tests à ce rapport. Ce lien redevient actif lorsque vous supprimez toutes les entrées du champ Filtrer par suite de tests. - Exactitude – Pourcentage de scénarios de test qui ont entraîné des correspondances d'étiquette pour l'intention attendue à ou au-dessus du seuil de confiance de la compétence.
- Réussi – Nombre de cas de test (y compris les cas de test peu fiables) où le modèle prédisait l'intention attendue au seuil de confiance de la compétence ou au-delà.
- Réussi - Non fiable - Nombre de cas de test où le modèle a prédit l'intention attendue à 5 % ou moins au-dessus du seuil de confiance de la compétence.
- Failed (Échec) – Nombre de scénarios de test dans l'exécution du test qui ont échoué, car le modèle a prédit l'intention attendue en dessous du seuil de confiance de la compétence.
- Échec - Non fiable - Nombre de cas de test ayant échoué en raison de la confiance du modèle dans la prévision de l'intention attendue est tombée de 5 % en dessous du seuil de confiance de la compétence. Ces cas de test peuvent prendre en compte
- Label Match (Correspondance d'étiquette) – Nombre de cas de test pour lesquels le modèle a prédit avec succès l'intention attendue, quel que soit le niveau de confiance. En raison de l'échec des scénarios de test, les scores Label Match et Accuracy peuvent ne pas toujours être en phase les uns avec les autres. Par exemple, quatre scénarios de test réussis sur cinq donnent un score d'exactitude de 80 % pour l'intention. Toutefois, si le modèle prédisait correctement l'intention pour le scénario de test défaillant, la correspondance d'étiquettes dépasserait l'exactitude de 20 %.
- Confidence Pass (Réussite de confiance) - Moyenne des notes de confiance pour tous les scénarios de test qui correspondent à l'intention attendue.
- Échec de confiance - Moyenne des notes de confiance pour tous les scénarios de test qui ne correspondent pas à l'intention attendue.
Conseil :
Pour vérifier les scénarios de test réels, ouvrez le rapport Test Cases (Cas de test) et filtrez-le par intention.
Rapport sur les cas de test
- Vous pouvez filtrer les résultats en cliquant sur All, Passed (vert) ou Failed (rouge). Les scénarios de test comptabilisés comme ignorés comprennent à la fois les scénarios désactivés et ceux où l'intention attendue a été désactivée.
Vous pouvez filtrer les résultats en cas de test peu fiables en cliquant sur Afficher les cas peu fiables dans le message d'avertissement ou en sélectionnant le filtre Seuls les cas peu fiables. - Si nécessaire, filtrez les résultats pour une intention ou une entité spécifique ou par des scénarios de test fiables ou peu fiables.
- Pour les scénarios de test non fiables et en échec, cliquez sur View Similar Utterances (Voir les énoncés similaires) (situé dans la page Test Info) pour savoir si l'énoncé du scénario de test présente une similarité avec les énoncés du jeu d'entraînement.
- Vérifiez les résultats suivants :
- Informations sur le test - Présente l'aperçu du scénario de test, notamment le seuil de confiance cible, l'intention attendue et les valeurs d'entité mises en correspondance.
- Résultat du test – Classement de l'intention par niveau de confiance. S'il y a lieu, le rapport identifie également les entités contenues dans l'énoncé par nom et par valeur. Vous pouvez également consulter l'objet JSON contenant les résultats complets.
- Analyse des échecs - Explique pourquoi le scénario de test a échoué. Par exemple, l'intention réelle n'est pas l'intention attendue, la valeur de l'entité étiquetée dans le scénario de test ne correspond pas à l'entité résolue ou la langue attendue n'est pas la même que la langue détectée.
Cas de test peu fiables
Certains cas de test ne peuvent pas fournir de résultats cohérents, car ils sont résolus dans les 5 % ou moins du seuil de confiance. Cette marge étroite rend ces cas de test peu fiables. Lorsque le seuil de confiance de la compétence est réglé à 0,7, par exemple, un scénario de test qui passe à 74 % peut échouer une fois que vous n'avez apporté que des modifications mineures à vos données d'entraînement ou que la compétence a été mise à niveau vers une nouvelle version du modèle. La fragilité de ces scénarios de test peut indiquer que les énoncés qu'ils représentent dans les données d'entraînement peuvent être trop peu nombreux et que vous devrez peut-être équilibrer les données d'entraînement de l'intention avec des énoncés similaires.
- Exécutez la suite de tests. Cliquez ensuite sur Résultats de test et sélectionnez l'exécution du test. Les scénarios de test peu fiables sont triés au début des résultats de l'exécution du test et sont marqués avec des avertissements
.
- Pour isoler les cas de test peu fiables :
- Cliquez sur Afficher les cas peu fiables dans le message.
- Sélectionnez Cas non fiables seulement dans le menu Filtrer par cas.
- Cliquez sur Afficher les cas peu fiables dans le message.
- Pour rechercher la proximité de l'intention de niveau supérieur du scénario de test avec le seuil de confiance, ouvrez la fenêtre Test Result. Pour comparer la note de confiance de premier rang au seuil de confiance, cliquez sur
.
- Si vous devez compléter les données d'entraînement pour l'intention de niveau supérieur, cliquez sur Aller à l'intention supérieure dans le message d'avertissement.
- Pour déterminer la quantité d'énoncés représentés par le scénario de test dans les données d'entraînement, cliquez sur View Similar Utterances (Voir les énoncés similaires).
Vous pouvez également vérifier si l'un des énoncés les plus similaires à l'énoncé du scénario de test est également une anomalie dans le jeu d'entraînement en exécutant le rapport sur les anomalies.
Exécutions de test exportées
Les exécutions de test ne sont pas conservées avec la compétence, mais vous pouvez les télécharger sur votre système pour analyse en cliquant sur Export Test Run (Exporter l'exécution de test). Si les intentions ne résolvent plus l'entrée utilisateur comme prévu, ou si les modifications apportées à la plate-forme ont eu une incidence négative sur la résolution de l'intention, vous pouvez recueillir les détails d'une demande de service à l'aide des journaux des exécutions de test exportées.
Test d'échec
Le test d'échec (ou négatif) vous permet de tester en masse des énoncés qui ne doivent jamais être résolus, soit parce qu'ils génèrent unresolvedIntent, soit parce qu'ils ne sont résolus qu'en d'autres intentions situées sous le seuil de confiance pour toutes les intentions.
- Indiquez unresolvedIntent comme intention attendue pour tous les scénarios de test dont la résolution vous semble impossible. Idéalement, ces expressions "fausses" ne seront pas résolues.
- Si nécessaire, ajustez le seuil de confiance lors de la création d'une exécution de test pour confirmer que les expressions fausses (celles indiquant
unresolvedIntent
comme intention attendue) ne peuvent se résoudre qu'au-dessous de la valeur définie ici. Par exemple, l'augmentation du seuil pourrait entraîner l'échec de la résolution en intention (y compris unresolvedIntent) des expressions fausses au niveau de confiance, ce qui signifie qu'elles réussissent parce qu'elles sont considérées comme non résolues. - Consultez les résultats du test, en vérifiant si les scénarios qui ont réussi le test sont appariés à unresolvedIntent au niveau de seuil, ou s'ils n'ont pu être appariés à aucune intention (unresolvedIntent ou autre) au niveau de seuil.
Énoncés similaires
Vous pouvez déterminer la similarité de votre expression de test avec les énoncés du corpus d'entraînement en cliquant sur View Similar Utterances (Voir les énoncés similaires). Cet outil vous fournit une perspective supplémentaire sur les données d'entraînement de la compétence en vous montrant à quel point ses énoncés sont similaires à l'expression de test et, par extension, à quel point les énoncés sont similaires les uns aux autres entre les intentions. À l'aide de cet outil, vous pouvez déterminer si la similarité de l'expression de test avec les énoncés appartenant à d'autres intentions est la raison pour laquelle l'expression de test ne se résout pas comme prévu. Il peut même indiquer où les données d'entraînement appartiennent à la mauvaise intention, car si elles sont similaires à l'expression de test.
Description de l'illustration similar-utterance-report-all-intents.png
La liste générée par cet outil classe 20 énoncés (ainsi que leurs intentions associées) les plus proches de la phrase de test. Idéalement, l'énoncé de premier rang de cette liste - celui qui ressemble le plus à la phrase de test - appartient à l'intention ciblée pour la phrase de test. Si l'énoncé le plus proche appartenant à l'intention attendue est plus bas, une révision de la liste peut fournir quelques conseils sur la raison. Par exemple, si vous testez un énoncé d'intention Transactions, Combien d'argent ai-je transféré hier?, vous prévoyez que l'énoncé de niveau supérieur appartient également à une intention Transactions. Toutefois, si cet énoncé de test se résout à la mauvaise intention ou se résout en dessous du niveau de confiance, la liste peut révéler qu'il a plus en commun avec des énoncés hautement classés avec une formulation similaire appartenant à d'autres intentions. L'énoncé Combien d'argent ai-je dans tous mes comptes? de l'intention Soldes, par exemple, peut être plus proche de l'énoncé de test que l'énoncé Combien ai-je déposé en avril? de l'intention Transactions.
Vous ne pouvez utiliser cet outil que pour les compétences entraînées sur Trainer Tm (il n'est pas disponible pour les compétences entraînées avec Ht).
- Filtrer par intention - Retourne 20 énoncés les plus proches de l'énoncé de test qui appartiennent à l'intention sélectionnée (ou intentions).
- Filtrer par énoncé - Retourne 20 des énoncés les plus proches de l'énoncé de test qui contiennent un mot ou une expression.
- Langue – Pour les compétences multilingues, vous pouvez interroger et filtrer le rapport en sélectionnant une langue.
L'application de ces filtres ne modifie pas le classement, mais seulement la vue. Un énoncé classé troisième, par exemple, sera noté comme tel quel quel que soit le filtre. Le classement et le contenu du rapport ne changent que lorsque vous avez mis à jour le corpus et réentraîné la compétence avec Trainer Tm.