Entraînement et test des intentions

L'entraînement d'un modèle à l'aide de votre corpus permet au robot de discerner ce que les utilisateurs disent (ou dans certains cas, ce qu'ils essaient de dire).

Vous pouvez améliorer la qualité de la connaissance à l'aide de tests et d'entraînements répétés. Vous contrôlez l'entraînement grâce aux définitions d'intention seulement. Une compétence ne peut pas apprendre par elle-même au cours du clavardage avec l'utilisateur.

Tester les énoncés

Nous vous recommandons de mettre de côté 20 % du corpus pour tester les intentions et d'utiliser les 80 % restants pour les entraîner. Gardez ces deux jeux séparés afin que les énoncés de test, que vous intégrez dans les scénarios, restent "inconnus" pour votre compétence.

Appliquez le fractionnement 80/20 au jeu de données de chaque intention. Répartissez les énoncés de manière aléatoire avant le fractionnement pour permettre aux modèles d'entraînement de pondérer équitablement les termes et schémas des énoncés.

Testeur d'énoncé

Le testeur d'énoncé vous permet d'accéder à la cognition de votre compétence. En entrant des expressions qui ne font pas partie du corpus d'entraînement, vous pouvez déterminer si vos intentions sont bien conçues en examinant le classement de confiance d'intention et l'objet JSON retourné. Ce classement, qui est une évaluation par la compétence du meilleur candidat pour la résolution de l'entrée utilisateur, montre la qualité de la connaissance au moment présent.
Une description de énoncé-tester-quick-test.png suit
Description de l'illustration énoncé-tester-quick-test.png

À l'aide du testeur d'énoncé, vous pouvez effectuer des tests rapides pour des tests uniques, ou vous pouvez inclure un énoncé comme scénario de test pour évaluer la résolution de l'intention dans différentes versions de modèles d'entraînement.

Tests rapides

Pour déterminer si vos intentions fonctionnent comme il faut :

Cliquez sur Test Utterances (Utterances de test) (sur le côté gauche).
Si votre compétence prend en charge plusieurs langues de manière native, sélectionnez la langue de test. Le choix de cette option garantit que l'énoncé sera ajouté à la version linguistique correspondante du corpus. La langue principale de la compétence est sélectionnée par défaut.
Entrez une chaîne de texte.
Cliquez sur Test, puis examinez le classement et les entités détectées dans l'énoncé (le cas échéant).
Vérifiez les notes de confiance des intentions. (La barre de progression d'une intention répertoriée est verte si le niveau de confiance est atteint ou dépassé, et rouge si le niveau de confiance n'est pas atteint).
Si la première intention candidate de la compétence n'est pas celle que vous attendiez, il vous faudra sans doute recommencer l'entraînement après avoir effectué l'une des actions suivantes ou les deux :
- Mettez à jour le corpus du meilleur candidat avec le texte d'entrée que vous venez d'utiliser. Sélectionnez l'intention appropriée, puis cliquez sur Add to Intent (Ajouter à l'intention).
  
  Attention :
  Considérez comment l'ajout d'une nouvelle expression de test peut affecter les données d'entraînement. L'ajout d'une expression de test peut modifier la façon dont les énoncés qui lui ressemblent sont classifiés après le réentraînement. En outre, l'ajout d'une expression de test invalide le test car cette intégration au jeu d'entraînement garantit le succès du test. Au lieu d'ajouter une expression de test aux données d'entraînement, enregistrez-la comme scénario de test.
- Dans la page Intents (Intentions), vous pouvez modifier un énoncé Edit (Modifier) () ou le supprimer. Une intention FAQ, par exemple, peut être classée parmi les premières en raison de la portée et du choix des mots des énoncés qui la composent. Si vous ne voulez pas que vos utilisateurs obtiennent une FAQ chaque fois qu'ils posent des questions typiques, vous devez réviser le corpus.
Vous devez entraîner de nouveau une intention lorsque vous ajoutez, modifiez ou supprimez un énoncé. Le message Training Needed (Entraînement requis) s'affiche chaque fois que vous modifiez les données d'entraînement.
Si vos intentions ne sont pas résolues comme vous les souhaitez, vous pouvez développer la fenêtre JSON pour consulter les intentions, les notes et les entités détectées mises en correspondance dans l'objet JSON retourné.
Cliquez sur Reset (Réinitialiser).

Scénarios de test

Chaque test comporte un énoncé et l'intention vers laquelle il est censé être résolu, ce qui est appelé correspondance d'étiquette. Un scénario de test peut également inclure des valeurs d'entité correspondantes et la langue attendue pour l'énoncé. Vous pouvez exécuter des scénarios de test lorsque vous développez une compétence et, plus tard, lorsque la compétence est en production, vous pouvez utiliser les scénarios de test pour les tests de régression. Dans ce dernier cas, vous pouvez exécuter des scénarios de test pour savoir si une nouvelle version du modèle d'entraînement a eu une incidence négative sur la résolution d'intention.

Comme les scénarios de test que vous créez avec le testeur de conversation, les scénarios de test d'énoncé font partie de la compétence et sont conservés avec chaque version. Si vous étendez une compétence, l'extension hérite des scénarios de test. Alors que les scénarios de test de conversation sont destinés à tester un scénario, les tests d'énoncé sont destinés à tester des fragments de conversation indépendamment, en veillant à ce que chaque énoncé soit résolu en une intention appropriée.

Gérer les scénarios de test

La page Test Cases (Scénarios de test), accessible en cliquant sur Go to Test Cases (Aller aux scénarios de test) dans le testeur d'énoncé, répertorie les suites de tests et les scénarios de test qui leur appartiennent. Les suites de tests peuvent être celles que vous avez créées ou avoir été héritées d'une compétence que vous avez étendue ou clonée. En plus de modifier, d'ajouter et de supprimer des scénarios de test, vous utilisez cette page pour compiler les scénarios de test en exécutions de test.

Une description de test-suites-page.png suit

Description de l'illustration test-suites-page.png

Par défaut, l'option All (Tout) est sélectionnée, ce qui affiche chaque scénario de test. Si vous souhaitez limiter l'affichage aux seuls scénarios de test appartenant à une seule suite de tests, vous pouvez soit sélectionner la suite de tests dans la liste des suites de tests, soit filtrer cette liste à l'aide d'une correspondance complète ou partielle du nom de la suite de tests. La vue de la suite de tests vous permet de gérer les scénarios de test membres de la suite à partir de l'onglet Test Cases (Scénarios de test).

Description de test-suite-test-cases-view.png :

Description de l'illustration test-suite-test-cases-view.png

Dans son onglet Général, vous pouvez, en plus de mettre à jour le nom et la description de la suite de tests, exclure la suite de tests d'une exécution de test en désactivant Enable Test Suite (Activer la suite de tests). En désactivant Inclure dans l'exportation de compétence, vous pouvez empêcher l'inclusion de la suite de tests dans le dossier nluTestSuites qui héberge les suites de tests de la compétence lorsque celle-ci est exportée.

Description de test-suite-test-general-view.png :

Description de l'illustration test-suite-test-general-view.png

Créer des suites de tests

Tous les scénarios de test appartiennent à une suite de tests. Nous en fournissons une pour vous appelée Default Test Suite, mais vous voudrez peut-être partitionner vos tests en créant vos propres suites de tests. Vous pouvez créer des séries de tests manuellement ou en important un fichier CSV. Pour créer manuellement une suite de tests :

Cliquez sur + Test Suite.
Dans l'onglet Général, remplacez le nom de paramètre fictif (TestSuite0001, par exemple) par un nom plus significatif en ajoutant une valeur dans le champ Nom d'affichage.
Au besoin, ajoutez une description expliquant la fonctionnalité couverte par la suite de tests.
Alimentez la suite de tests avec des scénarios de test à l'aide de l'une des méthodes suivantes (ou d'une combinaison de ces méthodes) :
- Ajout manuel de scénarios de test (soit en créant un scénario de test, soit en enregistrant un énoncé en tant que scénario de test à partir du testeur d'énoncé).
- Importation de scénarios de test.
  Note
  
  Pour affecter un scénario de test à une suite de tests au moyen de l'importation, le champ testSuite du fichier CSV peut être vide ou doit contenir un nom correspondant à la suite de tests sélectionnée dans la boîte de dialogue d'importation.
- Modification d'un scénario de test pour réaffecter sa suite de tests.
Pour exclure la suite de tests des exécutions de test lancées à l'aide des options All (Toutes) et Run All (Tout exécuter), désactivez Enable Test Suite (Activer la suite de tests).
Si vous ne voulez pas que la suite de tests soit incluse dans l'exportation de compétence, désactivez Include in Skill Export (Inclure dans l'exportation de compétence). Lorsque vous désactivez cette option pour une suite de tests, elle ne sera pas incluse dans le dossier nluTestSuites qui contient les suites de tests de la compétence dans le fichier ZIP exporté.

Créer des scénarios de test d'énoncé

Vous pouvez ajouter des scénarios de test un par un en utilisant le testeur d'énoncé ou la boîte de dialogue New Test Case (Nouveau scénario de test) (accessible en cliquant sur + Test Case (+ scénario de test)), ou en masse en chargeant un fichier CSV.

Chaque cas de test doit appartenir à une suite de tests. Par conséquent, avant de créer un cas de test, vous devez d'abord créer une suite qui reflète une capacité de la compétence ou un aspect des tests d'intention, tels que les tests d'échec, les tests dans le domaine ou les tests hors du domaine.

Nous fournissons une suite appelée Default Test Suite. Vous pouvez affecter des scénarios de test à cette suite si vous n'en avez pas créé d'autres. Plus tard, vous pouvez modifier un scénario de test pour le réaffecter à une nouvelle suite.

Conseil :

Pour fournir une couverture adéquate dans vos tests, créez des énoncés de suite de tests qui sont non seulement variés sur le plan conceptuel, mais aussi grammaticalement, car les utilisateurs ne feront pas de demandes de manière uniforme. Vous pouvez ajouter ces dimensions en créant des séries de tests à partir du message d'utilisateur réel interrogé dans le rapport de réentraînement des données clés et également à partir d'entrées provenant de sources multiples collectées à partir de la fabrication de données.

Ajouter des scénarios de test à partir du testeur d'énoncé

En plus d'ajouter des énoncés au corpus d'entraînement, vous pouvez utiliser la page Quick Test (Test rapide) pour créer un scénario de test :

Cliquez sur Test Utterances (Énoncés de test).
Si la compétence est multilingue, sélectionnez la langue principale.
Entrez l'énoncé, puis cliquez sur Test.
Cliquez sur Save as Test Case (Enregistrer en tant que scénario de test), puis choisissez une suite de tests.

Créer un scénario de test

Pour créer un seul scénario de test :

Cliquez sur Go to Test Cases (Aller aux scénarios de test) dans le testeur d'énoncé.
Cliquez sur + Test Case (+ un scénario de test).
Remplissez la boîte de dialogue New Test Case (Nouveau scénario de test) :
- Si nécessaire, désactivez le scénario de test.
- Entrez l'énoncé de test.
- Sélectionnez la suite de tests.
- Sélectionnez l'ntention attendue. Si vous créez un scénario de test pour un test d'échec, sélectionnez unresolvedIntent.
- Pour les compétences multilingues, sélectionnez la balise de langue et la langue attendue.
Cliquez sur Add to Suite (Ajouter à la suite). Dans la page Test Cases (Scénarios de test), vous pouvez supprimer un scénario de test ou modifier un scénario de test, ce qui inclut la réaffectation du scénario à une autre suite de tests.

Description de l'illustration create-new-test-case-entity.png
Pour tester les valeurs d'entité :
- Activez Test Entities (Entités de test). Puis cliquez sur Continue (Continuer).
- Mettez en surbrillance le mot (ou les mots), puis appliquez une étiquette d'entité en sélectionnant une entité dans la liste. Lorsque vous avez terminé, cliquez sur Ajouter à la suite.
  Note
  
  Sélectionnez toujours des mots ou des expressions dans l'énoncé du scénario de test après avoir activé Entités de test. Le scénario de test échouera si vous avez activé Test Entities (Entités de test) mais que vous n'avez mis en surbrillance aucun mot.
  
  Description de l'illustration new-test-case-entity-test-page.png

Importer des scénarios de test pour des suites de tests de niveau compétence

Dans la page Test Cases (Cas de test) (accessible en cliquant sur Go to Test Cases (Aller aux cas de test) dans le testeur d'énoncés), vous pouvez ajouter des suites de tests et leurs cas en masse en chargeant un fichier CSV contenant les champs suivants :

testSuite – Nom de la suite de tests à laquelle appartient le scénario de test. Le champ testSuite de chaque rangée du fichier CSV peut avoir un nom de suite de tests différent ou être vide.
- Les scénarios de test avec des champs testSuite vides sont ajoutés à une suite de tests que vous sélectionnez lors de l'importation du fichier CSV. Si vous ne sélectionnez pas de suite de tests, elle sera affectée à la suite de tests par défaut.
- Les scénarios de test avec des champs testSuite alimentés sont affectés à la suite de tests que vous sélectionnez lors de l'importation du fichier CSV uniquement lorsque le nom de la suite de tests sélectionnée correspond au nom indiqué dans le champ testSuite.
- Si une suite de tests portant le nom de celui indiqué dans le champ testSuite n'existe pas déjà, elle sera créée après l'importation du fichier CSV.
utterance – Exemple d'énoncé (obligatoire). Est mappé à query dans les versions d'Oracle Digital Assistant antérieures à 21.04.
expectedIntent – L'intention correspondante (obligatoire). Ce champ est mappé à TopIntent dans les versions d'Oracle Digital Assistant pré-21.04.

Conseil :
Importation des versions antérieures à la version 21.04 du fichier CSV vous indique comment reformater les fichiers CSV antérieures à la version 21.04 afin que vous puissiez les utiliser pour les tests en masse.
enabled – TRUE inclut le scénario dans l'exécution du test. FALSE l'exclut.
languageTag – Balise de langue (en, par exemple). En l'absence de valeur, la langue détectée à partir des paramètres de langue de la compétence est utilisée par défaut.
expectedLanguageTag (facultatif) – Pour les compétences multilingues, il s'agit de la balise de langue de la langue à utiliser par le modèle lors de la résolution de l'énoncé de test en intention. Pour que le scénario de test réussisse, cette balise doit correspondre à la langue détectée.
expectedEntities – Entités correspondantes dans l'énoncé du scénario de test, représentées sous la forme d'un tableau d'objets entityName. Chaque entityName identifie la position de la valeur d'entité dans l'énoncé à l'aide des propriétés beginOffset et endOffset. Ce décalage est déterminé par caractère, et non par mot, et est calculé à partir du premier caractère de l'énoncé (0-1). Par exemple, l'objet entityName pour la valeur d'entité PizzaSize de petite taille dans Je veux commander une petite pizza est :
```
[{"entityName":"PizzaSize","beginOffset":18,"endOffset":23,"originalString":"small"}, …]
```

Description de l'énoncé-test-case-csv-example.png :

Description de l'exemple d'énoncé-test-case-csv-example.png

Pour importer ce fichier CSV :

Cliquez sur Plus, puis sélectionnez Importer.
Naviguez jusqu'à, puis sélectionnez le fichier CSV.
Sélectionnez la suite de tests. Le scénario de test ne peut être affecté à la suite de tests sélectionnée que si le champ testSuite est vide ou correspond au nom de la suite de tests sélectionnée.
Cliquez sur Charger.

Importation des versions antérieures à la version 21.04 du fichier CSV

Les scénarios de test importés au moyen des versions antérieures à la version 21.04 des fichiers CSV, qui contiennent les champs query et TopIntent, sont ajoutés uniquement à la suite de tests par défaut. Vous pouvez réaffecter ces scénarios de test à d'autres séries de tests individuellement en les modifiant après avoir importé le fichier CSV, ou vous pouvez mettre à jour le fichier CSV au format courant, puis le modifier avant de l'importer comme suit :

Cliquez sur More (Plus) > Import (Importer).
Une fois l'importation terminée, sélectionnez Default Test Suite (Suite de tests par défaut), puis cliquez sur More (Plus) > Export Selected Suite (Exporter la suite sélectionnée). Le fichier exporté sera converti au format courant.
Extrayez le fichier ZIP et modifiez le fichier CSV. Lorsque vous avez terminé, importez de nouveau le fichier CSV ( Plus > Importer). Vous devrez peut-être supprimer les scénarios en double de la suite de tests par défaut.
Note

Si vous chargez le même CSV plusieurs fois avec des modifications mineures, toutes les données nouvelles ou mises à jour seront fusionnées avec les anciennes : de nouvelles mises à jour sont appliquées et de nouvelles rangées sont insérées. Cependant, vous ne pouvez pas supprimer d'énoncés en chargeant un nouveau fichier CSV. Si vous devez supprimer des énoncés, vous devez les supprimer manuellement à partir de l'interface utilisateur.

Créer des exécutions de test

Les tests sont une compilation de cas de test ou de suites de tests visant à évaluer certains aspects de la cognition de la compétence. Le contenu (et le volume) d'une exécution de test dépend de la capacité que vous souhaitez tester. Par conséquent, une exécution de test peut inclure un sous-ensemble de scénarios de test provenant d'une suite de tests, d'une suite de tests complète ou de plusieurs suites de tests.

Les scénarios de test inclus dans une exécution de test sont évalués par rapport au seuil de confiance défini pour la compétence. Pour qu'un scénario de test réussisse dans l'exécution globale du test, il doit résoudre l'intention attendue au seuil de confiance ou au-delà. Si spécifié, le scénario de test doit également satisfaire à la valeur de l'entité et aux critères de correspondance de langue. En consultant les résultats de l'exécution du test, vous pouvez savoir si les modifications apportées à la plate-forme ou à la compétence elle-même ont compromis l'exactitude de la résolution d'intention.

En plus de tester le modèle, vous pouvez également utiliser les résultats de l'exécution du test pour évaluer la fiabilité de vos tests. Par exemple, les résultats montrant que la quasi-totalité des scénarios de test ont réussi peuvent, en surface, indiquer un fonctionnement optimal du modèle. Cependant, un examen des scénarios de test réussis peut révéler que les scénarios de test ne reflètent pas l'entraînement actuel, car leurs énoncés sont trop simples ou ont un chevauchement important en termes de concepts et de verbiage pour lesquels ils effectuent des tests. Par contre, un nombre élevé d'échecs de tests peut indiquer des lacunes dans les données d'entraînement, mais un examen de ces scénarios de test peut révéler que leurs énoncés sont associés aux mauvaises intentions attendues.

Pour créer une exécution de test :

Cliquez sur Run All (Tout exécuter) pour créer une exécution de test pour tous les scénarios d'une suite de tests sélectionnée. (Ou si vous souhaitez exécuter toutes les suites de test, sélectionnez All (Tout), puis cliquez sur Run All (Tout exécuter)).

Description de l'illustration test-cases-all-run-all.png
- Pour créer une exécution de test pour des scénarios sélectionnés dans une suite (ou une exécution de test pour un sous-ensemble de tous les scénarios si vous avez sélectionné All (Tout)), filtrez les scénarios en ajoutant une chaîne correspondant au texte de l'énoncé et à une intention attendue. Sélectionnez les énoncés, puis cliquez sur Run (Exécuter).
  
  Description de l'illustration test-cases-filtered.png
- Pour exclure une suite de tests de l'exécution du test, sélectionnez d'abord la suite de tests, ouvrez l'onglet Général, puis désactivez Enable Test Suite (Activer la suite de tests).
  
  Description de l'illustration test-runs-disable-test-suite.png
- Pour les compétences multilingues, vous pouvez également filtrer par Language Tag et par les options Expected Language (accessibles au moyen d'Optional Attributes).
  
  Description de l'illustration test-cases-optional-attributes.png
Entrez un nom d'exécution de test qui reflète l'objet du test. Cette étape est facultative.
Cliquez sur Commencer

Description de l'illustration new-test-run-dialog.png
Cliquez sur Test Results (Résultats de test), puis sélectionnez l'exécution du test.

Conseil :
Les exécutions de test qui contiennent un grand nombre de scénarios de test peuvent prendre plusieurs minutes. Pour ces exécutions de test volumineuses, vous devrez peut-être cliquer périodiquement sur Actualiser jusqu'à la fin du test. Un pourcentage remplace le statut En cours pour la mesure Précision et le rapport Intents (Intentions) s'affiche une fois que tous les scénarios de test ont été évalués.

Description de l'illustration test-cases-testing-progress.png
Sert à consulter les rapports d'exécution des tests. Par exemple, vérifiez d'abord les mesures de haut niveau pour l'exécution du test fournies par le rapport d'aperçu. Ensuite, validez les résultats de test par rapport aux scénarios de test réels en filtrant le rapport Test Cases (Cas de test), qui répertorie tous les scénarios de test inclus dans l'exécution du test, pour les scénarios de test réussis et en échec. Vous pouvez ensuite examiner les résultats de chaque scénario de test. Vous pouvez également comparer la note d'exactitude du rapport Aperçu à la note d'exactitude du rapport Intents (Intentions), qui mesure la capacité du modèle à prédire les intentions correctes. Pour vérifier les scénarios de test répertoriés dans ce rapport, ouvrez le rapport Cas de test et filtrez-les par intentions.

Rapport sommaire d'exécution de test

Le rapport sommaire vous fournit une évaluation globale de la réussite du modèle pour gérer le type d'entrée utilisateur couvert par l'exécution du test. Pour les séries de tests incluses dans l'exécution du test, il indique le nombre total de scénarios de test qui ont été utilisés pour évaluer le modèle et, à partir de ce nombre, le nombre de scénarios de test (fiables et non fiables) qui ont échoué ainsi que le nombre de scénarios de test fiables et peu fiables qui ont réussi. La précision globale du modèle – sa capacité à prédire les intentions attendues au niveau de confiance ou au-dessus de la compétence, à reconnaître les valeurs d'entité et à résoudre les énoncés dans la langue de la compétence – est mesurée par le taux de réussite des tests réussis lors de l'exécution du test.
Description de test-run-test-results-summary.png :
Description de l'illustration test-run-test-results-summary.png

Mesures du rapport sommaire

Le rapport sommaire comprend les mesures suivantes :

Exactitude – Exactitude du modèle en termes de taux de réussite des scénarios de test réussis (nombre de scénarios de test réussis par rapport au nombre total de scénarios de test inclus dans l'exécution du test).
Note

Les scénarios de test désactivés ne sont pas pris en compte dans la note d'exactitude. Les tests n'ont pas non plus échoué en raison d'erreurs. Tout test ayant échoué est ajouté au nombre d'échecs.

Une note de faible précision peut indiquer que l'exécution du test évalue le modèle sur des concepts et une langue qui ne sont pas pris en charge adéquatement par les données d'entraînement. Pour augmenter la note d'exactitude, entraînez de nouveau le modèle avec des énoncés qui reflètent les scénarios de test lors de l'exécution du test.

Cette mesure d'exactitude s'applique à toute l'exécution du test et fournit une note distincte de la mesure d'exactitude dans le rapport Intents (Intentions). Cette mesure correspond au pourcentage de scénarios de test pour lesquels le modèle a satisfait à tous les critères de scénario de test. La note d'exactitude du rapport Intents (Intentions) n'est pas un test de bout en bout. Il s'agit du pourcentage de cas de test où le modèle n'a eu qu'à prédire l'intention attendue à ou au-dessus du seuil de confiance de la compétence. Les autres critères de scénario de test (tels que la valeur d'entité ou la langue de compétence) ne sont pas pris en compte. Compte tenu des critères différents de ce qu'un scénario de test de réussite signifie pour ces deux rapports, leurs notes de précision respectives peuvent ne pas toujours être en phase. La note d'exactitude de la correspondance d'intention peut être supérieure à la note globale d'exécution du test lorsque les données de test ne sont pas alignées sur les données d'entraînement. Le réentraînement du modèle à l'aide d'énoncés prenant en charge les scénarios de test lui permettra de prédire les intentions attendues avec une plus grande confiance, ce qui augmentera la note d'exactitude pour l'exécution du test.

Note

La mesure Exactitude n'est pas disponible tant que l'exécution du test n'est pas terminée et n'est pas disponible pour les exécutions de test terminées lorsque la compétence a été exécutée sur des versions antérieures à la version 22.12 de la plate-forme Oracle Digital Assistant.
Test Cases (Cas de test) – Nombre total de cas de test (fiables et non fiables) inclus dans l'exécution du test. Les scénarios de test ignorés sont inclus dans ce décompte, mais ils ne sont pas pris en compte lors du calcul de la mesure Précision.
Réussi – Nombre de scénarios de test (fiables et peu fiables) qui ont réussi en se résolvant en intention au seuil de confiance et en mettant en correspondance les valeurs d'entité ou la langue sélectionnées.
Failed (Échec) – Nombre de scénarios de test (bot fiable et peu fiable) qui n'ont pas réussi à se résoudre à l'intention attendue au seuil de confiance et qui n'ont pas réussi à correspondre aux valeurs d'entité ou à la langue sélectionnées.
To review the actual test cases behind the Passed and Failed metrics in this report, open the Test Cases report and then apply its Passed or Failed filters.

Description of the illustration test-runs-intent-report.png

Répartition de la suite de tests

Le tableau Test Suite Breakdown répertorie les séries de tests incluses dans l'exécution du test et leurs statistiques individuelles. Vous pouvez vérifier les scénarios de test réels appartenant à une suite de tests en cliquant sur le lien dans la colonne Test Suite.
Description de test-suite-breakdown.png :
Description de l'illustration test-suite-breakdown.png

Rapport sur les intentions

Les mesures de ce rapport assurent le suivi des correspondances d'étiquette du modèle tout au long des scénarios de test de l'exécution du test. C'est là que le modèle prédit correctement l'intention attendue pour l'énoncé du scénario de test. Dans le contexte de ce rapport, l'exactitude, la réussite et l'échec sont mesurés en termes de scénarios de test où le modèle prédisait l'intention attendue correcte au seuil de confiance ou au-delà. D'autres critères pris en compte dans le rapport sommaire, tels que les correspondances de valeur d'entité ou la langue de compétence, ne sont pas pris en compte. Par conséquent, ce rapport fournit une vue différente de l'exactitude du modèle, qui vous aide à vérifier si l'entraînement en cours permet au modèle de prédire systématiquement les intentions correctes.

Ce rapport fournit des mesures de correspondance d'étiquette (ou d'intention) pour l'exécution du test à deux niveaux : un qui agrége les résultats pour l'exécution du test et un qui sépare ces résultats par intention.

Note

Ce rapport n'est pas disponible pour les exécutions de test terminées lorsque la compétence a été exécutée sur une version antérieure à la version 22.12 de la plate-forme Oracle Digital Assistant.

Une description de unsiltered-intents-report-all-tests.png suit

Description de l'illustration uniltered-intents-report-all-tests.png

Mesures du rapport sur les intentions

Les résultats globaux de la mise en correspondance d'intention sont les suivants :

Cas de test – Nombre de cas de test inclus dans cette exécution de test. Ce total comprend des cas de test fiables et peu fiables. Les scénarios de test ignorés ne sont pas inclus dans ce décompte.

Conseil :
Les liens de scénario de test non fiables pour les mesures Cas de test, Réussite et Échec ouvrent le rapport Cas de test filtré par cas de test non fiables. Cette navigation n'est pas disponible lorsque vous filtrez le rapport par suite de tests.
Exactitude – Exactitude du modèle à mettre en correspondance l'intention attendue à ou au-dessus du seuil de confiance de la compétence dans les scénarios de test lors de cette exécution de test. La sous-mesure Label Match (Correspondance d'étiquette) représente le pourcentage de scénarios de test dans l'exécution du test où le modèle a correctement prédit l'intention attendue, quelle que soit la note de confiance. Étant donné que la correspondance d'étiquettes est un facteur d'échec des scénarios de test et de réussite des scénarios de test, sa note peut être supérieure à la note d'exactitude.
Vous pouvez comparer cette mesure d'exactitude à la mesure d'exactitude à partir du rapport sommaire. Lorsque la note d'exactitude dans le rapport Sommaire est faible, vous pouvez utiliser ce rapport pour déterminer rapidement si les défaillances du modèle peuvent être attribuées à son incapacité à prédire l'intention attendue. Toutefois, lorsque la note d'exactitude de ce rapport est élevée, vous pouvez exclure la mise en correspondance d'étiquettes comme racine du problème et, plutôt que d'avoir à réviser fortement les données d'entraînement pour augmenter la note d'exactitude de l'exécution du test, vous pouvez plutôt vous concentrer sur l'ajout d'énoncés qui reflètent les concepts et la langue dans les énoncés du scénario de test.

Description de l'illustration compare-accuracy-scores.png
Réussi – Nombre de cas de test (fiables et peu fiables) où le modèle prédisait l'intention attendue au seuil de confiance de la compétence.
Failed (Échec) – Nombre de cas de test (fiables et peu fiables) où le modèle prédisait l'intention attendue en dessous du seuil de confiance de la compétence.
Confidence Pass (Réussite de confiance) – Moyenne des notes de confiance pour tous les scénarios de test réussis lors de cette exécution de test.
Échec de confiance - Moyenne des notes de confiance pour tous les scénarios de test ayant échoué lors de cette exécution de test.

Note

Lorsque vous filtrez le rapport sur les intentions par suite de tests, l'accès au rapport sur les scénarios de test à partir des liens de scénario de test non fiables dans les vignettes Cas de test, Réussite et Échec n'est pas disponible. Ces liens redeviennent actifs lorsque vous supprimez toutes les entrées du champ Filtrer par suite de tests.

Filtrer par suite de tests

Les résultats par défaut du rapport Intents (Intentions) reflètent toutes les séries de tests incluses dans l'exécution du test. De même, ses mesures sont basées sur tous les scénarios de test activés qui appartiennent à ces séries de tests. Si vous voulez répartir la performance de chaque suite de tests (et essentiellement créer une comparaison avec la table Répartition de la suite de tests du rapport sommaire), vous n'avez pas besoin de créer d'exécutions de test supplémentaires. Vous pouvez plutôt isoler les résultats de la suite de tests (ou des suites de tests) en question à l'aide du champ Filtrer par suite de tests. Vous pouvez ajouter un ou plusieurs ensembles de tests à ce champ.

Le rapport ajuste les mesures pour chaque suite de tests que vous ajoutez (ou supprimez ensuite). Il tabule les résultats de la mise en correspondance d'intention en fonction du nombre de scénarios de test activés appartenant à la suite de tests sélectionnée.

Note

Vous ne pouvez pas filtrer par séries de tests exécutées sur une plate-forme avant la version 23.06. Pour inclure ces suites de tests, vous devez les réexécuter après la mise à niveau vers la version 23.06 ou une version supérieure.

Description de filtered-intents-report-all-tests.png :

Description de l'illustration filtered-intents-report-all-tests.png

Note

Le filtrage par suite de tests désactive la navigation vers le rapport Cas de test à partir des liens de cas de test non fiables dans les vignettes Cas de test, Réussite et Échec. Les liens de la colonne Total de la répartition des intentions sont également désactivés. Tous ces liens redeviennent actifs après avoir supprimé toutes les entrées du champ Filtrer par suite de tests.

Répartition des intentions

Le tableau Ventilation des intentions du rapport fournit les mesures de niveau supérieur suivantes pour les intentions attendues nommées dans les scénarios de test de l'exécution du test. Vous pouvez affiner la mise au point en sélectionnant les noms de ces intentions dans le champ Filtrer par intentions.

Note

Le champ Filtrer par intention modifie la vue de la table Répartition des intentions, mais ne modifie pas les mesures globales du rapport. Ces mesures reflètent les entrées (ou le manque d'entrées) dans le champ Filter by Test Suite (Filtrer par suite de tests).

Intent (Intention) – Nom de l'intention attendue.
Total - Nombre de scénarios de test, représentés sous forme de lien, pour l'intention attendue. Vous pouvez accéder au rapport Test Cases en cliquant sur ce lien.
Note

Vous ne pouvez pas naviguer jusqu'au rapport Cas de test lorsque vous avez appliqué un filtre de suite de tests à ce rapport. Ce lien redevient actif lorsque vous supprimez toutes les entrées du champ Filtrer par suite de tests.
Exactitude – Pourcentage de scénarios de test qui ont entraîné des correspondances d'étiquette pour l'intention attendue à ou au-dessus du seuil de confiance de la compétence.
Réussi – Nombre de cas de test (y compris les cas de test peu fiables) où le modèle prédisait l'intention attendue au seuil de confiance de la compétence ou au-delà.
Réussi - Non fiable - Nombre de cas de test où le modèle a prédit l'intention attendue à 5 % ou moins au-dessus du seuil de confiance de la compétence.
Failed (Échec) – Nombre de scénarios de test dans l'exécution du test qui ont échoué, car le modèle a prédit l'intention attendue en dessous du seuil de confiance de la compétence.
Échec - Non fiable - Nombre de cas de test ayant échoué en raison de la confiance du modèle dans la prévision de l'intention attendue est tombée de 5 % en dessous du seuil de confiance de la compétence. Ces cas de test peuvent prendre en compte
Label Match (Correspondance d'étiquette) – Nombre de cas de test pour lesquels le modèle a prédit avec succès l'intention attendue, quel que soit le niveau de confiance. En raison de l'échec des scénarios de test, les scores Label Match et Accuracy peuvent ne pas toujours être en phase les uns avec les autres. Par exemple, quatre scénarios de test réussis sur cinq donnent un score d'exactitude de 80 % pour l'intention. Toutefois, si le modèle prédisait correctement l'intention pour le scénario de test défaillant, la correspondance d'étiquettes dépasserait l'exactitude de 20 %.
Confidence Pass (Réussite de confiance) - Moyenne des notes de confiance pour tous les scénarios de test qui correspondent à l'intention attendue.
Échec de confiance - Moyenne des notes de confiance pour tous les scénarios de test qui ne correspondent pas à l'intention attendue.

Conseil :
Pour vérifier les scénarios de test réels, ouvrez le rapport Test Cases (Cas de test) et filtrez-le par intention.

Description de test-run-compare-intents-test-cases.png :

Description de l'illustration test-run-compare-intents-test-cases.png

Rapport sur les cas de test

Ce rapport répertorie tous les scénarios de test inclus dans l'exécution du test.

Vous pouvez filtrer les résultats en cliquant sur All, Passed (vert) ou Failed (rouge). Les scénarios de test comptabilisés comme ignorés comprennent à la fois les scénarios désactivés et ceux où l'intention attendue a été désactivée.

Description de l'illustration filtered-test-run-results-passed.png

Vous pouvez filtrer les résultats en cas de test peu fiables en cliquant sur Afficher les cas peu fiables dans le message d'avertissement ou en sélectionnant le filtre Seuls les cas peu fiables.
Si nécessaire, filtrez les résultats pour une intention ou une entité spécifique ou par des scénarios de test fiables ou peu fiables.
Pour les scénarios de test non fiables et en échec, cliquez sur View Similar Utterances (Voir les énoncés similaires) (situé dans la page Test Info) pour savoir si l'énoncé du scénario de test présente une similarité avec les énoncés du jeu d'entraînement.
Vérifiez les résultats suivants :
- Informations sur le test - Présente l'aperçu du scénario de test, notamment le seuil de confiance cible, l'intention attendue et les valeurs d'entité mises en correspondance.
- Résultat du test – Classement de l'intention par niveau de confiance. S'il y a lieu, le rapport identifie également les entités contenues dans l'énoncé par nom et par valeur. Vous pouvez également consulter l'objet JSON contenant les résultats complets.
- Analyse des échecs - Explique pourquoi le scénario de test a échoué. Par exemple, l'intention réelle n'est pas l'intention attendue, la valeur de l'entité étiquetée dans le scénario de test ne correspond pas à l'entité résolue ou la langue attendue n'est pas la même que la langue détectée.

Cas de test peu fiables

Certains cas de test ne peuvent pas fournir de résultats cohérents, car ils sont résolus dans les 5 % ou moins du seuil de confiance. Cette marge étroite rend ces cas de test peu fiables. Lorsque le seuil de confiance de la compétence est réglé à 0,7, par exemple, un scénario de test qui passe à 74 % peut échouer une fois que vous n'avez apporté que des modifications mineures à vos données d'entraînement ou que la compétence a été mise à niveau vers une nouvelle version du modèle. La fragilité de ces scénarios de test peut indiquer que les énoncés qu'ils représentent dans les données d'entraînement peuvent être trop peu nombreux et que vous devrez peut-être équilibrer les données d'entraînement de l'intention avec des énoncés similaires.

Pour localiser des scénarios de test peu fiables :

Exécutez la suite de tests. Cliquez ensuite sur Résultats de test et sélectionnez l'exécution du test. Les scénarios de test peu fiables sont triés au début des résultats de l'exécution du test et sont marqués avec des avertissements.

Description de l'illustration unliable-test-cases-test-run.png
Pour isoler les cas de test peu fiables :
- Cliquez sur Afficher les cas peu fiables dans le message.
- Sélectionnez Cas non fiables seulement dans le menu Filtrer par cas.
Pour rechercher la proximité de l'intention de niveau supérieur du scénario de test avec le seuil de confiance, ouvrez la fenêtre Test Result. Pour comparer la note de confiance de premier rang au seuil de confiance, cliquez sur .

Description de l'illustration unliable-test-case-click-icon.png
Si vous devez compléter les données d'entraînement pour l'intention de niveau supérieur, cliquez sur Aller à l'intention supérieure dans le message d'avertissement.
Pour déterminer la quantité d'énoncés représentés par le scénario de test dans les données d'entraînement, cliquez sur View Similar Utterances (Voir les énoncés similaires).

Description de l'illustration unliable-test-case-view-similar-utterances.png

Vous pouvez également vérifier si l'un des énoncés les plus similaires à l'énoncé du scénario de test est également une anomalie dans le jeu d'entraînement en exécutant le rapport sur les anomalies.

Exécutions de test exportées

Les exécutions de test ne sont pas conservées avec la compétence, mais vous pouvez les télécharger sur votre système pour analyse en cliquant sur Export Test Run (Exporter l'exécution de test). Si les intentions ne résolvent plus l'entrée utilisateur comme prévu, ou si les modifications apportées à la plate-forme ont eu une incidence négative sur la résolution de l'intention, vous pouvez recueillir les détails d'une demande de service à l'aide des journaux des exécutions de test exportées.

Test d'échec

Le test d'échec (ou négatif) vous permet de tester en masse des énoncés qui ne doivent jamais être résolus, soit parce qu'ils génèrent unresolvedIntent, soit parce qu'ils ne sont résolus qu'en d'autres intentions situées sous le seuil de confiance pour toutes les intentions.

Pour effectuer un test d'échec :

Indiquez unresolvedIntent comme intention attendue pour tous les scénarios de test dont la résolution vous semble impossible. Idéalement, ces expressions "fausses" ne seront pas résolues.

Description de l'illustration new-test-case-utterance-unresolved.png
Si nécessaire, ajustez le seuil de confiance lors de la création d'une exécution de test pour confirmer que les expressions fausses (celles indiquant unresolvedIntent comme intention attendue) ne peuvent se résoudre qu'au-dessous de la valeur définie ici. Par exemple, l'augmentation du seuil pourrait entraîner l'échec de la résolution en intention (y compris unresolvedIntent) des expressions fausses au niveau de confiance, ce qui signifie qu'elles réussissent parce qu'elles sont considérées comme non résolues.
Consultez les résultats du test, en vérifiant si les scénarios qui ont réussi le test sont appariés à unresolvedIntent au niveau de seuil, ou s'ils n'ont pu être appariés à aucune intention (unresolvedIntent ou autre) au niveau de seuil.

Énoncés similaires

Vous pouvez déterminer la similarité de votre expression de test avec les énoncés du corpus d'entraînement en cliquant sur View Similar Utterances (Voir les énoncés similaires). Cet outil vous fournit une perspective supplémentaire sur les données d'entraînement de la compétence en vous montrant à quel point ses énoncés sont similaires à l'expression de test et, par extension, à quel point les énoncés sont similaires les uns aux autres entre les intentions. À l'aide de cet outil, vous pouvez déterminer si la similarité de l'expression de test avec les énoncés appartenant à d'autres intentions est la raison pour laquelle l'expression de test ne se résout pas comme prévu. Il peut même indiquer où les données d'entraînement appartiennent à la mauvaise intention, car si elles sont similaires à l'expression de test.
Description de similar-utterance-report-all-intents.png :
Description de l'illustration similar-utterance-report-all-intents.png

La liste générée par cet outil classe 20 énoncés (ainsi que leurs intentions associées) les plus proches de la phrase de test. Idéalement, l'énoncé de premier rang de cette liste - celui qui ressemble le plus à la phrase de test - appartient à l'intention ciblée pour la phrase de test. Si l'énoncé le plus proche appartenant à l'intention attendue est plus bas, une révision de la liste peut fournir quelques conseils sur la raison. Par exemple, si vous testez un énoncé d'intention Transactions, Combien d'argent ai-je transféré hier?, vous prévoyez que l'énoncé de niveau supérieur appartient également à une intention Transactions. Toutefois, si cet énoncé de test se résout à la mauvaise intention ou se résout en dessous du niveau de confiance, la liste peut révéler qu'il a plus en commun avec des énoncés hautement classés avec une formulation similaire appartenant à d'autres intentions. L'énoncé Combien d'argent ai-je dans tous mes comptes? de l'intention Soldes, par exemple, peut être plus proche de l'énoncé de test que l'énoncé Combien ai-je déposé en avril? de l'intention Transactions.

Vous pouvez accéder à la liste, qui est générée pour les compétences entraînées sur Trainer Tm, en cliquant sur View Similar Utterances (Voir les énoncés similaires) dans le testeur d'énoncé ou dans le rapport Test Cases (Cas de test).

Description de similar-utterances-tester.png :

Description de l'illustration similar-utterances-tester.png

Note

Vous ne pouvez utiliser cet outil que pour les compétences entraînées sur Trainer Tm (il n'est pas disponible pour les compétences entraînées avec Ht).

Vous pouvez interroger des énoncés à partir du testeur d'énoncé et en effectuant des tests dans l'outil View Similar Utterances lui-même. Lorsque vous cliquez sur View Similar Utterances (Voir les énoncés similaires), l'ensemble du corpus est comparé à l'expression de test et un classement est appliqué à chaque énoncé. Comme aucun filtre n'est appliqué par défaut, la liste ne comprend que les 20 énoncés les mieux classés et les numérote séquentiellement. Pour savoir comment les énoncés se classent en 21 et plus, vous devez utiliser les filtres. En appliquant les filtres suivants, vous pouvez apprendre la proximité d'énoncés similaires dans le classement en termes de langue, d'intentions auxquelles ils appartiennent ou de mots ou d'expressions qu'ils ont en commun.

Filtrer par intention - Retourne 20 énoncés les plus proches de l'énoncé de test qui appartiennent à l'intention sélectionnée (ou intentions).

Description de l'illustration similar-utterance-report-filter-intent.png
Filtrer par énoncé - Retourne 20 des énoncés les plus proches de l'énoncé de test qui contiennent un mot ou une expression.

Description de l'illustration similar-utterance-report-filter-utterance.png
Langue – Pour les compétences multilingues, vous pouvez interroger et filtrer le rapport en sélectionnant une langue.

Description de l'illustration similar-utterance-report-filter-language.png

Note

L'application de ces filtres ne modifie pas le classement, mais seulement la vue. Un énoncé classé troisième, par exemple, sera noté comme tel quel quel que soit le filtre. Le classement et le contenu du rapport ne changent que lorsque vous avez mis à jour le corpus et réentraîné la compétence avec Trainer Tm.

Documentation sur Oracle Cloud Infrastructure