Entraînement et test des intentions

L'entraînement d'un modèle à l'aide d'un corpus d'entraînement permet à votre bot de comprendre ce que les utilisateurs disent (ou essaient de dire dans certains cas).

Vous pouvez améliorer la précision de la capacité cognitive à l'aide de cycles de test et d'entraînement des intentions. Vous contrôlez l'entraînement uniquement par le biais des définitions d'intention. La brique ne peut pas apprendre en autonomie à partir de la discussion de l'utilisateur.

Test des variations

Nous vous recommandons de réserver 20 % de votre corpus au test d'intention et d'utiliser les 80 % restants pour entraîner vos intentions. Maintenez ces deux ensembles séparés afin que les variations de test, que vous incorporez dans les cas de test, restent "inconnues" pour votre brique.

Appliquez la répartition 80/20 à l'ensemble de données de chaque intention. Rangez les variations dans un ordre aléatoire avant d'effectuer le fractionnement afin de permettre aux modèles d'entraînement d'affecter la même pondération aux termes et aux modèles des variations.

Testeur de variations

Le testeur de variations sert d'écran à la capacité cognitive de votre brique. En saisissant des expressions qui ne font pas partie du corpus d'entraînement, vous pouvez déterminer la qualité de vos intentions en consultant le classement du niveau de confiance des intentions et l'objet JSON renvoyé. Ce classement, qui donne une estimation du candidat le plus à même de résoudre la saisie utilisateur, illustre la précision du corpus d'entraînement en cours.
Description de l'image utterance-tester-quick-test.png
Description de l'image variation-tester-quick-test.png

A l'aide du testeur de variations, vous pouvez effectuer des tests rapides pour des tests ponctuels à la Volée, ou incorporer une variation en tant qu'exemple de test afin de jauger l'intention de résolution entre les différentes versions des modèles d'entraînement.

Tests rapides

Pour déterminer si vos intentions fonctionnent bien, procédez comme suit :

Cliquez sur Tester les variations (à gauche).
Si votre brique prend en charge plusieurs langues natives, choisissez la langue de test. Si vous activez cette option, la variation est ajoutée à La version de langue correspondante du corpus. La langue principale de la brique est sélectionnée par défaut.
Entrez une chaîne de texte.
Cliquez sur Tester, puis examinez le classement et les entités détectées dans la variation (le cas échéant).
Examinez les scores de confiance des intentions. (La barre de progression de chaque intention répertoriée est verte si elle atteint ou dépasse le niveau de confiance, ou rouge si elle est en dessous).
Si le candidat principal de la brique n'est pas celui auquel vous vous attendiez, vous devrez peut-être réentraîner les intentions après avoir effectué l'une des actions suivantes ou les deux :
- Mettez à jour le corpus du meilleur candidat avec le texte d'entrée que vous venez de saisir en sélectionnant l'intention appropriée et en cliquant sur Ajouter à l'intention.
  
  Attention :
  Envisagez l'impact de l'ajout d'une nouvelle expression de test sur les données d'entraînement. L'ajout d'une expression de test peut modifier le classement des variations similaires après le réentraînement. En outre, l'ajout d'une expression de test invalide le test, car l'incorporation d'une expression de test dans l'ensemble d'entraînement garantit le succès du test. Au lieu d'ajouter une phrase de test aux données d'entraînement, vous devez l'enregistrer en tant que cas de contrôle.
- Sur la page Intentions, vous pouvez modifier une variation en cliquant sur Modifier () ou l'enlever. Par exemple, une intention de FAQ peut arriver en tête de classement en raison de la portée et de la formulation des variations qui la composent. Si vous ne voulez pas que vos utilisateurs obtiennent une foire aux questions chaque fois qu'ils posent des questions fréquentes, vous devrez réviser le corpus.
Vous devez réentraîner une intention chaque fois que vous ajoutez, modifiez ou supprimez une variation. La mention Entraînement nécessaire apparaît chaque fois que vous apportez une modification aux données d'entraînement.
Si vos intentions ne sont pas résolues comme prévu, vous pouvez développer la fenêtre JSON pour examiner les intentions mises en correspondance, les scores et les entités détectées dans l'objet JSON renvoyé.
Cliquez sur Réinitialiser.

Cas de test

Chaque test a une variation et l'intention qu'il est censé résoudre, ce qui est connu comme une correspondance de libellé. Un cas de test peut également inclure des valeurs d'entité correspondantes et la langue attendue pour la variation. Vous pouvez exécuter des cas de test lorsque vous développez une brique et plus tard, lorsque la brique est en production, vous pouvez utiliser les cas de test pour les tests de régression. Dans ce dernier cas, vous pouvez exécuter des cas de test pour déterminer si une nouvelle version du modèle d'entraînement a dégradé la résolution d'intention.

A l'instar des cas de test que vous créez avec le testeur de conversation, les cas de test de variation font partie de la brique et sont conservés à chaque nouvelle version. Si vous étendez une brique, l'extension hérite des cas de test. Alors que les cas de test de conversation sont destinés à tester un scénario, les cas de test de variation sont destinés à tester des fragments de conversation indépendamment, en veillant à ce que chaque variation soit résolue en intention correcte.

Gestion des cas de test

La page Cas de test, accessible en cliquant sur Accéder aux cas de test dans le testeur de variations, répertorie les suites de tests et les cas de test qui leur appartiennent. Les suites de tests peuvent être celles que vous avez créées ou avoir été héritées d'une brique que vous avez étendue ou clonée. Outre la modification, l'ajout et la suppression de cas de test, cette page vous permet de compiler des cas de test en exécutions de test.

Description de l'image test-suites-page.png

description de l'illustration test-suites-page.png,

Par défaut, l'option Tout est sélectionnée, ce qui affiche tous les cas de test. Si vous souhaitez limiter l'affichage aux cas de test appartenant à une seule suite de tests, vous pouvez sélectionner la suite de tests dans la liste des suites de tests ou filtrer cette liste en utilisant une correspondance complète ou partielle du nom de la suite de tests. La vue de la suite de tests vous permet de gérer les cas de test des membres de la suite à partir de son onglet Cas de test.

Description de l'image test-suite-test-cases-view.png

Description de l'illustration test-suite-test-cases-view.png

Dans son onglet Général, vous pouvez, en plus de mettre à jour le nom et la description de la suite de tests, exclure la suite de tests d'une exécution de test en désactivant l'option Activer la suite de tests. En désactivant l'option Inclure dans l'export de briques, vous pouvez empêcher la suite de tests d'être incluse dans le dossier nluTestSuites qui héberge les suites de tests de la brique lorsque celle-ci est exportée.

Description de l'image test-suite-test-general-view.png

Description de l'illustration test-suite-test-general-view.png et

Créer des séries de tests

Tous les cas de test appartiennent à une suite de tests. Nous en fournissons un pour vous appelé Default Test Suite, mais vous pouvez partitionner vos tests en créant vos propres suites de tests. Vous pouvez créer des suites de tests manuellement ou en important un fichier CSV. Pour créer une suite de tests manuellement :

Cliquez sur + Suite de tests.
Dans l'onglet Général, remplacez le nom de l'espace réservé (TestSuite0001, par exemple) par un nom plus significatif en ajoutant une valeur dans le champ Nom d'affichage.
Vous pouvez éventuellement ajouter une description qui explique les fonctionnalités couvertes par la suite de tests.
Remplissez la suite de tests avec des cas de test à l'aide de l'une des méthodes suivantes (ou d'une combinaison des deux) :
- Ajout manuel de cas de test (en créant un cas de test ou en en enregistrant une variation en tant que cas de test à partir du testeur de variations).
- Importation de cas de test.
  Remarque
  
  Pour affecter un cas de test à une suite de tests via l'import, le champ testSuite du fichier CSV peut être vide ou doit contenir un nom correspondant à la suite de tests sélectionnée dans la boîte de dialogue d'import.
- Modification d'un cas de test pour réaffecter sa suite de tests.
Pour exclure la suite de tests des exécutions de test lancées à l'aide des options Tout et Tout exécuter, désactivez l'option Activer la suite de tests.
Si vous ne voulez pas que la suite de tests soit incluse dans l'export de brique, désactivez l'option Inclure dans l'export de brique. Lorsque vous désactivez cette option pour une suite de tests, elle n'est pas incluse dans le dossier nluTestSuites qui héberge les suites de tests de la brique dans le fichier ZIP exporté.

Création de cas de test de variation

Vous pouvez ajouter des cas de test un par un à l'aide du testeur de variations ou de la boîte de dialogue Nouveau cas de test (accessible en cliquant sur + Cas de test), ou vous pouvez les ajouter en masse en téléchargeant un fichier CSV.

Chaque cas d'essai doit appartenir à une série de tests, par conséquent, avant d'en créer un, vous pouvez créer une série de tests qui reflète certains aspects des tests d'intention, tels que tests d'échec, les tests dans le domaines ou les tests hors domaine.

Nous fournissons la suite de tests par défaut. Vous pouvez affecter des cas de test à cette suite de tests si vous n'en avez pas encore créé d'autres. Par la suite, vous pourrez modifier le cas de test pour qu'il soit réaffecté à une nouvelle suite.

Conseil :

Pour fournir une couverture adéquate dans vos tests, créez des variations de suite de tests qui sont non seulement conceptuelles, mais aussi grammaticalement, car les utilisateurs ne feront pas de demandes de manière uniforme. Vous pouvez ajouter ces dimensions en créant des séries de tests à partir d'un message utilisateur réel qui a été interrogé dans le réentraînement d'analyse et également à partir d'une entrée collectée à partir d'une source groupée à partir de Data Manufacturing.

Ajout de cas de test à partir du testeur de variations

Outre l'ajout de variations au corpus d'entraînement, vous pouvez utiliser la page Test rapide pour créer un cas de test :

Cliquez sur Tester les variations.
Si la brique est multilingue, sélectionnez la langue native.
Saisissez la variation, puis cliquez sur Tester.
Cliquez sur Enregistrer en tant que cas de test, puis choisissez une suite de tests.

Création d'un cas de test

Pour créer un seul cas de test, procédez comme suit :

Cliquez sur Accéder aux cas de test dans le testeur de variations.
Cliquez sur + Cas de test.
Remplissez la boîte de dialogue Nouveau cas de test :
- Si nécessaire, désactivez le cas de test.
- Saisissez la variation de test.
- Sélectionnez la suite de tests.
- Sélectionnez l'intention attendue. Si vous créez un cas de test pour des tests d'échec, sélectionnez unresolvedIntent.
- Pour les briques multilingues, sélectionnez la balise de langue et la langue attendue.
Cliquez sur Ajouter à la suite. Dans la page Cas de test, vous pouvez supprimer un cas de test ou modifier un cas de test, ce qui inclut la réaffectation du cas de test à une autre suite de tests.

description de l'illustration create-new-test-case-entity.png,
Pour tester les valeurs d'entité, procédez comme suit :
- Activez Entités test. Cliquez ensuite sur Continuer.
- Mettez en surbrillance le ou les mots, puis appliquez-lui un libellé d'entité en sélectionnant une entité dans la liste. Lorsque vous avez terminé, cliquez sur Ajouter à la suite.
  Remarque
  
  Sélectionnez toujours des mots ou des expressions dans la variation de cas de test après avoir activé les entités de test. Le cas de test échouera si vous avez activé les entités de test mais que vous n'avez mis en surbrillance aucun mot.
  
  Description de l'illustration new-test-case-entity-test-page.png

Import de cas de test pour les suites de tests de niveau brique

From the Test Cases page (accessed by clicking Go to Test Cases in the Utterance Tester), you can add test suites and their cases in bulk by uploading a CSV file that has the following fields:

testSuite : nom de la suite de tests à laquelle appartient le cas de test. Le champ testSuite de chaque ligne du fichier CSV peut avoir un nom de série de tests différent ou être vide.
- Les cas de test contenant des champs testSuite vides sont ajoutés à une suite de tests que vous sélectionnez lorsque vous importez le fichier CSV. Si vous ne sélectionnez pas de suite de tests, ils seront affectés à la suite de tests par défaut.
- Les cas de test avec des champs testSuite remplis sont affectés à la suite de tests que vous sélectionnez lorsque vous importez le fichier CSV uniquement lorsque le nom de la suite de tests sélectionnée correspond au nom du champ testSuite.
- Si une suite de tests portant le nom de celle indiquée dans le champ testSuite n'existe pas déjà, elle sera créée après l'import du fichier CSV.
utterance : exemple de variation (requis). Correspond à query dans les versions antérieures à la version 21.04 d'Oracle Digital Assistant.
expectedIntent : intention correspondante (requise). Ce champ est mis en correspondance avec TopIntent dans les versions antérieures à 21.04 d'Oracle Digital Assistant.

Conseil :
Importer les versions antérieures à la version 21.04 du fichier CSV indique comment reformater les fichiers CSV antérieurs à la version 21.04 afin de pouvoir les utiliser pour les tests en masse.
enabled : la valeur TRUE inclut le cas de test dans l'exécution de test. La valeur FALSE l'exclut.
languageTag : balise de langue (en, par exemple). En l'absence de valeur, la langue détectée à partir des paramètres de langue de la brique est utilisée par défaut.
expectedLanguageTag (facultatif) : pour les briques multilingues, il s'agit de la balise de langue de la langue que le modèle doit utiliser lors de la résolution de la variation de test en intention. Pour que le scénario de test réussisse, cette balise doit correspondre à la langue détectée.
expectedEntities : entités correspondantes dans la variation de cas de test, représentées sous forme de tableau d'objets entityName. Chaque élément entityName identifie la position de la valeur d'entité dans la variation à l'aide des propriétés beginOffset et endOffset. Ce décalage est déterminé par le caractère, et non par le mot, et est calculé à partir du premier caractère de la variation (0-1). Par exemple, l'objet entityName pour la valeur d'entité PizzaSize "petit" dans Je veux commander une petite pizza est :
```
[{"entityName":"PizzaSize","beginOffset":18,"endOffset":23,"originalString":"small"}, …]
```

Description de la capture d'écran utterance-test-case-csv-example.png

Description de l'illustration variations-test-case-csv-example.png

Pour importer ce fichier CSV :

Cliquez sur Plus, puis sélectionnez Importer.
Recherchez et sélectionnez le format CSV.
Choisissez la suite de tests. Le cas de test ne peut être affecté à la suite de tests sélectionnée que si le champ testSuite est vide ou correspond au nom de la suite de tests sélectionnée.
Cliquez sur Télécharger.

Import des versions antérieures à la version 21.04 du fichier CSV

Les cas de test importés via les versions antérieures à la version 21.04 des fichiers CSV, qui contiennent les champs query et TopIntent, sont ajoutés à la suite de tests par défaut uniquement. Vous pouvez réaffecter ces cas de test à d'autres suites de tests individuellement en les modifiant après l'import du fichier CSV, ou vous pouvez mettre à jour le fichier CSV au format actuel, puis le modifier avant de l'importer comme suit :

Cliquez sur Plus > Importer.
Une fois l'import terminé, sélectionnez Suite de tests par défaut, puis cliquez sur Plus > Exporter la suite sélectionnée. Le fichier exporté sera converti au format actuel.
Extrayez le fichier ZIP et modifiez le fichier CSV. Lorsque vous avez terminé, importez à nouveau le fichier CSV (Plus > Importer). Il se peut que vous deviez supprimer les cas de test en double de la suite d'essais par défaut.
Remarque

Si vous téléchargez vers le serveur le même fichiers CSV plusieurs fois avec les modifications mineures, toutes les données nouvelles ou mise à jour seront fusionnées avec les anciennes : de nouvelles mises à jour seront appliquées et de nouvelles lignes seront insérées. Vous ne pouvez toutefois supprimer aucune variation en téléchargeant un nouveau fichier CSV. Si vous devez supprimer des variations, vous devez les supprimer manuellement de l'interface utilisateur.

Création d'exécutions de test

Les tests sont une compilation de cas de test ou de suites de tests visant à évaluer certains aspects de la cognition de la brique. Le contenu (et le volume) d'une exécution de test dépend de la capacité que vous souhaitez tester. Par conséquent, une exécution de test peut inclure un sous-ensemble de cas de test d'une suite de tests, d'une suite de tests complète ou de plusieurs suites de tests.

Les cas de test inclus dans une exécution de test sont évalués par rapport au seuil de confiance défini pour la brique. Pour qu'un cas de test réussisse dans l'exécution de test globale, il doit se résoudre à l'intention attendue au seuil de confiance ou au-delà. Si spécifié, le scénario de test doit également satisfaire la valeur d'entité et les critères de correspondance de langue. En examinant les résultats de l'exécution de test, vous pouvez déterminer si les modifications apportées à la plate-forme ou à la brique en elle-même ont compromis la précision de la résolution d'intention.

En plus de tester le modèle, vous pouvez également utiliser les résultats du test pour évaluer la fiabilité de vos tests. Par exemple, des résultats montrant que la quasi-totalité des cas de test sont passés peuvent, à la surface, indiquer un fonctionnement optimal du modèle. Cependant, un examen des cas de test réussis peut révéler que les cas de test ne reflètent pas l'entraînement actuel parce que leurs variations sont trop simples ou ont un chevauchement significatif en termes de concepts et de verbiage pour lesquels ils testent. En revanche, un nombre élevé de tests ayant échoué peut indiquer des lacunes dans les données d'entraînement, mais un examen de ces cas de test peut révéler que leurs variations sont associées aux intentions attendues erronées.

Pour créer une exécution de test, procédez comme suit :

Cliquez sur Tout exécuter afin de créer une exécution de test pour tous les cas de test d'une suite de tests sélectionnée. (Si vous voulez exécuter toutes les suites de tests, sélectionnez Tout, puis cliquez sur Tout exécuter.)

Description de l'image test-cases-all-run-all.png
- Afin de créer une exécution de test pour une sélection de cas de test au sein d'une suite (ou une exécution de test pour un sous-ensemble des cas de test si vous avez sélectionné Tout), filtrez les cas de test en ajoutant une chaîne correspondant au texte de variation et à l'intention attendue. Sélectionnez les variations, puis cliquez sur Exécuter.
  
  Description de l'image test-cases-filtered.png
- Pour exclure la suite de tests de l'exécution de test, sélectionnez d'abord la suite de tests, ouvrez l'onglet Général, puis désactivez Activer la suite de tests.
  
  Description de l'illustration test-runs-disable-test-suite.png et
- Pour la briques multilingue, vous pouvez également filtrer le cas par balise de langage et par options langue attendue (options accessibles via Attributs facultatives).
  
  Description de l'image test-cases-optional-attributes.png
Saisissez un nom d'exécution de test qui reflète l'objet du test. Cette étape est facultative.
Cliquez sur Démarrer

description de l'illustration new-test-run-dialog.png,
Cliquez sur Résultats de test, puis sélectionnez l'exécution de test.

Conseil :
Les exécutions de test qui contiennent un grand nombre de cas de test peuvent prendre plusieurs minutes. Pour ces exécutions de test volumineuses, vous devrez peut-être cliquer régulièrement sur Actualiser jusqu'à la fin du test. Un pourcentage remplace le statut En cours pour la mesure Précision et le rapport Intentions s'affiche une fois que tous les cas de test ont été évalués.

Description de l'image test-cases-testing-progress.png
Consultez les états de test. Par exemple, vérifiez d'abord les mesures de haut niveau pour l'exécution de test fournie par le rapport de présentation. Ensuite, validez les résultats de test par rapport aux cas de test réels en filtrant le rapport Cas de test, qui répertorie tous les cas de test inclus dans l'exécution de test, pour les cas de test réussis et en échec. Vous pouvez ensuite examiner les résultats de chaque cas de test. Vous pouvez également comparer le score de précision du rapport Aperçu au score de précision du rapport Intentions, qui mesure la capacité du modèle à prévoir les intentions correctes. Pour consulter les cas de test répertoriés dans ce rapport, ouvrez le rapport Cas de test et filtrez par intentions.

Etat récapitulatif des exécutions de test

Le rapport Summary fournit une évaluation globale de la manière dont le modèle peut gérer le type d'entrée utilisateur couvert par le test. Pour les suites de tests incluses dans l'exécution de test, il indique le nombre total de cas de test qui ont été utilisés pour évaluer le modèle et, à partir de ce total, le nombre de cas de test (à la fois fiables et non fiables) qui ont échoué, ainsi que le nombre de cas de test fiables et peu fiables qui ont réussi. La précision globale du modèle, sa capacité à prévoir les intentions attendues au niveau de confiance de la brique ou au-dessus, à reconnaître les valeurs d'entité et à résoudre les variations dans la langue de la brique, est mesurée par le taux de réussite des tests dans l'exécution du test.
Description de l'image test-run-test-results-summary.png
Description de l'illustration test-run-test-results-summary.png

Métriques du rapport récapitulatif

Le rapport de synthèse inclut les mesures suivantes :

Exactitude : précision du modèle en termes de taux de réussite des cas de test de réussite (nombre de cas de test de réussite par rapport au nombre total de cas de test inclus dans l'exécution de test).
Remarque

Les cas de test désactivés ne sont pas pris en compte dans le score de précision. Les tests n'ont pas non plus échoué en raison d'erreurs. Tout test ayant échoué est ajouté au nombre d'échecs.

Un faible score de précision peut indiquer que l'exécution du test évalue le modèle sur des concepts et des langages qui ne sont pas correctement pris en charge par les données d'entraînement. Pour augmenter le score de précision, réentraînez le modèle avec des variations qui reflètent les cas de test lors de l'exécution du test.

Cette mesure de précision s'applique à l'ensemble du test et fournit un score distinct de celui de la mesure de précision dans le rapport Intentions. Cette métrique représente le pourcentage de cas de test dans lesquels le modèle a satisfait à tous les critères de cas de test. En revanche, le score de précision du rapport Intentions n'est pas un test de bout en bout. Il s'agit du pourcentage de cas de test où le modèle n'a dû prédire que l'intention attendue à ou au-dessus du seuil de confiance de la brique. D'autres critères de cas de test (tels que la valeur d'énité ou la langue de compétence) ne sont pas pris en compte. Compte tenu des critères différents de ce qu'un cas de test de réussite signifie pour ces deux rapports, leurs scores de précision respectifs peuvent ne pas toujours être à l'étape. Le score de précision de la correspondance d'intention peut être supérieur au score global de l'exécution d'examen lorsque les données d'examen ne sont pas alignées sur les données d'entraînement. Le nouvel entraînement du modèle avec des variations qui prennent en charge les cas de test lui permettra de prévoir les intentions attendues avec une plus grande confiance qui, à son tour, augmentera le score de précision pour l'exécution du test.

Remarque

La mesure Précision n'est pas disponible tant que l'exécution de test n'est pas terminée et n'est pas disponible pour les exécutions de test qui ont été terminées lorsque la brique a été exécutée sur les versions antérieures à la version 22.12 de la plate-forme Oracle Digital Assistant.
Cas de test – Nombre total de cas de test (à la fois fiables et non fiables) inclus dans le test. Les cas de test ignorés sont inclus dans ce décompte, mais ils ne sont pas pris en compte lors du calcul de la mesure Précision.
Réussite : nombre de cas de test (à la fois fiables et peu fiables) qui ont réussi en résolvant l'intention au seuil de confiance et en mettant en correspondance les valeurs d'entité ou la langue sélectionnée.
Echec : nombre de cas de test (bots fiables et peu fiables) qui n'ont pas réussi à atteindre l'intention attendue au seuil de confiance et qui n'ont pas réussi à correspondre aux valeurs d'entité ou à la langue sélectionnées.
Pour vérifier les cas de test réels derrière les mesures Réussite et Echec dans ce rapport, ouvrez le rapport Cas de test, puis appliquez les filtres Réussite ou Echec correspondants.

Description de l'illustration test-runs-intent-report.png

Ventilation de la suite de tests

Le tableau Répartition des séries de tests répertorie les séries de tests incluses dans le test et leurs statistiques individuelles. Vous pouvez vérifier les cas de test réels appartenant à une suite de tests en cliquant sur le lien dans la colonne Suite de tests.
Description de l'image test-suite-breakdown.png
Description de l'illustration test-suite-breakdown.png

Rapport Intentions

Les mesures de ce rapport assurent le suivi des correspondances de libellé du modèle tout au long des cas de test de l'exécution de test. C'est là que le modèle prédit correctement l'intention attendue pour la variation de scénario de test. Dans le contexte de ce rapport, la précision, la réussite et l'échec sont mesurés en fonction des cas de test où le modèle a prédit l'intention attendue correcte au seuil de confiance ou au-delà. Les autres critères pris en compte dans le rapport récapitulatif, tels que les correspondances de valeurs d'entité ou la langue de la brique, ne sont pas pris en compte. Par conséquent, ce rapport fournit une vue différente de la précision du modèle, qui vous aide à vérifier si l'entraînement en cours permet au modèle de prévoir de manière cohérente les intentions correctes.

Ce rapport fournit des mesures de correspondance d'étiquettes (ou de correspondance d'intention) pour l'exécution de test à deux niveaux : l'un regroupe les résultats de l'exécution de test et l'autre sépare ces résultats par intention.

Remarque

Ce rapport n'est pas disponible pour les exécutions de test terminées lorsque la brique a été exécutée sur une version antérieure à la version 22.12 de la plate-forme Oracle Digital Assistant.

Description de l'image unfiltered-intents-report-all-tests.png

Métriques du rapport des intentions

Les résultats globaux de la mise en correspondance des intentions sont les suivants :

Cas de test – Nombre de cas de test inclus dans cette exécution de test. Ce total comprend des cas de test fiables et peu fiables. Les cas de test ignorés ne sont pas inclus dans ce décompte.

Conseil :
Les liens de cas de test non fiables pour les scénarios de test, les mesures Succès et Echec ouvrent le rapport Cas de test filtré par des cas de test non fiables. Cette navigation n'est pas disponible lorsque vous filtrez le rapport par suite de tests.
Exactitude : précision du modèle dans la mise en correspondance de l'intention attendue au niveau ou au-dessus du seuil de confiance de la brique dans les cas de test de cette exécution de test. La sous-métrique Correspondance de libellés représente le pourcentage de cas de test dans l'exécution de test où le modèle a correctement prédit l'intention attendue, quel que soit le score de confiance. Etant donné que les facteurs de correspondance d'étiquettes dans les cas de test en échec et les cas de test réussis, leur score peut être supérieur au score de précision.
Vous pouvez comparer cette métrique Précision avec la métrique Précision du rapport Récapitulatif. Lorsque le score de précision dans le rapport de résumé est faible, vous pouvez utiliser ce rapport pour déterminer rapidement si les échecs du modèle peuvent être attribués à son incapacité à prévoir l'intention attendue. Toutefois, lorsque le score de précision de cet état est élevé, vous pouvez exclure la mise en correspondance des libellés en tant que racine du problème et, au lieu d'avoir à réviser fortement les données d'entraînement pour augmenter le score de précision de l'exécution du test, vous pouvez vous concentrer sur l'ajout de variations qui reflètent les concepts et la langue dans les variations de cas de test.

Description de l'image compare-accuracy-scores.png
Réussite : nombre de cas de test (fiables et peu fiables) dans lesquels le modèle a prédit l'intention attendue au seuil de confiance de la brique.
Echec : nombre de cas de test (fiables et peu fiables) dans lesquels le modèle a prédit l'intention attendue en dessous du seuil de confiance de la brique.
Réussite de confiance : moyenne des scores de confiance pour tous les cas de test qui ont réussi dans cette exécution de test.
Echec de confiance : moyenne des scores de confiance pour tous les cas de test qui ont échoué lors de cette exécution de test.

Remarque

Lorsque vous filtrez le rapport Intentions par suite de tests, l'accès au rapport Cas de test à partir des liens de cas de test non fiables dans les vignettes Cas de test, Réussite et Echec n'est pas disponible. Ces liens sont à nouveau actifs lorsque vous supprimez toutes les entrées du champ Filtrer par série de tests.

Filtrer par suite de tests

Les résultats par défaut du rapport Intentions reflètent toutes les suites de tests incluses dans l'exécution du test. De même, ses mesures sont basées sur tous les cas de test activés qui appartiennent à ces suites de tests. Si vous souhaitez ventiler les performances d'une suite de tests (et créer essentiellement une comparaison avec la table Ventilation de la suite de tests du rapport de synthèse), vous n'avez pas besoin de créer d'exécutions de test supplémentaires. A la place, vous pouvez isoler les résultats de la suite de tests (ou des suites de tests) en question à l'aide du champ Filtrer par suite de tests. Vous pouvez ajouter une ou plusieurs suites de tests à ce champ.

Le rapport ajuste les mesures pour chaque série de tests que vous ajoutez (ou supprimez par la suite). Il tabule les résultats de la mise en correspondance des intentions en fonction du nombre de cas de test activés qui appartiennent à la suite de tests sélectionnée.

Remarque

Vous ne pouvez pas filtrer par suites de tests exécutées sur une plate-forme antérieure à la version 23.06. Pour inclure ces suites de tests, vous devez les exécuter à nouveau après la mise à niveau vers la version 23.06 ou supérieure.

Description de l'image filters-intents-report-all-tests.png

Description de l'illustration Filter-intents-report-all-tests.png

Remarque

Le filtrage par série de tests désactive la navigation vers le rapport Cas de test à partir des liens Cas de test non fiables dans les vignettes Cas de test, Réussite et Echec. Les liens de la colonne Total de la ventilation des intentions sont également désactivés. Tous ces liens redeviennent actifs une fois que vous avez supprimé toutes les entrées du champ Filtrer par suite de tests.

Ventilation des intentions

Le tableau Ventilation des intentions du rapport fournit les mesures de niveau supérieur suivantes pour les intentions attendues nommées dans les cas de test de l'exécution de test. Vous pouvez affiner le focus en sélectionnant les noms de ces intentions dans le champ Filtrer par intentions.

Remarque

Le champ Filtrer par intention modifie la vue de la table de ventilation des intentions mais ne modifie pas les mesures globales du rapport. Ces métriques reflètent les entrées (ou le manque d'entrées) dans le champ Filtrer par série de tests.

Intention : nom de l'intention attendue.
Total : nombre de cas de test, représenté sous forme de lien, pour l'intention attendue. Vous pouvez accéder au rapport Cas de test en cliquant sur ce lien.
Remarque

Vous ne pouvez pas accéder au rapport Cas de test lorsque vous avez appliqué un filtre de suite de tests à ce rapport. Ce lien redevient actif lorsque vous supprimez toutes les entrées du champ Filtrer par série de tests.
Exactitude : pourcentage de cas de test ayant entraîné des correspondances d'étiquettes pour l'intention attendue au niveau ou au-dessus du seuil de confiance de la brique.
Réussite : nombre de cas de test (y compris les cas de test non fiables) dans lesquels le modèle a prédit l'intention attendue au seuil de confiance de la brique ou au-delà.
Réussi - Non fiable : nombre de cas de test dans lesquels le modèle a prédit l'intention attendue à 5 % ou moins au-dessus du seuil de confiance de la brique.
Echec : nombre de cas de test de l'exécution de test qui ont échoué car le modèle a prédit l'intention attendue en dessous du seuil de confiance de la brique.
Echec - Non fiable : nombre de cas de test ayant échoué car la confiance du modèle dans la prévision de l'intention attendue est tombée de 5 % en dessous du seuil de confiance de la brique. Ces cas de test peuvent prendre en compte
Correspondance de libellé : nombre de cas de test dans lesquels le modèle a prédit l'intention attendue, quel que soit le niveau de confiance. Etant donné qu'il prend en compte les cas d'échec, les scores de correspondance d'étiquettes et de précision peuvent ne pas toujours être en phase les uns avec les autres. Par exemple, quatre cas de test réussis sur cinq donnent un score de précision de 80 % pour l'intention. Toutefois, si le modèle prédisait correctement l'intention pour le cas de test défaillant, la correspondance d'étiquettes dépasserait la précision de 20 %.
Réussite de confiance : moyenne des scores de confiance pour tous les cas de test correspondant à l'intention attendue.
Echec de confiance : moyenne des scores de confiance pour tous les cas de test qui n'ont pas réussi à correspondre à l'intention attendue.

Conseil :
Pour vérifier les cas de test réels, ouvrez le rapport Cas de test et le filtre en fonction de l'intention.

Description de l'image test-run-compare-intents-test-cases.png

Etat Cas de test

Cet état répertorie tous les cas de test inclus dans l'exécution de test.

Une fois les résultats filtrés, vous pouvez les filtrer en cliquant sur Tout, Réussi (vert) ou Echec (rouge). Les cas de test comptabilisés comme ignorés incluent les cas de test désactivés et ceux pour lesquels l'intention attendue a été désactivée.

Description de l'illustration filter-test-run-results-passed.png

Vous pouvez filtrer les résultats par cas de test non fiables en cliquant sur Afficher les cas non fiables dans le message d'avertissement ou en sélectionnant le filtre Uniquement les cas non fiables.
Si nécessaire, filtrez les résultats pour une intention ou une entité spécifique ou par des cas de test fiables ou peu fiables.
Pour les cas de test peu fiables et en échec, cliquez sur Afficher les variations similaires (situé sur la page Infos de test) pour déterminer si la variation de cas de test présente une quelconque similitude avec les variations du jeu d'entraînement.
Vérifiez les résultats suivants :
- Informations de test : présente l'aperçu du cas de test, notamment le seuil de confiance cible, l'intention attendue et les valeurs d'entité mises en correspondance.
- Résultat du test : classement de l'intention par niveau de confiance. Le cas échéant, le rapport identifie également les entités contenues dans la variation par nom et par valeur d'entité. Vous pouvez également visualiser l'objet JSON contenant l'intégralité des résultats.
- Analyse des échecs : explique pourquoi le cas de test a échoué. Par exemple, l'intention réelle n'est pas l'intention attendue, la valeur d'entité étiquetée dans le cas de test ne correspond pas à l'entité résolue ou la langue attendue n'est pas la même que la langue détectée.

Cas de test peu fiables

Certains cas de test ne peuvent pas fournir de résultats cohérents car ils se résolvent à moins de 5 % du seuil de confiance. Cette marge étroite rend ces cas de test peu fiables. Lorsque le seuil de confiance de la brique est défini sur 0,7, par exemple, un cas de test qui réussit à 74 % peut échouer une fois que vous avez apporté des modifications mineures à vos données d'entraînement ou parce que la brique a été mise à niveau vers une nouvelle version du modèle. La fragilité de ces cas de test peut indiquer que les variations qu'ils représentent dans les données d'entraînement peuvent être trop peu nombreuses et que vous devrez peut-être équilibrer les données d'entraînement de l'intention avec des variations similaires.

Pour localiser les cas de test non fiables :

Exécutez la suite de tests. Cliquez ensuite sur Résultats du test, puis sélectionnez l'exécution de test. Les cas de test non fiables sont triés au début des résultats de l'exécution de test et signalés par des avertissements.

Description de l'image non fiable-test-cases-test-run.png
Pour isoler les cas de test peu fiables :
- Cliquez sur Afficher les cas non fiables dans le message.
- Sélectionnez Dossiers non fiables uniquement dans le menu Filtrer par dossier.
Pour déterminer la proximité de l'intention de premier rang du cas de test avec le seuil de confiance, ouvrez la fenêtre Résultat du test. Pour comparer le score de confiance de premier rang au seuil de confiance, cliquez sur .

Description de l'illustration Unliable-Test-Case-Click-icon.png
Si vous devez compléter les données d'entraînement pour l'intention de premier rang, cliquez sur Aller à l'intention de premier rang dans le message d'avertissement.
Pour déterminer la quantité de variations représentées par le scénario de test dans les données d'entraînement, cliquez sur Afficher les variations similaires.

Description de l'illustration Unliable-test-case-view-similar-utterances.png

Vous pouvez également vérifier si l'une des variations les plus similaires à la variation de cas de test est également une anomalie dans le jeu d'entraînement en exécutant le rapport sur les anomalies.

Exécutions de test exportées

Les exécutions de test ne sont pas conservées avec la brique, mais vous pouvez les télécharger sur votre système pour analyse en cliquant sur Exporter l'exécution de test. Si les intentions ne résolvent plus la saisie utilisateur comme prévu ou si les modifications de la plate-forme ont un impact négatif sur la résolution d'intention, vous pouvez collecter les détails d'une demande de service à l'aide des journaux des exécutions de test exportées.

Test d'échec

Le test d'échec (ou négatif) permet de tester de manière globale les variations qui ne doivent jamais être résolues, soit parce qu'elles aboutissent à unresolvedIntent, soit parce qu'elles sont résolues uniquement sur d' autres intentions en dessous du seuil de fiabilité pour toutes les intentions.

Pour effectuer un test d'échec, procédez comme suit :

Indiquez unresolvedIntent comme intention attendue pour tous les cas de test que vous prévoyez de ne pas résoudre. Idéalement, ces "fausses" expressions ne seront pas résolues.

description de l'illustration new-test-case-utterance-unresolved.png,
Si nécessaire, ajustez le Seuil de Confiance lors de l'exécution d'un test pour confirmer que les fausses expressions (celles avec unresolvedIntent comme intention attendue) ne peuvent être résolues qu'en dessous de La valeur que vous définissez ici. Par exemple, l'augmentation du seuil peut entraîner l'échec de la résolution des fausses expressions au niveau de confiance en n'importe quelle intention (y compris unresolvedIntent), ce qui signifie qu'elles réussissent le test car elles sont considérées comme non résolues.
Examinez les résultats du test, en vérifiant que les cas de test sont mis en correspondance avec unresolvedIntent au seuil ou qu'elles ne sont mises en correspondance avec aucune intention (unresolvedIntent ou autre) au seuil.

Variations similaires

Pour découvrir à quel point votre expression de test est similaire aux variations du corpus d'entraînement, cliquez sur Afficher les variations similaires. Cet outil fournit une perspective supplémentaire sur les données d'entraînement de la brique en vous montrant à quel point ses variations sont similaires à l'expression de test et, par extension, à quel point les variations sont similaires les unes aux autres sur les intentions. Cet outil vous permet de déterminer si la similarité de l'expression de test avec les variations appartenant à d'autres intentions est la raison pour laquelle l'expression de test ne se résout pas comme prévu. Il peut même indiquer où les données d'entraînement appartiennent à la mauvaise intention car elles sont similaires à l'expression de test.
Description de l'image similar-utterance-report-all-intents.png ci-après
Description de l'illustration similar-utterance-report-all-intents.png

La liste générée par cet outil classe les 20 variations (ainsi que les intentions associées) les plus proches de l'expression de test. Idéalement, la variation de premier rang de cette liste – celle qui ressemble le plus à la phrase de test – appartient à l'intention ciblée pour la phrase de test. Si la variation la plus proche qui appartient à l'intention attendue est plus bas, un examen de la liste peut fournir quelques conseils sur la raison. Par exemple, si vous testez une variation d'intention Transactions, combien d'argent ai-je transféré hier ?, vous devez vous attendre à ce que la variation de premier rang appartienne également à une intention Transactions. Toutefois, si cette variation de test est résolue en intention erronée ou en dessous du niveau de confiance, la liste peut révéler qu'elle a plus en commun avec les variations hautement classées avec un libellé similaire appartenant à d'autres intentions. Par exemple, la variation de test de l'intention Soldes Combien d'argent ai-je sur tous mes comptes ? peut être plus proche de la variation de test que la variation de rang inférieur de l'intention Transactions Combien ai-je déposé en avril ?.

Vous pouvez accéder à la liste, qui est générée pour les briques formées sur le entraîneur Tm, en cliquant sur Afficher les variations similaires dans le testeur de variations ou à partir du rapport Cas de test.

Description de l'image similar-utterances-tester.png

Remarque

Vous ne pouvez utiliser cet outil que pour les compétences formées sur l'entraîneur Tm (il n'est pas disponible pour les compétences formées avec Ht).

Vous pouvez interroger les variations à partir du testeur de variations et par le biais de tests dans l'outil View Similar Utterances lui-même. Lorsque vous cliquez sur Afficher les variations similaires, l'ensemble du corpus est comparé à l'expression de test et un classement est appliqué à chaque variation. Etant donné qu'aucun filtre n'est appliqué par défaut, la liste inclut uniquement les 20 variations les mieux classées et les numérote de manière séquentielle. Pour savoir comment les variations sont classées 21 et supérieures par rapport, vous devez utiliser les filtres. En appliquant les filtres suivants, vous pouvez apprendre la proximité de variations similaires dans le classement en termes de langue, d'intentions auxquelles elles appartiennent ou de mots ou d'expressions qu'elles ont en commun.

Filtrer par intention : renvoie 20 variations les plus proches de la variation de test qui appartiennent à l'intention (ou aux intentions) sélectionnée(s).

Description de l'illustration similar-utterance-report-filter-intent.png
Filtrer par variation : renvoie 20 des variations les plus proches de la variation de test qui contiennent un mot ou une expression.

Description de l'illustration similar-utterance-report-filter-utterance.png
Langue : pour les compétences multilingues, vous pouvez interroger et filtrer le rapport en sélectionnant une langue.

Description de l'illustration similar-utterance-report-filter-language.png

Remarque

L'application de ces filtres ne modifie pas les classements, mais uniquement la vue. Une variation classée troisième, par exemple, sera notée en tant que telle quel quel que soit le filtre. Les classements et le contenu du rapport ne changent que lorsque vous avez mis à jour le corpus et entraîné à nouveau la brique avec l'entraîneur Tm.

Documentation Oracle Cloud Infrastructure