Entraînement et test des intentions

L'entraînement d'un modèle à l'aide d'un corpus d'entraînement permet à votre bot de comprendre ce que les utilisateurs disent (ou essaient de dire dans certains cas).

Vous pouvez améliorer la précision de la capacité cognitive à l'aide de cycles de test et d'entraînement des intentions. Vous contrôlez l'entraînement uniquement par le biais des définitions d'intention. La brique ne peut pas apprendre en autonomie à partir de la discussion de l'utilisateur.

Test des variations

Nous vous recommandons de réserver 20 % de votre corpus au test d'intention et d'utiliser les 80 % restants pour entraîner vos intentions. Maintenez ces deux ensembles séparés afin que les variations de test, que vous incorporez dans les cas de test, restent "inconnues" pour votre brique.

Appliquez la répartition 80/20 à l'ensemble de données de chaque intention. Rangez les variations dans un ordre aléatoire avant d'effectuer le fractionnement afin de permettre aux modèles d'entraînement d'affecter la même pondération aux termes et aux modèles des variations.

Testeur de variations

Le testeur de variations permet d'accéder à la capacité cognitive de votre brique. En saisissant des expressions qui ne font pas partie du corpus d'entraînement, vous pouvez déterminer la qualité de vos intentions en consultant le classement du niveau de confiance des intentions et l'objet JSON renvoyé. Ce classement, qui donne une estimation du candidat le plus à même de résoudre la saisie utilisateur, illustre la précision du corpus d'entraînement en cours.
Description de l'exemple suivant : variation-tester-quick-test.png
Description de l'image variation-tester-quick-test.png

A l'aide du testeur de variations, vous pouvez effectuer des tests rapides pour des tests ponctuels, ou intégrer une variation en tant que cas de test pour évaluer la résolution d'intention entre les différentes versions des modèles d'entraînement.

Tests rapides

Pour déterminer si vos intentions fonctionnent bien, procédez comme suit :

Cliquez sur Tester les variations (à gauche).
Si votre brique prend en charge plusieurs langues natives, choisissez la langue de test. Si vous activez cette option, la variation est ajoutée à la version de langue correspondante du corpus. La langue principale de la brique est sélectionnée par défaut.
Entrez une chaîne de texte.
Cliquez sur Tester, puis examinez le classement et les entités détectées dans la variation (le cas échéant).
Examinez les scores de confiance des intentions. (La barre de progression de chaque intention répertoriée est verte si elle atteint ou dépasse le niveau de confiance, ou rouge si elle est en dessous).
Si le candidat principal de la brique n'est pas celui auquel vous vous attendiez, vous devrez peut-être réentraîner les intentions après avoir effectué l'une des actions suivantes ou les deux :
- Mettez à jour le corpus du meilleur candidat avec le texte d'entrée que vous venez de saisir en sélectionnant l'intention appropriée et en cliquant sur Ajouter à l'intention.
  
  Attention :
  Pensez à l'impact de l'ajout d'une nouvelle expression de test sur les données d'entraînement. L'ajout d'une expression de test peut modifier le classement des variations similaires après le réentraînement. En outre, l'ajout d'une expression de test invalide le test, car l'incorporation d'une expression de test dans l'ensemble d'entraînement garantit le succès du test. Au lieu d'ajouter une expression de test aux données d'entraînement, vous devez l'enregistrer en tant que cas de test.
- Sur la page Intentions, vous pouvez modifier une variation en cliquant sur Modifier () ou l'enlever. Par exemple, une intention de FAQ peut arriver en tête de classement en raison de la portée et de la formulation des variations qui la composent. Si vous ne voulez pas que vos utilisateurs obtiennent une foire aux questions chaque fois qu'ils posent des questions fréquentes, vous devrez réviser le corpus.
Vous devez réentraîner une intention chaque fois que vous ajoutez, modifiez ou supprimez une variation. La mention Entraînement nécessaire apparaît chaque fois que vous apportez une modification aux données d'entraînement.
Si vos intentions ne sont pas résolues comme prévu, vous pouvez développer la fenêtre JSON pour examiner les intentions mises en correspondance, les scores et les entités détectées dans l'objet JSON renvoyé.
Cliquez sur Réinitialiser.

Cas de test

Chaque test comporte une variation et l'intention vers laquelle il est censé se résoudre, ce qui est connu sous le nom de correspondance de libellé. Un cas de test peut également inclure des valeurs d'entité correspondantes et la langue attendue pour la variation. Vous pouvez exécuter des cas de test lorsque vous développez une brique et, plus tard, lorsque la brique est en production, vous pouvez utiliser les cas de test pour les tests de régression. Dans ce dernier cas, vous pouvez exécuter des cas de test pour déterminer si une nouvelle version du modèle d'entraînement a dégradé la résolution d'intention.

A l'instar des cas de test que vous créez avec le testeur de conversation, les cas de test de variation font partie de la brique et sont conservés à chaque nouvelle version. Si vous étendez une brique, l'extension hérite des cas de test. Alors que les cas de test de conversation sont destinés à tester un scénario, les cas de test de variation sont destinés à tester des fragments de conversation indépendamment, en veillant à ce que chaque variation soit résolue en intention correcte.

Gestion des cas de test

La page Cas de test, accessible en cliquant sur Accéder aux cas de test dans le testeur de variations, répertorie les suites de tests et les cas de test qui leur appartiennent. Les suites de tests peuvent être celles que vous avez créées ou héritées d'une brique que vous avez étendue ou clonée. Outre la modification, l'ajout et la suppression de cas de test, vous utilisez cette page pour compiler des cas de test dans des exécutions de test.

Description de l'image test-suites-page.png

Par défaut, l'option Tout est sélectionnée, qui affiche chaque cas de test. Si vous souhaitez restreindre l'affichage aux seuls cas de test appartenant à une seule suite de tests, vous pouvez sélectionner la suite de tests dans la liste des suites de tests ou filtrer cette liste en utilisant une correspondance complète ou partielle du nom de la suite de tests. La vue de la suite de tests vous permet de gérer les cas de test des membres de la suite à partir de son onglet Cas de test.

Description de l'image test-suite-test-cases-view.png

Dans son onglet Général, vous pouvez, en plus de mettre à jour le nom et la description de la suite de tests, exclure la suite de tests d'une exécution de test en désactivant Activer la suite de tests. En désactivant l'option Inclure dans l'export de brique, vous pouvez empêcher la suite de tests d'être incluse dans le dossier nluTestSuites qui héberge les suites de tests de la brique lors de l'export de la brique.

Description de l'image test-suite-test-general-view.png

Créer des suites de tests

Tous les cas de test appartiennent à une suite de tests. Nous en fournissons un pour vous appelé Suite de tests par défaut, mais vous voudrez peut-être partitionner vos tests en créant vos propres suites de tests. Vous pouvez créer des suites de tests manuellement ou en important un fichier CSV. Pour créer une suite de tests manuellement :

Cliquez sur + Suite de test.
Dans l'onglet Général, remplacez le nom de l'espace réservé (TestSuite0001, par exemple) par un nom plus explicite en ajoutant une valeur dans le champ Nom d'affichage.
Ajoutez éventuellement une description expliquant les fonctionnalités couvertes par la suite de tests.
Remplissez la suite de tests avec les cas de test à l'aide de l'une des méthodes suivantes (ou d'une combinaison de) :
- Ajouter manuellement des cas de test (en créant un cas de test ou en enregistrant une variation en tant que cas de test à partir du testeur de variations).
- Import de cas de test.
  Remarque
  
  Pour affecter un cas de test à une suite de tests via l'import, le champ testSuite du fichier CSV peut être vide ou doit contenir un nom correspondant à la suite de tests sélectionnée dans la boîte de dialogue d'import.
- Modification d'un cas de test pour réaffecter sa suite de tests.
Si vous voulez exclure la suite de tests des exécutions de test lancées à l'aide des options Tout et Tout exécuter, désactivez l'option Activer la suite de tests.
Si vous ne souhaitez pas que la suite de tests soit incluse dans l'export de brique, désactivez l'option Inclure dans l'export de brique. Lorsque vous désactivez cette option pour une suite de tests, elle ne sera pas incluse dans le dossier nluTestSuites qui héberge les suites de tests de la brique dans le fichier ZIP exporté.

Création de cas de test de variation

Vous pouvez ajouter des cas de test un par un à l'aide du testeur de variations ou de la boîte de dialogue Nouveau cas de test (accessible en cliquant sur + Cas de test), ou vous pouvez les ajouter en masse en téléchargeant un fichier CSV.

Chaque cas de test doit appartenir à une suite de tests. Par conséquent, avant de créer un cas de test, vous pouvez créer une suite de tests qui reflète une capacité de la brique ou certains aspects des tests d'intention, tels que les tests d'échec, les tests dans le domaine ou les tests hors domaine.

Nous fournissons une suite appelée Suite de tests par défaut. Vous pouvez affecter des cas de test à cette suite de tests si vous n'en avez pas encore créé d'autres. Par la suite, vous pourrez modifier le cas de test pour le réaffecter à une nouvelle suite de tests.

Conseil :

Pour fournir une couverture adéquate dans vos tests, créez des variations de suite de tests qui sont non seulement variées sur le plan conceptuel, mais aussi grammaticalement, car les utilisateurs ne feront pas de demandes de manière uniforme. Vous pouvez ajouter ces dimensions en créant des suites de tests à partir d'un message utilisateur réel qui a fait l'objet d'une requête dans le réentraînement des informations, ainsi qu'à partir d'entrées provenant de sources multiples collectées à partir de la fabrication de données.

Ajout de cas de test à partir du testeur de variations

Outre l'ajout de variations au corpus d'entraînement, vous pouvez utiliser la page Test rapide pour créer un cas de test :

Cliquez sur Tester les variations.
Si la brique est multilingue, sélectionnez la langue native.
Saisissez la variation, puis cliquez sur Tester.
Cliquez sur Enregistrer en tant que cas de test, puis choisissez une suite de tests.

Création d'un cas de test

Pour créer un seul cas de test, procédez comme suit :

Cliquez sur Accéder aux cas de test dans le testeur de variations.
Cliquez sur + Cas de test.
Remplissez la boîte de dialogue Nouveau cas de test :
- Si nécessaire, désactivez le cas de test.
- Saisissez la variation de test.
- Sélectionnez la suite de tests.
- Sélectionnez l'intention attendue. Si vous créez un cas de test pour des tests d'échec, sélectionnez unresolvedIntent.
- Pour les briques multilingues, sélectionnez la balise de langue et la langue attendue.
Cliquez sur Ajouter à la suite. Sur la page Cas de test, vous pouvez supprimer un cas de test ou le modifier, ce qui inclut la réaffectation du cas de test à une autre suite de tests.

Description de l'image create-new-test-case-with-entity.png
Pour tester les valeurs d'entité, procédez comme suit :
- Activez Tester les entités. Cliquez ensuite sur Continuer.
- Mettez en surbrillance le ou les mots, puis appliquez-lui un libellé d'entité en sélectionnant une entité dans la liste. Lorsque vous avez terminé, cliquez sur Ajouter à Suite.
  Remarque
  
  Sélectionnez toujours des mots ou des expressions dans la variation de cas de test après avoir activé les entités de test. Le cas de test échouera si vous avez activé les entités de test mais que vous n'avez mis aucun mot en surbrillance.
  
  Description de l'image new-test-case-entity-test-page.png

Import de cas de test pour les suites de tests de niveau brique

A partir de la page Cas de test (accessible en cliquant sur Accéder aux cas de test dans le testeur de variations), vous pouvez ajouter des suites de tests et leurs cas en masse en téléchargeant un fichier CSV qui contient les champs suivants :

testSuite : nom de la suite de tests à laquelle appartient le cas de test. Le champ testSuite de chaque ligne du fichier CSV peut avoir un nom de suite de tests différent ou être vide.
- Les cas de test avec des champs testSuite vides sont ajoutés à une suite de tests que vous sélectionnez lorsque vous importez le fichier CSV. Si vous ne sélectionnez pas de suite de tests, ils sont affectés à la suite de tests par défaut.
- Les cas de test avec des champs testSuite remplis sont affectés à la suite de tests que vous sélectionnez lorsque vous importez le fichier CSV uniquement lorsque le nom de la suite de tests sélectionnée correspond au nom du champ testSuite.
- Si une suite de tests portant le nom de celui indiqué dans le champ testSuite n'existe pas déjà, elle sera créée après l'import du fichier CSV.
utterance : exemple de variation (requis). Correspond à query dans les versions antérieures à la version 21.04 d'Oracle Digital Assistant.
expectedIntent : intention correspondante (requise). Ce champ est mis en correspondance avec TopIntent dans les versions antérieures à la version 21.04 d'Oracle Digital Assistant.

Conseil :
Le import des versions antérieures à la version 21.04 du fichier CSV vous indique comment reformater des fichiers CSV antérieurs à la version 21.04 afin de pouvoir les utiliser pour des tests en masse.
enabled : la valeur TRUE inclut le cas de test dans l'exécution de test. La valeur FALSE l'exclut.
languageTag : balise de langue (en, par exemple). En l'absence de valeur, la langue détectée dans les paramètres de langue de la brique est utilisée par défaut.
expectedLanguageTag (facultatif) : pour les briques multilingues, il s'agit de la balise de langue de la langue que le modèle doit utiliser lors de la résolution de la variation de test en intention. Pour que le cas de test réussisse, cette balise doit correspondre à la langue détectée.
expectedEntities : entités correspondantes dans la variation de cas de test, représentées sous la forme d'un tableau d'objets entityName. Chaque élément entityName identifie la position de la valeur d'entité dans la variation à l'aide des propriétés beginOffset et endOffset. Ce décalage est déterminé par caractère, et non par mot, et est calculé à partir du premier caractère de la variation (0-1). Par exemple, l'objet entityName pour la valeur d'entité PizzaSize small dans Je veux commander une petite pizza est :
```
[{"entityName":"PizzaSize","beginOffset":18,"endOffset":23,"originalString":"small"}, …]
```

Description de l'exemple suivant : variation-test-case-csv-example.png

Description de l'image variation-test-case-csv-example.png

Pour importer ce fichier CSV :

Cliquez sur Plus, puis sélectionnez Importer.
Naviguez jusqu'à, puis sélectionnez le fichier CSV.
Choisissez la suite de test. Le cas de test ne peut être affecté à la suite de tests sélectionnée que si le champ testSuite est vide ou correspond au nom de la suite de tests sélectionnée.
Cliquez sur Télécharger.

Import de versions antérieures à la version 21.04 du fichier CSV

Les cas de test importés via les versions antérieures à la version 21.04 des fichiers CSV, qui contiennent les champs query et TopIntent, sont ajoutés à la suite de tests par défaut uniquement. Vous pouvez réaffecter ces cas de test à d'autres suites de tests individuellement en les modifiant après l'import du fichier CSV, ou vous pouvez mettre à jour le fichier CSV au format actuel, puis le modifier avant de l'importer comme suit :

Cliquez sur Plus > Importer.
Une fois l'import terminé, sélectionnez Suite de tests par défaut, puis cliquez sur Plus > Exporter la suite sélectionnée. Le fichier exporté est converti au format en cours.
Extrayez le fichier ZIP et modifiez le fichier CSV. Lorsque vous avez terminé, importez à nouveau le fichier CSV (Plus > Importer). Vous devrez peut-être supprimer les cas de test en double de la suite de tests par défaut.
Remarque

Si vous téléchargez vers le serveur le même fichier CSV plusieurs fois avec des modifications mineures, toutes les données nouvelles ou mises à jour sont fusionnées avec les anciennes : de nouvelles mises à jour sont appliquées et de nouvelles lignes sont insérées. Vous ne pouvez toutefois supprimer aucune variation en téléchargeant un nouveau fichier CSV. Si vous devez supprimer des variations, vous devez les supprimer manuellement à partir de l'interface utilisateur.

Création d'exécutions de test

Les tests sont une compilation de cas de test ou de suites de tests visant à évaluer certains aspects de la cognition de la compétence. Le contenu (et le volume) d'un test dépend de la capacité que vous souhaitez tester. Un test peut donc inclure un sous-ensemble de cas de test d'une suite de test, d'une suite de test complète ou de plusieurs suites de test.

Les cas de test inclus dans une exécution de test sont évalués par rapport au seuil de confiance défini pour la brique. Pour qu'un cas de test réussisse dans l'exécution de test globale, il doit être résolu en fonction de l'intention attendue au niveau du seuil de confiance ou au-delà. Si spécifié, le cas de test doit également satisfaire la valeur d'entité et les critères de correspondance de langue. En examinant les résultats d'exécution de test, vous pouvez déterminer si les modifications apportées à la plate-forme ou à la brique en elle-même ont compromis la précision de la résolution d'intention.

En plus de tester le modèle, vous pouvez également utiliser les résultats de l'exécution de test pour évaluer la fiabilité de vos tests. Par exemple, les résultats montrant que presque tous les cas de test ont réussi peuvent, en surface, indiquer un fonctionnement optimal du modèle. Cependant, un examen des cas de test de réussite peut révéler que les cas de test ne reflètent pas l'entraînement en cours car leurs variations sont trop simples ou présentent un chevauchement significatif en termes de concepts et de verbiage pour lesquels ils sont en train de tester. D'autre part, un nombre élevé de tests en échec peut indiquer des lacunes dans les données d'entraînement, mais un examen de ces cas de test peut révéler que leurs variations sont associées à des intentions incorrectes attendues.

Pour créer une exécution de test, procédez comme suit :

Cliquez sur Tout exécuter afin de créer une exécution de test pour tous les cas de test d'une suite de tests sélectionnée. (Si vous voulez exécuter toutes les suites de tests, sélectionnez Tout, puis cliquez sur Tout exécuter.)

Description de l'image test-cases-all-run-all.png
- Afin de créer une exécution de test pour une sélection de cas de test au sein d'une suite (ou une exécution de test pour un sous-ensemble des cas de test si vous avez sélectionné Tout), filtrez les cas de test en ajoutant une chaîne correspondant au texte de variation et à l'intention attendue. Sélectionnez les variations, puis cliquez sur Exécuter.
  
  Description de l'image test-cases-filtered.png
- Pour exclure la suite de tests de l'exécution de test, sélectionnez d'abord la suite de tests, ouvrez l'onglet Général, puis désactivez l'option Activer la suite de tests.
  
  Description de l'image test-runs-disable-test-suite.png
- Pour les briques multilingues, vous pouvez également filtrer les données par balise de langue et par langue attendue (options accessibles via Attributs facultatifs).
  
  Description de l'image test-cases-optional-attributes.png
Saisissez un nom d'exécution de test qui reflète l'objet du test. Cette étape est facultative.
Cliquez sur Démarrer.

Description de l'image new-test-run-dialog.png
Cliquez sur Résultats de test, puis sélectionnez l'exécution de test.

Conseil :
Les exécutions de test qui contiennent un grand nombre de cas de test peuvent prendre plusieurs minutes. Pour ces exécutions de test volumineuses, vous devrez peut-être cliquer régulièrement sur Actualiser jusqu'à la fin du test. Un pourcentage remplace le statut En cours pour la mesure Précision et le rapport Intentions s'affiche une fois que tous les cas de test ont été évalués.

Description de l'image test-cases-testing-in-progress.png
Consultez les états d'exécution des tests. Par exemple, vérifiez d'abord les mesures de haut niveau pour l'exécution de test fournie par le rapport d'aperçu. Ensuite, validez les résultats de test par rapport aux cas de test réels en filtrant le rapport Cas de test, qui répertorie tous les cas de test inclus dans l'exécution de test, pour les cas de test réussis et en échec. Vous pouvez ensuite examiner les résultats de chaque cas de test. Vous pouvez également comparer le score d'exactitude du rapport Aperçu au score d'exactitude du rapport Intentions, qui mesure la capacité du modèle à prévoir les intentions correctes. Pour consulter les cas de test répertoriés dans ce rapport, ouvrez le rapport Cas de test et filtrez par intention.

Etat de synthèse des exécutions de test

Le rapport Summary (Synthèse) vous fournit une évaluation globale de la façon dont le modèle peut gérer avec succès le type d'entrée utilisateur couvert par l'exécution de test. Pour les suites de tests incluses dans l'exécution de test, il affiche le nombre total de cas de test qui ont été utilisés pour évaluer le modèle et, à partir de ce total, le nombre de cas de test (à la fois fiables et non fiables) qui ont échoué, ainsi que le nombre de cas de test fiables et non fiables qui ont réussi. La précision globale du modèle - sa capacité à prévoir les intentions attendues au niveau de confiance ou au-dessus de la brique, à reconnaître les valeurs d'entité et à résoudre les variations dans la langue de la brique - est mesurée par le taux de réussite des tests de réussite dans l'exécution de test.
Description de l'image test-run-test-results-summary.png
Description de l'illustration test-run-test-results-summary.png

Mesures de rapport récapitulatif

Le rapport récapitulatif inclut les mesures suivantes :

Exactitude : précision du modèle en termes de taux de réussite des cas de test de réussite (nombre de cas de test de réussite par rapport au nombre total de cas de test inclus dans l'exécution de test).
Remarque

Les cas de test désactivés ne sont pas pris en compte dans le score de précision. Les tests n'ont pas non plus échoué en raison d'erreurs. Tout test ayant échoué est ajouté au nombre d'échecs.

Un faible score de précision peut indiquer que l'exécution du test évalue le modèle sur des concepts et un langage qui ne sont pas correctement pris en charge par les données d'entraînement. Pour augmenter le score de précision, réentraînez le modèle avec des variations qui reflètent les cas de test dans l'exécution de test.

Cette mesure de précision s'applique à l'ensemble de l'exécution de test et fournit un score distinct de la mesure de précision dans le rapport Intentions. Cette métrique représente le pourcentage de cas de test pour lesquels le modèle a satisfait à tous les critères de cas de test. Le score d'exactitude du rapport Intentions, quant à lui, n'est pas un test de bout en bout. Il s'agit du pourcentage de cas de test où le modèle n'a eu qu'à prédire l'intention attendue à ou au-dessus du seuil de confiance de la brique. Les autres critères de cas de test (tels que la valeur d'unité ou la langue de compétence) ne sont pas pris en compte. Compte tenu des critères différents de ce que signifie un cas de test de réussite pour ces deux rapports, leurs scores d'exactitude respectifs peuvent ne pas toujours être en phase. Le score de précision de correspondance d'intention peut être supérieur au score global d'exécution de test lorsque les données de test ne sont pas alignées sur les données d'entraînement. La réentraînement du modèle avec des variations qui prennent en charge les cas de test lui permettra de prévoir les intentions attendues avec une plus grande confiance qui, à son tour, augmentera le score de précision pour l'exécution du test.

Remarque

La mesure de précision n'est pas disponible tant que l'exécution de test n'est pas terminée. Elle n'est pas disponible pour les exécutions de test terminées lorsque la brique a été exécutée sur des versions antérieures à la version 22.12 de la plate-forme Oracle Digital Assistant.
Cas de test : nombre total de cas de test (fiable et non fiable) inclus dans l'exécution de test. Les cas de test ignorés sont inclus dans ce décompte, mais ils ne sont pas pris en compte lors du calcul de la mesure d'exactitude.
Réussi : nombre de cas de test (fiable et non fiable) qui ont réussi en résolvant l'intention au seuil de confiance et en mettant en correspondance les valeurs d'entité ou la langue sélectionnées.
Echec : nombre de cas de test (fiable et non fiable du bot) qui n'ont pas réussi à atteindre l'intention attendue au seuil de confiance et qui n'ont pas réussi à correspondre aux valeurs d'entité ou à la langue sélectionnées.
Pour consulter les cas de test réels derrière les mesures Réussi et Echec dans ce rapport, ouvrez le rapport Cas de test, puis appliquez ses filtres Réussi ou Echec.

Description de l'illustration test-runs-intent-report.png

Répartition de la suite de test

Le tableau Répartition des séries de tests répertorie les séries de tests incluses dans l'exécution de test et leurs statistiques individuelles. Vous pouvez consulter les cas de test réels appartenant à une suite de tests en cliquant sur le lien dans la colonne Suite de tests.
Description de l'image test-suite-breakdown.png
Description de l'illustration test-suite-breakdown.png

Etat Intentions

Les mesures de ce rapport assurent le suivi des correspondances de libellé du modèle tout au long des cas de test de l'exécution de test. C'est là que le modèle prédit correctement l'intention attendue pour la variation du cas de test. Dans le contexte de ce rapport, l'exactitude, la réussite et l'échec sont mesurés en fonction des cas de test dans lesquels le modèle a prédit l'intention attendue correcte à ou au-dessus du seuil de confiance. Les autres critères pris en compte dans le rapport récapitulatif, tels que les correspondances de valeur d'entité ou la langue de la brique, ne sont pas pris en compte. Par conséquent, cet état vous fournit une vue différente de la précision du modèle, qui vous aide à vérifier si l'entraînement en cours permet au modèle de prévoir de manière cohérente les intentions correctes.

Ce rapport fournit des mesures de correspondance de libellé (ou de correspondance d'intention) pour l'exécution de test à deux niveaux : un qui agrège les résultats pour l'exécution de test et un qui sépare ces résultats par intention.

Remarque

Ce rapport n'est pas disponible pour les exécutions de test terminées lorsque la brique a été exécutée sur une version antérieure à la version 22.12 de la plate-forme Oracle Digital Assistant.

Description de l'image unfiltered-intents-report-all-tests.png

Mesures de rapport sur les intentions

Les résultats globaux de correspondance d'intention sont les suivants :

Cas de test : nombre de cas de test inclus dans cette exécution de test. Ce total inclut à la fois des cas de test fiables et peu fiables. Les cas de test ignorés ne sont pas inclus dans ce décompte.

Conseil :
Les liens de cas de test non fiables pour les mesures Cas de test, Succès et Echec ouvrent le rapport Cas de test filtré par cas de test non fiables. Cette navigation n'est pas disponible lorsque vous filtrez le rapport par suite de tests.
Exactitude : précision du modèle dans la mise en correspondance de l'intention attendue à ou au-dessus du seuil de confiance de la brique dans les cas de test de cette exécution de test. La sous-mesure Correspondance de libellé représente le pourcentage de cas de test dans l'exécution de test où le modèle a correctement prédit l'intention attendue, quel que soit le score de confiance. Etant donné que la correspondance d'étiquettes prend en compte l'échec des cas de test et la réussite des cas de test, son score peut être supérieur au score de précision.
Vous pouvez comparer cette mesure d'exactitude à la mesure d'exactitude du rapport de synthèse. Lorsque le score d'exactitude dans le rapport de synthèse est faible, vous pouvez utiliser ce rapport pour savoir rapidement si les échecs du modèle peuvent être attribués à son incapacité à prédire l'intention attendue. Toutefois, lorsque le score d'exactitude de ce rapport est élevé, vous pouvez exclure la mise en correspondance de libellés en tant que racine du problème. Au lieu d'avoir à réviser lourdement les données d'entraînement pour augmenter le score d'exactitude de l'exécution de test, vous pouvez vous concentrer sur l'ajout de variations qui reflètent les concepts et la langue dans les variations du cas de test.

Description de l'image compare-accuracy-scores.png
Réussi : nombre de cas de test (fiables et non fiables) dans lesquels le modèle a prédit l'intention attendue au seuil de confiance de la brique.
Echec : nombre de cas de test (fiables et non fiables) dans lesquels le modèle a prédit l'intention attendue en dessous du seuil de confiance de la brique.
Réussite de confiance : moyenne des scores de confiance pour tous les cas de test ayant réussi dans cette exécution de test.
Echec de confiance : moyenne des scores de confiance pour tous les cas de test ayant échoué dans cette exécution de test.

Remarque

Lorsque vous filtrez le rapport Intentions par suite de tests, l'accès au rapport Cas de test à partir des liens Cas de test peu fiables dans les vignettes Cas de test, Réussi et Echec n'est pas disponible. Ces liens redeviennent actifs lorsque vous supprimez toutes les entrées du champ Filtrer par suite de tests.

Filtrer par suite de test

Les résultats par défaut du rapport Intentions reflètent toutes les suites de tests incluses dans l'exécution de test. De même, ses métriques sont basées sur tous les cas de test activés qui appartiennent à ces suites de tests. Si vous souhaitez ventiler les performances de chaque suite de tests (et créer essentiellement une comparaison avec la table Répartition de la suite de tests du rapport Récapitulatif), vous n'avez pas besoin de créer d'autres exécutions de test. Au lieu de cela, vous pouvez isoler les résultats de la suite de tests (ou des suites de tests) en question à l'aide du champ Filtrer par suite de tests. Vous pouvez ajouter une ou plusieurs séries de tests à ce champ.

Image du champ Filtrer par série de tests.

Le rapport ajuste les mesures pour chaque suite de tests que vous ajoutez (ou enlevez par la suite). Il tableau les résultats de correspondance d'intention en fonction du nombre de cas de test activés qui appartiennent à la suite de tests sélectionnée.

Remarque

Vous ne pouvez pas filtrer par suites de tests exécutées sur une plate-forme antérieure à la version 23.06. Pour inclure ces suites de tests, vous devez les exécuter à nouveau après la mise à niveau vers la version 23.06 ou supérieure.

Description de l'image filtrée-intents-report-all-tests.png

Description de l'image filtrée-intents-rapport-all-tests.png

Remarque

Le filtrage par suite de tests désactive la navigation vers le rapport Cas de test à partir des liens Cas de test peu fiables dans les vignettes Cas de test, Réussi et Echec. Les liens de la colonne Total de la ventilation des intentions sont également désactivés. Tous ces liens redeviennent actifs une fois que vous avez supprimé toutes les entrées du champ Filtrer par suite de tests.

Répartition des intentions

La table Répartition des intentions du rapport fournit les mesures de niveau supérieur suivantes pour les intentions attendues nommées dans les cas de test de l'exécution de test. Vous pouvez affiner le focus en sélectionnant les noms de ces intentions dans le champ Filtrer par intention.

Remarque

Le champ Filtrer par intention modifie la vue de la table Répartition des intentions, mais ne modifie pas les mesures globales du rapport. Ces mesures reflètent les entrées (ou le manque d'entrées) du champ Filtrer par suite de tests.

Intention : nom de l'intention attendue.
Total : nombre de cas de test, représenté sous forme de lien, pour l'intention attendue. Vous pouvez parcourir l'état des scénarios de test en cliquant sur ce lien.
Remarque

Vous ne pouvez pas accéder au rapport Cas de test lorsque vous avez appliqué un filtre de suite de tests à ce rapport. Ce lien redevient actif lorsque vous supprimez toutes les entrées du champ Filtrer par suite de tests.
Exactitude : pourcentage de cas de test ayant abouti à des correspondances de libellé pour l'intention attendue à ou au-dessus du seuil de confiance de la brique.
Réussi : nombre de cas de test (y compris les cas de test non fiables) dans lesquels le modèle a prédit l'intention attendue à un seuil de confiance de la brique ou au-delà.
Réussi - Non fiable : nombre de cas de test dans lesquels le modèle a prédit l'intention attendue à 5 % ou moins au-dessus du seuil de confiance de la brique.
Echec : nombre de cas de test ayant échoué dans l'exécution de test car le modèle a prédit l'intention attendue en dessous du seuil de confiance de la brique.
Echec - Non fiable : nombre de cas de test ayant échoué car la confiance du modèle dans la prévision de l'intention attendue est tombée de 5 % en dessous du seuil de confiance de la brique. Ces cas de test peuvent prendre en compte
Correspondance de libellé : nombre de cas de test dans lesquels le modèle a prédit avec succès l'intention attendue, quel que soit le niveau de confiance. Etant donné qu'il prend en compte les cas de test ayant échoué, les scores Label Match et Accuracy peuvent ne pas toujours être en phase les uns avec les autres. Par exemple, quatre cas de test réussis sur cinq donnent un score d'exactitude de 80 % pour l'intention. Toutefois, si le modèle prévoyait correctement l'intention pour le cas de test qui a échoué, la correspondance d'étiquettes deviendrait de 20 % supérieure à la précision.
Réussite de confiance : moyenne des scores de confiance pour tous les cas de test correspondant avec succès à l'intention attendue.
Echec de confiance : moyenne des scores de confiance pour tous les cas de test qui n'ont pas réussi à correspondre à l'intention attendue.

Conseil :
Pour consulter les cas de test réels, ouvrez le rapport Cas de test et le filtre par intention.

Voici la description de test-run-compare-intents-to-test-cases.png :

Description de l'image test-run-compare-intents-to-test-cases.png

Rapport des cas de test

Cet état répertorie tous les cas de test inclus dans l'exécution de test.

Vous pouvez filtrer les résultats en cliquant sur Tout, Réussi (vert) ou Echec (rouge). Les cas de test comptabilisés comme ignorés incluent les cas de test désactivés et ceux pour lesquels l'intention attendue a été désactivée.

Description de l'image filtrée-test-run-results-passed.png

Vous pouvez filtrer les résultats par cas de test non fiables en cliquant sur Afficher les cas non fiables dans le message d'avertissement ou en sélectionnant le filtre Cas non fiables uniquement.
Si nécessaire, filtrez les résultats pour une intention ou une entité spécifique ou en fonction de cas de test fiables ou non fiables.
Pour les cas de test non fiables et ayant échoué, cliquez sur Visualiser des variations similaires (sur la page Infos de test) pour savoir si la variation de cas de test présente une quelconque similitude avec les variations de l'ensemble d'entraînement.
Vérifiez les résultats suivants :
- Informations sur le test : présente l'aperçu du cas de test, y compris le seuil de confiance cible, l'intention attendue et les valeurs d'entité mises en correspondance.
- Résultat du test : classement de l'intention par niveau de confiance. Le cas échéant, le rapport identifie également les entités contenues dans la variation par nom et par valeur d'entité. Vous pouvez également visualiser l'objet JSON contenant l'intégralité des résultats.
- Analyse des échecs : explique pourquoi le cas de test a échoué. Par exemple, l'intention réelle n'est pas l'intention attendue, la valeur d'entité étiquetée dans le cas de test ne correspond pas à l'entité résolue ou la langue attendue n'est pas la même que la langue détectée.

Cas de test peu fiables

Certains cas de test ne peuvent pas fournir de résultats cohérents car ils sont résolus à moins de 5 % du seuil de confiance. Cette marge étroite rend ces cas de test peu fiables. Lorsque le seuil de confiance de la brique est défini sur 0,7, par exemple, un cas de test réussi à 74 % peut échouer une fois que vous n'avez apporté que des modifications mineures à vos données d'entraînement ou que la brique a été mise à niveau vers une nouvelle version du modèle. La fragilité de ces cas de test peut indiquer que les variations qu'elles représentent dans les données d'entraînement sont peut-être trop peu nombreuses et que vous devrez peut-être équilibrer les données d'entraînement de l'intention avec des variations similaires.

Pour localiser les cas de test non fiables :

Exécutez la suite de tests. Cliquez ensuite sur Résultats de test et sélectionnez l'exécution de test. Les cas de test peu fiables sont triés au début des résultats de l'exécution de test et sont signalés par des avertissements.

Description de l'image unliable-test-cases-test-run.png
Pour isoler les cas de test peu fiables :
- Cliquez sur Afficher les cas peu fiables dans le message.
- Sélectionnez Uniquement les cas non fiables dans le menu Filtrer par cas.
Pour rechercher la proximité de l'intention de premier rang du cas de test avec le seuil de confiance, ouvrez la fenêtre Résultat du test. Pour comparer le score de confiance de premier rang au seuil de confiance, cliquez sur .

Description de l'image unliable-test-case-click-icon.png
Si vous devez compléter les données d'entraînement de l'intention de niveau supérieur, cliquez sur Accéder à l'intention de niveau supérieur dans le message d'avertissement.
Pour déterminer la quantité de variations représentées par le cas de test dans les données d'entraînement, cliquez sur Afficher les variations similaires.

Description de l'image unliable-test-case-view-similar-utterances.png

Vous pouvez également vérifier si l'une des variations les plus similaires à la variation du cas de test est également une anomalie dans l'ensemble d'entraînement en exécutant le rapport d'anomalies.

Exécutions de test export

Les exécutions de test ne sont pas conservées avec la brique, mais vous pouvez les télécharger sur votre système pour analyse en cliquant sur Exporter l'exécution de test. Si les intentions ne résolvent plus la saisie utilisateur comme prévu ou si les modifications de la plate-forme ont un impact négatif sur la résolution d'intention, vous pouvez collecter les détails d'une demande de service à l'aide des journaux des exécutions de test exportées.

Test d'échec

Le test d'échec (ou négatif) permet de tester en masse les variations qui ne doivent jamais être résolues, soit car elles aboutissent à unresolvedIntent, soit car elles sont résolues uniquement sur d'autres intentions en dessous du seuil de confiance pour toutes les intentions.

Pour effectuer un test d'échec, procédez comme suit :

Indiquez unresolvedIntent comme intention attendue pour tous les cas de test que vous prévoyez de ne pas résoudre. Idéalement, ces "fausses" expressions ne seront pas résolues.

Description de l'image new-test-case-utterance-unresolved.png
Si nécessaire, ajustez le seuil de confiance lors de la création d'une exécution de test pour confirmer que les fausses expressions (celles avec unresolvedIntent comme intention attendue) peuvent uniquement être résolues en dessous de la valeur que vous définissez ici. Par exemple, l'augmentation du seuil peut entraîner l'échec de la résolution des fausses expressions au niveau de confiance en n'importe quelle intention (y compris unresolvedIntent), ce qui signifie qu'elles réussissent le test car elles sont considérées comme non résolues.
Examinez les résultats du test, en vérifiant que les cas de test sont mis en correspondance avec unresolvedIntent au seuil ou qu'elles ne sont mises en correspondance avec aucune intention (unresolvedIntent ou autre) au seuil.

Variations similaires

Pour savoir à quel point votre expression de test est similaire aux variations du corpus d'entraînement, cliquez sur Afficher les variations similaires. Cet outil vous fournit une perspective supplémentaire sur les données d'entraînement de la brique en vous montrant à quel point ses variations sont similaires à l'expression de test et, par extension, à quel point les variations sont similaires entre elles entre les intentions. A l'aide de cet outil, vous pouvez déterminer si la similitude de l'expression de test avec les variations appartenant à d'autres intentions est la raison pour laquelle l'expression de test ne se résout pas comme prévu. Il peut même indiquer où les données d'entraînement appartiennent à la mauvaise intention, car si elles sont similaires à l'expression de test.
Description de l'image similar-utterance-report-all-intents.png
Description de l'illustration similar-utterance-report-all-intents.png

La liste générée par cet outil classe 20 variations (avec leurs intentions associées) les plus proches de l'expression de test. Idéalement, la variation de premier rang de cette liste - celle qui ressemble le plus à l'expression de test - appartient à l'intention ciblée pour l'expression de test. Si la variation la plus proche qui appartient à l'intention attendue est plus faible, une révision de la liste peut fournir quelques conseils sur la raison. Par exemple, si vous testez une variation d'intention Transactions, combien d'argent ai-je transféré hier ?, vous pouvez vous attendre à ce que la variation de premier rang appartienne également à une intention Transactions. Toutefois, si cette variation de test est résolue en intention incorrecte ou en dessous du niveau de confiance, la liste peut révéler qu'elle a plus de points communs avec les variations hautement classées avec des termes similaires qui appartiennent à d'autres intentions. Par exemple, l'intention Soldes Combien d'argent ai-je dans tous mes comptes ? peut être plus proche de la variation de test que la variation de rang inférieur de l'intention Transactions Combien ai-je déposé en avril ?.

Vous pouvez accéder à la liste, qui est générée pour les briques entraînées sur Trainer Tm, en cliquant sur Afficher les variations similaires dans le testeur de variations ou dans le rapport Cas de test.

Description de l'image similar-utterances-tester.png

Remarque

Vous ne pouvez utiliser cet outil que pour les briques formées à l'entraîneur Tm (il n'est pas disponible pour les briques formées à l'entraîneur Ht).

Vous pouvez interroger les variations à la fois à partir du testeur de variations et en effectuant des tests dans l'outil Afficher les variations similaires lui-même. Lorsque vous cliquez sur Afficher les variations similaires, l'ensemble du corpus est comparé à l'expression de test et un classement est appliqué à chaque variation. Toutefois, comme aucun filtre n'est appliqué par défaut, la liste inclut uniquement les 20 variations les mieux classées et les numérote de manière séquentielle. Pour savoir comment les variations se classent aux niveaux 21 et supérieurs, vous devez utiliser les filtres. En appliquant les filtres suivants, vous pouvez découvrir la proximité de variations similaires dans le classement en termes de langue, d'intentions auxquelles elles appartiennent ou de mots ou d'expressions qu'elles ont en commun.

Filtrer par intention : renvoie 20 variations les plus proches de la variation de test qui appartiennent à l'intention (ou aux intentions) sélectionnée(s).

Description de l'image similar-utterance-report-filter-by-intent.png
Filtrer par variation : renvoie 20 des variations les plus proches de la variation de test qui contiennent un mot ou une expression.

Description de l'image similar-utterance-report-filter-by-utterance.png
Langue : pour les briques multilingues, vous pouvez interroger et filtrer le rapport en sélectionnant une langue.

Description de l'image similar-utterance-report-filter-by-language.png

Remarque

L'application de ces filtres ne modifie pas le classement, mais uniquement la vue. Une variation classée troisième, par exemple, sera notée comme telle quel, quel que soit le filtre. Le classement et le contenu du rapport ne changent que lorsque vous avez mis à jour le corpus et réentraîné la brique avec l'entraîneur Tm.

Documentation Oracle Cloud Infrastructure