Entraînement et test des intentions
L'entraînement d'un modèle à l'aide d'un corpus d'entraînement permet à votre bot de comprendre ce que les utilisateurs disent (ou essaient de dire dans certains cas).
Vous pouvez améliorer la précision de la capacité cognitive à l'aide de cycles de test et d'entraînement des intentions. Vous contrôlez l'entraînement uniquement par le biais des définitions d'intention. La brique ne peut pas apprendre en autonomie à partir de la discussion de l'utilisateur.
Test des variations
Nous vous recommandons de réserver 20 % de votre corpus au test d'intention et d'utiliser les 80 % restants pour entraîner vos intentions. Maintenez ces deux ensembles séparés afin que les variations de test, que vous incorporez dans les cas de test, restent "inconnues" pour votre brique.
Appliquez la répartition 80/20 à l'ensemble de données de chaque intention. Rangez les variations dans un ordre aléatoire avant d'effectuer le fractionnement afin de permettre aux modèles d'entraînement d'affecter la même pondération aux termes et aux modèles des variations.
Testeur de variations
Le testeur de variations sert d'écran à la capacité cognitive de votre brique. En saisissant des expressions qui ne font pas partie du corpus d'entraînement, vous pouvez déterminer la qualité de vos intentions en consultant le classement du niveau de confiance des intentions et l'objet JSON renvoyé. Ce classement, qui donne une estimation du candidat le plus à même de résoudre la saisie utilisateur, illustre la précision du corpus d'entraînement en cours.
Description de l'image variation-tester-quick-test.png
A l'aide du testeur de variations, vous pouvez effectuer des tests rapides pour des tests ponctuels à la Volée, ou incorporer une variation en tant qu'exemple de test afin de jauger l'intention de résolution entre les différentes versions des modèles d'entraînement.
Cas de test
Chaque test a une variation et l'intention qu'il est censé résoudre, ce qui est connu comme une correspondance de libellé. Un cas de test peut également inclure des valeurs d'entité correspondantes et la langue attendue pour la variation. Vous pouvez exécuter des cas de test lorsque vous développez une brique et plus tard, lorsque la brique est en production, vous pouvez utiliser les cas de test pour les tests de régression. Dans ce dernier cas, vous pouvez exécuter des cas de test pour déterminer si une nouvelle version du modèle d'entraînement a dégradé la résolution d'intention.
A l'instar des cas de test que vous créez avec le testeur de conversation, les cas de test de variation font partie de la brique et sont conservés à chaque nouvelle version. Si vous étendez une brique, l'extension hérite des cas de test. Alors que les cas de test de conversation sont destinés à tester un scénario, les cas de test de variation sont destinés à tester des fragments de conversation indépendamment, en veillant à ce que chaque variation soit résolue en intention correcte.
Gestion des cas de test
nluTestSuites
qui héberge les suites de tests de la brique lorsque celle-ci est exportée.Créer des séries de tests
- Cliquez sur + Suite de tests.
- Dans l'onglet Général, remplacez le nom de l'espace réservé (TestSuite0001, par exemple) par un nom plus significatif en ajoutant une valeur dans le champ Nom d'affichage.
- Vous pouvez éventuellement ajouter une description qui explique les fonctionnalités couvertes par la suite de tests.
- Remplissez la suite de tests avec des cas de test à l'aide de l'une des méthodes suivantes (ou d'une combinaison des deux) :
- Ajout manuel de cas de test (en créant un cas de test ou en en enregistrant une variation en tant que cas de test à partir du testeur de variations).
- Importation de cas de test.
Remarque
Pour affecter un cas de test à une suite de tests via l'import, le champtestSuite
du fichier CSV peut être vide ou doit contenir un nom correspondant à la suite de tests sélectionnée dans la boîte de dialogue d'import. - Modification d'un cas de test pour réaffecter sa suite de tests.
- Pour exclure la suite de tests des exécutions de test lancées à l'aide des options Tout et Tout exécuter, désactivez l'option Activer la suite de tests.
- Si vous ne voulez pas que la suite de tests soit incluse dans l'export de brique, désactivez l'option Inclure dans l'export de brique. Lorsque vous désactivez cette option pour une suite de tests, elle n'est pas incluse dans le dossier
nluTestSuites
qui héberge les suites de tests de la brique dans le fichier ZIP exporté.
Création de cas de test de variation
Vous pouvez ajouter des cas de test un par un à l'aide du testeur de variations ou de la boîte de dialogue Nouveau cas de test (accessible en cliquant sur + Cas de test), ou vous pouvez les ajouter en masse en téléchargeant un fichier CSV.
Chaque cas d'essai doit appartenir à une série de tests, par conséquent, avant d'en créer un, vous pouvez créer une série de tests qui reflète certains aspects des tests d'intention, tels que tests d'échec, les tests dans le domaines ou les tests hors domaine.
Conseil :
Pour fournir une couverture adéquate dans vos tests, créez des variations de suite de tests qui sont non seulement conceptuelles, mais aussi grammaticalement, car les utilisateurs ne feront pas de demandes de manière uniforme. Vous pouvez ajouter ces dimensions en créant des séries de tests à partir d'un message utilisateur réel qui a été interrogé dans le réentraînement d'analyse et également à partir d'une entrée collectée à partir d'une source groupée à partir de Data Manufacturing.Ajout de cas de test à partir du testeur de variations
- Cliquez sur Tester les variations.
- Si la brique est multilingue, sélectionnez la langue native.
- Saisissez la variation, puis cliquez sur Tester.
- Cliquez sur Enregistrer en tant que cas de test, puis choisissez une suite de tests.
Création d'un cas de test
- Cliquez sur Accéder aux cas de test dans le testeur de variations.
- Cliquez sur + Cas de test.
- Remplissez la boîte de dialogue Nouveau cas de test :
- Si nécessaire, désactivez le cas de test.
- Saisissez la variation de test.
- Sélectionnez la suite de tests.
- Sélectionnez l'intention attendue. Si vous créez un cas de test pour des tests d'échec, sélectionnez unresolvedIntent.
- Pour les briques multilingues, sélectionnez la balise de langue et la langue attendue.
- Cliquez sur Ajouter à la suite. Dans la page Cas de test, vous pouvez supprimer un cas de test ou modifier un cas de test, ce qui inclut la réaffectation du cas de test à une autre suite de tests.
- Pour tester les valeurs d'entité, procédez comme suit :
- Activez Entités test. Cliquez ensuite sur Continuer.
- Mettez en surbrillance le ou les mots, puis appliquez-lui un libellé d'entité en sélectionnant une entité dans la liste. Lorsque vous avez terminé, cliquez sur Ajouter à la suite.
Remarque
Sélectionnez toujours des mots ou des expressions dans la variation de cas de test après avoir activé les entités de test. Le cas de test échouera si vous avez activé les entités de test mais que vous n'avez mis en surbrillance aucun mot.
Import de cas de test pour les suites de tests de niveau brique
testSuite
: nom de la suite de tests à laquelle appartient le cas de test. Le champtestSuite
de chaque ligne du fichier CSV peut avoir un nom de série de tests différent ou être vide.- Les cas de test contenant des champs
testSuite
vides sont ajoutés à une suite de tests que vous sélectionnez lorsque vous importez le fichier CSV. Si vous ne sélectionnez pas de suite de tests, ils seront affectés à la suite de tests par défaut. - Les cas de test avec des champs
testSuite
remplis sont affectés à la suite de tests que vous sélectionnez lorsque vous importez le fichier CSV uniquement lorsque le nom de la suite de tests sélectionnée correspond au nom du champtestSuite
. - Si une suite de tests portant le nom de celle indiquée dans le champ
testSuite
n'existe pas déjà, elle sera créée après l'import du fichier CSV.
- Les cas de test contenant des champs
utterance
: exemple de variation (requis). Correspond àquery
dans les versions antérieures à la version 21.04 d'Oracle Digital Assistant.expectedIntent
: intention correspondante (requise). Ce champ est mis en correspondance avecTopIntent
dans les versions antérieures à 21.04 d'Oracle Digital Assistant.Conseil :
Importer les versions antérieures à la version 21.04 du fichier CSV indique comment reformater les fichiers CSV antérieurs à la version 21.04 afin de pouvoir les utiliser pour les tests en masse.enabled
: la valeurTRUE
inclut le cas de test dans l'exécution de test. La valeurFALSE
l'exclut.languageTag
: balise de langue (en
, par exemple). En l'absence de valeur, la langue détectée à partir des paramètres de langue de la brique est utilisée par défaut.expectedLanguageTag
(facultatif) : pour les briques multilingues, il s'agit de la balise de langue de la langue que le modèle doit utiliser lors de la résolution de la variation de test en intention. Pour que le scénario de test réussisse, cette balise doit correspondre à la langue détectée.expectedEntities
: entités correspondantes dans la variation de cas de test, représentées sous forme de tableau d'objetsentityName
. Chaque élémententityName
identifie la position de la valeur d'entité dans la variation à l'aide des propriétésbeginOffset
etendOffset
. Ce décalage est déterminé par le caractère, et non par le mot, et est calculé à partir du premier caractère de la variation (0-1). Par exemple, l'objetentityName
pour la valeur d'entité PizzaSize "petit" dans Je veux commander une petite pizza est :[{"entityName":"PizzaSize","beginOffset":18,"endOffset":23,"originalString":"small"}, …]
- Cliquez sur Plus, puis sélectionnez Importer.
- Recherchez et sélectionnez le format CSV.
- Choisissez la suite de tests. Le cas de test ne peut être affecté à la suite de tests sélectionnée que si le champ
testSuite
est vide ou correspond au nom de la suite de tests sélectionnée. - Cliquez sur Télécharger.
Import des versions antérieures à la version 21.04 du fichier CSV
query
et TopIntent
, sont ajoutés à la suite de tests par défaut uniquement. Vous pouvez réaffecter ces cas de test à d'autres suites de tests individuellement en les modifiant après l'import du fichier CSV, ou vous pouvez mettre à jour le fichier CSV au format actuel, puis le modifier avant de l'importer comme suit :
- Cliquez sur Plus > Importer.
- Une fois l'import terminé, sélectionnez Suite de tests par défaut, puis cliquez sur Plus > Exporter la suite sélectionnée. Le fichier exporté sera converti au format actuel.
- Extrayez le fichier ZIP et modifiez le fichier CSV. Lorsque vous avez terminé, importez à nouveau le fichier CSV (Plus > Importer). Il se peut que vous deviez supprimer les cas de test en double de la suite d'essais par défaut.
Remarque
Si vous téléchargez vers le serveur le même fichiers CSV plusieurs fois avec les modifications mineures, toutes les données nouvelles ou mise à jour seront fusionnées avec les anciennes : de nouvelles mises à jour seront appliquées et de nouvelles lignes seront insérées. Vous ne pouvez toutefois supprimer aucune variation en téléchargeant un nouveau fichier CSV. Si vous devez supprimer des variations, vous devez les supprimer manuellement de l'interface utilisateur.
Création d'exécutions de test
Les tests sont une compilation de cas de test ou de suites de tests visant à évaluer certains aspects de la cognition de la brique. Le contenu (et le volume) d'une exécution de test dépend de la capacité que vous souhaitez tester. Par conséquent, une exécution de test peut inclure un sous-ensemble de cas de test d'une suite de tests, d'une suite de tests complète ou de plusieurs suites de tests.
Les cas de test inclus dans une exécution de test sont évalués par rapport au seuil de confiance défini pour la brique. Pour qu'un cas de test réussisse dans l'exécution de test globale, il doit se résoudre à l'intention attendue au seuil de confiance ou au-delà. Si spécifié, le scénario de test doit également satisfaire la valeur d'entité et les critères de correspondance de langue. En examinant les résultats de l'exécution de test, vous pouvez déterminer si les modifications apportées à la plate-forme ou à la brique en elle-même ont compromis la précision de la résolution d'intention.
En plus de tester le modèle, vous pouvez également utiliser les résultats du test pour évaluer la fiabilité de vos tests. Par exemple, des résultats montrant que la quasi-totalité des cas de test sont passés peuvent, à la surface, indiquer un fonctionnement optimal du modèle. Cependant, un examen des cas de test réussis peut révéler que les cas de test ne reflètent pas l'entraînement actuel parce que leurs variations sont trop simples ou ont un chevauchement significatif en termes de concepts et de verbiage pour lesquels ils testent. En revanche, un nombre élevé de tests ayant échoué peut indiquer des lacunes dans les données d'entraînement, mais un examen de ces cas de test peut révéler que leurs variations sont associées aux intentions attendues erronées.
- Cliquez sur Tout exécuter afin de créer une exécution de test pour tous les cas de test d'une suite de tests sélectionnée. (Si vous voulez exécuter toutes les suites de tests, sélectionnez Tout, puis cliquez sur Tout exécuter.)
- Afin de créer une exécution de test pour une sélection de cas de test au sein d'une suite (ou une exécution de test pour un sous-ensemble des cas de test si vous avez sélectionné Tout), filtrez les cas de test en ajoutant une chaîne correspondant au texte de variation et à l'intention attendue. Sélectionnez les variations, puis cliquez sur Exécuter.
- Pour exclure la suite de tests de l'exécution de test, sélectionnez d'abord la suite de tests, ouvrez l'onglet Général, puis désactivez Activer la suite de tests.
- Pour la briques multilingue, vous pouvez également filtrer le cas par balise de langage et par options langue attendue (options accessibles via Attributs facultatives).
- Afin de créer une exécution de test pour une sélection de cas de test au sein d'une suite (ou une exécution de test pour un sous-ensemble des cas de test si vous avez sélectionné Tout), filtrez les cas de test en ajoutant une chaîne correspondant au texte de variation et à l'intention attendue. Sélectionnez les variations, puis cliquez sur Exécuter.
- Saisissez un nom d'exécution de test qui reflète l'objet du test. Cette étape est facultative.
- Cliquez sur Démarrer
- Cliquez sur Résultats de test, puis sélectionnez l'exécution de test.
Conseil :
Les exécutions de test qui contiennent un grand nombre de cas de test peuvent prendre plusieurs minutes. Pour ces exécutions de test volumineuses, vous devrez peut-être cliquer régulièrement sur Actualiser jusqu'à la fin du test. Un pourcentage remplace le statut En cours pour la mesure Précision et le rapport Intentions s'affiche une fois que tous les cas de test ont été évalués.
- Consultez les états de test. Par exemple, vérifiez d'abord les mesures de haut niveau pour l'exécution de test fournie par le rapport de présentation. Ensuite, validez les résultats de test par rapport aux cas de test réels en filtrant le rapport Cas de test, qui répertorie tous les cas de test inclus dans l'exécution de test, pour les cas de test réussis et en échec. Vous pouvez ensuite examiner les résultats de chaque cas de test. Vous pouvez également comparer le score de précision du rapport Aperçu au score de précision du rapport Intentions, qui mesure la capacité du modèle à prévoir les intentions correctes. Pour consulter les cas de test répertoriés dans ce rapport, ouvrez le rapport Cas de test et filtrez par intentions.
Etat récapitulatif des exécutions de test
Le rapport Summary fournit une évaluation globale de la manière dont le modèle peut gérer le type d'entrée utilisateur couvert par le test. Pour les suites de tests incluses dans l'exécution de test, il indique le nombre total de cas de test qui ont été utilisés pour évaluer le modèle et, à partir de ce total, le nombre de cas de test (à la fois fiables et non fiables) qui ont échoué, ainsi que le nombre de cas de test fiables et peu fiables qui ont réussi. La précision globale du modèle, sa capacité à prévoir les intentions attendues au niveau de confiance de la brique ou au-dessus, à reconnaître les valeurs d'entité et à résoudre les variations dans la langue de la brique, est mesurée par le taux de réussite des tests dans l'exécution du test.
Description de l'illustration test-run-test-results-summary.png
Métriques du rapport récapitulatif
- Exactitude : précision du modèle en termes de taux de réussite des cas de test de réussite (nombre de cas de test de réussite par rapport au nombre total de cas de test inclus dans l'exécution de test).
Remarque
Les cas de test désactivés ne sont pas pris en compte dans le score de précision. Les tests n'ont pas non plus échoué en raison d'erreurs. Tout test ayant échoué est ajouté au nombre d'échecs.Un faible score de précision peut indiquer que l'exécution du test évalue le modèle sur des concepts et des langages qui ne sont pas correctement pris en charge par les données d'entraînement. Pour augmenter le score de précision, réentraînez le modèle avec des variations qui reflètent les cas de test lors de l'exécution du test.
Cette mesure de précision s'applique à l'ensemble du test et fournit un score distinct de celui de la mesure de précision dans le rapport Intentions. Cette métrique représente le pourcentage de cas de test dans lesquels le modèle a satisfait à tous les critères de cas de test. En revanche, le score de précision du rapport Intentions n'est pas un test de bout en bout. Il s'agit du pourcentage de cas de test où le modèle n'a dû prédire que l'intention attendue à ou au-dessus du seuil de confiance de la brique. D'autres critères de cas de test (tels que la valeur d'énité ou la langue de compétence) ne sont pas pris en compte. Compte tenu des critères différents de ce qu'un cas de test de réussite signifie pour ces deux rapports, leurs scores de précision respectifs peuvent ne pas toujours être à l'étape. Le score de précision de la correspondance d'intention peut être supérieur au score global de l'exécution d'examen lorsque les données d'examen ne sont pas alignées sur les données d'entraînement. Le nouvel entraînement du modèle avec des variations qui prennent en charge les cas de test lui permettra de prévoir les intentions attendues avec une plus grande confiance qui, à son tour, augmentera le score de précision pour l'exécution du test.
Remarque
La mesure Précision n'est pas disponible tant que l'exécution de test n'est pas terminée et n'est pas disponible pour les exécutions de test qui ont été terminées lorsque la brique a été exécutée sur les versions antérieures à la version 22.12 de la plate-forme Oracle Digital Assistant. - Cas de test – Nombre total de cas de test (à la fois fiables et non fiables) inclus dans le test. Les cas de test ignorés sont inclus dans ce décompte, mais ils ne sont pas pris en compte lors du calcul de la mesure Précision.
- Réussite : nombre de cas de test (à la fois fiables et peu fiables) qui ont réussi en résolvant l'intention au seuil de confiance et en mettant en correspondance les valeurs d'entité ou la langue sélectionnée.
- Echec : nombre de cas de test (bots fiables et peu fiables) qui n'ont pas réussi à atteindre l'intention attendue au seuil de confiance et qui n'ont pas réussi à correspondre aux valeurs d'entité ou à la langue sélectionnées.
Pour vérifier les cas de test réels derrière les mesures Réussite et Echec dans ce rapport, ouvrez le rapport Cas de test, puis appliquez les filtres Réussite ou Echec correspondants.
Description de l'illustration test-runs-intent-report.png
Ventilation de la suite de tests
Le tableau Répartition des séries de tests répertorie les séries de tests incluses dans le test et leurs statistiques individuelles. Vous pouvez vérifier les cas de test réels appartenant à une suite de tests en cliquant sur le lien dans la colonne Suite de tests.
Description de l'illustration test-suite-breakdown.png
Rapport Intentions
Les mesures de ce rapport assurent le suivi des correspondances de libellé du modèle tout au long des cas de test de l'exécution de test. C'est là que le modèle prédit correctement l'intention attendue pour la variation de scénario de test. Dans le contexte de ce rapport, la précision, la réussite et l'échec sont mesurés en fonction des cas de test où le modèle a prédit l'intention attendue correcte au seuil de confiance ou au-delà. Les autres critères pris en compte dans le rapport récapitulatif, tels que les correspondances de valeurs d'entité ou la langue de la brique, ne sont pas pris en compte. Par conséquent, ce rapport fournit une vue différente de la précision du modèle, qui vous aide à vérifier si l'entraînement en cours permet au modèle de prévoir de manière cohérente les intentions correctes.
Ce rapport n'est pas disponible pour les exécutions de test terminées lorsque la brique a été exécutée sur une version antérieure à la version 22.12 de la plate-forme Oracle Digital Assistant.
Métriques du rapport des intentions
- Cas de test – Nombre de cas de test inclus dans cette exécution de test. Ce total comprend des cas de test fiables et peu fiables. Les cas de test ignorés ne sont pas inclus dans ce décompte.
Conseil :
Les liens de cas de test non fiables pour les scénarios de test, les mesures Succès et Echec ouvrent le rapport Cas de test filtré par des cas de test non fiables. Cette navigation n'est pas disponible lorsque vous filtrez le rapport par suite de tests. - Exactitude : précision du modèle dans la mise en correspondance de l'intention attendue au niveau ou au-dessus du seuil de confiance de la brique dans les cas de test de cette exécution de test. La sous-métrique Correspondance de libellés représente le pourcentage de cas de test dans l'exécution de test où le modèle a correctement prédit l'intention attendue, quel que soit le score de confiance. Etant donné que les facteurs de correspondance d'étiquettes dans les cas de test en échec et les cas de test réussis, leur score peut être supérieur au score de précision.
Vous pouvez comparer cette métrique Précision avec la métrique Précision du rapport Récapitulatif. Lorsque le score de précision dans le rapport de résumé est faible, vous pouvez utiliser ce rapport pour déterminer rapidement si les échecs du modèle peuvent être attribués à son incapacité à prévoir l'intention attendue. Toutefois, lorsque le score de précision de cet état est élevé, vous pouvez exclure la mise en correspondance des libellés en tant que racine du problème et, au lieu d'avoir à réviser fortement les données d'entraînement pour augmenter le score de précision de l'exécution du test, vous pouvez vous concentrer sur l'ajout de variations qui reflètent les concepts et la langue dans les variations de cas de test.
- Réussite : nombre de cas de test (fiables et peu fiables) dans lesquels le modèle a prédit l'intention attendue au seuil de confiance de la brique.
- Echec : nombre de cas de test (fiables et peu fiables) dans lesquels le modèle a prédit l'intention attendue en dessous du seuil de confiance de la brique.
- Réussite de confiance : moyenne des scores de confiance pour tous les cas de test qui ont réussi dans cette exécution de test.
- Echec de confiance : moyenne des scores de confiance pour tous les cas de test qui ont échoué lors de cette exécution de test.
Lorsque vous filtrez le rapport Intentions par suite de tests, l'accès au rapport Cas de test à partir des liens de cas de test non fiables dans les vignettes Cas de test, Réussite et Echec n'est pas disponible. Ces liens sont à nouveau actifs lorsque vous supprimez toutes les entrées du champ Filtrer par série de tests.
Filtrer par suite de tests

Le rapport ajuste les mesures pour chaque série de tests que vous ajoutez (ou supprimez par la suite). Il tabule les résultats de la mise en correspondance des intentions en fonction du nombre de cas de test activés qui appartiennent à la suite de tests sélectionnée.
Vous ne pouvez pas filtrer par suites de tests exécutées sur une plate-forme antérieure à la version 23.06. Pour inclure ces suites de tests, vous devez les exécuter à nouveau après la mise à niveau vers la version 23.06 ou supérieure.
Le filtrage par série de tests désactive la navigation vers le rapport Cas de test à partir des liens Cas de test non fiables dans les vignettes Cas de test, Réussite et Echec. Les liens de la colonne Total de la ventilation des intentions sont également désactivés. Tous ces liens redeviennent actifs une fois que vous avez supprimé toutes les entrées du champ Filtrer par suite de tests.
Ventilation des intentions
Le champ Filtrer par intention modifie la vue de la table de ventilation des intentions mais ne modifie pas les mesures globales du rapport. Ces métriques reflètent les entrées (ou le manque d'entrées) dans le champ Filtrer par série de tests.
- Intention : nom de l'intention attendue.
- Total : nombre de cas de test, représenté sous forme de lien, pour l'intention attendue. Vous pouvez accéder au rapport Cas de test en cliquant sur ce lien.
Remarque
Vous ne pouvez pas accéder au rapport Cas de test lorsque vous avez appliqué un filtre de suite de tests à ce rapport. Ce lien redevient actif lorsque vous supprimez toutes les entrées du champ Filtrer par série de tests. - Exactitude : pourcentage de cas de test ayant entraîné des correspondances d'étiquettes pour l'intention attendue au niveau ou au-dessus du seuil de confiance de la brique.
- Réussite : nombre de cas de test (y compris les cas de test non fiables) dans lesquels le modèle a prédit l'intention attendue au seuil de confiance de la brique ou au-delà.
- Réussi - Non fiable : nombre de cas de test dans lesquels le modèle a prédit l'intention attendue à 5 % ou moins au-dessus du seuil de confiance de la brique.
- Echec : nombre de cas de test de l'exécution de test qui ont échoué car le modèle a prédit l'intention attendue en dessous du seuil de confiance de la brique.
- Echec - Non fiable : nombre de cas de test ayant échoué car la confiance du modèle dans la prévision de l'intention attendue est tombée de 5 % en dessous du seuil de confiance de la brique. Ces cas de test peuvent prendre en compte
- Correspondance de libellé : nombre de cas de test dans lesquels le modèle a prédit l'intention attendue, quel que soit le niveau de confiance. Etant donné qu'il prend en compte les cas d'échec, les scores de correspondance d'étiquettes et de précision peuvent ne pas toujours être en phase les uns avec les autres. Par exemple, quatre cas de test réussis sur cinq donnent un score de précision de 80 % pour l'intention. Toutefois, si le modèle prédisait correctement l'intention pour le cas de test défaillant, la correspondance d'étiquettes dépasserait la précision de 20 %.
- Réussite de confiance : moyenne des scores de confiance pour tous les cas de test correspondant à l'intention attendue.
- Echec de confiance : moyenne des scores de confiance pour tous les cas de test qui n'ont pas réussi à correspondre à l'intention attendue.
Conseil :
Pour vérifier les cas de test réels, ouvrez le rapport Cas de test et le filtre en fonction de l'intention.
Etat Cas de test
- Une fois les résultats filtrés, vous pouvez les filtrer en cliquant sur Tout, Réussi (vert) ou Echec (rouge). Les cas de test comptabilisés comme ignorés incluent les cas de test désactivés et ceux pour lesquels l'intention attendue a été désactivée.
Vous pouvez filtrer les résultats par cas de test non fiables en cliquant sur Afficher les cas non fiables dans le message d'avertissement ou en sélectionnant le filtre Uniquement les cas non fiables. - Si nécessaire, filtrez les résultats pour une intention ou une entité spécifique ou par des cas de test fiables ou peu fiables.
- Pour les cas de test peu fiables et en échec, cliquez sur Afficher les variations similaires (situé sur la page Infos de test) pour déterminer si la variation de cas de test présente une quelconque similitude avec les variations du jeu d'entraînement.
- Vérifiez les résultats suivants :
- Informations de test : présente l'aperçu du cas de test, notamment le seuil de confiance cible, l'intention attendue et les valeurs d'entité mises en correspondance.
- Résultat du test : classement de l'intention par niveau de confiance. Le cas échéant, le rapport identifie également les entités contenues dans la variation par nom et par valeur d'entité. Vous pouvez également visualiser l'objet JSON contenant l'intégralité des résultats.
- Analyse des échecs : explique pourquoi le cas de test a échoué. Par exemple, l'intention réelle n'est pas l'intention attendue, la valeur d'entité étiquetée dans le cas de test ne correspond pas à l'entité résolue ou la langue attendue n'est pas la même que la langue détectée.
Cas de test peu fiables
Certains cas de test ne peuvent pas fournir de résultats cohérents car ils se résolvent à moins de 5 % du seuil de confiance. Cette marge étroite rend ces cas de test peu fiables. Lorsque le seuil de confiance de la brique est défini sur 0,7, par exemple, un cas de test qui réussit à 74 % peut échouer une fois que vous avez apporté des modifications mineures à vos données d'entraînement ou parce que la brique a été mise à niveau vers une nouvelle version du modèle. La fragilité de ces cas de test peut indiquer que les variations qu'ils représentent dans les données d'entraînement peuvent être trop peu nombreuses et que vous devrez peut-être équilibrer les données d'entraînement de l'intention avec des variations similaires.
- Exécutez la suite de tests. Cliquez ensuite sur Résultats du test, puis sélectionnez l'exécution de test. Les cas de test non fiables sont triés au début des résultats de l'exécution de test et signalés par des avertissements
.
- Pour isoler les cas de test peu fiables :
- Cliquez sur Afficher les cas non fiables dans le message.
- Sélectionnez Dossiers non fiables uniquement dans le menu Filtrer par dossier.
- Cliquez sur Afficher les cas non fiables dans le message.
- Pour déterminer la proximité de l'intention de premier rang du cas de test avec le seuil de confiance, ouvrez la fenêtre Résultat du test. Pour comparer le score de confiance de premier rang au seuil de confiance, cliquez sur
.
- Si vous devez compléter les données d'entraînement pour l'intention de premier rang, cliquez sur Aller à l'intention de premier rang dans le message d'avertissement.
- Pour déterminer la quantité de variations représentées par le scénario de test dans les données d'entraînement, cliquez sur Afficher les variations similaires.
Vous pouvez également vérifier si l'une des variations les plus similaires à la variation de cas de test est également une anomalie dans le jeu d'entraînement en exécutant le rapport sur les anomalies.
Exécutions de test exportées
Les exécutions de test ne sont pas conservées avec la brique, mais vous pouvez les télécharger sur votre système pour analyse en cliquant sur Exporter l'exécution de test. Si les intentions ne résolvent plus la saisie utilisateur comme prévu ou si les modifications de la plate-forme ont un impact négatif sur la résolution d'intention, vous pouvez collecter les détails d'une demande de service à l'aide des journaux des exécutions de test exportées.
Test d'échec
Le test d'échec (ou négatif) permet de tester de manière globale les variations qui ne doivent jamais être résolues, soit parce qu'elles aboutissent à unresolvedIntent, soit parce qu'elles sont résolues uniquement sur d' autres intentions en dessous du seuil de fiabilité pour toutes les intentions.
- Indiquez unresolvedIntent comme intention attendue pour tous les cas de test que vous prévoyez de ne pas résoudre. Idéalement, ces "fausses" expressions ne seront pas résolues.
- Si nécessaire, ajustez le Seuil de Confiance lors de l'exécution d'un test pour confirmer que les fausses expressions (celles avec
unresolvedIntent
comme intention attendue) ne peuvent être résolues qu'en dessous de La valeur que vous définissez ici. Par exemple, l'augmentation du seuil peut entraîner l'échec de la résolution des fausses expressions au niveau de confiance en n'importe quelle intention (y compris unresolvedIntent), ce qui signifie qu'elles réussissent le test car elles sont considérées comme non résolues. - Examinez les résultats du test, en vérifiant que les cas de test sont mis en correspondance avec unresolvedIntent au seuil ou qu'elles ne sont mises en correspondance avec aucune intention (unresolvedIntent ou autre) au seuil.
Variations similaires
Pour découvrir à quel point votre expression de test est similaire aux variations du corpus d'entraînement, cliquez sur Afficher les variations similaires. Cet outil fournit une perspective supplémentaire sur les données d'entraînement de la brique en vous montrant à quel point ses variations sont similaires à l'expression de test et, par extension, à quel point les variations sont similaires les unes aux autres sur les intentions. Cet outil vous permet de déterminer si la similarité de l'expression de test avec les variations appartenant à d'autres intentions est la raison pour laquelle l'expression de test ne se résout pas comme prévu. Il peut même indiquer où les données d'entraînement appartiennent à la mauvaise intention car elles sont similaires à l'expression de test.
Description de l'illustration similar-utterance-report-all-intents.png
La liste générée par cet outil classe les 20 variations (ainsi que les intentions associées) les plus proches de l'expression de test. Idéalement, la variation de premier rang de cette liste – celle qui ressemble le plus à la phrase de test – appartient à l'intention ciblée pour la phrase de test. Si la variation la plus proche qui appartient à l'intention attendue est plus bas, un examen de la liste peut fournir quelques conseils sur la raison. Par exemple, si vous testez une variation d'intention Transactions, combien d'argent ai-je transféré hier ?, vous devez vous attendre à ce que la variation de premier rang appartienne également à une intention Transactions. Toutefois, si cette variation de test est résolue en intention erronée ou en dessous du niveau de confiance, la liste peut révéler qu'elle a plus en commun avec les variations hautement classées avec un libellé similaire appartenant à d'autres intentions. Par exemple, la variation de test de l'intention Soldes Combien d'argent ai-je sur tous mes comptes ? peut être plus proche de la variation de test que la variation de rang inférieur de l'intention Transactions Combien ai-je déposé en avril ?.
Vous ne pouvez utiliser cet outil que pour les compétences formées sur l'entraîneur Tm (il n'est pas disponible pour les compétences formées avec Ht).
- Filtrer par intention : renvoie 20 variations les plus proches de la variation de test qui appartiennent à l'intention (ou aux intentions) sélectionnée(s).
- Filtrer par variation : renvoie 20 des variations les plus proches de la variation de test qui contiennent un mot ou une expression.
- Langue : pour les compétences multilingues, vous pouvez interroger et filtrer le rapport en sélectionnant une langue.
L'application de ces filtres ne modifie pas les classements, mais uniquement la vue. Une variation classée troisième, par exemple, sera notée en tant que telle quel quel que soit le filtre. Les classements et le contenu du rapport ne changent que lorsque vous avez mis à jour le corpus et entraîné à nouveau la brique avec l'entraîneur Tm.