Entraînement et test des intentions
L'entraînement d'un modèle à l'aide d'un corpus d'entraînement permet à votre bot de comprendre ce que les utilisateurs disent (ou essaient de dire dans certains cas).
Vous pouvez améliorer la précision de la capacité cognitive à l'aide de cycles de test et d'entraînement des intentions. Vous contrôlez l'entraînement uniquement par le biais des définitions d'intention. La brique ne peut pas apprendre en autonomie à partir de la discussion de l'utilisateur.
Test des variations
Nous vous recommandons de réserver 20 % de votre corpus au test d'intention et d'utiliser les 80 % restants pour entraîner vos intentions. Maintenez ces deux ensembles séparés afin que les variations de test, que vous incorporez dans les cas de test, restent "inconnues" pour votre brique.
Appliquez la répartition 80/20 à l'ensemble de données de chaque intention. Rangez les variations dans un ordre aléatoire avant d'effectuer le fractionnement afin de permettre aux modèles d'entraînement d'affecter la même pondération aux termes et aux modèles des variations.
Testeur de variations
Le testeur de variations permet d'accéder à la capacité cognitive de votre brique. En saisissant des expressions qui ne font pas partie du corpus d'entraînement, vous pouvez déterminer la qualité de vos intentions en consultant le classement du niveau de confiance des intentions et l'objet JSON renvoyé. Ce classement, qui donne une estimation du candidat le plus à même de résoudre la saisie utilisateur, illustre la précision du corpus d'entraînement en cours.
Description de l'image variation-tester-quick-test.png
A l'aide du testeur de variations, vous pouvez effectuer des tests rapides pour des tests ponctuels, ou intégrer une variation en tant que cas de test pour évaluer la résolution d'intention entre les différentes versions des modèles d'entraînement.
Cas de test
Chaque test comporte une variation et l'intention vers laquelle il est censé se résoudre, ce qui est connu sous le nom de correspondance de libellé. Un cas de test peut également inclure des valeurs d'entité correspondantes et la langue attendue pour la variation. Vous pouvez exécuter des cas de test lorsque vous développez une brique et, plus tard, lorsque la brique est en production, vous pouvez utiliser les cas de test pour les tests de régression. Dans ce dernier cas, vous pouvez exécuter des cas de test pour déterminer si une nouvelle version du modèle d'entraînement a dégradé la résolution d'intention.
A l'instar des cas de test que vous créez avec le testeur de conversation, les cas de test de variation font partie de la brique et sont conservés à chaque nouvelle version. Si vous étendez une brique, l'extension hérite des cas de test. Alors que les cas de test de conversation sont destinés à tester un scénario, les cas de test de variation sont destinés à tester des fragments de conversation indépendamment, en veillant à ce que chaque variation soit résolue en intention correcte.
Gestion des cas de test
nluTestSuites
qui héberge les suites de tests de la brique lors de l'export de la brique.Créer des suites de tests
- Cliquez sur + Suite de test.
- Dans l'onglet Général, remplacez le nom de l'espace réservé (TestSuite0001, par exemple) par un nom plus explicite en ajoutant une valeur dans le champ Nom d'affichage.
- Ajoutez éventuellement une description expliquant les fonctionnalités couvertes par la suite de tests.
- Remplissez la suite de tests avec les cas de test à l'aide de l'une des méthodes suivantes (ou d'une combinaison de) :
- Ajouter manuellement des cas de test (en créant un cas de test ou en enregistrant une variation en tant que cas de test à partir du testeur de variations).
- Import de cas de test.
Remarque
Pour affecter un cas de test à une suite de tests via l'import, le champtestSuite
du fichier CSV peut être vide ou doit contenir un nom correspondant à la suite de tests sélectionnée dans la boîte de dialogue d'import. - Modification d'un cas de test pour réaffecter sa suite de tests.
- Si vous voulez exclure la suite de tests des exécutions de test lancées à l'aide des options Tout et Tout exécuter, désactivez l'option Activer la suite de tests.
- Si vous ne souhaitez pas que la suite de tests soit incluse dans l'export de brique, désactivez l'option Inclure dans l'export de brique. Lorsque vous désactivez cette option pour une suite de tests, elle ne sera pas incluse dans le dossier
nluTestSuites
qui héberge les suites de tests de la brique dans le fichier ZIP exporté.
Création de cas de test de variation
Vous pouvez ajouter des cas de test un par un à l'aide du testeur de variations ou de la boîte de dialogue Nouveau cas de test (accessible en cliquant sur + Cas de test), ou vous pouvez les ajouter en masse en téléchargeant un fichier CSV.
Chaque cas de test doit appartenir à une suite de tests. Par conséquent, avant de créer un cas de test, vous pouvez créer une suite de tests qui reflète une capacité de la brique ou certains aspects des tests d'intention, tels que les tests d'échec, les tests dans le domaine ou les tests hors domaine.
Conseil :
Pour fournir une couverture adéquate dans vos tests, créez des variations de suite de tests qui sont non seulement variées sur le plan conceptuel, mais aussi grammaticalement, car les utilisateurs ne feront pas de demandes de manière uniforme. Vous pouvez ajouter ces dimensions en créant des suites de tests à partir d'un message utilisateur réel qui a fait l'objet d'une requête dans le réentraînement des informations, ainsi qu'à partir d'entrées provenant de sources multiples collectées à partir de la fabrication de données.Ajout de cas de test à partir du testeur de variations
- Cliquez sur Tester les variations.
- Si la brique est multilingue, sélectionnez la langue native.
- Saisissez la variation, puis cliquez sur Tester.
- Cliquez sur Enregistrer en tant que cas de test, puis choisissez une suite de tests.
Création d'un cas de test
- Cliquez sur Accéder aux cas de test dans le testeur de variations.
- Cliquez sur + Cas de test.
- Remplissez la boîte de dialogue Nouveau cas de test :
- Si nécessaire, désactivez le cas de test.
- Saisissez la variation de test.
- Sélectionnez la suite de tests.
- Sélectionnez l'intention attendue. Si vous créez un cas de test pour des tests d'échec, sélectionnez unresolvedIntent.
- Pour les briques multilingues, sélectionnez la balise de langue et la langue attendue.
- Cliquez sur Ajouter à la suite. Sur la page Cas de test, vous pouvez supprimer un cas de test ou le modifier, ce qui inclut la réaffectation du cas de test à une autre suite de tests.
- Pour tester les valeurs d'entité, procédez comme suit :
- Activez Tester les entités. Cliquez ensuite sur Continuer.
- Mettez en surbrillance le ou les mots, puis appliquez-lui un libellé d'entité en sélectionnant une entité dans la liste. Lorsque vous avez terminé, cliquez sur Ajouter à Suite.
Remarque
Sélectionnez toujours des mots ou des expressions dans la variation de cas de test après avoir activé les entités de test. Le cas de test échouera si vous avez activé les entités de test mais que vous n'avez mis aucun mot en surbrillance.
Import de cas de test pour les suites de tests de niveau brique
testSuite
: nom de la suite de tests à laquelle appartient le cas de test. Le champtestSuite
de chaque ligne du fichier CSV peut avoir un nom de suite de tests différent ou être vide.- Les cas de test avec des champs
testSuite
vides sont ajoutés à une suite de tests que vous sélectionnez lorsque vous importez le fichier CSV. Si vous ne sélectionnez pas de suite de tests, ils sont affectés à la suite de tests par défaut. - Les cas de test avec des champs
testSuite
remplis sont affectés à la suite de tests que vous sélectionnez lorsque vous importez le fichier CSV uniquement lorsque le nom de la suite de tests sélectionnée correspond au nom du champtestSuite
. - Si une suite de tests portant le nom de celui indiqué dans le champ
testSuite
n'existe pas déjà, elle sera créée après l'import du fichier CSV.
- Les cas de test avec des champs
utterance
: exemple de variation (requis). Correspond àquery
dans les versions antérieures à la version 21.04 d'Oracle Digital Assistant.expectedIntent
: intention correspondante (requise). Ce champ est mis en correspondance avecTopIntent
dans les versions antérieures à la version 21.04 d'Oracle Digital Assistant.Conseil :
Le import des versions antérieures à la version 21.04 du fichier CSV vous indique comment reformater des fichiers CSV antérieurs à la version 21.04 afin de pouvoir les utiliser pour des tests en masse.enabled
: la valeurTRUE
inclut le cas de test dans l'exécution de test. La valeurFALSE
l'exclut.languageTag
: balise de langue (en
, par exemple). En l'absence de valeur, la langue détectée dans les paramètres de langue de la brique est utilisée par défaut.expectedLanguageTag
(facultatif) : pour les briques multilingues, il s'agit de la balise de langue de la langue que le modèle doit utiliser lors de la résolution de la variation de test en intention. Pour que le cas de test réussisse, cette balise doit correspondre à la langue détectée.expectedEntities
: entités correspondantes dans la variation de cas de test, représentées sous la forme d'un tableau d'objetsentityName
. Chaque élémententityName
identifie la position de la valeur d'entité dans la variation à l'aide des propriétésbeginOffset
etendOffset
. Ce décalage est déterminé par caractère, et non par mot, et est calculé à partir du premier caractère de la variation (0-1). Par exemple, l'objetentityName
pour la valeur d'entité PizzaSize small dans Je veux commander une petite pizza est :[{"entityName":"PizzaSize","beginOffset":18,"endOffset":23,"originalString":"small"}, …]
- Cliquez sur Plus, puis sélectionnez Importer.
- Naviguez jusqu'à, puis sélectionnez le fichier CSV.
- Choisissez la suite de test. Le cas de test ne peut être affecté à la suite de tests sélectionnée que si le champ
testSuite
est vide ou correspond au nom de la suite de tests sélectionnée. - Cliquez sur Télécharger.
Import de versions antérieures à la version 21.04 du fichier CSV
query
et TopIntent
, sont ajoutés à la suite de tests par défaut uniquement. Vous pouvez réaffecter ces cas de test à d'autres suites de tests individuellement en les modifiant après l'import du fichier CSV, ou vous pouvez mettre à jour le fichier CSV au format actuel, puis le modifier avant de l'importer comme suit :
- Cliquez sur Plus > Importer.
- Une fois l'import terminé, sélectionnez Suite de tests par défaut, puis cliquez sur Plus > Exporter la suite sélectionnée. Le fichier exporté est converti au format en cours.
- Extrayez le fichier ZIP et modifiez le fichier CSV. Lorsque vous avez terminé, importez à nouveau le fichier CSV (Plus > Importer). Vous devrez peut-être supprimer les cas de test en double de la suite de tests par défaut.
Remarque
Si vous téléchargez vers le serveur le même fichier CSV plusieurs fois avec des modifications mineures, toutes les données nouvelles ou mises à jour sont fusionnées avec les anciennes : de nouvelles mises à jour sont appliquées et de nouvelles lignes sont insérées. Vous ne pouvez toutefois supprimer aucune variation en téléchargeant un nouveau fichier CSV. Si vous devez supprimer des variations, vous devez les supprimer manuellement à partir de l'interface utilisateur.
Création d'exécutions de test
Les tests sont une compilation de cas de test ou de suites de tests visant à évaluer certains aspects de la cognition de la compétence. Le contenu (et le volume) d'un test dépend de la capacité que vous souhaitez tester. Un test peut donc inclure un sous-ensemble de cas de test d'une suite de test, d'une suite de test complète ou de plusieurs suites de test.
Les cas de test inclus dans une exécution de test sont évalués par rapport au seuil de confiance défini pour la brique. Pour qu'un cas de test réussisse dans l'exécution de test globale, il doit être résolu en fonction de l'intention attendue au niveau du seuil de confiance ou au-delà. Si spécifié, le cas de test doit également satisfaire la valeur d'entité et les critères de correspondance de langue. En examinant les résultats d'exécution de test, vous pouvez déterminer si les modifications apportées à la plate-forme ou à la brique en elle-même ont compromis la précision de la résolution d'intention.
En plus de tester le modèle, vous pouvez également utiliser les résultats de l'exécution de test pour évaluer la fiabilité de vos tests. Par exemple, les résultats montrant que presque tous les cas de test ont réussi peuvent, en surface, indiquer un fonctionnement optimal du modèle. Cependant, un examen des cas de test de réussite peut révéler que les cas de test ne reflètent pas l'entraînement en cours car leurs variations sont trop simples ou présentent un chevauchement significatif en termes de concepts et de verbiage pour lesquels ils sont en train de tester. D'autre part, un nombre élevé de tests en échec peut indiquer des lacunes dans les données d'entraînement, mais un examen de ces cas de test peut révéler que leurs variations sont associées à des intentions incorrectes attendues.
- Cliquez sur Tout exécuter afin de créer une exécution de test pour tous les cas de test d'une suite de tests sélectionnée. (Si vous voulez exécuter toutes les suites de tests, sélectionnez Tout, puis cliquez sur Tout exécuter.)
- Afin de créer une exécution de test pour une sélection de cas de test au sein d'une suite (ou une exécution de test pour un sous-ensemble des cas de test si vous avez sélectionné Tout), filtrez les cas de test en ajoutant une chaîne correspondant au texte de variation et à l'intention attendue. Sélectionnez les variations, puis cliquez sur Exécuter.
- Pour exclure la suite de tests de l'exécution de test, sélectionnez d'abord la suite de tests, ouvrez l'onglet Général, puis désactivez l'option Activer la suite de tests.
- Pour les briques multilingues, vous pouvez également filtrer les données par balise de langue et par langue attendue (options accessibles via Attributs facultatifs).
- Afin de créer une exécution de test pour une sélection de cas de test au sein d'une suite (ou une exécution de test pour un sous-ensemble des cas de test si vous avez sélectionné Tout), filtrez les cas de test en ajoutant une chaîne correspondant au texte de variation et à l'intention attendue. Sélectionnez les variations, puis cliquez sur Exécuter.
- Saisissez un nom d'exécution de test qui reflète l'objet du test. Cette étape est facultative.
- Cliquez sur Démarrer.
- Cliquez sur Résultats de test, puis sélectionnez l'exécution de test.
Conseil :
Les exécutions de test qui contiennent un grand nombre de cas de test peuvent prendre plusieurs minutes. Pour ces exécutions de test volumineuses, vous devrez peut-être cliquer régulièrement sur Actualiser jusqu'à la fin du test. Un pourcentage remplace le statut En cours pour la mesure Précision et le rapport Intentions s'affiche une fois que tous les cas de test ont été évalués.
- Consultez les états d'exécution des tests. Par exemple, vérifiez d'abord les mesures de haut niveau pour l'exécution de test fournie par le rapport d'aperçu. Ensuite, validez les résultats de test par rapport aux cas de test réels en filtrant le rapport Cas de test, qui répertorie tous les cas de test inclus dans l'exécution de test, pour les cas de test réussis et en échec. Vous pouvez ensuite examiner les résultats de chaque cas de test. Vous pouvez également comparer le score d'exactitude du rapport Aperçu au score d'exactitude du rapport Intentions, qui mesure la capacité du modèle à prévoir les intentions correctes. Pour consulter les cas de test répertoriés dans ce rapport, ouvrez le rapport Cas de test et filtrez par intention.
Etat de synthèse des exécutions de test
Le rapport Summary (Synthèse) vous fournit une évaluation globale de la façon dont le modèle peut gérer avec succès le type d'entrée utilisateur couvert par l'exécution de test. Pour les suites de tests incluses dans l'exécution de test, il affiche le nombre total de cas de test qui ont été utilisés pour évaluer le modèle et, à partir de ce total, le nombre de cas de test (à la fois fiables et non fiables) qui ont échoué, ainsi que le nombre de cas de test fiables et non fiables qui ont réussi. La précision globale du modèle - sa capacité à prévoir les intentions attendues au niveau de confiance ou au-dessus de la brique, à reconnaître les valeurs d'entité et à résoudre les variations dans la langue de la brique - est mesurée par le taux de réussite des tests de réussite dans l'exécution de test.
Description de l'illustration test-run-test-results-summary.png
Mesures de rapport récapitulatif
- Exactitude : précision du modèle en termes de taux de réussite des cas de test de réussite (nombre de cas de test de réussite par rapport au nombre total de cas de test inclus dans l'exécution de test).
Remarque
Les cas de test désactivés ne sont pas pris en compte dans le score de précision. Les tests n'ont pas non plus échoué en raison d'erreurs. Tout test ayant échoué est ajouté au nombre d'échecs.Un faible score de précision peut indiquer que l'exécution du test évalue le modèle sur des concepts et un langage qui ne sont pas correctement pris en charge par les données d'entraînement. Pour augmenter le score de précision, réentraînez le modèle avec des variations qui reflètent les cas de test dans l'exécution de test.
Cette mesure de précision s'applique à l'ensemble de l'exécution de test et fournit un score distinct de la mesure de précision dans le rapport Intentions. Cette métrique représente le pourcentage de cas de test pour lesquels le modèle a satisfait à tous les critères de cas de test. Le score d'exactitude du rapport Intentions, quant à lui, n'est pas un test de bout en bout. Il s'agit du pourcentage de cas de test où le modèle n'a eu qu'à prédire l'intention attendue à ou au-dessus du seuil de confiance de la brique. Les autres critères de cas de test (tels que la valeur d'unité ou la langue de compétence) ne sont pas pris en compte. Compte tenu des critères différents de ce que signifie un cas de test de réussite pour ces deux rapports, leurs scores d'exactitude respectifs peuvent ne pas toujours être en phase. Le score de précision de correspondance d'intention peut être supérieur au score global d'exécution de test lorsque les données de test ne sont pas alignées sur les données d'entraînement. La réentraînement du modèle avec des variations qui prennent en charge les cas de test lui permettra de prévoir les intentions attendues avec une plus grande confiance qui, à son tour, augmentera le score de précision pour l'exécution du test.
Remarque
La mesure de précision n'est pas disponible tant que l'exécution de test n'est pas terminée. Elle n'est pas disponible pour les exécutions de test terminées lorsque la brique a été exécutée sur des versions antérieures à la version 22.12 de la plate-forme Oracle Digital Assistant. - Cas de test : nombre total de cas de test (fiable et non fiable) inclus dans l'exécution de test. Les cas de test ignorés sont inclus dans ce décompte, mais ils ne sont pas pris en compte lors du calcul de la mesure d'exactitude.
- Réussi : nombre de cas de test (fiable et non fiable) qui ont réussi en résolvant l'intention au seuil de confiance et en mettant en correspondance les valeurs d'entité ou la langue sélectionnées.
- Echec : nombre de cas de test (fiable et non fiable du bot) qui n'ont pas réussi à atteindre l'intention attendue au seuil de confiance et qui n'ont pas réussi à correspondre aux valeurs d'entité ou à la langue sélectionnées.
Pour consulter les cas de test réels derrière les mesures Réussi et Echec dans ce rapport, ouvrez le rapport Cas de test, puis appliquez ses filtres Réussi ou Echec.
Description de l'illustration test-runs-intent-report.png
Répartition de la suite de test
Le tableau Répartition des séries de tests répertorie les séries de tests incluses dans l'exécution de test et leurs statistiques individuelles. Vous pouvez consulter les cas de test réels appartenant à une suite de tests en cliquant sur le lien dans la colonne Suite de tests.
Description de l'illustration test-suite-breakdown.png
Etat Intentions
Les mesures de ce rapport assurent le suivi des correspondances de libellé du modèle tout au long des cas de test de l'exécution de test. C'est là que le modèle prédit correctement l'intention attendue pour la variation du cas de test. Dans le contexte de ce rapport, l'exactitude, la réussite et l'échec sont mesurés en fonction des cas de test dans lesquels le modèle a prédit l'intention attendue correcte à ou au-dessus du seuil de confiance. Les autres critères pris en compte dans le rapport récapitulatif, tels que les correspondances de valeur d'entité ou la langue de la brique, ne sont pas pris en compte. Par conséquent, cet état vous fournit une vue différente de la précision du modèle, qui vous aide à vérifier si l'entraînement en cours permet au modèle de prévoir de manière cohérente les intentions correctes.
Ce rapport n'est pas disponible pour les exécutions de test terminées lorsque la brique a été exécutée sur une version antérieure à la version 22.12 de la plate-forme Oracle Digital Assistant.
Mesures de rapport sur les intentions
- Cas de test : nombre de cas de test inclus dans cette exécution de test. Ce total inclut à la fois des cas de test fiables et peu fiables. Les cas de test ignorés ne sont pas inclus dans ce décompte.
Conseil :
Les liens de cas de test non fiables pour les mesures Cas de test, Succès et Echec ouvrent le rapport Cas de test filtré par cas de test non fiables. Cette navigation n'est pas disponible lorsque vous filtrez le rapport par suite de tests. - Exactitude : précision du modèle dans la mise en correspondance de l'intention attendue à ou au-dessus du seuil de confiance de la brique dans les cas de test de cette exécution de test. La sous-mesure Correspondance de libellé représente le pourcentage de cas de test dans l'exécution de test où le modèle a correctement prédit l'intention attendue, quel que soit le score de confiance. Etant donné que la correspondance d'étiquettes prend en compte l'échec des cas de test et la réussite des cas de test, son score peut être supérieur au score de précision.
Vous pouvez comparer cette mesure d'exactitude à la mesure d'exactitude du rapport de synthèse. Lorsque le score d'exactitude dans le rapport de synthèse est faible, vous pouvez utiliser ce rapport pour savoir rapidement si les échecs du modèle peuvent être attribués à son incapacité à prédire l'intention attendue. Toutefois, lorsque le score d'exactitude de ce rapport est élevé, vous pouvez exclure la mise en correspondance de libellés en tant que racine du problème. Au lieu d'avoir à réviser lourdement les données d'entraînement pour augmenter le score d'exactitude de l'exécution de test, vous pouvez vous concentrer sur l'ajout de variations qui reflètent les concepts et la langue dans les variations du cas de test.
- Réussi : nombre de cas de test (fiables et non fiables) dans lesquels le modèle a prédit l'intention attendue au seuil de confiance de la brique.
- Echec : nombre de cas de test (fiables et non fiables) dans lesquels le modèle a prédit l'intention attendue en dessous du seuil de confiance de la brique.
- Réussite de confiance : moyenne des scores de confiance pour tous les cas de test ayant réussi dans cette exécution de test.
- Echec de confiance : moyenne des scores de confiance pour tous les cas de test ayant échoué dans cette exécution de test.
Lorsque vous filtrez le rapport Intentions par suite de tests, l'accès au rapport Cas de test à partir des liens Cas de test peu fiables dans les vignettes Cas de test, Réussi et Echec n'est pas disponible. Ces liens redeviennent actifs lorsque vous supprimez toutes les entrées du champ Filtrer par suite de tests.
Filtrer par suite de test

Le rapport ajuste les mesures pour chaque suite de tests que vous ajoutez (ou enlevez par la suite). Il tableau les résultats de correspondance d'intention en fonction du nombre de cas de test activés qui appartiennent à la suite de tests sélectionnée.
Vous ne pouvez pas filtrer par suites de tests exécutées sur une plate-forme antérieure à la version 23.06. Pour inclure ces suites de tests, vous devez les exécuter à nouveau après la mise à niveau vers la version 23.06 ou supérieure.
Le filtrage par suite de tests désactive la navigation vers le rapport Cas de test à partir des liens Cas de test peu fiables dans les vignettes Cas de test, Réussi et Echec. Les liens de la colonne Total de la ventilation des intentions sont également désactivés. Tous ces liens redeviennent actifs une fois que vous avez supprimé toutes les entrées du champ Filtrer par suite de tests.
Répartition des intentions
Le champ Filtrer par intention modifie la vue de la table Répartition des intentions, mais ne modifie pas les mesures globales du rapport. Ces mesures reflètent les entrées (ou le manque d'entrées) du champ Filtrer par suite de tests.
- Intention : nom de l'intention attendue.
- Total : nombre de cas de test, représenté sous forme de lien, pour l'intention attendue. Vous pouvez parcourir l'état des scénarios de test en cliquant sur ce lien.
Remarque
Vous ne pouvez pas accéder au rapport Cas de test lorsque vous avez appliqué un filtre de suite de tests à ce rapport. Ce lien redevient actif lorsque vous supprimez toutes les entrées du champ Filtrer par suite de tests. - Exactitude : pourcentage de cas de test ayant abouti à des correspondances de libellé pour l'intention attendue à ou au-dessus du seuil de confiance de la brique.
- Réussi : nombre de cas de test (y compris les cas de test non fiables) dans lesquels le modèle a prédit l'intention attendue à un seuil de confiance de la brique ou au-delà.
- Réussi - Non fiable : nombre de cas de test dans lesquels le modèle a prédit l'intention attendue à 5 % ou moins au-dessus du seuil de confiance de la brique.
- Echec : nombre de cas de test ayant échoué dans l'exécution de test car le modèle a prédit l'intention attendue en dessous du seuil de confiance de la brique.
- Echec - Non fiable : nombre de cas de test ayant échoué car la confiance du modèle dans la prévision de l'intention attendue est tombée de 5 % en dessous du seuil de confiance de la brique. Ces cas de test peuvent prendre en compte
- Correspondance de libellé : nombre de cas de test dans lesquels le modèle a prédit avec succès l'intention attendue, quel que soit le niveau de confiance. Etant donné qu'il prend en compte les cas de test ayant échoué, les scores Label Match et Accuracy peuvent ne pas toujours être en phase les uns avec les autres. Par exemple, quatre cas de test réussis sur cinq donnent un score d'exactitude de 80 % pour l'intention. Toutefois, si le modèle prévoyait correctement l'intention pour le cas de test qui a échoué, la correspondance d'étiquettes deviendrait de 20 % supérieure à la précision.
- Réussite de confiance : moyenne des scores de confiance pour tous les cas de test correspondant avec succès à l'intention attendue.
- Echec de confiance : moyenne des scores de confiance pour tous les cas de test qui n'ont pas réussi à correspondre à l'intention attendue.
Conseil :
Pour consulter les cas de test réels, ouvrez le rapport Cas de test et le filtre par intention.
Rapport des cas de test
- Vous pouvez filtrer les résultats en cliquant sur Tout, Réussi (vert) ou Echec (rouge). Les cas de test comptabilisés comme ignorés incluent les cas de test désactivés et ceux pour lesquels l'intention attendue a été désactivée.
Vous pouvez filtrer les résultats par cas de test non fiables en cliquant sur Afficher les cas non fiables dans le message d'avertissement ou en sélectionnant le filtre Cas non fiables uniquement. - Si nécessaire, filtrez les résultats pour une intention ou une entité spécifique ou en fonction de cas de test fiables ou non fiables.
- Pour les cas de test non fiables et ayant échoué, cliquez sur Visualiser des variations similaires (sur la page Infos de test) pour savoir si la variation de cas de test présente une quelconque similitude avec les variations de l'ensemble d'entraînement.
- Vérifiez les résultats suivants :
- Informations sur le test : présente l'aperçu du cas de test, y compris le seuil de confiance cible, l'intention attendue et les valeurs d'entité mises en correspondance.
- Résultat du test : classement de l'intention par niveau de confiance. Le cas échéant, le rapport identifie également les entités contenues dans la variation par nom et par valeur d'entité. Vous pouvez également visualiser l'objet JSON contenant l'intégralité des résultats.
- Analyse des échecs : explique pourquoi le cas de test a échoué. Par exemple, l'intention réelle n'est pas l'intention attendue, la valeur d'entité étiquetée dans le cas de test ne correspond pas à l'entité résolue ou la langue attendue n'est pas la même que la langue détectée.
Cas de test peu fiables
Certains cas de test ne peuvent pas fournir de résultats cohérents car ils sont résolus à moins de 5 % du seuil de confiance. Cette marge étroite rend ces cas de test peu fiables. Lorsque le seuil de confiance de la brique est défini sur 0,7, par exemple, un cas de test réussi à 74 % peut échouer une fois que vous n'avez apporté que des modifications mineures à vos données d'entraînement ou que la brique a été mise à niveau vers une nouvelle version du modèle. La fragilité de ces cas de test peut indiquer que les variations qu'elles représentent dans les données d'entraînement sont peut-être trop peu nombreuses et que vous devrez peut-être équilibrer les données d'entraînement de l'intention avec des variations similaires.
- Exécutez la suite de tests. Cliquez ensuite sur Résultats de test et sélectionnez l'exécution de test. Les cas de test peu fiables sont triés au début des résultats de l'exécution de test et sont signalés par des avertissements
.
- Pour isoler les cas de test peu fiables :
- Cliquez sur Afficher les cas peu fiables dans le message.
- Sélectionnez Uniquement les cas non fiables dans le menu Filtrer par cas.
- Cliquez sur Afficher les cas peu fiables dans le message.
- Pour rechercher la proximité de l'intention de premier rang du cas de test avec le seuil de confiance, ouvrez la fenêtre Résultat du test. Pour comparer le score de confiance de premier rang au seuil de confiance, cliquez sur
.
- Si vous devez compléter les données d'entraînement de l'intention de niveau supérieur, cliquez sur Accéder à l'intention de niveau supérieur dans le message d'avertissement.
- Pour déterminer la quantité de variations représentées par le cas de test dans les données d'entraînement, cliquez sur Afficher les variations similaires.
Vous pouvez également vérifier si l'une des variations les plus similaires à la variation du cas de test est également une anomalie dans l'ensemble d'entraînement en exécutant le rapport d'anomalies.
Exécutions de test export
Les exécutions de test ne sont pas conservées avec la brique, mais vous pouvez les télécharger sur votre système pour analyse en cliquant sur Exporter l'exécution de test. Si les intentions ne résolvent plus la saisie utilisateur comme prévu ou si les modifications de la plate-forme ont un impact négatif sur la résolution d'intention, vous pouvez collecter les détails d'une demande de service à l'aide des journaux des exécutions de test exportées.
Test d'échec
Le test d'échec (ou négatif) permet de tester en masse les variations qui ne doivent jamais être résolues, soit car elles aboutissent à unresolvedIntent, soit car elles sont résolues uniquement sur d'autres intentions en dessous du seuil de confiance pour toutes les intentions.
- Indiquez unresolvedIntent comme intention attendue pour tous les cas de test que vous prévoyez de ne pas résoudre. Idéalement, ces "fausses" expressions ne seront pas résolues.
- Si nécessaire, ajustez le seuil de confiance lors de la création d'une exécution de test pour confirmer que les fausses expressions (celles avec
unresolvedIntent
comme intention attendue) peuvent uniquement être résolues en dessous de la valeur que vous définissez ici. Par exemple, l'augmentation du seuil peut entraîner l'échec de la résolution des fausses expressions au niveau de confiance en n'importe quelle intention (y compris unresolvedIntent), ce qui signifie qu'elles réussissent le test car elles sont considérées comme non résolues. - Examinez les résultats du test, en vérifiant que les cas de test sont mis en correspondance avec unresolvedIntent au seuil ou qu'elles ne sont mises en correspondance avec aucune intention (unresolvedIntent ou autre) au seuil.
Variations similaires
Pour savoir à quel point votre expression de test est similaire aux variations du corpus d'entraînement, cliquez sur Afficher les variations similaires. Cet outil vous fournit une perspective supplémentaire sur les données d'entraînement de la brique en vous montrant à quel point ses variations sont similaires à l'expression de test et, par extension, à quel point les variations sont similaires entre elles entre les intentions. A l'aide de cet outil, vous pouvez déterminer si la similitude de l'expression de test avec les variations appartenant à d'autres intentions est la raison pour laquelle l'expression de test ne se résout pas comme prévu. Il peut même indiquer où les données d'entraînement appartiennent à la mauvaise intention, car si elles sont similaires à l'expression de test.
Description de l'illustration similar-utterance-report-all-intents.png
La liste générée par cet outil classe 20 variations (avec leurs intentions associées) les plus proches de l'expression de test. Idéalement, la variation de premier rang de cette liste - celle qui ressemble le plus à l'expression de test - appartient à l'intention ciblée pour l'expression de test. Si la variation la plus proche qui appartient à l'intention attendue est plus faible, une révision de la liste peut fournir quelques conseils sur la raison. Par exemple, si vous testez une variation d'intention Transactions, combien d'argent ai-je transféré hier ?, vous pouvez vous attendre à ce que la variation de premier rang appartienne également à une intention Transactions. Toutefois, si cette variation de test est résolue en intention incorrecte ou en dessous du niveau de confiance, la liste peut révéler qu'elle a plus de points communs avec les variations hautement classées avec des termes similaires qui appartiennent à d'autres intentions. Par exemple, l'intention Soldes Combien d'argent ai-je dans tous mes comptes ? peut être plus proche de la variation de test que la variation de rang inférieur de l'intention Transactions Combien ai-je déposé en avril ?.
Vous ne pouvez utiliser cet outil que pour les briques formées à l'entraîneur Tm (il n'est pas disponible pour les briques formées à l'entraîneur Ht).
- Filtrer par intention : renvoie 20 variations les plus proches de la variation de test qui appartiennent à l'intention (ou aux intentions) sélectionnée(s).
- Filtrer par variation : renvoie 20 des variations les plus proches de la variation de test qui contiennent un mot ou une expression.
- Langue : pour les briques multilingues, vous pouvez interroger et filtrer le rapport en sélectionnant une langue.
L'application de ces filtres ne modifie pas le classement, mais uniquement la vue. Une variation classée troisième, par exemple, sera notée comme telle quel, quel que soit le filtre. Le classement et le contenu du rapport ne changent que lorsque vous avez mis à jour le corpus et réentraîné la brique avec l'entraîneur Tm.