Fabrication de données

En tant que développeur unique, il peut être difficile, voire impossible pour vous de créer une large variété d'énoncés, surtout si vous devez fournir des données d'entraînement pour de multiples intentions ou entités ML. Plutôt que d'essayer de définir les données d'entraînement par vous-même, vous pouvez utiliser Oracle Digital Assistant pour effectuer une externalisation ouverte de cette tâche. L'externalisation ouverte peut être particulièrement utile lorsque vous avez besoin d'énoncés que seuls les experts de l'application ou du domaine peuvent fournir.

Qu'est-ce qu'un travail de fabrication de données?

Les tâches de fabrication de données sont des ensembles de tâches affectées aux contributeurs. Les travaux eux-mêmes se concentrent sur diverses façons d'améliorer les intentions et les entités ML.

Travaux d'annotation

Vous pouvez affecter un travail d'annotation lorsque vous avez des données de journalisation à classer par intention, ou lorsqu'une intention est trop large et doit être décomposée en plusieurs. Vous pouvez également affecter des contributeurs pour annoter les mots clés et les expressions des données d'entraînement liées à une entité ML.

Travaux de validation

Pour les travaux de validation, les contributeurs examinent les énoncés pour vérifier s'ils correspondent à la tâche ou à l'action décrite par l'intention ou si l'entité d'apprentissage automatique correcte a été identifiée. Seuls les énoncés jugés valides par les contributeurs sont ajoutés aux données d'entraînement.

Travaux de paraphrasage

Le travail de paraphrasage permet de collecter des énoncés de la foule. Cette affectation décrit comment ils doivent rédiger leurs énoncés.

Flux de travail de fabrication de données

Pour créer un travail de fabrication de données, vous créez d'abord un travail et surveillez son avancement. Si vous souhaitez accéder aux données avant la fin officielle du travail (par exemple, parce que les contributeurs ne travaillent plus), vous pouvez annuler le travail. Enfin, vous examinez les résultats avant de les ajouter aux données d'entraînement en les acceptant, ou de les exclure en les rejetant.

Créer le travail

  1. Cliquez sur Manufacturing (Fabrication) Ceci est une image de l'icône de fabrication de données. dans la barre de navigation gauche.
  2. Dans la page Jobs (Travaux), cliquez sur Add Job (Ajouter un travail).

  3. Sélectionnez le type de travail (Paraphrasing (Paraphrasage), Validation, ou Annotation).

  4. Sélectionnez la langue utilisée par les contributeurs. La langue par défaut est la langue prédominante de la compétence, mais vous pouvez choisir une des autres langues prises en charge de manière native. Vous ne pouvez toutefois pas choisir une langue fournie par un service de traduction.
  5. Cliquez sur Launch (Lancer). Une fois lancé, le travail a le statut Running (En cours d'exécution) dans la page Jobs (Travaux). Vous ne pouvez pas modifier un travail en cours d'exécution. Si vous devez effectuer un changement, vous devez d'abord annuler le travail, le dupliquer, puis le modifier avant de le relancer.
  6. Pour envoyer le travail aux contributeurs, cliquez sur Copy link (Copier le lien). Collez ensuite le lien dans un courriel qui est diffusé aux contributeurs.

    Les contributeurs acceptent le travail en cliquant sur ce lien. Après avoir accepté le travail, le contributeur examine les règles générales pour les travaux de paraphrasage, d'annotation ou de validation.
    Note

    Les contributeurs fournissent leur nom et leur adresse de courriel aux fins de suivi. Vous triez les résultats par nom pour évaluer la réalisation des tâches selon les contributeurs.

Surveiller les progrès des contributeurs

Vous pouvez surveiller les progrès des contributeurs pour le travail en cours d'exécution dans la page Jobs (Travaux), mais vous ne pouvez pas accéder aux résultats ni les consulter lorsque le statut est Running (En cours d'exécution). Les résultats ne sont accessible que lorsque les contributeurs ont terminé le travail, ou lorsque vous annulez un travail parce que vous pensez que son état d'achèvement est suffisant. Dans ce cas, cliquez sur Cancel (Annuler). Les résultats de la tâche contiendront tous les enregistrements terminés jusqu'au point où vous l'avez annulé.

Les travaux terminés ou annulés peuvent être téléchargées dans la page Results (Résultats). Généralement, vous utilisez cette page pour accéder aux résultats et les modifier en les téléchargeant dans un fichier CSV que vous pouvez manipuler dans un tableur comme Excel.

À mesure que le nombre de travaux augmente, vous pouvez les filtrer selon leur type : par Accepted (Accepté), Rejected (Rejeté) ou Undecided (Non décidé) pour les travaux qui n'ont été ni acceptés ni rejetés.

Conseil :

Étant donné que le statut Accepted ou Rejected signifie que votre intervention sur le travail est terminée, il est probable que vous utiliserez le filtre Undecided le plus souvent.

Vérifier les résultats

  1. Cliquez sur View (Voir) pour examiner les résultats.

    Si la plupart des résultats sont uniformément incorrects, cliquez sur Reject (Rejeter). Vous rejetterez par exemple un travail mal conçu qui induisait en erreur les contributeurs, ou un travail de test. Si vous trouvez que les résultats sont corrects, vous pouvez les ajouter à votre jeu d'entraînement en cliquant sur Accept (Accepter). Avant de choisir cette option, gardez à l'esprit que vous ne pourrez pas annuler cette opération, qui ajoute l'ensemble des résultats à vos données d'entraînement. Parce que vous pouvez ajouter par inadvertance de mauvais énoncés que vous ne pouvez supprimer qu'en modifiant l'intention, nous vous recommandons de télécharger les résultats et de les modifier avant de les accepter dans le corpus d'entraînement.

    La modification des fichiers CSV téléchargés vous permet de nettoyer les résultats. Pour les travaux de paraphrasage, le fait de modifier les résultats avant de les enregistrer dans votre jeu d'entraînement vous permet de modifier les énoncés ou de les supprimer.
    Note

    Le contenu de la colonne result dépend du type de travail. Pour un travail de paraphrasage, elle contient les énoncés de contributeur. Pour une tâche de validation, elle contient l'évaluation de l'énoncé par le contributeur en ce qui concerne la tâche (Correct, Incorrect, Not sure). Et pour une tâche d'annotation, elle contient l'intention qui correspond à l'énoncé.


    Pour télécharger le travail, cliquez sur Download (Télécharger) Ceci est une image de l'icône de téléchargement.dans la page Results (Résultats) ou dans la boîte de dialogue View Results (Voir les résultats). Enregistrez le travail dans votre système local, puis ouvrez le fichier CSV avec un tableur.
  2. Une fois vos modifications terminées, cliquez sur Upload (Charger) dans la page Results (Résultats).

  3. Entraînez de nouveau votre compétence.

Travaux de paraphrasage

Vous recueillez des énoncés des contributeurs au moyen des travaux de paraphrasage. Les participants qui acceptent le travail de paraphrasage produisent des énoncés valides en fonction des lignes directrices fournies sous forme d'invites et de conseils. Une invite indique l'essence de ce que les utilisateurs attendent de la compétence. Un conseil, qui est facultatif, fournit au contributeur plus de détails, tels que la formulation et les valeurs d'entité. Par exemple, "Créer des frais pour un commerçant avec un montant en dollars" est une invite pour une intention Créer un rapport de frais. Le conseil d'accompagnement est "Utilisez le nom de commerçant ACME et un montant inférieur à 50 $."

La collecte d'énoncés qui sont diversifiés d'un point de vue linguistique, mais sémantiquement corrects, commence par la conception de l'invite et du conseil. Gardez à l'esprit ce qui suit lors de la composition de vos invites :
  • Une invite n'est pas un énoncé. Les énoncés peuvent réprimer la créativité des contributeurs en raison de leur spécificité. Plutôt que de servir d'exemple, ils encouragent les contributeurs à produire de légères variations. Ces phrases redondantes ajoutent des mots vides à votre corpus d'entraînement et n'amélioreront pas la cognition de votre compétence.
  • Si vous avez plusieurs invites pour une intention, variez-les. Chaque invite d'un travail de paraphrasage est susceptible d'être distribuée à différents contributeurs. Si un contributeur obtient plusieurs invites du même travail de paraphrasage, le fait d'avoir des invites différentes modifie son point de vue.
  • Utilisez des conseils pour favoriser la variété. Vous pouvez définir des conseils pour tout ce que vous souhaitez voir inclus (ou non) dans les énoncés. De même que vous variez vos invites, faites varier les conseils correspondants.
    Invite Conseil
    Créer des frais pour le stationnement à l'aéroport Incluez le code de l'aéroport (SFO, LAX, etc.), une date complète (dd/mm/yyyy) et un montant en dollars américains.
    Créer des frais pour un repas Inclure le nom du restaurant, une date complète (dd/mm/yyyy), et un montant en dollars américains.

Créer le travail de paraphrasage

Vous pouvez créer un travail de paraphrasage à partir d'un fichier CSV qui contient les noms d'intention, et les invites et conseils correspondants, ou en ajoutant des invites et des conseils individuels pour une intention sélectionnée. Vous pouvez utiliser l'une ou l'autre méthode, mais vous ne pouvez pas les combiner.
  1. Si vous n'avez pas encore créé de travaux, cliquez sur Add Job (Ajouter un travail) (dans la page de renvoi si vous n'avez pas encore créé de travaux, dans l'onglet Jobs (Travaux) dans le cas contraire).
  2. Sélectionnez Paraphrasing (Paraphrasage).
  3. Entrez un nom de travail.
  4. Sélectionnez la langue utilisée par les contributeurs. Par défaut, la langue prédominante de la compétence s'affiche, mais vous pouvez en choisir une autre parmi celles prises en charge de manière native et définies pour la compétence.
  5. Ajoutez vos invites et vos conseils (facultatifs) pour les intentions. Vous pouvez créer ceux-ci hors ligne dans un fichier CSV comportant des colonnes nommées intentionName, prompt et hint, et les ajouter par lots, ou un par un avec la boîte de dialogue New Job (Nouvelle tâche). Vous pouvez ajouter ces colonnes dans n'importe quel ordre dans le fichier CSV.

    Note Si vous avez sélectionné une langue autre que la langue prédominante de la compétence, vos invites et conseils doivent également être dans cette langue.

  6. Si vous avez ajouté les invites, les conseils et les noms d'intention dans un fichier CSV, cliquez sur Upload (Charger), puis accédez au fichier et sélectionnez-le. Puis cliquez sur Continue (Continuer).
  7. Si nécessaire, ajoutez Ceci est une image de l'icône Add (Ajouter)., modifiez Illustration de l'icône Modifier l'entité d'apprentissage automatique. ou supprimez Ceci est une image de l'icône de suppression. des invites, ou modifiez le nombre d'énoncés par invite. Cliquez sur Launch (Lancer).

  8. Pour créer un travail de paraphrasage manuellement, cliquez sur Select (Sélectionner).
  9. Cliquez sur le champ Intents (Intentions) pour sélectionner une intention dans le menu, ou cliquez sur l'option Select all... intentions (Sélectionner toutes les intentions) si vous souhaitez ajouter des invites à l'ensemble de vos intentions.

  10. Cliquez sur Continue (Continuer).
  11. Cliquez dans le champ Invite ou cliquez sur Edit (Modifier) Illustration de l'icône Modifier l'entité d'apprentissage automatique. pour entrer votre invite.
  12. Cliquez dans le champHint (Conseil), ou cliquez sur Edit (Modifier) Illustration de l'icône Modifier l'entité d'apprentissage automatique., pour entrer votre invite.
    • Cliquez sur Add (Ajouter) Ceci est une image de l'icône Add (Ajouter). pour créer une autre invite. Gardez à l'esprit que chaque nouvelle invite est potentiellement un travail distinct, traité par un contributeur différent.
    • Si nécessaire, supprimez ou révisez les invites ou les conseils.
  13. Sélectionnez le nombre de paraphrases par invite.
  14. Lorsque vous avez terminé, cliquez sur Launch (Lancer).

    Dans la page Jobs (Travaux), le travail de paraphrasage s'affiche sous la forme d'une nouvelle rangée dont le statut est Running (En cours d'exécution).
  15. Cliquez sur Copy Link (Copier le lien) dans la rangée, puis collez le lien dans un courriel que vous transmettez aux contributeurs. Les contributeurs acceptent le travail en cliquant sur ce lien. Après avoir accepté le travail, le contributeur examine les règles générales pour les travaux de paraphrasage.

    Note

    Les paramètres régionaux du navigateur du contributeur sont réglés à la langue sélectionnée dans la boîte de dialogue Create Job (Créer une tâche).
    Les contributeurs soumettent ensuite leurs paraphrases.

    Vous pouvez surveiller l'avancement de l'exécution en temps réel à partir de la page Travaux.

Conseils pour les travaux de paraphrasage

Pour que les résultats d'un travail de paraphrasage améliorent vraiment le corpus d'entraînement, il est important de le configurer d'une manière qui suscitera des expressions diverses et réelles pour le cas d'utilisation. Voici quelques conseils pour rendre vos travaux de paraphrasage plus réussis :

  • Formulez soigneusement les cas d'utilisation que vous pouvez utiliser comme valeurs de départ pour les tâches.
  • À l'aide des "cas d'utilisation des semences", décrivez des scénarios concrets pour lesquels l'utilisateur doit fournir des énoncés au lieu de simplement demander des variations sur une phrase.
  • Fournissez plusieurs scénarios pour la même intention.
  • Utilisez le champ Conseil pour donner des conseils qui pourraient élargir la perspective. Par exemple, pour une intention de dépense, vous pouvez ajouter le conseil "inclure différentes devises comme si vous voyagiez".

Vérifier le travail de paraphrasage

Avant d'ajouter les énoncés à votre jeu d'entraînement, il est probable que vous vouliez vérifier la sémantique, les fautes d'orthographe ou les pourriels.

Pour vérifier le travail de paraphrasage :
  1. Vous pouvez attendre qu'un travail soit terminé ou, si vous croyez que toutes les contributions ont été effectuées pour un travail en cours d'exécution, cliquez sur Cancel (Annuler) dans la page Jobs (Travaux).
  2. Cliquez sur Results (Résultats). Seules les travaux annulés ou terminés s'affichent dans la page de résultats.

  3. Cliquez sur View (Voir) pour obtenir une vue en lecture seule des énoncés. À l'aide des options de cette boîte de dialogue, vous pouvez télécharger le travail dans un fichier CSV, ou l'accepter ou le rejeter dans son intégralité.

    Avant de rejeter ou d'accepter toutes les tâches de travail à la fois (opération qui ne peut pas être annulée automatiquement), vous pouvez télécharger le travail et nettoyer les résultats avant de les ajouter au jeu d'entraînement. Si vous procédez ainsi, cliquez sur Doownlaod (Télécharger) dans cette boîte de dialogue ou dans la page Results (Résultats).

    Conseil :

    Avant de pouvoir supprimer facilement des énoncés une fois que vous les avez acceptés, vous pouvez créer une nouvelle version de votre compétence ou la cloner par précaution.
  4. Ouvrez le fichier CSV avec le tableur.
    Vérifiez les énoncés de la colonne de résultat par rapport aux colonnes IntentName et prompt. Mettez à jour les énoncés dans la colonne de résultat si nécessaire, ou supprimez une ou plusieurs rangées entières. Si l'énoncé est irréparable, vous pouvez supprimer la rangée entière. Si un contributeur entre à plusieurs reprises de mauvais énoncés parce qu'il n'a pas compris les invites ou n'a pas suivi les directives générales de paraphrasage, vous pouvez trier la feuille de calcul par contributeur et supprimer les rangées incorrectes. Si vous supprimez une rangée, veillez à le faire complètement. Sinon, vous ne pourrez pas charger le fichier.

    Conseil :

    Vous ne devez vous concentrer que sur les colonnes intentionName, prompt, result et contributor de la feuille de calcul. Vous pouvez ignorer les autres.


  5. Lorsque vous avez terminé, cliquez sur Upload (Charger) dans la page Results (Résultats). Naviguez jusqu'au fichier CSV, puis sélectionnez-le. Sélectionnez Intent Paraphrasing (Paraphraser d'intention), entrez un nom, puis cliquez sur Upload (Charger).

  6. Si vous souhaitez ajouter les énoncés aux données d'entraînement d'une intention, cliquez sur Accept (Accepter) dans la page Results (Résultats). Cliquez sur Reject (Rejeter)si vous ne voulez pas les ajouter au jeu d'entraînement. Vous voudrez peut-être rejeter un travail s'il s'agit d'un test ou s'il est irrécupérable en raison d'invites et de conseils mal conçus.

Travaux d'annotation

Chaque fois que des données de clavardage doivent être mappées à une intention ou annotées pour des entités d'apprentissage automatique, vous pouvez créer un travail d'annotation. Les programmes terminent les tâches d'annotation des intentions en mettant en correspondance un énoncé et une intention. Pour les tâches d'annotation d'entité, les programmes étiquettent le texte dans l'énoncé d'une entité d'apprentissage automatique. Vous pouvez créer ces tâches à l'aide d'un fichier CSV avec une colonne utterance, des tâches d'annotation précédemment terminées ou en combinant les deux approches. Vous pouvez également créer une tâche d'annotation d'intention à partir des énoncés collectés dans le rapport de réentraînement.
Description de l'annotation-csv.png :
Description de l'illustration annotation-csv.png

Créer le travail d'annotation d'intention

  1. Cliquez sur + New Job dans la page Jobs (Emplois).
  2. Sélectionnez Intent Annotation (Annotation d'intention).
  3. Entrez un nom.
  4. Entrez la langue utilisée par les contributeurs.
  5. Chargez le fichier, cliquez sur Continuer, notez le nombre d'éléments pour la tâche, puis cliquez sur Lancer.
  6. Cliquez sur Copy Link, puis collez le lien dans un courriel diffusé aux contributeurs. Les contributeurs acceptent le travail en cliquant sur ce lien. Une fois connectés, les contributeurs consultent les règles de base sur la façon de classer les énoncés.

    L'apprentissage actif aide les contributeurs en classant toutes les intentions de la compétence selon leur probabilité de correspondance avec l'énoncé. L'intention la plus susceptible de correspondre à l'énoncé apparaît la première. De même, les énoncés actuellement dans le corpus, que les contributeurs utilisent comme guide, sont également classées selon leur probabilité de correspondance avec l'énoncé.

    Vous pouvez surveiller l'avancement dans la page Jobs (Travaux).

Vérifier le travail d'annotation

  1. Une fois le travail terminé, ou lorsque vous cliquez sur Cancel (Annuler) parce que vous pensez que son état d'achèvement est suffisant, cliquez sur View (Voir).

  2. Si vous n'êtes pas d'accord avec certaines décisions du contributeur, cliquez sur Download (Télécharger) pour télécharger un fichier CSV des résultats sur votre système local.
  3. Dans le fichier CSV, entrez le nom d'intention attendu dans la colonne intentName.
  4. Remplacez l'intention choisie par le contributeur dans la colonne result en entrant le nom de conversation pour l'intention que vous avez entrée dans la colonne intentName.
  5. Lorsque vous avez terminé votre évaluation, cliquez sur Upload (Charger) dans la page Results (Résultats). Ensuite, sélectionnez le fichier, entrez un nom, puis cliquez sur Upload (Charger).
    Note

    Vous ne pouvez pas supprimer d'entrée dans les résultats. Les résultats conservent toutes les entrées, même si vous supprimez une rangée dans le fichier CSV avant le chargement. Si vous souhaitez supprimer les entrées incorrectes (parce que vous ne voulez pas rejeter l'ensemble du travail), vous devez créer un jeu distinct de résultats n'appartenant à aucun travail en supprimant le contenu des colonnes jobId et Id avant de charger le fichier.
    Les résultats seront fusionnés dans le travail courant.
  6. Entraînez de nouveau la compétence.
    Note

    Seuls les énoncés qui correspondent à une intention sont ajoutés aux données d'entraînement. Ceux qui sont classés sous None of these Intents (Aucune de ces intentions) ou I’m not sure (Je ne suis pas sûr) sont exclus.

Créer le travail d'annotation d'entité

Votre compétence a besoin d'au moins une entité ML pour cette tâche. Vous ne pouvez pas créer une tâche d'annotation d'entité avec des entités non ML.

  1. Cliquez sur + New Job dans la page Jobs (Emplois).
  2. Sélectionnez Annotation d'entité.
  3. Entrez un nom.
  4. Entrez la langue utilisée par les contributeurs.
  5. Sélectionnez l'entité d'apprentissage automatique (ou les entités d'apprentissage automatique) à partir de laquelle les contributeurs sélectionneront. Idéalement, ces entités auront des noms utiles et des descriptions succinctes.
  6. S'il s'agit de votre première tâche d'annotation d'entité, naviguez jusqu'à, puis sélectionnez un fichier CSV. Vous pouvez fournir aux travailleurs des énoncés annotés ou non, selon le format de ce fichier :
    • Pour les énoncés non annulés, chargez un fichier CSV qui organise les énoncés simples sous une seule colonne, utterance :
      utterance
      I want to order a family size pepperoni pizza with thin crust and mozzarella cheese
      I want to order a large supreme pizza with regular crust and provolone cheese
      I want to order a medium size meat-lover pizza with gluten-free crust and goat cheese
      
    • Pour les énoncés annotés, chargez un fichier CSV avec une seule colonne, annotation avec chaque énoncé représenté en tant qu'objet JSON. Les propriétés beginOffset et endOffset représentent le début et la fin du texte étiqueté pour l'entité ML. La rubrique Créer des entités d'apprentissage automatique décrit les autres propriétés de cet objet.
      annotation
      "[
         {
            ""Utterance"":{
               ""utterance"":""I want to order a family size pepperoni pizza with thin crust and mozzarella cheese"",
               ""languageTag"":""en"",
               ""entities"":[
                  {
                     ""entityValue"":""family"",
                     ""entityName"":""MLPizzaCrust"",
                     ""beginOffset"":18,
                     ""endOffset"":24
                  },
                  {
                     ""entityValue"":""mozzarella"",
                     ""entityName"":""MLCheeseType"",
                     ""beginOffset"":66,
                     ""endOffset"":76
                  },
                  {
                     ""entityValue"":""pepperoni"",
                     ""entityName"":""MLPizzaType"",
                     ""beginOffset"":30,
                     ""endOffset"":39
                  }
               ]
            }
         }
      ]"
      "[
         {
            ""Utterance"":{
               ""utterance"":""I want to order a large supreme pizza with regular crust and provolone cheese"",
               ""languageTag"":""en"",
               ""entities"":[
                  {
                     ""entityValue"":""supreme"",
                     ""entityName"":""MLPizzaType"",
                     ""beginOffset"":24,
                     ""endOffset"":31
                  },
                  {
                     ""entityValue"":""provolone"",
                     ""entityName"":""MLCheeseType"",
                     ""beginOffset"":61,
                     ""endOffset"":70
                  },
                  {
                     ""entityValue"":""regular"",
                     ""entityName"":""MLPizzaCrust"",
                     ""beginOffset"":43,
                     ""endOffset"":50
                  },
                  {
                     ""entityValue"":""large"",
                     ""entityName"":""MLPizzaSize"",
                     ""beginOffset"":18,
                     ""endOffset"":23
                  }
               ]
            }
         }
      ]"
      Les travailleurs de la foule examineront les étiquettes existantes définies par ces compensations et les modifieront lorsqu'elles sont incorrectes.
    Vous pouvez combiner des tâches d'annotation terminées précédemment en une seule tâche, ainsi que des fichiers CSV avec des tâches d'annotation terminées. Si vous ajoutez une tâche précédente, certains énoncés seront déjà annotés.

  7. Cliquez sur Continuer, vérifiez le nombre d'enregistrements, puis sur Lancer.
  8. Copiez puis collez le lien dans un courriel diffusé aux contributeurs. Les contributeurs acceptent le travail en cliquant sur ce lien. Avant de commencer à étiqueter les énoncés avec des annotations, ils examinent les règles de base sur la façon d'étiqueter le contenu avec des annotations. Si l'énoncé inclut un texte correspondant à l'une des entités ML répertoriées dans la page, un contributeur met en surbrillance le texte applicable et applique l'étiquette d'entité ML. Si l'énoncé est déjà annoté, les travailleurs peuvent consulter les étiquettes et les ajuster au besoin.

  9. Lorsque le travail est terminé (soit parce que les travailleurs ont terminé les annotations, soit parce que vous l'avez annulée), vous pouvez voir les résultats et les accepter dans le corpus d'entraînement de l'entité ML.

    Toutefois, avant d'ajouter les résultats, vous pouvez demander aux contributeurs de les vérifier en lançant une tâche de validation d'entité. Seuls les résultats corrects d'une tâche de validation sont ajoutés au corpus. Si nécessaire, vous pouvez apporter des corrections et des ajouts supplémentaires aux résultats de la tâche dans l'onglet Jeu de données de l'entité ML.

Travaux de validation

Pour les tâches de validation, les contributeurs consultent les résultats des tâches de paraphrase, des tâches d'annotation d'entité ou des tâches de validation d'intention générées à partir du rapport de réentraînement. Pour valider une tâche de paraphrasage, ils comparent les énoncés (les résultats d'une tâche de paraphrasage ou de ) à une tâche, l'invite de la tâche de paraphrasage. Pour les tâches d'annotation d'entité, elles examinent les énoncés pour s'assurer que l'entité ML correcte a été identifiée et que le texte a été étiqueté complètement.

Créer un travail de validation de paraphrasage d'intention

  1. Cliquez sur Add Job (Ajouter un travail) dans la page Jobs (Travaux).
  2. Sélectionnez Intent Paraphrase Validation (Validation de la paraphrase d'intention).
  3. Entrez un nom.
  4. Entrez la langue utilisée par les contributeurs.
  5. Ajoutez des travaux de paraphrasage qui n'ont pas encore été acceptés (soit des travaux terminés ou annulés). Vous pouvez charger un fichier CSV à partir de votre système local, sélectionner un ou plusieurs travaux de paraphrasage, ou créer un travail à partir des deux méthodes.
  6. Cliquez sur Continuer, vérifiez le nombre d'enregistrements, puis sur Lancer.

  7. Une fois la rangée du travail de validation ajoutée à la page Jobs (Travaux) (vous devrez peut-être cliquer sur Refresh (Actualiser)), cliquez sur Copy Link (Copier le lien).

  8. Collez le lien dans un courriel diffusé aux contributeurs. Lorsque les contributeurs acceptent le travail, ils consultent les règles de base pour évaluer les énoncés.

    Ils évaluent ensuite un énoncé.

    Vous pouvez surveiller l'avancement du contributeur à partir de la page Jobs (Travaux).

Vérifier un travail de validation

Une fois que les contributeurs ont terminé le travail de validation (ou si vous annulez celui-ci parce qu'il est suffisamment avancé), vous pouvez le consulter, l'accepter ou le rejeter dans son intégralité. Même si les travaux de validation peuvent contenir des milliers de résultats (c'est pour cela que vous avez recours à l'externalisation ouverte), vous souhaitez peut-être les consulter individuellement. Par exemple, la boîte de dialogue (View Results) Voir les résultats contient peut-être des réponses avec lesquelles vous n'êtes pas d'accord. Vous voudrez les modifier ou les supprimer avant d'enregistrer les résultats dans vos données d'entraînement.
Description de review-validation-job.png :
Description de l'illustration review-validation-job.png

Pour modifier les résultats un par un :
  1. Téléchargez le travail dans un fichier CSV, depuis la boîte de dialogue (View Results) Voir les résultats ou en cliquant sur Download (Télécharger) dans la page Results (Résultats).
  2. Ouvrez le fichier CSV dans un tableur.
  3. Comparez les entrées dans les colonnes IntentName et promt, puis modifiez l'entrée des résultats au besoin. Vous pouvez modifier cette colonne uniquement, ou supprimer une rangée entière.

    En général, vous n'avez à vous concentrer que sur ces trois colonnes. Cela dit, vous pouvez effectuer un tri sur la colonne de contributeur pour isoler le travail d'un participant donné. Si les décisions de ce dernier ne sont pas toujours fiables, vous pouvez supprimer toutes les rangées le concernant.
    Note Si vous supprimez une rangée, veillez à l'effacer complètement.

    Vous ne pouvez pas charger un fichier CSV comportant une rangée partielle.
  4. Lorsque vous avez terminé, cliquez sur Uplaod (Charger) dans la page Results (Résultats). Naviguez jusqu'au fichier CSV, puis sélectionnez-le. Sélectionnez Validation, entrez un nom, puis cliquez sur Uplaod (Charger).
  5. Cliquez sur Accept (Accepter) ou Reject (Rejeter). Si vous acceptez le travail, seules les énoncés "corrects" sont ajoutés au jeu d'entraînement. Vous ne pouvez pas annuler cette opération. Vous ne pouvez supprimer ces énoncés que manuellement.
  6. Entraînez de nouveau la compétence.

Créer un travail de validation d'annotation d'entité

  1. Cliquez sur Nouveau travail dans la page Tâches.
  2. Sélectionnez Validation d'entité.
  3. Entrez un nom.
  4. Entrez la langue utilisée par les contributeurs.
  5. Vous pouvez charger un fichier CSV à partir de votre système local, sélectionner une ou plusieurs tâches d'annotation d'entité terminées (y compris les tâches terminées par les travailleurs ou annulées), ou les combiner pour créer une seule tâche. Le fichier CSV a le même format que celui utilisé pour ajouter des énoncés annotés à une tâche d'annotation d'entité : il comporte la colonne annotation unique et des objets JSON pour les énoncés :
    annotation
    "[
       {
          ""Utterance"":{
             ""utterance"":""I want to order a family size pepperoni pizza with thin crust and mozzarella cheese"",
             ""languageTag"":""en"",
             ""entities"":[
                {
                   ""entityValue"":""family"",
                   ""entityName"":""MLPizzaCrust"",
                   ""beginOffset"":18,
                   ""endOffset"":24
                },
                {
                   ""entityValue"":""mozzarella"",
                   ""entityName"":""MLCheeseType"",
                   ""beginOffset"":66,
                   ""endOffset"":76
                },
                {
                   ""entityValue"":""pepperoni"",
                   ""entityName"":""MLPizzaType"",
                   ""beginOffset"":30,
                   ""endOffset"":39
                }
             ]
          }
       }
    ]"
    ...
  6. Cliquez sur Continuer, vérifiez le nombre d'enregistrements, puis cliquez sur Lancer.

  7. Collez le lien dans un courriel diffusé aux contributeurs.

    Lorsque les contributeurs acceptent le travail, ils consultent les règles de base pour évaluer les annotations. À partir de là, ils examinent les annotations en les classant comme correctes, incorrectes ou incertaines.

    Vous pouvez surveiller l'avancement du contributeur à partir de la page Jobs (Travaux). Une fois le travail terminé, vous pouvez vérifier les résultats avant de l'accepter ou de le rejeter.

    En cliquant sur Accepter, vous ajoutez les bons résultats au jeu d'entraînement de l'entité ML. Si nécessaire, vous pouvez les modifier davantage dans l'onglet Jeu de données.

Créer des suites de tests

Vous pouvez créer des cas de test à partir des résultats des tâches d'annotation d'intention et de validation d'intention.
  1. Sélectionnez le rapport dans la page Résultats, puis cliquez sur icône de menu
  2. sélectionnez Test Suite (Suite de tests).
  3. Terminez la boîte de dialogue en indiquant la suite de tests et le nom et en sélectionnant la langue dans laquelle les énoncés seront testés. Cliquez ensuite sur Créer.
  4. Ouvrez le testeur d'énoncé pour exécuter la suite de tests.