Entrenamiento y prueba de las intenciones

Al entrenar un modelo utilizando su corpus de entrenamiento, el bot puede entender qué dicen los usuarios (o, en ocasiones, qué intentan decir).

Puede mejorar la agudeza del conocimiento realizando rondas de pruebas de intenciones y entrenamientos de intenciones. El entrenamiento se controla únicamente a través de las definiciones de intenciones; la aptitud no puede aprender por sí misma a partir del chat con el usuario.

Prueba de expresiones

Se recomienda reservar el 20% del corpus para las pruebas de intenciones y utilizar el 80% restante para entrenar las intenciones. Mantenga estos dos juegos separados para que las expresiones de prueba, que se incorporan en los casos de prueba, sigan siendo "desconocidas" para su aptitud.

Aplique la división 80/20 al conjunto de datos de cada una de las intenciones. Aleatorice las expresiones antes de aplicar esta división. Así, los modelos de entrenamiento podrán examinar los términos y los patrones de las expresiones por igual.

Probador de expresiones

El probador de expresiones es su ventana a la cognición de la aptitud. Si introduce frases que no formen parte del corpus de entrenamiento, puede averiguar si ha diseñado correctamente las intenciones revisando la clasificación de confianza de la intención y el JSON devuelto. Esta clasificación, que es la estimación que hace la aptitud del mejor candidato para resolver la entrada de usuario, demuestra su agudeza actual.
A continuación se describe la expresión-tester-quick-test.png
Descripción de la ilustración expresión-tester-quick-test.png

Con el probador de expresiones, puede realizar pruebas rápidas para pruebas puntuales o puede incorporar una expresión como caso de prueba para medir la resolución de intenciones en diferentes versiones de modelos de entrenamiento.

Pruebas rápidas

Para averiguar si las intenciones funcionan bien:
  1. Haga clic en Probar expresiones (a la izquierda).
  2. Si la aptitud soporta varios idiomas nativos, seleccione el idioma de prueba. La selección de esta opción garantiza que la expresión se agregará a la versión de idioma correspondiente del cuerpo. El idioma principal de la aptitud está seleccionado por defecto.
  3. Introduzca una cadena de texto.
  4. Haga clic en Probar y, a continuación, observe la clasificación y las entidades detectadas en la expresión (si las hay).
  5. Revise las puntuaciones de confianza de intención. (Las barras de progreso de cada intención mostradas aparecen en verde si cumplen o superan el nivel de confianza o en rojo si no cumplen).
    Si el candidato al que la aptitud ha asignado el primer puesto de la clasificación no es el esperado, es posible que tenga que volver a entrenar las intenciones tras efectuar una de estas acciones, o ambas:
    • Actualice el corpus del mejor candidato con el texto de entrada que acaba de introducir. Seleccione la intención adecuada y, a continuación, haga clic en Agregar a intención.

      Atención:

      Considere cómo la adición de una nueva frase de prueba puede afectar a los datos de entrenamiento. La adición de una frase de prueba puede modificar la clasificación de las expresiones parecidas a ella tras el reentrenamiento. Además, al agregar una frase de prueba se invalida la prueba, ya que su incorporación al conjunto de entrenamiento garantiza que la prueba se realizará correctamente. En lugar de agregar una frase de prueba a los datos de entrenamiento, debe guardarla como un caso de prueba.
    • En la página Intenciones, puede editar una expresión Editar (Imagen del botón Editar.) o eliminarla. Por ejemplo, una intención de preguntas frecuentes puede recibir la clasificación superior debido al ámbito y la redacción de las expresiones que la componen. Si no quiere que los usuarios obtengan una pregunta frecuente cada vez que realicen preguntas habituales, deberá revisar el corpus.

    Tiene que volver a entrenar una intención siempre que agregue, cambie o suprima una expresión. Entrenamiento necesario Esta es una imagen del indicador Entrenamiento necesario. se muestra cada vez que se realiza un cambio en los datos de entrenamiento.

  6. Si sus intenciones no se resuelven como estaba previsto, puede ampliar la ventana JSON para revisar las intenciones, las puntuaciones y las entidades detectadas coincidentes en el JSON devuelto.
  7. Haga clic en Restablecer.

Casos de prueba

Cada prueba tiene una expresión y la intención que se espera que resuelva, lo que se conoce como coincidencia de etiqueta. Un caso de prueba también puede incluir valores de entidad coincidentes y el idioma esperado para la expresión. Puede ejecutar casos de prueba cuando esté desarrollando una aptitud y, más adelante, cuando la aptitud esté en producción, puede utilizar los casos de prueba para pruebas de regresión. En este último caso, puede ejecutar casos de prueba para averiguar si una nueva versión del modelo de entrenamiento ha afectado negativamente a la resolución de la intención.

Al igual que los casos de prueba que crea con el probador de conversaciones, los casos de prueba de expresiones forman parte de la aptitud y se trasladan con cada versión. Si amplía una aptitud, la extensión hereda los casos de prueba. Mientras que los casos de prueba de conversación están pensados para probar un escenario, los casos de prueba de expresión están pensados para probar los fragmentos de una conversación de forma independiente, garantizando que cada expresión se resuelva con la intención correcta.

Gestión de casos de prueba

La página Casos de prueba, a la que se accede haciendo clic en Ir a casos de prueba en el probador de expresiones, muestra los conjuntos de pruebas y los casos de prueba que les pertenecen. Los conjuntos de pruebas pueden ser los que haya creado o pueden haber sido heredados de una aptitud que haya ampliado o clonado. Además de editar, agregar y eliminar casos de prueba, utilice esta página para compilar casos de prueba en ejecuciones de prueba. Por defecto, se selecciona Todo, que muestra todos los casos de prueba. Si desea limitar la visualización solo a los casos de prueba que pertenecen a un único conjunto de pruebas, puede seleccionar el conjunto de pruebas de la lista de conjuntos de pruebas o filtrar esta lista utilizando una coincidencia total o parcial del nombre del conjunto de pruebas. La vista del conjunto de pruebas permite gestionar los casos de prueba de miembros del conjunto desde su separador Casos de prueba. En el separador General, además de actualizar el nombre y la descripción del conjunto de pruebas, puede excluir el conjunto de pruebas de una ejecución de prueba desactivando Activar conjunto de pruebas. Al desactivar Incluir en exportación de aptitudes, puede evitar que el conjunto de pruebas se incluya en la carpeta nluTestSuites que aloja los conjuntos de pruebas de la aptitud cuando se exporta la aptitud.

Crear series de pruebas

Todos los casos de prueba pertenecen a un conjunto de pruebas. Le proporcionamos uno llamado Default Test Suite, pero es posible que desee particionar sus pruebas creando sus propios conjuntos de pruebas. Puede crear conjuntos de pruebas manualmente o importando un CSV. Para crear un conjunto de pruebas manualmente:
  1. Haga clic en + Test Suite.
  2. En el separador General, sustituya el nombre del marcador de posición (TestSuite0001, por ejemplo) por uno más significativo agregando un valor en el campo Nombre mostrado.
  3. Opcionalmente, agregue una descripción que explique la funcionalidad que abarca el conjunto de pruebas.
  4. Rellene el conjunto de pruebas con casos de prueba utilizando cualquiera de los siguientes métodos (o una combinación de ellos):
    • Adición manual de casos de prueba (ya sea creando un caso de prueba o guardando una expresión como caso de prueba desde el comprobador de expresiones).
    • Importación de casos de prueba.
      Nota

      Para asignar un caso de prueba a un conjunto de pruebas mediante la importación, el campo testSuite del CSV puede estar vacío o debe contener un nombre que coincida con el conjunto de pruebas seleccionado en el cuadro de diálogo de importación.
    • Edición de un caso de prueba para reasignar su conjunto de pruebas.
  5. Si desea excluir el conjunto de pruebas de las ejecuciones de prueba que se inician mediante las opciones Todo y Ejecutar todo, desactive Activar conjunto de pruebas.
  6. Si no desea que el conjunto de pruebas se incluya en la exportación de aptitudes, desactive Incluir en exportación de aptitudes. Al desactivar esta opción para un conjunto de pruebas, no se incluirá en la carpeta nluTestSuites que aloja los conjuntos de pruebas de la aptitud en el archivo ZIP exportado.

Creación de casos de prueba de expresiones

Puede agregar casos de prueba uno a uno mediante el probador de expresiones o el cuadro de diálogo Nuevo caso de prueba (al que se accede haciendo clic en + Caso de prueba), o bien puede agregarlos en bloque mediante la carga de un CSV.

Cada caso de prueba debe pertenecer a un conjunto de pruebas, por lo que antes de crear un caso de prueba, es posible que desee crear primero un conjunto de pruebas que refleje una capacidad de la aptitud o algún aspecto de las pruebas de intención, como pruebas de fallos, pruebas en dominio o pruebas fuera de dominio.

Proporcionamos un conjunto denominado Conjunto de pruebas por defecto. Puede asignar casos de prueba a este conjunto de pruebas si aún no ha creado ningún otro. Posteriormente, podrá editar el caso de prueba para reasignarlo a un nuevo conjunto de pruebas.

Consejo:

Para proporcionar una cobertura adecuada en las pruebas, cree expresiones de conjunto de pruebas que no solo sean variadas conceptualmente, sino también gramaticalmente, ya que los usuarios no realizarán solicitudes de manera uniforme. Puede agregar estas dimensiones mediante la creación de conjuntos de pruebas a partir de mensajes de usuario reales que se hayan consultado en el reentrenamiento de estadísticas y también a partir de entradas de origen colaborativo recopiladas de Data Manufacturing.

Adición de casos de prueba desde el probador de expresiones

Además de agregar expresiones al corpus de entrenamiento, puede utilizar la página Prueba rápida para crear un caso de prueba:
  1. Haga clic en Probar expresiones de usuario.
  2. Si la aptitud es multilingüe, seleccione el idioma nativo.
  3. Introduzca la expresión y, a continuación, haga clic en Probar.
  4. Haga clic en Guardar como caso de prueba y, a continuación, seleccione un conjunto de pruebas.

Creación de un caso de prueba

Para crear un único caso de prueba:
  1. Haga clic en Ir a casos de prueba en el probador de expresiones.
  2. Haga clic en + Caso de prueba.
  3. Complete el cuadro de diálogo Nuevo caso de prueba:
    • Si es necesario, desactive el caso de prueba.
    • Introduzca la expresión de prueba.
    • Seleccione el conjunto de pruebas.
    • Seleccione la intención esperada. Si está creando un caso de prueba para pruebas de fallos, seleccione unresolvedIntent.
    • Para las aptitudes multilingües, seleccione la etiqueta de idioma y el idioma esperado.
  4. Haga clic en Agregar a conjunto. En la página Test Cases, puede suprimir un caso de prueba o editar un caso de prueba, lo que incluye la reasignación del caso de prueba a un conjunto de pruebas diferente.

  5. Para probar valores de entidad:
    • Active Probar entidades. A continuación, haga clic en Continuar.
    • Resalte la palabra (o palabras) y, a continuación, aplique una etiqueta de entidad seleccionando una entidad de la lista. Cuando haya terminado, haga clic en Agregar a conjunto.
      Nota

      Seleccione siempre palabras o frases de la expresión de caso de prueba después de activar Probar entidades. El caso de prueba fallará si ha activado Probar entidades pero no ha resaltado ninguna palabra.


Importación de casos de prueba para conjuntos de pruebas de nivel de aptitud

En la página Casos de prueba (a la que se accede haciendo clic en Go to Test Cases en el probador de expresiones), puede agregar conjuntos de pruebas y sus casos en bloque cargando un archivo CSV que tenga los siguientes campos:
  • testSuite: nombre del conjunto de pruebas al que pertenece el caso de prueba. El campo testSuite de cada fila del CSV puede tener un nombre de conjunto de pruebas diferente o puede estar vacío.
    • Los casos de prueba con campos testSuite vacíos se agregan a un conjunto de pruebas que seleccione al importar el CSV. Si no selecciona un conjunto de pruebas, se asignarán al conjunto de pruebas por defecto.
    • Los casos de prueba con campos testSuite rellenados se asignan al conjunto de pruebas que seleccione al importar el CSV solo cuando el nombre del conjunto de pruebas seleccionado coincida con el nombre del campo testSuite.
    • Si no existe un conjunto de pruebas con el nombre del especificado en el campo testSuite, se creará después de importar el CSV.
  • utterance: ejemplo de expresión (obligatorio). Se asigna a query en versiones anteriores a la 21.04 de Oracle Digital Assistant.
  • expectedIntent: intención coincidente (obligatoria). Este campo se asigna a TopIntent en versiones anteriores a la 21.04 de Oracle Digital Assistant.

    Consejo:

    Importación de versiones anteriores a la versión 21.04 del CSV le indica cómo cambiar el formato de los archivos CSV anteriores a la versión 21.04 para poder utilizarlos para pruebas masivas.
  • enabled: TRUE incluye el caso de prueba en la ejecución de la prueba. FALSE lo excluye.
  • languageTag: etiqueta de idioma (en, por ejemplo). Cuando no hay ningún valor, el idioma detectado en la configuración de idioma de la aptitud se utiliza por defecto.
  • expectedLanguageTag (opcional): para aptitudes multilingües, esta es la etiqueta de idioma del idioma que desea que utilice el modelo al resolver la expresión de prueba en una intención. Para que el caso de prueba pase, esta etiqueta debe coincidir con el idioma detectado.
  • expectedEntities: entidades coincidentes en la expresión de caso de prueba, representadas como una matriz de objetos entityName. Cada entityName identifica la posición del valor de entidad en la expresión mediante las propiedades beginOffset y endOffset. Este desplazamiento está determinado por el carácter, no por la palabra, y se calcula a partir del primer carácter de la expresión (0-1). Por ejemplo, el objeto entityName para el valor de entidad PizzaSize de pequeño en Quiero pedir una pizza pequeña es:
    [{"entityName":"PizzaSize","beginOffset":18,"endOffset":23,"originalString":"small"}, …]


Para importar este CSV:
  1. Haga clic en Más y, a continuación, seleccione Importar.
  2. Busque el CSV y, a continuación, selecciónelo.
  3. Seleccione el conjunto de pruebas. El caso de prueba solo se puede asignar al conjunto de pruebas seleccionado si el campo testSuite está vacío o coincide con el nombre del conjunto de pruebas seleccionado.
  4. Haga clic en Cargar.
Importación de versiones anteriores a la versión 21.04 del CSV
Los casos de prueba importados a través de las versiones anteriores a la 21.04 de los CSV, que tienen los campos query y TopIntent, se agregan solo al conjunto de pruebas predeterminado. Puede reasignar estos casos de prueba a otros conjuntos de pruebas individualmente editándolos después de importar el CSV, o puede actualizar el CSV al formato actual y, a continuación, editarlo antes de importarlo de la siguiente manera:
  1. Haga clic en Más > Importar.
  2. Una vez finalizada la importación, seleccione Conjunto de pruebas por defecto y, a continuación, haga clic en Más > Exportar conjunto seleccionado. El archivo exportado se convertirá al formato actual.
  3. Extraiga el archivo ZIP y edite el CSV. Cuando haya terminado, vuelva a importar el CSV (Más > Importar). Puede que necesite suprimir casos de prueba duplicados de Conjunto de pruebas por defecto.
    Nota

    Si carga el mismo CSV varias veces con cambios de poca importancia, los datos nuevos o actualizados se fusionarán con los antiguos: se aplican nuevas actualizaciones y se insertan nuevas filas. Sin embargo, no puede suprimir ninguna expresión cargando un nuevo CSV. Si necesita suprimir expresiones, debe suprimirlas manualmente desde la interfaz de usuario.

Creación de ejecuciones de prueba

Las ejecuciones de prueba son una compilación de casos de prueba o conjuntos de pruebas destinados a evaluar algún aspecto de la cognición de la aptitud. El contenido (y el volumen) de una ejecución de prueba depende de la capacidad que desee probar, por lo que una ejecución de prueba puede incluir un subjuego de casos de prueba de un conjunto de pruebas, un conjunto de pruebas completo o varios conjuntos de pruebas.

Los casos de prueba incluidos en una ejecución de prueba se evalúan con respecto al umbral de confianza definido para la aptitud. Para que un caso de prueba pase en la ejecución de prueba general, se debe resolver en la intención esperada en el umbral de confianza o por encima de este. Si se especifica, el caso de prueba también debe cumplir el valor de entidad y los criterios de coincidencia de idioma. Al revisar los resultados de la ejecución de prueba, puede averiguar si los cambios realizados en la plataforma, o en la propia aptitud, han comprometido la precisión de la resolución de la intención.

Además de probar el modelo, también puede utilizar los resultados de la ejecución de prueba para evaluar la fiabilidad de las pruebas. Por ejemplo, los resultados que muestran que casi todos los casos de prueba han pasado podrían, en la superficie, indicar un funcionamiento óptimo del modelo. Sin embargo, una revisión de los casos de prueba de aprobación puede revelar que los casos de prueba no reflejan el entrenamiento actual porque sus expresiones son demasiado simples o tienen una superposición significativa en términos de los conceptos y verborrea para los que están probando. Por otro lado, un gran número de pruebas con fallos puede indicar deficiencias en los datos de entrenamiento, pero una revisión de estos casos de prueba puede revelar que sus expresiones están emparejadas con las intenciones esperadas incorrectas.

Para crear una ejecución de prueba:
  1. Haga clic en Ejecutar todo para crear una ejecución de prueba para todos los casos de prueba de un conjunto de pruebas seleccionado. (O si desea ejecutar todos los conjuntos de pruebas, seleccione Todos y, a continuación, haga clic en Ejecutar todo).

  2. Introduzca un nombre de ejecución de prueba que refleje el asunto del examen. Éste es un paso opcional.
  3. Haga clic en Iniciar

  4. Haga clic en Resultados de prueba y, a continuación, seleccione la ejecución de prueba.

    Consejo:

    Las ejecuciones de pruebas que contienen un gran número de casos de prueba pueden tardar varios minutos en completarse. Para estas grandes ejecuciones de prueba, puede que tenga que hacer clic en Refrescar periódicamente hasta que finalice la prueba. Un porcentaje sustituye el estado En curso de la métrica Precisión y el informe Intenciones se representa una vez que se han evaluado todos los casos de prueba.


  5. Revisión de los informes de ejecución de pruebas. Por ejemplo, primero revise las métricas de alto nivel para la ejecución de prueba proporcionada por el informe de visión general. A continuación, valide los resultados de la prueba con respecto a los casos de prueba reales filtrando el informe Casos de prueba, que muestra todos los casos de prueba incluidos en la ejecución de prueba, para los casos de prueba aprobados y con fallos. A continuación, puede examinar los resultados de cada caso de prueba. También puede comparar la puntuación de precisión del informe Visión general con la puntuación de precisión del informe Intenciones, que mide la capacidad del modelo para predecir las intenciones correctas. Para revisar los casos de prueba enumerados en este informe, abra el informe Casos de prueba y filtre por intenciones.

Informe de resumen de ejecución de prueba

El informe Summary le proporciona una evaluación general de cómo el modelo puede manejar correctamente el tipo de entrada de usuario que se trata en la ejecución de prueba. Para los conjuntos de pruebas incluidos en la ejecución de prueba, muestra el número total de casos de prueba que se han utilizado para evaluar el modelo y, a partir de ese total, tanto el número de casos de prueba (tanto fiables como no fiables) que han fallado junto con el número de casos de prueba fiables y no fiables que se han aprobado. La precisión general del modelo, es decir, su capacidad para predecir intenciones esperadas en el nivel de confianza de la aptitud o por encima de él, reconocer valores de entidad y resolver expresiones en el idioma de la aptitud, se mide por el ratio de éxito de las pruebas de aprobación en la ejecución de prueba.
A continuación se muestra la descripción de test-run-test-results-summary.png
Descripción de la ilustración test-run-test-results-summary.png

Métricas de informe de resumen
El informe de resumen incluye las siguientes métricas:
  • Precisión: precisión del modelo en términos de la tasa de éxito de los casos de prueba aprobados (el número de casos de prueba aprobados en comparación con el número total de casos de prueba incluidos en la ejecución de prueba).
    Nota

    Los casos de prueba desactivados no se tienen en cuenta en la puntuación de precisión. Tampoco las pruebas fallaron debido a errores. Cualquier prueba que haya fallado se agrega al recuento Fallido.

    Una puntuación baja de precisión podría indicar que la ejecución de la prueba está evaluando el modelo en conceptos y lenguaje que no están adecuadamente respaldados por los datos de entrenamiento. Para aumentar la puntuación de precisión, vuelva a entrenar el modelo con expresiones que reflejen los casos de prueba en la ejecución de prueba.

    Esta métrica de precisión se aplica a toda la ejecución de prueba y proporciona una puntuación independiente de la métrica de precisión en el informe de intenciones. Esta métrica es el porcentaje de casos de prueba en los que el modelo ha superado todos los criterios de caso de prueba. La puntuación de precisión del informe de intenciones, por otro lado, no es una prueba completa. Es el porcentaje de casos de prueba en los que el modelo solo tuvo que predecir la intención esperada en el umbral de confianza de la aptitud o por encima de este. No se tienen en cuenta otros criterios de casos de prueba (como el valor de enidad o el idioma de aptitud). Dados los diferentes criterios de lo que significa un caso de prueba de aprobación para estos dos informes, sus respectivas puntuaciones de precisión pueden no estar siempre en el paso. La puntuación de precisión de coincidencia de intención puede ser superior a la puntuación general de ejecución de prueba cuando los datos de prueba no están alineados con los datos de entrenamiento. Al volver a entrenar el modelo con expresiones que soporten los casos de prueba, podrá predecir las intenciones esperadas con mayor confianza, lo que, a su vez, aumentará la puntuación de precisión para la ejecución de prueba.

    Nota

    La métrica Precisión no estará disponible hasta que haya finalizado la ejecución de prueba y no estará disponible para las ejecuciones de prueba que se hayan completado cuando la aptitud se haya ejecutado en versiones anteriores a la 22.12 de la plataforma Oracle Digital Assistant.
  • Casos de prueba: número total de casos de prueba (tanto fiables como no fiables) incluidos en la ejecución de prueba. Los casos de prueba omitidos se incluyen en este recuento, pero no se tienen en cuenta al calcular la métrica de precisión.
  • Aprobado: número de casos de prueba (tanto fiables como no fiables) que se han transferido al resolver la intención en el umbral de confianza y al hacer coincidir los valores de entidad o el idioma seleccionados.
  • Con fallos: número de casos de prueba (fiable y no fiable del bot) que no se han resuelto en la intención esperada en el umbral de confianza y que no han coincidido con los valores de entidad o el idioma seleccionados.

    Para revisar los casos de prueba reales detrás de las métricas Aprobado y Con fallos de este informe, abra el informe Casos de prueba y, a continuación, aplique los filtros Aprobado o Con fallos.
    A continuación se muestra la descripción de test-runs-intent-report.png
    Descripción de la ilustración test-runs-intent-report.png

Desglose del conjunto de pruebas

En la tabla de desglose de conjunto de pruebas se muestran los conjuntos de pruebas incluidos en la ejecución de prueba y sus estadísticas individuales. Puede revisar los casos de prueba reales que pertenecen a un conjunto de pruebas haciendo clic en el enlace de la columna Conjunto de pruebas.
Descripción de test-suite-breakdown.png
Descripción de la ilustración test-suite-breakdown.png

Informe de intenciones

Las métricas de este informe realizan un seguimiento de las coincidencias de la etiqueta del modelo en todos los casos de prueba de la ejecución de prueba. Aquí es donde el modelo predice correctamente la intención esperada para la expresión de caso de prueba. En el contexto de este informe, la precisión, el paso y el fallo se miden en términos de los casos de prueba en los que el modelo predijo la intención esperada correcta en o por encima del umbral de confianza. No se tienen en cuenta otros criterios considerados en el informe de resumen, como coincidencias de valor de entidad o idioma de aptitud. Como resultado, este informe le proporciona una vista diferente de la precisión del modelo, que le ayuda a verificar si el entrenamiento actual permite al modelo predecir de forma consistente las intenciones correctas.

Este informe proporciona métricas de coincidencia de etiquetas (o coincidencia de intenciones) para la ejecución de prueba en dos niveles: uno que agregue los resultados para la ejecución de prueba y otro que separe estos resultados por intención.
Nota

Este informe no está disponible para ejecuciones de prueba que se completaron cuando la aptitud se ejecutó en una versión anterior a la 22.12 de la plataforma Oracle Digital Assistant.
Métricas de Informe de Intenciones
Los resultados generales de coincidencia de intenciones incluyen:
  • Casos de prueba: número de casos de prueba incluidos en esta ejecución de prueba. Este total incluye tanto casos de prueba fiables como no fiables. Los casos de prueba omitidos no se incluyen en este recuento.

    Consejo:

    Los enlaces de casos de prueba no fiables para las métricas Casos de prueba, Aprobados y Fallidos abren el informe Casos de prueba filtrado por casos de prueba no fiables. Esta navegación no está disponible al filtrar el informe por conjunto de pruebas.
  • Precisión: precisión del modelo en la coincidencia de la intención esperada en, o por encima, el umbral de confianza de la aptitud en los casos de prueba de esta ejecución de prueba. La submetría Coincidencia de etiqueta representa el porcentaje de casos de prueba en la ejecución de prueba en los que el modelo predijo correctamente la intención esperada, independientemente de la puntuación de confianza. Debido a que los factores de coincidencia de etiquetas en los casos de prueba fallidos junto con la aprobación de los casos de prueba, su puntuación puede ser superior a la puntuación de precisión.
    Puede comparar esta métrica de precisión con la métrica de precisión del informe de resumen. Cuando la puntuación de precisión del informe de resumen es baja, puede utilizar este informe para averiguar rápidamente si los fallos del modelo se pueden atribuir a su incapacidad para predecir la intención esperada. Sin embargo, cuando la puntuación de precisión de este informe es alta, puede descartar la coincidencia de etiquetas como raíz del problema y, en lugar de tener que revisar en gran medida los datos de entrenamiento para aumentar la puntuación de precisión de la ejecución de prueba, puede centrarse en agregar expresiones que reflejen los conceptos y el idioma en las expresiones de caso de prueba.
  • Aprobado: número de casos de prueba (fiable y no fiable) en los que el modelo predijo la intención esperada en el umbral de confianza de la aptitud.
  • Con fallos: número de casos de prueba (fiable y no fiable) en los que el modelo predijo la intención esperada por debajo del umbral de confianza de la aptitud.
  • Aprobado de confianza: media de las puntuaciones de confianza de todos los casos de prueba aprobados en esta ejecución de prueba.
  • Fallo de confianza: media de las puntuaciones de confianza de todos los casos de prueba que han fallado en esta ejecución de prueba.
Nota

Cuando filtra el informe Intenciones por conjunto de pruebas, no está disponible el acceso al informe Casos de prueba desde los enlaces de casos de prueba no fiables en los mosaicos Casos de prueba, Aprobado y Fallo. Estos vínculos vuelven a activarse cuando se eliminan todas las entradas del campo Filtrar por conjunto de pruebas.
Filtrar por conjunto de pruebas
Los resultados por defecto del informe de intenciones reflejan todos los conjuntos de pruebas incluidos en la ejecución de prueba. Asimismo, sus métricas se basan en todos los casos de prueba activados que pertenecen a estos conjuntos de pruebas. Si desea desglosar el rendimiento del conjunto de pruebas individual (y, básicamente, crear una comparación con la tabla Desglose de conjunto de pruebas del informe de resumen), no necesita crear ejecuciones de prueba adicionales. En su lugar, puede aislar los resultados del conjunto de pruebas (o conjuntos de pruebas) en cuestión mediante el campo Filtrar por conjunto de pruebas. Puede agregar uno o más conjuntos de pruebas a este campo.
Imagen del campo Filtrar por conjunto de pruebas.

El informe ajusta las métricas para cada conjunto de pruebas que agregue (o elimine posteriormente). Tabula los resultados de coincidencia de intención en términos del número de casos de prueba activados que pertenecen al conjunto de pruebas seleccionado.
Nota

No puede filtrar por conjuntos de pruebas que se ejecutaron en una plataforma anterior a la versión 23.06. Para incluir estos conjuntos de pruebas, debe volver a ejecutarlos después de actualizar a la versión 23.06 o superior.
Nota

El filtrado por conjunto de pruebas desactiva la navegación al informe Casos de prueba de los enlaces de casos de prueba no fiables en los mosaicos Casos de prueba, Aprobado y Fallo. Los enlaces de la columna Total del desglose de intenciones también están desactivados. Todos estos enlaces se vuelven a activar después de eliminar todas las entradas del campo Filtrar por conjunto de pruebas.
Desglose de intenciones
La tabla Desglose de intenciones del informe proporciona las siguientes métricas de nivel superior para las intenciones esperadas mencionadas en los casos de prueba de la ejecución de prueba. Puede restringir el enfoque seleccionando los nombres de estas intenciones en el campo Filtrar por intenciones.
Nota

El campo Filtrar por intención cambia la vista de la tabla Desglose de intenciones, pero no cambia las métricas generales del informe. Estas métricas reflejan las entradas (o la falta de entradas) en el campo Filtrar por conjunto de pruebas.
  • Intención: nombre de la intención esperada.
  • Total: número de casos de prueba, representados como un enlace, para la intención esperada. Puede acceder al informe de casos de prueba haciendo clic en este enlace.
    Nota

    No puede navegar al informe Casos de prueba cuando ha aplicado un filtro de conjunto de pruebas a este informe. Este vínculo vuelve a activarse cuando se eliminan todas las entradas del campo Filtrar por conjunto de pruebas.
  • Precisión: porcentaje de casos de prueba que han dado como resultado coincidencias de etiqueta para la intención esperada en el umbral de confianza de la aptitud o por encima de este.
  • Aprobado: número de casos de prueba (incluidos los casos de prueba no fiables) en los que el modelo predijo la intención esperada en el umbral de confianza de la aptitud o por encima de este.
  • Aprobado - No fiable: número de casos de prueba en los que el modelo predijo la intención esperada en un 5 % o menos por encima del umbral de confianza de la aptitud.
  • Con fallos: número de casos de prueba en la ejecución de prueba que han fallado porque el modelo predijo la intención esperada por debajo del umbral de confianza de la aptitud.
  • Con fallos: no fiable: el número de casos de prueba que han fallado porque la confianza del modelo en la predicción de la intención esperada ha caído un 5 % por debajo del umbral de confianza de la aptitud. Estos casos de prueba pueden tener en cuenta
  • Coincidencia de etiqueta: número de casos de prueba en los que el modelo predijo correctamente la intención esperada, independientemente del nivel de confianza. Debido a que influye en los casos de prueba fallidos, es posible que las puntuaciones de Coincidencia de Etiqueta y Precisión no siempre coincidan entre sí. Por ejemplo, cuatro casos de prueba de aprobación de cinco resultados en una puntuación de precisión del 80% para la intención. Sin embargo, si el modelo predijo la intención correctamente para el caso de prueba con fallos, Label Match superaría a Accuracy en un 20 %.
  • Aprobado de confianza: media de las puntuaciones de confianza de todos los casos de prueba que coincidieron correctamente con la intención esperada.
  • Fallo de confianza: media de las puntuaciones de confianza de todos los casos de prueba que no coinciden con la intención esperada.

    Consejo:

    Para revisar los casos de prueba reales, abra el informe Casos de prueba y el filtro por intención.

Informe de casos de prueba

Este informe muestra todos los casos de prueba incluidos en la ejecución de prueba.
  1. Puede filtrar los resultados haciendo clic en Todo, Aprobado (verde) o Con fallos (rojo). Los casos de prueba contados como omitidos incluyen casos de prueba desactivados y casos de prueba en los que se haya desactivado la intención esperada.

    Puede filtrar los resultados por casos de prueba no fiables haciendo clic en Mostrar casos no fiables en el mensaje de advertencia o seleccionando el filtro Solo casos no fiables.
  2. Si es necesario, filtre los resultados para una intención o entidad específica o por casos de prueba fiables o no fiables.
  3. Para casos de prueba no fiables y con fallos, haga clic en Ver expresiones similares (ubicado en la página Información de prueba) para averiguar si la expresión de caso de prueba tiene cualquier similitud con las expresiones del juego de entrenamiento.
    Imagen del botón Ver expresiones similares.

  4. Compruebe los siguientes resultados:
    • Información de prueba: presenta la visión general del caso de prueba, incluido el umbral de confianza de destino, la intención esperada y los valores de entidad coincidentes.
    • Resultado de la prueba: clasificación de la intención por nivel de confianza. Cuando está presente, el informe también identifica las entidades incluidas en la expresión por nombre y valor de entidad. También puede ver el objeto JSON que contiene los resultados completos.
    • Análisis de fallos: explica por qué falló el caso de prueba. Por ejemplo, la intención real no es la intención esperada, el valor de entidad etiquetado en el caso de prueba no coincide con la entidad resuelta o el idioma esperado no es el mismo que el idioma detectado.
Casos de prueba no fiables

Algunos casos de prueba no pueden proporcionar resultados consistentes porque se resuelven dentro del 5% o menos del umbral de confianza. Este margen estrecho hace que estos casos de prueba no sean confiables. Cuando el umbral de confianza de la aptitud se define en 0,7, por ejemplo, un caso de prueba que se transfiere en el 74 % puede fallar después de haber realizado solo modificaciones menores en los datos de entrenamiento o porque la aptitud se ha actualizado a una nueva versión del modelo. La fragilidad de estos casos de prueba puede indicar que las expresiones que representan en los datos de entrenamiento pueden ser muy pocas en número y que puede que necesite equilibrar los datos de entrenamiento de la intención con expresiones similares.

Para localizar casos de prueba no fiables:
  1. Ejecute la serie de pruebas. A continuación, haga clic en Resultados de prueba y seleccione la ejecución de prueba. Los casos de prueba no fiables se ordenan al principio de los resultados de la ejecución de prueba y se marcan con advertenciasEsta es la imagen del icono Advertencia..

  2. Para aislar los casos de prueba poco fiables:
    • Haga clic en Mostrar los casos no fiables en el mensaje.
      Esta es una imagen del enlace Mostrarme los casos poco fiables.

    • Seleccione Solo casos no fiables en el menú Filtrar por casos.
      Imagen de la opción de filtrado Solo casos no fiables.

  3. Para encontrar la proximidad de la intención de rango superior del caso de prueba al umbral de confianza, abra la ventana Resultado de la prueba. Para comparar la puntuación de confianza de rango superior con el umbral de confianza, haga clic en Esta es la imagen del icono Advertencia. .

  4. Si necesita complementar los datos de entrenamiento para la intención de rango superior, haga clic en Ir a intención superior en el mensaje de advertencia.
    Imagen del enlace Ir a intención superior del mensaje de advertencia.

  5. Si desea determinar la cantidad de expresiones representadas por el caso de prueba en los datos de entrenamiento, haga clic en Ver expresiones similares.

    También puede comprobar si alguna de las expresiones más similares a la expresión de caso de prueba también son anomalías en el juego de entrenamiento ejecutando el informe de anomalías.

Ejecuciones de prueba exportadas

Las ejecuciones de pruebas no se conservan con la aptitud, pero puede descargarlas en el sistema para su análisis haciendo clic en Exportar ejecución de prueba. Si las intenciones ya no resuelven los datos introducidos por el usuario como se esperaba, o si los cambios de la plataforma han afectado negativamente a la resolución de la intención, puede recopilar los detalles de una SS (solicitud de servicio) mediante los logs de ejecuciones de prueba exportadas.

Prueba de fallos

La prueba de fallos (o negativa) permite probar en bloque expresiones que nunca se deben resolver, ya sea porque dan lugar a unresolvedIntent o porque solo se resuelven en otras intenciones por debajo del umbral de confianza para todas las intenciones.

Para realizar pruebas de fallos:
  • Especifique unresolvedIntent como intención esperada para todos los casos de prueba que espera que no se resuelvan. En una situación idea, estas frases "falsas" se quedarán sin resolver.

  • Si es necesario, ajuste el umbral de confianza al crear una ejecución de prueba para confirmar que las frases falsas (las que tienen unresolvedIntent como intención esperada) solo puedan resolverse con un valor inferior al definido aquí. Por ejemplo, si aumenta el umbral podría causar que las frases falsas no se resuelvan en el nivel de confianza en ninguna intención (incluida unresolvedIntent), lo que significa que lo superarían porque se considerarían no resueltas.
  • Revise los resultados de la prueba y compruebe que los casos de prueba coinciden con unresolvedIntent en el umbral o que no coinciden con ninguna intención (unresolvedIntent u otra) en el umbral.

Expresiones similares

Para saber qué tan similar es la frase de prueba a las expresiones del corpus de entrenamiento, haga clic en Ver expresiones similares. Esta herramienta proporciona una perspectiva adicional sobre los datos de entrenamiento de la aptitud al mostrarle qué tan similares son sus expresiones a la frase de prueba y, por extensión, qué tan similares son las expresiones entre sí en las intenciones. Con esta herramienta, puede averiguar si la similitud de la frase de prueba con las expresiones que pertenecen a otras intenciones es el motivo por el que la frase de prueba no se resuelve como se esperaba. Incluso podría señalar dónde pertenecen los datos de entrenamiento a la intención incorrecta porque si es similar a la frase de prueba.
A continuación se muestra la descripción de similar-utterance-report-all-intents.png
Descripción de la ilustración similar-utterance-report-all-intents.png

La lista generada por esta herramienta clasifica 20 expresiones (junto con sus intenciones asociadas) que están más cerca de la frase de prueba. Idealmente, la expresión de primer nivel de esta lista, la más parecida a la frase de prueba, pertenece a la intención a la que se dirige la frase de prueba. Si la expresión más cercana que pertenece a la intención esperada está más abajo, una revisión de la lista puede proporcionar algunas indicaciones sobre el motivo. Por ejemplo, si está probando una expresión de intención Transacciones, ¿cuánto dinero he transferido ayer?, esperaría que la expresión de rango superior pertenezca igualmente a una intención Transacciones. Sin embargo, si esta expresión de prueba se resuelve en la intención incorrecta o por debajo del nivel de confianza, la lista puede revelar que tiene más en común con expresiones de alta clasificación con una redacción similar que pertenecen a otras intenciones. Por ejemplo, la expresión ¿Cuánto dinero tengo en todas mis cuentas? de la intención Balances podría estar más cerca de la expresión de prueba que la expresión ¿Cuánto deposité en abril? de la intención Transactions de menor rango.

Puede acceder a la lista, que se genera para las aptitudes entrenadas en Trainer Tm, haciendo clic en Ver expresiones similares en el comprobador de expresiones o en el informe Casos de prueba.

Nota

Solo puede utilizar esta herramienta para aptitudes entrenadas en Trainer Tm (no está disponible para aptitudes entrenadas con Ht).
Puede consultar expresiones tanto desde el comprobador de expresiones como mediante pruebas en la propia herramienta Ver expresiones similares. Al hacer clic en Ver expresiones similares, se compara todo el corpus con la frase de prueba y se aplica una clasificación a cada expresión. Sin embargo, dado que no se aplica ningún filtro por defecto, la lista solo incluye las 20 expresiones mejor clasificadas y las numera secuencialmente. Para averiguar cómo las expresiones clasificaron 21 o más en comparación, debe utilizar los filtros. Al aplicar los siguientes filtros, puede conocer la proximidad de expresiones similares en la clasificación en términos de idioma, las intenciones a las que pertenecen o las palabras o frases que tienen en común.
Nota

La aplicación de estos filtros no cambia las clasificaciones, solo la vista. Una expresión clasificada en tercer lugar, por ejemplo, se notará como tal independientemente del filtro. Las clasificaciones y el contenido del informe cambian solo cuando se actualiza el corpus y se vuelve a entrenar la aptitud con Trainer Tm.