Entrenamiento y prueba de las intenciones
Al entrenar un modelo utilizando su corpus de entrenamiento, el bot puede entender qué dicen los usuarios (o, en ocasiones, qué intentan decir).
Puede mejorar la agudeza del conocimiento realizando rondas de pruebas de intenciones y entrenamientos de intenciones. El entrenamiento se controla únicamente a través de las definiciones de intenciones; la aptitud no puede aprender por sí misma a partir del chat con el usuario.
Prueba de expresiones
Se recomienda reservar el 20% del corpus para las pruebas de intenciones y utilizar el 80% restante para entrenar las intenciones. Mantenga estos dos juegos separados para que las expresiones de prueba, que se incorporan en los casos de prueba, sigan siendo "desconocidas" para su aptitud.
Aplique la división 80/20 al conjunto de datos de cada una de las intenciones. Aleatorice las expresiones antes de aplicar esta división. Así, los modelos de entrenamiento podrán examinar los términos y los patrones de las expresiones por igual.
Probador de expresiones
El probador de expresiones es su ventana a la cognición de la aptitud. Si introduce frases que no formen parte del corpus de entrenamiento, puede averiguar si ha diseñado correctamente las intenciones revisando la clasificación de confianza de la intención y el JSON devuelto. Esta clasificación, que es la estimación que hace la aptitud del mejor candidato para resolver la entrada de usuario, demuestra su agudeza actual.
Descripción de la ilustración expresión-tester-quick-test.png
Con el probador de expresiones, puede realizar pruebas rápidas para pruebas puntuales o puede incorporar una expresión como caso de prueba para medir la resolución de intenciones en diferentes versiones de modelos de entrenamiento.
Casos de prueba
Cada prueba tiene una expresión y la intención que se espera que resuelva, lo que se conoce como coincidencia de etiqueta. Un caso de prueba también puede incluir valores de entidad coincidentes y el idioma esperado para la expresión. Puede ejecutar casos de prueba cuando esté desarrollando una aptitud y, más adelante, cuando la aptitud esté en producción, puede utilizar los casos de prueba para pruebas de regresión. En este último caso, puede ejecutar casos de prueba para averiguar si una nueva versión del modelo de entrenamiento ha afectado negativamente a la resolución de la intención.
Al igual que los casos de prueba que crea con el probador de conversaciones, los casos de prueba de expresiones forman parte de la aptitud y se trasladan con cada versión. Si amplía una aptitud, la extensión hereda los casos de prueba. Mientras que los casos de prueba de conversación están pensados para probar un escenario, los casos de prueba de expresión están pensados para probar los fragmentos de una conversación de forma independiente, garantizando que cada expresión se resuelva con la intención correcta.
Gestión de casos de prueba
nluTestSuites
que aloja los conjuntos de pruebas de la aptitud cuando se exporta la aptitud.Crear series de pruebas
- Haga clic en + Test Suite.
- En el separador General, sustituya el nombre del marcador de posición (TestSuite0001, por ejemplo) por uno más significativo agregando un valor en el campo Nombre mostrado.
- Opcionalmente, agregue una descripción que explique la funcionalidad que abarca el conjunto de pruebas.
- Rellene el conjunto de pruebas con casos de prueba utilizando cualquiera de los siguientes métodos (o una combinación de ellos):
- Adición manual de casos de prueba (ya sea creando un caso de prueba o guardando una expresión como caso de prueba desde el comprobador de expresiones).
- Importación de casos de prueba.
Nota
Para asignar un caso de prueba a un conjunto de pruebas mediante la importación, el campotestSuite
del CSV puede estar vacío o debe contener un nombre que coincida con el conjunto de pruebas seleccionado en el cuadro de diálogo de importación. - Edición de un caso de prueba para reasignar su conjunto de pruebas.
- Si desea excluir el conjunto de pruebas de las ejecuciones de prueba que se inician mediante las opciones Todo y Ejecutar todo, desactive Activar conjunto de pruebas.
- Si no desea que el conjunto de pruebas se incluya en la exportación de aptitudes, desactive Incluir en exportación de aptitudes. Al desactivar esta opción para un conjunto de pruebas, no se incluirá en la carpeta
nluTestSuites
que aloja los conjuntos de pruebas de la aptitud en el archivo ZIP exportado.
Creación de casos de prueba de expresiones
Puede agregar casos de prueba uno a uno mediante el probador de expresiones o el cuadro de diálogo Nuevo caso de prueba (al que se accede haciendo clic en + Caso de prueba), o bien puede agregarlos en bloque mediante la carga de un CSV.
Cada caso de prueba debe pertenecer a un conjunto de pruebas, por lo que antes de crear un caso de prueba, es posible que desee crear primero un conjunto de pruebas que refleje una capacidad de la aptitud o algún aspecto de las pruebas de intención, como pruebas de fallos, pruebas en dominio o pruebas fuera de dominio.
Consejo:
Para proporcionar una cobertura adecuada en las pruebas, cree expresiones de conjunto de pruebas que no solo sean variadas conceptualmente, sino también gramaticalmente, ya que los usuarios no realizarán solicitudes de manera uniforme. Puede agregar estas dimensiones mediante la creación de conjuntos de pruebas a partir de mensajes de usuario reales que se hayan consultado en el reentrenamiento de estadísticas y también a partir de entradas de origen colaborativo recopiladas de Data Manufacturing.Adición de casos de prueba desde el probador de expresiones
- Haga clic en Probar expresiones de usuario.
- Si la aptitud es multilingüe, seleccione el idioma nativo.
- Introduzca la expresión y, a continuación, haga clic en Probar.
- Haga clic en Guardar como caso de prueba y, a continuación, seleccione un conjunto de pruebas.
Creación de un caso de prueba
- Haga clic en Ir a casos de prueba en el probador de expresiones.
- Haga clic en + Caso de prueba.
- Complete el cuadro de diálogo Nuevo caso de prueba:
- Si es necesario, desactive el caso de prueba.
- Introduzca la expresión de prueba.
- Seleccione el conjunto de pruebas.
- Seleccione la intención esperada. Si está creando un caso de prueba para pruebas de fallos, seleccione unresolvedIntent.
- Para las aptitudes multilingües, seleccione la etiqueta de idioma y el idioma esperado.
- Haga clic en Agregar a conjunto. En la página Test Cases, puede suprimir un caso de prueba o editar un caso de prueba, lo que incluye la reasignación del caso de prueba a un conjunto de pruebas diferente.
- Para probar valores de entidad:
- Active Probar entidades. A continuación, haga clic en Continuar.
- Resalte la palabra (o palabras) y, a continuación, aplique una etiqueta de entidad seleccionando una entidad de la lista. Cuando haya terminado, haga clic en Agregar a conjunto.
Nota
Seleccione siempre palabras o frases de la expresión de caso de prueba después de activar Probar entidades. El caso de prueba fallará si ha activado Probar entidades pero no ha resaltado ninguna palabra.
Importación de casos de prueba para conjuntos de pruebas de nivel de aptitud
testSuite
: nombre del conjunto de pruebas al que pertenece el caso de prueba. El campotestSuite
de cada fila del CSV puede tener un nombre de conjunto de pruebas diferente o puede estar vacío.- Los casos de prueba con campos
testSuite
vacíos se agregan a un conjunto de pruebas que seleccione al importar el CSV. Si no selecciona un conjunto de pruebas, se asignarán al conjunto de pruebas por defecto. - Los casos de prueba con campos
testSuite
rellenados se asignan al conjunto de pruebas que seleccione al importar el CSV solo cuando el nombre del conjunto de pruebas seleccionado coincida con el nombre del campotestSuite
. - Si no existe un conjunto de pruebas con el nombre del especificado en el campo
testSuite
, se creará después de importar el CSV.
- Los casos de prueba con campos
utterance
: ejemplo de expresión (obligatorio). Se asigna aquery
en versiones anteriores a la 21.04 de Oracle Digital Assistant.expectedIntent
: intención coincidente (obligatoria). Este campo se asigna aTopIntent
en versiones anteriores a la 21.04 de Oracle Digital Assistant.Consejo:
Importación de versiones anteriores a la versión 21.04 del CSV le indica cómo cambiar el formato de los archivos CSV anteriores a la versión 21.04 para poder utilizarlos para pruebas masivas.enabled
:TRUE
incluye el caso de prueba en la ejecución de la prueba.FALSE
lo excluye.languageTag
: etiqueta de idioma (en
, por ejemplo). Cuando no hay ningún valor, el idioma detectado en la configuración de idioma de la aptitud se utiliza por defecto.expectedLanguageTag
(opcional): para aptitudes multilingües, esta es la etiqueta de idioma del idioma que desea que utilice el modelo al resolver la expresión de prueba en una intención. Para que el caso de prueba pase, esta etiqueta debe coincidir con el idioma detectado.expectedEntities
: entidades coincidentes en la expresión de caso de prueba, representadas como una matriz de objetosentityName
. CadaentityName
identifica la posición del valor de entidad en la expresión mediante las propiedadesbeginOffset
yendOffset
. Este desplazamiento está determinado por el carácter, no por la palabra, y se calcula a partir del primer carácter de la expresión (0-1). Por ejemplo, el objetoentityName
para el valor de entidad PizzaSize de pequeño en Quiero pedir una pizza pequeña es:[{"entityName":"PizzaSize","beginOffset":18,"endOffset":23,"originalString":"small"}, …]
- Haga clic en Más y, a continuación, seleccione Importar.
- Busque el CSV y, a continuación, selecciónelo.
- Seleccione el conjunto de pruebas. El caso de prueba solo se puede asignar al conjunto de pruebas seleccionado si el campo
testSuite
está vacío o coincide con el nombre del conjunto de pruebas seleccionado. - Haga clic en Cargar.
Importación de versiones anteriores a la versión 21.04 del CSV
query
y TopIntent
, se agregan solo al conjunto de pruebas predeterminado. Puede reasignar estos casos de prueba a otros conjuntos de pruebas individualmente editándolos después de importar el CSV, o puede actualizar el CSV al formato actual y, a continuación, editarlo antes de importarlo de la siguiente manera:
- Haga clic en Más > Importar.
- Una vez finalizada la importación, seleccione Conjunto de pruebas por defecto y, a continuación, haga clic en Más > Exportar conjunto seleccionado. El archivo exportado se convertirá al formato actual.
- Extraiga el archivo ZIP y edite el CSV. Cuando haya terminado, vuelva a importar el CSV (Más > Importar). Puede que necesite suprimir casos de prueba duplicados de Conjunto de pruebas por defecto.
Nota
Si carga el mismo CSV varias veces con cambios de poca importancia, los datos nuevos o actualizados se fusionarán con los antiguos: se aplican nuevas actualizaciones y se insertan nuevas filas. Sin embargo, no puede suprimir ninguna expresión cargando un nuevo CSV. Si necesita suprimir expresiones, debe suprimirlas manualmente desde la interfaz de usuario.
Creación de ejecuciones de prueba
Las ejecuciones de prueba son una compilación de casos de prueba o conjuntos de pruebas destinados a evaluar algún aspecto de la cognición de la aptitud. El contenido (y el volumen) de una ejecución de prueba depende de la capacidad que desee probar, por lo que una ejecución de prueba puede incluir un subjuego de casos de prueba de un conjunto de pruebas, un conjunto de pruebas completo o varios conjuntos de pruebas.
Los casos de prueba incluidos en una ejecución de prueba se evalúan con respecto al umbral de confianza definido para la aptitud. Para que un caso de prueba pase en la ejecución de prueba general, se debe resolver en la intención esperada en el umbral de confianza o por encima de este. Si se especifica, el caso de prueba también debe cumplir el valor de entidad y los criterios de coincidencia de idioma. Al revisar los resultados de la ejecución de prueba, puede averiguar si los cambios realizados en la plataforma, o en la propia aptitud, han comprometido la precisión de la resolución de la intención.
Además de probar el modelo, también puede utilizar los resultados de la ejecución de prueba para evaluar la fiabilidad de las pruebas. Por ejemplo, los resultados que muestran que casi todos los casos de prueba han pasado podrían, en la superficie, indicar un funcionamiento óptimo del modelo. Sin embargo, una revisión de los casos de prueba de aprobación puede revelar que los casos de prueba no reflejan el entrenamiento actual porque sus expresiones son demasiado simples o tienen una superposición significativa en términos de los conceptos y verborrea para los que están probando. Por otro lado, un gran número de pruebas con fallos puede indicar deficiencias en los datos de entrenamiento, pero una revisión de estos casos de prueba puede revelar que sus expresiones están emparejadas con las intenciones esperadas incorrectas.
- Haga clic en Ejecutar todo para crear una ejecución de prueba para todos los casos de prueba de un conjunto de pruebas seleccionado. (O si desea ejecutar todos los conjuntos de pruebas, seleccione Todos y, a continuación, haga clic en Ejecutar todo).
- Para crear una ejecución de prueba para una selección de casos de prueba dentro de un conjunto (o una ejecución de prueba para un subjuego de todos los casos de prueba si ha seleccionado Todos), filtre los casos de prueba agregando una cadena que coincida con el texto de expresión y una intención esperada. Seleccione las expresiones y, a continuación, haga clic en Ejecutar.
- Para excluir el conjunto de pruebas de la ejecución de prueba, seleccione primero el conjunto de pruebas, abra el separador General y, a continuación, desactive Activar conjunto de pruebas.
- Para aptitudes multilingües, también puede filtrar por las opciones Etiqueta de idioma e Idioma previsto (al que se accede mediante Atributos opcionales).
- Para crear una ejecución de prueba para una selección de casos de prueba dentro de un conjunto (o una ejecución de prueba para un subjuego de todos los casos de prueba si ha seleccionado Todos), filtre los casos de prueba agregando una cadena que coincida con el texto de expresión y una intención esperada. Seleccione las expresiones y, a continuación, haga clic en Ejecutar.
- Introduzca un nombre de ejecución de prueba que refleje el asunto del examen. Éste es un paso opcional.
- Haga clic en Iniciar
- Haga clic en Resultados de prueba y, a continuación, seleccione la ejecución de prueba.
Consejo:
Las ejecuciones de pruebas que contienen un gran número de casos de prueba pueden tardar varios minutos en completarse. Para estas grandes ejecuciones de prueba, puede que tenga que hacer clic en Refrescar periódicamente hasta que finalice la prueba. Un porcentaje sustituye el estado En curso de la métrica Precisión y el informe Intenciones se representa una vez que se han evaluado todos los casos de prueba.
- Revisión de los informes de ejecución de pruebas. Por ejemplo, primero revise las métricas de alto nivel para la ejecución de prueba proporcionada por el informe de visión general. A continuación, valide los resultados de la prueba con respecto a los casos de prueba reales filtrando el informe Casos de prueba, que muestra todos los casos de prueba incluidos en la ejecución de prueba, para los casos de prueba aprobados y con fallos. A continuación, puede examinar los resultados de cada caso de prueba. También puede comparar la puntuación de precisión del informe Visión general con la puntuación de precisión del informe Intenciones, que mide la capacidad del modelo para predecir las intenciones correctas. Para revisar los casos de prueba enumerados en este informe, abra el informe Casos de prueba y filtre por intenciones.
Informe de resumen de ejecución de prueba
El informe Summary le proporciona una evaluación general de cómo el modelo puede manejar correctamente el tipo de entrada de usuario que se trata en la ejecución de prueba. Para los conjuntos de pruebas incluidos en la ejecución de prueba, muestra el número total de casos de prueba que se han utilizado para evaluar el modelo y, a partir de ese total, tanto el número de casos de prueba (tanto fiables como no fiables) que han fallado junto con el número de casos de prueba fiables y no fiables que se han aprobado. La precisión general del modelo, es decir, su capacidad para predecir intenciones esperadas en el nivel de confianza de la aptitud o por encima de él, reconocer valores de entidad y resolver expresiones en el idioma de la aptitud, se mide por el ratio de éxito de las pruebas de aprobación en la ejecución de prueba.
Descripción de la ilustración test-run-test-results-summary.png
Métricas de informe de resumen
- Precisión: precisión del modelo en términos de la tasa de éxito de los casos de prueba aprobados (el número de casos de prueba aprobados en comparación con el número total de casos de prueba incluidos en la ejecución de prueba).
Nota
Los casos de prueba desactivados no se tienen en cuenta en la puntuación de precisión. Tampoco las pruebas fallaron debido a errores. Cualquier prueba que haya fallado se agrega al recuento Fallido.Una puntuación baja de precisión podría indicar que la ejecución de la prueba está evaluando el modelo en conceptos y lenguaje que no están adecuadamente respaldados por los datos de entrenamiento. Para aumentar la puntuación de precisión, vuelva a entrenar el modelo con expresiones que reflejen los casos de prueba en la ejecución de prueba.
Esta métrica de precisión se aplica a toda la ejecución de prueba y proporciona una puntuación independiente de la métrica de precisión en el informe de intenciones. Esta métrica es el porcentaje de casos de prueba en los que el modelo ha superado todos los criterios de caso de prueba. La puntuación de precisión del informe de intenciones, por otro lado, no es una prueba completa. Es el porcentaje de casos de prueba en los que el modelo solo tuvo que predecir la intención esperada en el umbral de confianza de la aptitud o por encima de este. No se tienen en cuenta otros criterios de casos de prueba (como el valor de enidad o el idioma de aptitud). Dados los diferentes criterios de lo que significa un caso de prueba de aprobación para estos dos informes, sus respectivas puntuaciones de precisión pueden no estar siempre en el paso. La puntuación de precisión de coincidencia de intención puede ser superior a la puntuación general de ejecución de prueba cuando los datos de prueba no están alineados con los datos de entrenamiento. Al volver a entrenar el modelo con expresiones que soporten los casos de prueba, podrá predecir las intenciones esperadas con mayor confianza, lo que, a su vez, aumentará la puntuación de precisión para la ejecución de prueba.
Nota
La métrica Precisión no estará disponible hasta que haya finalizado la ejecución de prueba y no estará disponible para las ejecuciones de prueba que se hayan completado cuando la aptitud se haya ejecutado en versiones anteriores a la 22.12 de la plataforma Oracle Digital Assistant. - Casos de prueba: número total de casos de prueba (tanto fiables como no fiables) incluidos en la ejecución de prueba. Los casos de prueba omitidos se incluyen en este recuento, pero no se tienen en cuenta al calcular la métrica de precisión.
- Aprobado: número de casos de prueba (tanto fiables como no fiables) que se han transferido al resolver la intención en el umbral de confianza y al hacer coincidir los valores de entidad o el idioma seleccionados.
- Con fallos: número de casos de prueba (fiable y no fiable del bot) que no se han resuelto en la intención esperada en el umbral de confianza y que no han coincidido con los valores de entidad o el idioma seleccionados.
Para revisar los casos de prueba reales detrás de las métricas Aprobado y Con fallos de este informe, abra el informe Casos de prueba y, a continuación, aplique los filtros Aprobado o Con fallos.
Descripción de la ilustración test-runs-intent-report.png
Desglose del conjunto de pruebas
En la tabla de desglose de conjunto de pruebas se muestran los conjuntos de pruebas incluidos en la ejecución de prueba y sus estadísticas individuales. Puede revisar los casos de prueba reales que pertenecen a un conjunto de pruebas haciendo clic en el enlace de la columna Conjunto de pruebas.
Descripción de la ilustración test-suite-breakdown.png
Informe de intenciones
Las métricas de este informe realizan un seguimiento de las coincidencias de la etiqueta del modelo en todos los casos de prueba de la ejecución de prueba. Aquí es donde el modelo predice correctamente la intención esperada para la expresión de caso de prueba. En el contexto de este informe, la precisión, el paso y el fallo se miden en términos de los casos de prueba en los que el modelo predijo la intención esperada correcta en o por encima del umbral de confianza. No se tienen en cuenta otros criterios considerados en el informe de resumen, como coincidencias de valor de entidad o idioma de aptitud. Como resultado, este informe le proporciona una vista diferente de la precisión del modelo, que le ayuda a verificar si el entrenamiento actual permite al modelo predecir de forma consistente las intenciones correctas.
Este informe no está disponible para ejecuciones de prueba que se completaron cuando la aptitud se ejecutó en una versión anterior a la 22.12 de la plataforma Oracle Digital Assistant.
Métricas de Informe de Intenciones
- Casos de prueba: número de casos de prueba incluidos en esta ejecución de prueba. Este total incluye tanto casos de prueba fiables como no fiables. Los casos de prueba omitidos no se incluyen en este recuento.
Consejo:
Los enlaces de casos de prueba no fiables para las métricas Casos de prueba, Aprobados y Fallidos abren el informe Casos de prueba filtrado por casos de prueba no fiables. Esta navegación no está disponible al filtrar el informe por conjunto de pruebas. - Precisión: precisión del modelo en la coincidencia de la intención esperada en, o por encima, el umbral de confianza de la aptitud en los casos de prueba de esta ejecución de prueba. La submetría Coincidencia de etiqueta representa el porcentaje de casos de prueba en la ejecución de prueba en los que el modelo predijo correctamente la intención esperada, independientemente de la puntuación de confianza. Debido a que los factores de coincidencia de etiquetas en los casos de prueba fallidos junto con la aprobación de los casos de prueba, su puntuación puede ser superior a la puntuación de precisión.
Puede comparar esta métrica de precisión con la métrica de precisión del informe de resumen. Cuando la puntuación de precisión del informe de resumen es baja, puede utilizar este informe para averiguar rápidamente si los fallos del modelo se pueden atribuir a su incapacidad para predecir la intención esperada. Sin embargo, cuando la puntuación de precisión de este informe es alta, puede descartar la coincidencia de etiquetas como raíz del problema y, en lugar de tener que revisar en gran medida los datos de entrenamiento para aumentar la puntuación de precisión de la ejecución de prueba, puede centrarse en agregar expresiones que reflejen los conceptos y el idioma en las expresiones de caso de prueba.
- Aprobado: número de casos de prueba (fiable y no fiable) en los que el modelo predijo la intención esperada en el umbral de confianza de la aptitud.
- Con fallos: número de casos de prueba (fiable y no fiable) en los que el modelo predijo la intención esperada por debajo del umbral de confianza de la aptitud.
- Aprobado de confianza: media de las puntuaciones de confianza de todos los casos de prueba aprobados en esta ejecución de prueba.
- Fallo de confianza: media de las puntuaciones de confianza de todos los casos de prueba que han fallado en esta ejecución de prueba.
Cuando filtra el informe Intenciones por conjunto de pruebas, no está disponible el acceso al informe Casos de prueba desde los enlaces de casos de prueba no fiables en los mosaicos Casos de prueba, Aprobado y Fallo. Estos vínculos vuelven a activarse cuando se eliminan todas las entradas del campo Filtrar por conjunto de pruebas.
Filtrar por conjunto de pruebas

El informe ajusta las métricas para cada conjunto de pruebas que agregue (o elimine posteriormente). Tabula los resultados de coincidencia de intención en términos del número de casos de prueba activados que pertenecen al conjunto de pruebas seleccionado.
No puede filtrar por conjuntos de pruebas que se ejecutaron en una plataforma anterior a la versión 23.06. Para incluir estos conjuntos de pruebas, debe volver a ejecutarlos después de actualizar a la versión 23.06 o superior.
El filtrado por conjunto de pruebas desactiva la navegación al informe Casos de prueba de los enlaces de casos de prueba no fiables en los mosaicos Casos de prueba, Aprobado y Fallo. Los enlaces de la columna Total del desglose de intenciones también están desactivados. Todos estos enlaces se vuelven a activar después de eliminar todas las entradas del campo Filtrar por conjunto de pruebas.
Desglose de intenciones
El campo Filtrar por intención cambia la vista de la tabla Desglose de intenciones, pero no cambia las métricas generales del informe. Estas métricas reflejan las entradas (o la falta de entradas) en el campo Filtrar por conjunto de pruebas.
- Intención: nombre de la intención esperada.
- Total: número de casos de prueba, representados como un enlace, para la intención esperada. Puede acceder al informe de casos de prueba haciendo clic en este enlace.
Nota
No puede navegar al informe Casos de prueba cuando ha aplicado un filtro de conjunto de pruebas a este informe. Este vínculo vuelve a activarse cuando se eliminan todas las entradas del campo Filtrar por conjunto de pruebas. - Precisión: porcentaje de casos de prueba que han dado como resultado coincidencias de etiqueta para la intención esperada en el umbral de confianza de la aptitud o por encima de este.
- Aprobado: número de casos de prueba (incluidos los casos de prueba no fiables) en los que el modelo predijo la intención esperada en el umbral de confianza de la aptitud o por encima de este.
- Aprobado - No fiable: número de casos de prueba en los que el modelo predijo la intención esperada en un 5 % o menos por encima del umbral de confianza de la aptitud.
- Con fallos: número de casos de prueba en la ejecución de prueba que han fallado porque el modelo predijo la intención esperada por debajo del umbral de confianza de la aptitud.
- Con fallos: no fiable: el número de casos de prueba que han fallado porque la confianza del modelo en la predicción de la intención esperada ha caído un 5 % por debajo del umbral de confianza de la aptitud. Estos casos de prueba pueden tener en cuenta
- Coincidencia de etiqueta: número de casos de prueba en los que el modelo predijo correctamente la intención esperada, independientemente del nivel de confianza. Debido a que influye en los casos de prueba fallidos, es posible que las puntuaciones de Coincidencia de Etiqueta y Precisión no siempre coincidan entre sí. Por ejemplo, cuatro casos de prueba de aprobación de cinco resultados en una puntuación de precisión del 80% para la intención. Sin embargo, si el modelo predijo la intención correctamente para el caso de prueba con fallos, Label Match superaría a Accuracy en un 20 %.
- Aprobado de confianza: media de las puntuaciones de confianza de todos los casos de prueba que coincidieron correctamente con la intención esperada.
- Fallo de confianza: media de las puntuaciones de confianza de todos los casos de prueba que no coinciden con la intención esperada.
Consejo:
Para revisar los casos de prueba reales, abra el informe Casos de prueba y el filtro por intención.
Informe de casos de prueba
- Puede filtrar los resultados haciendo clic en Todo, Aprobado (verde) o Con fallos (rojo). Los casos de prueba contados como omitidos incluyen casos de prueba desactivados y casos de prueba en los que se haya desactivado la intención esperada.
Puede filtrar los resultados por casos de prueba no fiables haciendo clic en Mostrar casos no fiables en el mensaje de advertencia o seleccionando el filtro Solo casos no fiables. - Si es necesario, filtre los resultados para una intención o entidad específica o por casos de prueba fiables o no fiables.
- Para casos de prueba no fiables y con fallos, haga clic en Ver expresiones similares (ubicado en la página Información de prueba) para averiguar si la expresión de caso de prueba tiene cualquier similitud con las expresiones del juego de entrenamiento.
- Compruebe los siguientes resultados:
- Información de prueba: presenta la visión general del caso de prueba, incluido el umbral de confianza de destino, la intención esperada y los valores de entidad coincidentes.
- Resultado de la prueba: clasificación de la intención por nivel de confianza. Cuando está presente, el informe también identifica las entidades incluidas en la expresión por nombre y valor de entidad. También puede ver el objeto JSON que contiene los resultados completos.
- Análisis de fallos: explica por qué falló el caso de prueba. Por ejemplo, la intención real no es la intención esperada, el valor de entidad etiquetado en el caso de prueba no coincide con la entidad resuelta o el idioma esperado no es el mismo que el idioma detectado.
Casos de prueba no fiables
Algunos casos de prueba no pueden proporcionar resultados consistentes porque se resuelven dentro del 5% o menos del umbral de confianza. Este margen estrecho hace que estos casos de prueba no sean confiables. Cuando el umbral de confianza de la aptitud se define en 0,7, por ejemplo, un caso de prueba que se transfiere en el 74 % puede fallar después de haber realizado solo modificaciones menores en los datos de entrenamiento o porque la aptitud se ha actualizado a una nueva versión del modelo. La fragilidad de estos casos de prueba puede indicar que las expresiones que representan en los datos de entrenamiento pueden ser muy pocas en número y que puede que necesite equilibrar los datos de entrenamiento de la intención con expresiones similares.
- Ejecute la serie de pruebas. A continuación, haga clic en Resultados de prueba y seleccione la ejecución de prueba. Los casos de prueba no fiables se ordenan al principio de los resultados de la ejecución de prueba y se marcan con advertencias
.
- Para aislar los casos de prueba poco fiables:
- Haga clic en Mostrar los casos no fiables en el mensaje.
- Seleccione Solo casos no fiables en el menú Filtrar por casos.
- Haga clic en Mostrar los casos no fiables en el mensaje.
- Para encontrar la proximidad de la intención de rango superior del caso de prueba al umbral de confianza, abra la ventana Resultado de la prueba. Para comparar la puntuación de confianza de rango superior con el umbral de confianza, haga clic en
.
- Si necesita complementar los datos de entrenamiento para la intención de rango superior, haga clic en Ir a intención superior en el mensaje de advertencia.
- Si desea determinar la cantidad de expresiones representadas por el caso de prueba en los datos de entrenamiento, haga clic en Ver expresiones similares.
También puede comprobar si alguna de las expresiones más similares a la expresión de caso de prueba también son anomalías en el juego de entrenamiento ejecutando el informe de anomalías.
Ejecuciones de prueba exportadas
Las ejecuciones de pruebas no se conservan con la aptitud, pero puede descargarlas en el sistema para su análisis haciendo clic en Exportar ejecución de prueba. Si las intenciones ya no resuelven los datos introducidos por el usuario como se esperaba, o si los cambios de la plataforma han afectado negativamente a la resolución de la intención, puede recopilar los detalles de una SS (solicitud de servicio) mediante los logs de ejecuciones de prueba exportadas.
Prueba de fallos
La prueba de fallos (o negativa) permite probar en bloque expresiones que nunca se deben resolver, ya sea porque dan lugar a unresolvedIntent o porque solo se resuelven en otras intenciones por debajo del umbral de confianza para todas las intenciones.
- Especifique unresolvedIntent como intención esperada para todos los casos de prueba que espera que no se resuelvan. En una situación idea, estas frases "falsas" se quedarán sin resolver.
- Si es necesario, ajuste el umbral de confianza al crear una ejecución de prueba para confirmar que las frases falsas (las que tienen
unresolvedIntent
como intención esperada) solo puedan resolverse con un valor inferior al definido aquí. Por ejemplo, si aumenta el umbral podría causar que las frases falsas no se resuelvan en el nivel de confianza en ninguna intención (incluida unresolvedIntent), lo que significa que lo superarían porque se considerarían no resueltas. - Revise los resultados de la prueba y compruebe que los casos de prueba coinciden con unresolvedIntent en el umbral o que no coinciden con ninguna intención (unresolvedIntent u otra) en el umbral.
Expresiones similares
Para saber qué tan similar es la frase de prueba a las expresiones del corpus de entrenamiento, haga clic en Ver expresiones similares. Esta herramienta proporciona una perspectiva adicional sobre los datos de entrenamiento de la aptitud al mostrarle qué tan similares son sus expresiones a la frase de prueba y, por extensión, qué tan similares son las expresiones entre sí en las intenciones. Con esta herramienta, puede averiguar si la similitud de la frase de prueba con las expresiones que pertenecen a otras intenciones es el motivo por el que la frase de prueba no se resuelve como se esperaba. Incluso podría señalar dónde pertenecen los datos de entrenamiento a la intención incorrecta porque si es similar a la frase de prueba.
Descripción de la ilustración similar-utterance-report-all-intents.png
La lista generada por esta herramienta clasifica 20 expresiones (junto con sus intenciones asociadas) que están más cerca de la frase de prueba. Idealmente, la expresión de primer nivel de esta lista, la más parecida a la frase de prueba, pertenece a la intención a la que se dirige la frase de prueba. Si la expresión más cercana que pertenece a la intención esperada está más abajo, una revisión de la lista puede proporcionar algunas indicaciones sobre el motivo. Por ejemplo, si está probando una expresión de intención Transacciones, ¿cuánto dinero he transferido ayer?, esperaría que la expresión de rango superior pertenezca igualmente a una intención Transacciones. Sin embargo, si esta expresión de prueba se resuelve en la intención incorrecta o por debajo del nivel de confianza, la lista puede revelar que tiene más en común con expresiones de alta clasificación con una redacción similar que pertenecen a otras intenciones. Por ejemplo, la expresión ¿Cuánto dinero tengo en todas mis cuentas? de la intención Balances podría estar más cerca de la expresión de prueba que la expresión ¿Cuánto deposité en abril? de la intención Transactions de menor rango.
Solo puede utilizar esta herramienta para aptitudes entrenadas en Trainer Tm (no está disponible para aptitudes entrenadas con Ht).
- Filtrar por intención: devuelve 20 expresiones más cercanas a la expresión de prueba que pertenecen a la intención (o intenciones) seleccionada.
- Filtrar por expresión: devuelve 20 de las expresiones más cercanas a la expresión de prueba que contienen una palabra o frase.
- Idioma: para aptitudes multilingües, puede consultar y filtrar el informe seleccionando un idioma.
La aplicación de estos filtros no cambia las clasificaciones, solo la vista. Una expresión clasificada en tercer lugar, por ejemplo, se notará como tal independientemente del filtro. Las clasificaciones y el contenido del informe cambian solo cuando se actualiza el corpus y se vuelve a entrenar la aptitud con Trainer Tm.