Crear Entidades
Esta es la forma de crear una entidad.
Entidades de lista de valores para varios idiomas
Consejo:
Para asegurarse de que la aptitud genera respuestas de forma coherente en el idioma detectado, incluya siempreuseFullEntityMatches: true
en los estados Respuesta común, Resolver entidades y Coincidir entidad. Como se describe en Adición de idiomas con soporte nativo a una aptitud, al definir esta propiedad en true
(valor por defecto) se devuelve el valor de entidad como un objeto cuyas propiedades diferencian el idioma principal del idioma detectado. Cuando se hace referencia a ellas en expresiones FreeMarker de Apache, estas propiedades garantizan que se muestre el idioma adecuado en el texto y las etiquetas del mensaje de la aptitud.
Soporte de Word Stemming en coincidencia parcial
A partir de la versión 22.10, la coincidencia parcial para entidades de valor de lista se basa en la raíz de palabras, donde una coincidencia de valor se basa en la raíz léxica de la palabra. En las versiones anteriores, la coincidencia parcial se activaba mediante la coincidencia parcial y la corrección automática. Si bien este enfoque era tolerante a errores tipográficos en la entrada del usuario, incluidas las palabras transpuestas, también podría dar lugar a coincidencias con más de un valor dentro de la entidad de lista de valores. Con la derivación, esta dispersión se elimina: las coincidencias se basan en el orden de las palabras de la entrada del usuario, por lo que se realiza una sola coincidencia o ninguna. Por ejemplo, "Lovers Veggie" no daría como resultado ninguna coincidencia, pero "Veggie Lover" coincidiría con el valor de Veggie Lovers de una entidad de tipo pizza. (Tenga en cuenta que "Amor" se deriva.) Las palabras irrelevantes, como artículos y preposiciones, se ignoran en los valores extraídos, al igual que los caracteres especiales. Por ejemplo, tanto "Veggie the Lover" como "Veggie////Lover" coincidirían con el valor de Veggie Lovers.
Crear entidades de aprendizaje automático
Las entidades de aprendizaje automático son un enfoque basado en modelos para la extracción de entidades. Al igual que las intenciones, puede crear entidades de aprendizaje automático a partir de expresiones de entrenamiento, probablemente las mismas expresiones de entrenamiento que utilizó para crear las intenciones. Sin embargo, para las entidades de aprendizaje automático, anote las palabras de las expresiones de entrenamiento que corresponden a una entidad.
Para empezar, puede anotar algunos de los datos de entrenamiento usted mismo, pero como es el caso de las intenciones, puede desarrollar un entrenamiento más variado (y, por lo tanto, sólido) definido por el abastecimiento de multitudes. Como se indica en las directrices de formación, la detección sólida de entidades requiere entre 600 y 5000 incidencias de cada entidad de aprendizaje automático en todo el conjunto de formación. Además, si los datos de entrenamiento de intención ya son amplios, puede que desee obtenerlos en lugar de anotar cada expresión usted mismo. En cualquier caso, debe analizar los datos de entrenamiento para averiguar si las entidades están representadas de forma uniforme y si los valores de entidad son lo suficientemente variados. Una vez finalizadas las anotaciones, entrenará el modelo y, a continuación, lo probará. Después de revisar las entidades detectadas en las ejecuciones de prueba, puede continuar actualizando el corpus y volver a entrenar para mejorar la precisión.
- Haga clic en + Agregar entidad.
- Complete el cuadro de diálogo Crear entidad. Tenga en cuenta que el nombre y la descripción aparecen en las páginas de crowd worker para los trabajos de anotación de entidad.
- Introduzca el nombre que identifica el contenido anotado. Un nombre único ayuda a los trabajadores colaborativos.
- Introduzca una descripción. Aunque se trata de una propiedad opcional, los trabajadores colaborativos la utilizan, junto con la propiedad Name, para diferenciar entidades.
- Seleccione Entidad de ML en la lista.
- Active Excluir coincidencias de entidad del sistema cuando las anotaciones de entrenamiento contengan nombres, ubicaciones, números u otro contenido que pueda chocar con los valores de entidad del sistema. La configuración de esta opción evita que el modelo extraiga los valores de entidad del sistema que están dentro de la entrada que se resuelve en esta entidad de aprendizaje automático. Aplica un límite alrededor de esta entrada para que el modelo lo reconozca solo como un valor de entidad de aprendizaje automático y no lo analice aún más para los valores de entidad del sistema. Puede definir esta opción para entidades de bolsa compuesta que hagan referencia a entidades de aprendizaje automático.
- Haga clic en Crear.
- Haga clic en +Value Entidades de lista para asociar esta entidad a hasta cinco entidades de lista de valores. Esto es opcional, pero la asociación de una entidad de ML con una entidad de lista de valores combina la extracción contextual de la entidad de ML y la extracción independiente del contexto de la entidad de lista de valores.
- Haga clic en el separador DataSet. Esta página muestra todas las expresiones de cada entidad de aprendizaje automático de la aptitud, que incluyen las expresiones que se ha agregado para iniciar la entidad, las enviadas desde trabajos de abastecimiento colaborativo o que se han importado como objetos JSON. Desde esta página, puede agregar expresiones de forma manual o masiva cargando un archivo JSON. También puede gestionar las expresiones de esta página editándolas (incluidas las anotaciones o las anotaciones nuevas) o suprimiéndolas, importándolas y exportándolas.
- Agregue expresiones manualmente:
- Haga clic en Agregar expresión. Después de agregar la expresión, haga clic en Editar anotaciones para abrir la lista de entidades.
Nota
Solo puede agregar una expresión a la vez. Si desea agregar expresiones en bloque, puede agregarlas mediante un trabajo de anotación de entidad o cargar un archivo JSON. - Resalte el texto relevante para la entidad de aprendizaje automático y, a continuación, complete el etiquetado seleccionando la entidad de aprendizaje automático en la lista de entidades. Puede eliminar una anotación haciendo clic en x en la etiqueta.
- Haga clic en Agregar expresión. Después de agregar la expresión, haga clic en Editar anotaciones para abrir la lista de entidades.
- Agregue expresiones de un archivo JSON. Este archivo JSON contiene una lista de objetos de expresión.
Puede cargarla haciendo clic en Más > Importar para recuperarla del sistema local.[ { "Utterance": { "utterance": "I expensed $35.64 for group lunch at Joe's on 4/7/21", "languageTag": "en", "entities": [ { "entityValue": "Joe's" "entityName": "VendorName", "beginOffset": 37, "endOffset": 42 } ] } }, { "Utterance": { "utterance": "Give me my $30 for Coffee Klatch on 7/20", "languageTag": "en", "entities": [ { "entityName": "VendorName", "beginOffset": 19, "endOffset": 32 } ] } } ]
El objetoentities
describe las entidades de aprendizaje automático que se han identificado en la expresión. Aunque el ejemplo anterior ilustra un único objetoentities
para cada expresión, una expresión puede contener varias entidades de aprendizaje automático, lo que significa varios objetosentities
:[ { "Utterance": { "utterance": "I want this and that", "languageTag": "en", "entities": [ { "entityName": "ML_This", "beginOffset": 7, "endOffset": 11 }, { "entityName": "ML_That", "beginOffset": 16, "endOffset": 20 } ] } }, { "Utterance": { "utterance": "I want less of this and none of that", "languageTag": "en", "entities": [ { "entityName": "ML_This", "beginOffset": 15, "endOffset": 19 }, { "entityName": "ML_That", "beginOffset": 32, "endOffset": 36 } ] } } ]
entityName
identifica la propia entidad de aprendizaje automático yentityValue
identifica el texto etiquetado para la entidad.entityValue
es una clave opcional que puede utilizar para validar el texto etiquetado con respecto a los cambios realizados en la expresión. La etiqueta en sí se identifica mediante las propiedadesbeginOffset
yendOffset
, que representan el desplazamiento de los caracteres que comienzan y finalizan la etiqueta. Este desplazamiento está determinado por el carácter, no por la palabra, y se calcula a partir del primer carácter de la expresión (0-1).Nota
No puede crear las entidades de aprendizaje automático a partir de este JSON. Deben existir antes de cargar el archivo.Si no desea determinar las compensaciones, puede dejar el objetoEl sistema comprueba si hay duplicados para evitar entradas redundantes. Solo se aplican los cambios realizados en la definiciónentities
sin definir y, a continuación, aplicar las etiquetas después de cargar el archivo JSON.[ { "Utterance": { "utterance": "I expensed $35.64 for group lunch at Joe's on 4/7/21", "languageTag": "en", "entities": [] } }, { "Utterance": { "utterance": "Give me my $30 for Coffee Klatch on 7/20", "languageTag": "en", "entities": [] } } ]
entities
en el archivo JSON. Si se ha cambiado una expresión en el archivo JSON, se considera una nueva expresión. - Edite una expresión anotada:
- Haga clic en Editar
para eliminar la anotación.
Nota
Una expresión modificada se considera una nueva expresión (sin anotar). - Haga clic en Editar anotaciones para abrir la lista de entidades.
- Resalte el texto y, a continuación, seleccione una entidad de aprendizaje automático en la lista Entidad.
- Si necesita eliminar una anotación, haga clic en x en la etiqueta.
- Haga clic en Editar
- Agregue expresiones manualmente:
- Cuando haya terminado de anotar las expresiones. Haga clic en Entrenar para actualizar tanto el entrenador Tm como el modelo de entidad.
- Pruebe el reconocimiento introduciendo una frase de prueba en el probador de expresiones, idealmente una con un valor que no se encuentra en ningún dato de entrenamiento. Compruebe los resultados para averiguar si el modelo ha detectado la entidad de aprendizaje automático correcta y si el texto se ha etiquetado correcta y completamente.
- Asocie la entidad de aprendizaje automático a una intención.
Excluir confrontaciones de entidad del sistema
La activación de Excluir coincidencias de entidad del sistema impide que el modelo sustituya los valores de entidad del sistema extraídos anteriormente por valores en competencia encontrados dentro de los límites de una entidad de aprendizaje automático. Con esta opción activada, "Crear una reunión el lunes para discutir el entregable del martes" mantiene separados los valores de la entidad DATE_TIME y ML resolviendo la entidad DATE_TIME aplicable (lunes) e ignorando "Martes" en el texto que se reconoce como la entidad ML ("discutir el entregable del martes").
Puede definir la opción Excluir coincidencias de entidad del sistema para entidades de bolsa compuesta que hacen referencia a una entidad de aprendizaje automático.
Importación de entidades de lista de valores desde un archivo CSV
En lugar de crear las entidades una a una, puede crear juegos completos de entidades importando un archivo CSV que contenga las definiciones de la entidad.
Este archivo CSV contiene columnas para el nombre de entidad (entity
), el valor de entidad (value
) y cualquier sinónimo (synonyms
). Puede crear este archivo desde cero, o puede reutilizar o rediseñar un CSV creado a partir de una exportación.
entity
, value
y synonyms
. Por ejemplo:entity,value,synonyms
PizzaSize,Large,lrg:lrge:big
PizzaSize,Medium,med
PizzaSize,Small,little
value
y synonyms
. Por ejemplo, si el idioma nativo principal de la aptitud es el inglés (en
), las columnas value
y synonyms
son en:value
y en:synonyms
:entity,en:value,en:synonyms
PizzaSize,Large,lrg:lrge:big
PizzaSize,Medium,med
PizzaSize,Small,
PizzaSize,Extra Large,XL
Los archivos CSV que soporten varios idiomas nativos requieren juegos adicionales de columnas value
y synonyms
para cada idioma secundario. Si el idioma secundario de una aptitud en inglés como idioma nativo es el francés (fr
), el CSV tiene columnas fr:value
y fr:synonyms
como equivalentes a las columnas en
:entity,en:value,en:synonyms,fr:value,fr:synonyms
PizzaSize,Large,lrg:lrge:big,grande,grde:g
PizzaSize,Medium,med,moyenne,moy
PizzaSize,Small,,petite,p
PizzaSize,Extra Large,XL,pizza extra large,
- Si importa un CSV anterior a la versión 20.12 en una aptitud de la versión 20.12 (incluidas las que soporten idiomas nativos o utilicen servicios de traducción), los valores y los sinónimos se importan como idiomas principales.
- Todos los valores de entidad tanto para los idiomas principal como secundario deben ser únicos en una entidad, por lo que no puede importar un CSV si el mismo valor se ha definido más de una vez para una única entidad. Los valores duplicados se pueden producir en versiones anteriores a la 20.12, donde los valores se pueden considerar únicos debido a variaciones en las mayúsculas y minúsculas. Esto no es válido para la versión 20.12, donde las mayúsculas y minúsculas se aplican de forma más estricta. Por ejemplo, no puede importar un CSV si tiene tanto
PizzaSize, Small
comoPizzaSize, SMALL
. Si tiene previsto actualizar la versión 20.12, primero debe resolver todos los valores de entidad que sean iguales, pero diferenciados solo por mayúsculas y minúsculas antes de realizar la actualización. - El soporte de idioma principal se aplica a las aptitudes creadas con la versión 20.12 y posteriores, por lo que primero debe eliminar las etiquetas de idioma y cualquier entrada de idioma secundario para poder importar un CSV de la versión 20.12 a una aptitud creada con una versión anterior.
- Puede importar un CSV multilingüe en aptitudes que no utilizan soporte de idioma nativo, incluidos los que utilizan servicios de traducción.
- Si importa un CSV multilingüe en una aptitud que soporte idiomas nativos o utilice servicios de traducción, solo se importan las filas que proporcionan un valor válido para el idioma principal. El resto se ignorará.
-
Haga clic en Entidades (
) en la barra de navegación lateral.
-
Haga clic en más, seleccione Importar entidades de lista de valores y, a continuación, seleccione el archivo
.csv
del sistema local.
Descripción de la ilustración import-entities.png -
Agregue la entidad o las entidades a una intención (o a una lista de entidades y, a continuación, a una intención).
Exportación de entidades de lista de valores a un archivo CSV
entity
, value
y synonyms
. Estos CSV tienen requisitos específicos de la versión que pueden afectar a su reutilización.
- Los CSV exportados de las aptitudes creadas con la versión 20.12, o actualizadas a ella, permiten el soporte de idioma nativo mediante las etiquetas de idioma principal (y a veces secundario) que se agregan a las columnas
value
ysynonyms
. Por ejemplo, el archivo CSV del siguiente fragmento tiene un juego de columnasvalue
ysynonyms
para el idioma principal de la aptitud, inglés (en
) y otro juego para su idioma secundario, francés (fr
):
Las etiquetas de idioma principal se incluyen en todos los CSV de la versión 20.12, independientemente del soporte de idioma nativo. Están presentes en aptitudes que no están diseñadas para realizar ningún tipo de traducción (nativa o a través de un servicio de traducción) y en aptitudes que utilizan servicios de traducción.entity,en:value,en:synonyms,fr:value,fr:synonyms
- Los CSV exportados de aptitudes que se ejecutan en versiones anteriores a la versión 20.12 tienen las columnas de entidad, valor y sinónimos, pero no tienen etiquetas de idioma.
-
Haga clic en Entidades (
) en la barra de navegación lateral.
-
Haga clic en Más, seleccione Exportar entidades de lista de valores y, a continuación, guarde el archivo.
Descripción de la ilustración export-entities.pngEl nombre del archivo
.csv
exportado se adecúa a la actitud. Si va a utilizar este archivo como una importación, puede que necesite realizar algunas de las ediciones descritas en Importación de intenciones desde un archivo CSV si va a importarlo a o exportarlo de las aptitudes y versiones anteriores de la versión 20.12.
Creación de entidades dinámicas
Los valores de entidades dinámicas se gestionan mediante los puntos finales de la API de entidades dinámicas que se describen en API de REST para Oracle Digital Assistant. Para agregar, modificar y suprimir los valores y sinónimos de la entidad, primero debe crear una entidad dinámica para generar el valor entityId
que se utiliza en las llamadas de REST.
- Haga clic en + Entidad.
- Seleccione Entidades dinámicas en la lista Tipo.
- Si el servicio de backend no está disponible o todavía no ha transferido ningún valor, o si no mantiene el servicio, haga clic en + Valor para agregar los valores ficticios que puede utilizar para realizar pruebas. Normalmente, debería agregar estos valores estáticos antes de que se aplique la infraestructura de entidad dinámica. Estos valores se pierden al clonar, versionar o exportar una aptitud. Después de aprovisionar los valores de entidad a través de la API, puede sobrescribir, o retener, estos valores (aunque en la mayoría de los casos los sobrescribirá).
- Haga clic en Crear.
Consejo:
Si la API refresca los valores de entidad a medida que prueba la conversación, haga clic en Restablecer para reiniciar la conversación.- Puede consultar las entidades dinámicas configuradas para una aptitud utilizando el elemento
entityId
generado conbotId
. Estos valores se incluyen en las llamadas para crear las solicitudes y los objetos push que actualizan los valores de la entidad. - Una entidad no puede tener más de 150.000 valores. Para reducir la probabilidad de que se exceda este límite cuando manipule grandes cantidades de datos, envíe solicitudes
PATCH
con sus supresiones antes de enviar solicitudesPATCH
con sus adiciones.
Las entidades dinámicas solo están soportadas en instancias de Oracle Digital Assistant aprovisionadas en Oracle Cloud Infrastructure (a veces denominada infraestructura en la nube de 2ª generación). Si la instancia está provisionada en Oracle Cloud Platform (como ocurre con todas las instancias de la versión 19.4.1), no puede utilizar esta función.
Directrices para la creación de entidades de aprendizaje automático
- Cree entidades de aprendizaje automático concisas. La definición de entidad de aprendizaje automático se encuentra en la base de un juego de entrenamiento útil, por lo que la claridad es clave en términos de nombre y descripción que ayudan a los trabajadores colaborativos a anotar expresiones.
Debido a que los trabajadores colaborativos confían en las descripciones y nombres de las entidades de aprendizaje automático, debe asegurarse de que las entidades de aprendizaje automático se puedan distinguir entre sí fácilmente, especialmente cuando existe una posible superposición. Si las diferencias no son claras para usted, es probable que los trabajadores multitudinarios estén confundidos. Por ejemplo, las entidades Comerciante y Tipo de cuenta pueden ser difíciles de diferenciar en algunos casos. En "Transferir $100 de mi cuenta de ahorros a Pacific Gas and Electric", puede etiquetar claramente "ahorros" como Tipo de cuenta y Pacific Gas and Electric como comerciante. Sin embargo, el límite entre los dos puede ser borroso en frases como "Necesidad de enviar dinero a John, transferir $ 100 de mis ahorros a su cuenta corriente". ¿Es "cuenta corriente" un tipo de cuenta o un nombre de comerciante? En este caso, puede decidir que cualquier destinatario siempre debe ser un nombre de comerciante en lugar de un tipo de cuenta.
- Para preparar el abastecimiento colaborativo de las expresiones de entrenamiento, tenga en cuenta la entrada de usuario típica para diferentes contextos de extracción de entidades. Por ejemplo, ¿se puede extraer el valor en el mensaje inicial del usuario (contexto de expresión inicial) o se extrae de las respuestas a las peticiones de datos de la aptitud (contexto de expresión de espacio)?
Contexto Descripción Expresiones de ejemplo (valores de entidad de aprendizaje automático detectados en negrita) Contexto de expresión inicial Mensaje que suele estar bien estructurado e incluye valores de entidad de aprendizaje automático. Para una aptitud de generación de informes de gastos, por ejemplo, la expresión incluiría un valor que el modelo pueda detectar para una entidad de aprendizaje automático denominada Comerciante. Cree un gasto para la cena de equipo en John's Pasta Shop por $85 el 3 de mayo Contexto de expresión de espacio Mensaje de usuario que proporciona la entidad de aprendizaje automático en respuesta a una petición de datos, ya sea debido al diseño de la conversación (la aptitud solicita "¿Quién es el comerciante?") o para asignar un espacio a un valor porque no ha sido proporcionado por una respuesta enviada anteriormente. En otras circunstancias, es posible que ya se haya proporcionado el valor Entidad de aprendizaje automático, pero que se pueda incluir en otros mensajes de usuario de la misma conversación. Por ejemplo, la aptitud puede solicitar a los usuarios que proporcionen detalles de gastos adicionales o describan la imagen de un recibo cargado.
- El comerciante es John's Pasta Shop.
- Cena de equipo. Importe $85. John's Pasta Shop.
- La descripción es TurboTaxi desde casa hasta el aeropuerto de CMH.
- Recibo del Grandiose Shack Hotel para el simposio sobre la nube
- Recopile sus datos de entrenamiento y pruebas.
- Si ya tiene una recopilación suficiente de expresiones, puede que desee evaluarlas para la distribución de entidades y la diversidad de valores de entidades antes de iniciar un trabajo de anotación de entidades.
- Si no tiene suficientes datos de entrenamiento o si está empezando desde cero, inicie un trabajo de parafraseo de intención. Para recopilar expresiones viables (y abundantes) para la formación y las pruebas, integre el contexto de la entidad en el trabajo mediante la creación de tareas para cada intención. Para recopilar diversas frases, considere desglosar cada intención por contexto de conversación.
- Para la petición de datos de la tarea, proporcione el contexto de los trabajadores colaborativos y pregúnteles: "¿Cómo respondería?" o "¿Qué diría?" Utilice las indicaciones adjuntas para proporcionar ejemplos e ilustrar diferentes contextos. Por ejemplo:
Petición de datos Indicación Está hablando con un bot de informes de gastos y desea crear un gasto. ¿Cuál sería la primera cosa que dirías? Asegúrese de que el nombre del comerciante esté en la expresión. Podrías decir algo como: "Crea un gasto para la cena de equipo en John's Pasta Shop por $85 el 3 de mayo". Petición de datos Indicación Envió un gasto a un bot de informes de gastos, pero no proporcionó un nombre de comerciante. ¿Cómo respondería? Identifique al comerciante. Por ejemplo, "El comerciante es la tienda de pasta de John". Ha cargado una imagen de un recibo en un bot de informes de gastos. Ahora te pide que describas el recibo. ¿Cómo respondería? Identifique el nombre del comerciante en el recibo. Por ejemplo: "Grandiose Shack Hotel recibo para el simposio de la nube." Contexto Expresiones de ejemplo Contexto de expresión inicial Devuélveme la cena del martes Contexto de expresión de espacio - Cena post presentación. Importe $50. 4 personas.
- Descripción xerox almuerzo para 5
- Recepción de hotel para estancia de entrevista
- Recopile un gran conjunto de entrenamiento definiendo un número adecuado de parafrases por intención. Para que el modelo se genere correctamente, el juego de datos debe contener entre 500 y 5000 incidencias para cada entidad de aprendizaje automático. Lo ideal es evitar el extremo inferior de este rango.
- Una vez que los trabajadores colaborativos hayan completado el trabajo (o hayan completado suficientes expresiones para poder cancelar el trabajo), puede agregar las expresiones o iniciar un trabajo de validación de intenciones para verificarlas. También puede descargar los resultados en su sistema local para una revisión adicional.
- Reserve alrededor del 20% de las expresiones para realizar pruebas. Para crear CSV para el comprobador de expresiones desde los CSV descargados para los trabajos de parafraseo de intenciones y validación de intenciones:
- Para trabajos de parafraseo de intenciones: transfiera el contenido de la columna
result
(las expresiones proporcionadas por los trabajadores colaborativos) a la columnautterance
en el CSV del comprobador de expresiones. Transfiera el contenido de la columnaintentName
a la columnaexpectedIntent
en el CSV del comprobador de expresiones. - Para trabajos de validación de intenciones: transfiera el contenido de la columna
prompt
(las expresiones proporcionadas por los trabajadores colaborativos) a la columnautterance
en el CSV del comprobador de expresiones. Transfiera el contenido de la columnaintentName
a la columnaexpectedIntent
en el CSV del comprobador de expresiones.
- Para trabajos de parafraseo de intenciones: transfiera el contenido de la columna
- Agregue las expresiones restantes a un archivo CSV con una sola columna,
utterance
. Cree un trabajo de anotación de entidad cargando este CSV. Debido a que los trabajadores etiquetan los valores de entidad, es probable que clasifiquen las expresiones negativas como "No estoy seguro" o "No se aplica ninguna de las entidades". - Una vez finalizado el trabajo de anotación de entidad, puede agregar los resultados o iniciar un trabajo de validación de entidad para verificar el etiquetado. Solo se pueden agregar al corpus las expresiones que los trabajadores consideren correctas en un trabajo de validación de entidad.
Consejo:
Puede agregar, eliminar o ajustar las etiquetas de anotación en el separador Juego de datos de la página Entidades. - Entrene la entidad seleccionando Entidad.
- Ejecute casos de prueba para evaluar el reconocimiento de entidades mediante las expresiones que ha reservado del trabajo de parafraseo de intenciones. Puede dividir estas expresiones en diferentes conjuntos de pruebas para probar diferentes comportamientos (valores desconocidos, puntuación que puede no estar presente en los datos de entrenamiento, falsos positivos, etc.). Debido a que puede haber un gran número de estas expresiones, puede crear conjuntos de pruebas cargando un CSV en el comprobador de expresiones.Nota
El comprobador de expresiones solo muestra etiquetas de entidad para transferir casos de prueba. Utilice una prueba rápida en su lugar para ver las etiquetas de las expresiones que se resuelven por debajo del umbral de confianza. - Utilice los resultados para acotar el juego de datos. Agregue, elimine o edite de forma iterativa las expresiones de entrenamiento hasta que los resultados de la ejecución de prueba indiquen que el modelo está identificando efectivamente las entidades de aprendizaje automático.
Nota
Para evitar coincidencias de entidad involuntarias que degraden la experiencia del usuario, active Excluir coincidencias de entidad del sistema si los datos de entrenamiento contienen nombres, ubicaciones y números.
Directrices de formación de entidades de aprendizaje automático
El modelo generaliza una entidad utilizando tanto el contexto alrededor de una palabra (o palabras) como la información léxica sobre la palabra en sí. Para que el modelo se generalice de forma eficaz, recomendamos que el número de anotaciones por entidad oscile entre 500 y 5000. Puede que ya tenga un juego de entrenamiento lo suficientemente grande y que tenga la variación de los valores de entidad que esperaría de los usuarios finales. Si este es el caso, puede iniciar un trabajo de anotación de entidad y, a continuación, incorporar los resultados a los datos de entrenamiento. Sin embargo, si no tiene suficientes datos de entrenamiento o si los datos que tiene carecen de cobertura suficiente para todas las entidades de aprendizaje automático, puede recopilar expresiones de trabajos de parafraseo de intención de origen colectivo.
- No utilice en exceso los mismos valores de entidad en los datos de entrenamiento. Los valores de entidad repetitivos en los datos de entrenamiento impiden que el modelo se genere en valores desconocidos. Por ejemplo, espera que la entidad de aprendizaje automático reconozca una variedad de valores, pero la entidad solo está representada por entre 10 y 20 valores diferentes en el juego de entrenamiento. En este caso, el modelo no generalizará, aunque haya dos o tres mil anotaciones.
- Cambie el número de palabras para cada valor de entidad. Si espera que los usuarios introduzcan valores de entidad de tres a cinco palabras de longitud, pero los datos de entrenamiento están anotados con valores de entidad de una o dos palabras, puede que el modelo no identifique la entidad a medida que aumenta el número de palabras. En algunos casos, solo puede identificar parcialmente la entidad. El modelo asume el límite de entidad de las expresiones que ha proporcionado. Si ha entrenado el modelo en valores con una o dos palabras, se asume que el límite de entidad solo tiene una o dos palabras. La adición de entidades con más palabras permite al modelo reconocer límites de entidad más largos.
- La longitud de expresión debe reflejar su caso de uso y la entrada anticipada del usuario. Puede entrenar el modelo para detectar entidades para mensajes de longitud variable mediante la recopilación de expresiones cortas y largas. Las expresiones pueden incluso tener varias frases. Si espera expresiones cortas que reflejen el contexto de relleno de espacio, recopile los datos de ejemplo según corresponda. Del mismo modo, si anticipa expresiones para el escenario de contexto inicial, el juego de entrenamiento debe contener frases completas.
- Incluya la puntuación. Si los nombres de entidad necesitan caracteres especiales, como '-' y '/', inclúyalos en los valores de entidad de los datos de entrenamiento.
- Asegúrese de que todas las entidades de aprendizaje automático estén representadas por igual en los datos de entrenamiento. Un juego de entrenamiento desequilibrado tiene demasiadas instancias de una entidad y muy pocas de otra. Los modelos producidos a partir de conjuntos de entrenamiento desequilibrados a veces no detectan la entidad con muy pocas instancias y prevén en exceso las entidades con instancias desproporcionadamente altas. Esto conduce a falsos positivos.
Directrices de prueba de entidad de aprendizaje automático
- Utilice solo expresiones de contexto de espacio para averiguar de qué manera el modelo predice las entidades con menos contexto.
- Utilice expresiones con valores "desconocidos" para averiguar el grado de generalización del modelo con valores que no están presentes en los datos de entrenamiento.
- Utilice expresiones sin entidades de aprendizaje automático para averiguar si el modelo detecta falsos positivos.
- Utilice expresiones que contengan valores de entidad de aprendizaje automático con puntuación para averiguar el rendimiento del modelo con valores de entidad inusuales.