Reconocimiento de la entidad nombrada
El reconocimiento de la entidad nombrada (NER) detecta las entidades nombradas en el texto.
El modelo NER utiliza el procesamiento de lenguaje natural para buscar una variedad de entidades nombradas. Para cada entidad extraída, NER también devuelve la ubicación de la entidad extraída (desplazamiento y longitud) y una puntuación de confianza, que es un valor de 0 a 1.
Idiomas admitidos para texto de entrada
- Inglés
- español
Casos de Uso
Puede utilizar el punto final de NER de forma eficaz en estos escenarios:
- Clasificación de contenido para proveedores de noticias
-
Puede ser difícil clasificar y categorizar el contenido del artículo de noticias. El modelo NER puede explorar artículos automáticamente para identificar a las personas, organizaciones y lugares principales en ellos. Las entidades extraídas se pueden guardar como etiquetas con los artículos relacionados. El conocimiento de las etiquetas relevantes para cada artículo ayuda a clasificar automáticamente los artículos en jerarquías definidas y a la detección de contenido.
- Soporte al cliente
-
El reconocimiento de entidades relevantes en reclamaciones y comentarios de clientes, especificaciones de productos, detalles de departamento o detalles de sucursal de la compañía ayuda a clasificar los comentarios correctamente. A continuación, las entidades se pueden reenviar a la persona responsable del producto identificado.
Del mismo modo, podría haber tuits de comentarios en los que pueda clasificarlos todos en función de sus ubicaciones y los productos mencionados.
- Algoritmos de búsqueda eficientes
-
Puede utilizar NER para extraer entidades que luego se buscan en la consulta, en lugar de buscar una consulta en millones de artículos y sitios web en línea. Cuando se ejecutan en artículos, todas las entidades relevantes asociadas a cada artículo se extraen y se almacenan por separado. Esta separación podría acelerar considerablemente el proceso de búsqueda. El término de búsqueda solo coincide con una pequeña lista de entidades de cada artículo, lo que da lugar a búsquedas rápidas y eficaces.
Se puede utilizar para buscar contenido de millones de documentos de investigación, artículos de Wikipedia, blogs, artículos, etc.
- Recomendaciones de contenido
-
La extracción de entidades de un artículo en particular y la recomendación de los otros artículos que tienen las entidades más similares mencionadas en ellos es posible con NER. Por ejemplo, se puede utilizar eficazmente para desarrollar recomendaciones de contenido para un cliente del sector de medios. Permite la extracción de las entidades asociadas a contenido histórico o a actividades anteriores. NER las compara con la etiqueta asignada a otro contenido no visto para filtrar las entidades relevantes.
- Resumen automático de candidatos a puestos
-
El modelo NER podría ayudar a evaluar a los candidatos a puesto de trabajo, simplificando el esfuerzo necesario para preseleccionar a los candidatos con muchas solicitudes. Los reclutadores podrían filtrarlos y clasificarlos en función de entidades identificadas, como ubicación, títulos universitarios, empleadores, aptitudes, designaciones, certificaciones y patentes.
Entidades soportadas
En la siguiente tabla se describen las diferentes entidades que NER puede extraer. El tipo y subtipo de entidad dependen de la API a la que llame (detectDominantLanguageEntities
o batchDetectDominantLanguageEntities
).
Para mantener la compatibilidad con versiones anteriores, detectDominantLanguageEntities
no se modificó al introducir el concepto de subtipo. Recomendamos utilizar el punto final batchDetectDominantLanguageEntities
porque el servicio utiliza tipos y subtipos. La propiedad isPii
se ha borrado para introducir la API de lotes para poder calcularla con los tipos de entidad soportados, como en la siguiente tabla.
Entidad (Nombre completo) | Tipo de entidad (en predicción) | Subtipo de entidad (en predicción) | API de registro único/API de lote (si está en blanco, ambas API son consistentes) | Es PII | Descripción |
---|---|---|---|---|---|
DATE |
DATE |
Registro único |
X |
Fechas absolutas o relativas, períodos y rango de fechas. Ejemplos: "10 de junio", "tercer viernes de agosto" "la primera semana de marzo" |
|
DATETIME |
DATE |
Por lotes | |||
EMAIL |
EMAIL |
√ | |||
EVENT |
EVENT |
Χ | Huracanes, eventos deportivos, etc. con nombre. | ||
FACILITY |
FACILITY |
Registro único | Χ | Edificios, aeropuertos, carreteras, puentes, etc. | |
LOCATION |
FACILITY |
Por lotes | |||
GEOPOLITICAL ENTITY |
GPE |
Registro único | Χ | Países, ciudades y estados. | |
LOCATION |
GPE |
Por lotes | |||
IP ADDRESS |
IPADDRESS |
√ | Dirección IP según los estándares IPv4 e IPv6. | ||
LANGUAGE |
LANGUAGE |
Χ | Cualquier lenguaje con nombre. | ||
LOCATION |
LOCATION |
Χ | Localizaciones sin GPE, cordilleras, cursos de agua. | ||
CURRENCY |
MONEY |
Registro único |
X |
Valores monetarios, incluida la unidad. | |
QUANTITY |
CURRENCY |
Por lotes | |||
|
NORP |
Χ | Nacionalidades, grupos religiosos o políticos. | ||
ORGANIZATION |
ORG |
Χ | Compañías, agencias, instituciones, etc. | ||
PERCENTAGE |
PERCENT |
Registro único | Χ | Porcentaje. | |
QUANTITY |
PERCENTAGE |
Por lotes | |||
PERSON |
PERSON |
√ | Personas, incluyendo personajes ficticios. | ||
PHONENUMBER |
PHONE_NUMBER |
√ |
Números de teléfono soportados:
|
||
PRODUCT |
PRODUCT |
Χ | Vehículos, herramientas, alimentos, etc. (no servicios). | ||
NUMBER |
QUANTITY |
Registro único | Χ | Mediciones, como peso o distancia. | |
QUANTITY |
NUMBER |
Por lotes | X | ||
TIME |
TIME |
Registro único |
Χ
|
Cualquier cosa inferior a 24 horas (tiempo, duración, etc.). | |
DATETIME |
TIME |
Por lotes | |||
URL |
URL |
√ | URL. |
Ejemplos
Texto de Entrada | Entidades y puntuaciones |
---|---|
|
|
|
|
El JSON del primer ejemplo es:
- Solicitud de ejemplo
-
POST https://<region-url>/20210101/actions/batchDetectLanguageEntities
- Formato de solicitud de API:
-
"{ "documents": [ { "key": "doc1", "text": " Racing Cars, the four-time World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner." } ] }"
- JSON de respuesta:
-
{ "documents": [ { "key": "1", "entities": [ { "offset": 0, "length": 15, "text": "Red Bull Racing", "type": "ORGANIZATION", "subType": null, "score": 0.9914557933807373, "metaInfo": null }, { "offset": 16, "length": 5, "text": "Honda", "type": "ORGANIZATION", "subType": null, "score": 0.6515499353408813, "metaInfo": null }, { "offset": 27, "length": 9, "text": "four-time", "type": "QUANTITY", "subType": null, "score": 0.9998091459274292, "metaInfo": [ { "offset": 27, "length": 9, "text": "four-time", "subType": "UNIT", "score": 0.9998091459274292 } ] }, { "offset": 47, "length": 5, "text": "World", "type": "LOCATION", "subType": "NON_GPE", "score": 0.5825434327125549, "metaInfo": null }, { "offset": 79, "length": 27, "text": "Oracle Cloud Infrastructure", "type": "ORGANIZATION", "subType": null, "score": 0.998045802116394, "metaInfo": null }, { "offset": 108, "length": 3, "text": "OCI", "type": "ORGANIZATION", "subType": null, "score": 0.9986366033554077, "metaInfo": null } ], "languageCode": "en" } ], "errors": [] }
Limitaciones
-
A veces, es posible que las entidades no se separen ni combinen como espera.
-
NER utiliza el contexto de la frase para identificar entidades. Si el contexto no está presente en el texto procesado, es posible que las entidades no se extraigan como se espera.
-
El texto con formato incorrecto (estructura y semántica) puede reducir el rendimiento.
-
La edad no es una entidad independiente, por lo que los períodos relacionados con la edad se pueden identificar como una entidad de fecha.