Reconocimiento de la entidad nombrada

El reconocimiento de la entidad nombrada (NER) detecta las entidades nombradas en el texto.

El modelo NER utiliza el procesamiento de lenguaje natural para buscar una variedad de entidades nombradas. Para cada entidad extraída, NER también devuelve la ubicación de la entidad extraída (desplazamiento y longitud) y una puntuación de confianza, que es un valor de 0 a 1.

Idiomas admitidos para texto de entrada

  • Inglés
  • español

Casos de Uso

Puede utilizar el punto final de NER de forma eficaz en estos escenarios:

Clasificación de contenido para proveedores de noticias

Puede ser difícil clasificar y categorizar el contenido del artículo de noticias. El modelo NER puede explorar artículos automáticamente para identificar a las personas, organizaciones y lugares principales en ellos. Las entidades extraídas se pueden guardar como etiquetas con los artículos relacionados. El conocimiento de las etiquetas relevantes para cada artículo ayuda a clasificar automáticamente los artículos en jerarquías definidas y a la detección de contenido.

Soporte al cliente

El reconocimiento de entidades relevantes en reclamaciones y comentarios de clientes, especificaciones de productos, detalles de departamento o detalles de sucursal de la compañía ayuda a clasificar los comentarios correctamente. A continuación, las entidades se pueden reenviar a la persona responsable del producto identificado.

Del mismo modo, podría haber tuits de comentarios en los que pueda clasificarlos todos en función de sus ubicaciones y los productos mencionados.

Algoritmos de búsqueda eficientes

Puede utilizar NER para extraer entidades que luego se buscan en la consulta, en lugar de buscar una consulta en millones de artículos y sitios web en línea. Cuando se ejecutan en artículos, todas las entidades relevantes asociadas a cada artículo se extraen y se almacenan por separado. Esta separación podría acelerar considerablemente el proceso de búsqueda. El término de búsqueda solo coincide con una pequeña lista de entidades de cada artículo, lo que da lugar a búsquedas rápidas y eficaces.

Se puede utilizar para buscar contenido de millones de documentos de investigación, artículos de Wikipedia, blogs, artículos, etc.

Recomendaciones de contenido

La extracción de entidades de un artículo en particular y la recomendación de los otros artículos que tienen las entidades más similares mencionadas en ellos es posible con NER. Por ejemplo, se puede utilizar eficazmente para desarrollar recomendaciones de contenido para un cliente del sector de medios. Permite la extracción de las entidades asociadas a contenido histórico o a actividades anteriores. NER las compara con la etiqueta asignada a otro contenido no visto para filtrar las entidades relevantes.

Resumen automático de candidatos a puestos

El modelo NER podría ayudar a evaluar a los candidatos a puesto de trabajo, simplificando el esfuerzo necesario para preseleccionar a los candidatos con muchas solicitudes. Los reclutadores podrían filtrarlos y clasificarlos en función de entidades identificadas, como ubicación, títulos universitarios, empleadores, aptitudes, designaciones, certificaciones y patentes.

Entidades soportadas

En la siguiente tabla se describen las diferentes entidades que NER puede extraer. El tipo y subtipo de entidad dependen de la API a la que llame (detectDominantLanguageEntities o batchDetectDominantLanguageEntities).

Nota

Para mantener la compatibilidad con versiones anteriores, detectDominantLanguageEntities no se modificó al introducir el concepto de subtipo. Recomendamos utilizar el punto final batchDetectDominantLanguageEntities porque el servicio utiliza tipos y subtipos. La propiedad isPii se ha borrado para introducir la API de lotes para poder calcularla con los tipos de entidad soportados, como en la siguiente tabla.

Entidad (Nombre completo) Tipo de entidad (en predicción) Subtipo de entidad (en predicción) API de registro único/API de lote (si está en blanco, ambas API son consistentes) Es PII Descripción
DATE DATE Registro único

X

Fechas absolutas o relativas, períodos y rango de fechas.

Ejemplos:

"10 de junio",

"tercer viernes de agosto"

"la primera semana de marzo"

DATETIME DATE Por lotes
EMAIL EMAIL
EVENT EVENT Χ Huracanes, eventos deportivos, etc. con nombre.
FACILITY FACILITY Registro único Χ Edificios, aeropuertos, carreteras, puentes, etc.
LOCATION FACILITY Por lotes
GEOPOLITICAL ENTITY GPE Registro único Χ Países, ciudades y estados.
LOCATION GPE Por lotes
IP ADDRESS IPADDRESS Dirección IP según los estándares IPv4 e IPv6.
LANGUAGE LANGUAGE Χ Cualquier lenguaje con nombre.
LOCATION LOCATION Χ Localizaciones sin GPE, cordilleras, cursos de agua.
CURRENCY MONEY Registro único

X

Valores monetarios, incluida la unidad.
QUANTITY CURRENCY Por lotes
NATIONALITIES, 
RELIGIOUS and 
POLITICAL GROUPS
NORP Χ Nacionalidades, grupos religiosos o políticos.
ORGANIZATION ORG Χ Compañías, agencias, instituciones, etc.
PERCENTAGE PERCENT Registro único Χ Porcentaje.
QUANTITY PERCENTAGE Por lotes
PERSON PERSON Personas, incluyendo personajes ficticios.
PHONENUMBER PHONE_NUMBER

Números de teléfono soportados:

("GB") - United Kingdom
("AU") - Australia 
("NZ") - New Zealand 
("SG") - Singapore 
("IN") - India
("US")  - United States
PRODUCT PRODUCT Χ Vehículos, herramientas, alimentos, etc. (no servicios).
NUMBER QUANTITY Registro único Χ Mediciones, como peso o distancia.
QUANTITY NUMBER Por lotes X
TIME TIME Registro único

Χ

Cualquier cosa inferior a 24 horas (tiempo, duración, etc.).
DATETIME TIME Por lotes
URL URL URL.

Ejemplos

Texto de Entrada Entidades y puntuaciones
Racing Cars, the four-time World 
Champion team, has chosen Oracle Cloud Infrastructure 
(OCI) as their infrastructure partner.
Racing Cars [ORG] 1.0000
four-time [QUANTITY/NUMBER] 1.0000
World [EVENT] 0.9705
Oracle Cloud Infrastructure (OCI [ORG] 0.9811
OCI recently added new services to the existing 
compliance program including SOC, HIPAA, and ISO, to enable our customers 
to solve their use cases. We also released new technical papers and 
guidance documents related to Object Storage, the Asteroid Prudential 
Regulation Authority (APRA), and the Central Bank of Bankland. These 
resources help regulated customers better understand how OCI 
supports their regional and industry-specific compliance requirements. 
Not only are we expanding our number of compliance offerings and 
regulatory alignments, we continue to add regions and services at 
a faster rate.
OCI [ORG] 1.0000
SOC [ORG] 1.0000
HIPAA [ORG] 1.0000
ISO [ORG] 1.0000
Asteroid Prudential Regulation Authority [ORG] 1.0000
Central Bank of Bankland [ORG] 0.9998
OCI [ORG] 1.0000

El JSON del primer ejemplo es:

Solicitud de ejemplo
POST https://<region-url>/20210101/actions/batchDetectLanguageEntities
Formato de solicitud de API:
"{
    "documents": [
       

{             "key": "doc1",             "text": " Racing Cars, the four-time World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner."         }
    ]
}"
JSON de respuesta:
{
    "documents": [
        {
            "key": "1",
            "entities": [
                {
                    "offset": 0,
                    "length": 15,
                    "text": "Red Bull Racing",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9914557933807373,
                    "metaInfo": null
                },
                {
                    "offset": 16,
                    "length": 5,
                    "text": "Honda",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.6515499353408813,
                    "metaInfo": null
                },
                {
                    "offset": 27,
                    "length": 9,
                    "text": "four-time",
                    "type": "QUANTITY",
                    "subType": null,
                    "score": 0.9998091459274292,
                    "metaInfo": [
                        {
                            "offset": 27,
                            "length": 9,
                            "text": "four-time",
                            "subType": "UNIT",
                            "score": 0.9998091459274292
                        }
                    ]
                },
                {
                    "offset": 47,
                    "length": 5,
                    "text": "World",
                    "type": "LOCATION",
                    "subType": "NON_GPE",
                    "score": 0.5825434327125549,
                    "metaInfo": null
                },
                {
                    "offset": 79,
                    "length": 27,
                    "text": "Oracle Cloud Infrastructure",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.998045802116394,
                    "metaInfo": null
                },
                {
                    "offset": 108,
                    "length": 3,
                    "text": "OCI",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9986366033554077,
                    "metaInfo": null
                }
            ],
            "languageCode": "en"
        }
    ],
    "errors": []
}

Limitaciones

  • A veces, es posible que las entidades no se separen ni combinen como espera.

  • NER utiliza el contexto de la frase para identificar entidades. Si el contexto no está presente en el texto procesado, es posible que las entidades no se extraigan como se espera.

  • El texto con formato incorrecto (estructura y semántica) puede reducir el rendimiento.

  • La edad no es una entidad independiente, por lo que los períodos relacionados con la edad se pueden identificar como una entidad de fecha.