Reconhecimento de Entidade Nomeada

O Reconhecimento de Entidade Nomeada (NER) detecta entidades nomeadas no texto.

O modelo NER usa o processamento de linguagem natural para encontrar uma variedade de entidades nomeadas. Para cada entidade extraída, o NER também retorna a localização da entidade extraída (deslocamento e tamanho) e uma pontuação de confiança, que é um valor de 0 a 1.

Idiomas Suportados para Texto de Entrada

  • Inglês
  • Espanhol

Casos de Uso

Você poderia usar o ponto final NER de forma eficaz nestes cenários:

Classificação do conteúdo para provedores de notícias

Pode ser difícil classificar e categorizar o conteúdo de artigos de notícias. O modelo NER pode verificar automaticamente os artigos para identificar as principais pessoas, organizações e locais contidos neles. As entidades extraídas podem ser salvas como tags com os artigos relacionados. Conhecer as tags relevantes de cada artigo ajuda a categorizar automaticamente os artigos em hierarquias definidas e descoberta de conteúdo.

Atendimento ao cliente

O reconhecimento de entidades relevantes em reclamações e feedback dos clientes, especificações do produto, detalhes do departamento ou detalhes da filial da empresa ajuda a classificar o feedback adequadamente. As entidades podem ser encaminhadas para a pessoa responsável pelo produto identificado.

Da mesma forma, pode haver tweets de feedback nos quais você pode categorizá-los todos com base em seus locais e nos produtos mencionados.

Algoritmos de pesquisa eficientes

Você poderia usar o NER para extrair entidades que são pesquisadas na consulta, em vez de procurar uma consulta nos milhões de artigos e sites on-line. Quando executadas em artigos, todas as entidades relevantes associadas a cada artigo são extraídas e armazenadas separadamente. Essa separação poderia acelerar consideravelmente o processo de pesquisa. O termo de pesquisa só corresponde a uma pequena lista de entidades em cada artigo, levando a pesquisas rápidas e eficientes.

Ele pode ser usado para pesquisar conteúdo de milhões de documentos de pesquisa, verbetes da Wikipédia, blogs, artigos e assim por diante.

Recomendações de conteúdo

Com o NER, é possível extrair entidades de um artigo específico e recomendar os outros artigos que tenham as entidades mais semelhantes mencionadas neles. Por exemplo, ele pode ser usado efetivamente para desenvolver recomendações de conteúdo para um cliente do setor de mídia. Ele permite a extração das entidades associadas a um conteúdo histórico ou atividades anteriores. O NER os compara com o label designado a outro conteúdo não visto para filtrar entidades relevantes.

Resumindo automaticamente os candidatos a cargos

O modelo NER poderia facilitar a avaliação dos candidatos a cargos, simplificando o esforço necessário para pré-selecionar candidatos com diversas requisições. Os recrutadores podem filtrá-las e categorizá-los com base em entidades identificadas, como localização, diplomas universitários, empregadores, habilidades, designações, certificações e patentes.

Entidades Suportadas

A tabela a seguir descreve as diferentes entidades que o NER pode extrair. O tipo e o subtipo de entidade dependem da API que você chama (detectDominantLanguageEntities ou batchDetectDominantLanguageEntities).

Observação

Para manter a compatibilidade com versões anteriores, o detectDominantLanguageEntities não foi modificado quando introduzimos o conceito de subtipo. Recomendamos que você use o ponto final batchDetectDominantLanguageEntities porque o serviço usa tipos e subtipos. A propriedade isPii foi eliminada para introduzir a API de batch para que você possa calculá-la com os tipos de entidade suportados, como na tabela a seguir.

Entidade (Nome Completo) Tipo de Entidade (Em Previsão) Subtipo de Entidade (Em previsão) API de Registro Único/API de Batch (se estiver em branco, ambas as APIs serão consistentes) É PII Descrição
DATE DATE Registro único

X

Datas, períodos e intervalos de datas absolutos ou relativos.

Exemplos:

"10o dia de junho",

"terceira sexta-feira de agosto"

"a primeira semana de março"

DATETIME DATE Batch
EMAIL EMAIL
EVENT EVENT Χ Furacões com nome, eventos esportivos etc.
FACILITY FACILITY Registro único Χ Edifícios, aeroportos, rodovias, pontes etc.
LOCATION FACILITY Batch
GEOPOLITICAL ENTITY GPE Registro único Χ Países, cidades e estados.
LOCATION GPE Batch
IP ADDRESS IPADDRESS Endereço IP de acordo com os padrões IPv4 e IPv6.
LANGUAGE LANGUAGE Χ Qualquer idioma denominado.
LOCATION LOCATION Χ Locais não-GPE, cadeias de montanhas, corpos de água.
CURRENCY MONEY Registro único

X

Valores monetários, incluindo a unidade.
QUANTITY CURRENCY Batch
NATIONALITIES, 
RELIGIOUS and 
POLITICAL GROUPS
NORP Χ Nacionalidades, grupos religiosos ou políticos.
ORGANIZATION ORG Χ Empresas, agências, instituições etc.
PERCENTAGE PERCENT Registro único Χ Porcentagem.
QUANTITY PERCENTAGE Batch
PERSON PERSON Pessoas, incluindo personagens fictícios.
PHONENUMBER PHONE_NUMBER

Números de telefone com suporte:

("GB") - United Kingdom
("AU") - Australia 
("NZ") - New Zealand 
("SG") - Singapore 
("IN") - India
("US")  - United States
PRODUCT PRODUCT Χ Veículos, ferramentas, alimentos etc. (não serviços).
NUMBER QUANTITY Registro único Χ Medidas, como peso ou distância.
QUANTITY NUMBER Batch X
TIME TIME Registro único

Χ

Qualquer coisa inferior a 24 horas (tempo, duração e assim por diante).
DATETIME TIME Batch
URL URL URL.

Exemplos

Texto de Entrada Entidades e Pontuações
Red Bull Racing Honda, the four-time Formula-1 World 
Champion team, has chosen Oracle Cloud Infrastructure 
(OCI) as their infrastructure partner.
Red Bull Racing Honda [ORG] 1.0000
four-time [QUANTITY/NUMBER] 1.0000
Formula-1 World [EVENT] 0.9705
Oracle Cloud Infrastructure (OCI [ORG] 0.9811
OCI recently added new services to the existing 
compliance program including SOC, HIPAA, and ISO, to enable our customers 
to solve their use cases. We also released new technical papers and 
guidance documents related to Object Storage, the Australian Prudential 
Regulation Authority (APRA), and the Central Bank of Brazil. These 
resources help regulated customers better understand how OCI 
supports their regional and industry-specific compliance requirements. 
Not only are we expanding our number of compliance offerings and 
regulatory alignments, we continue to add regions and services at 
a faster rate.
OCI [ORG] 1.0000
SOC [ORG] 1.0000
HIPAA [ORG] 1.0000
ISO [ORG] 1.0000
Australian Prudential Regulation Authority [ORG] 1.0000
Central Bank of Brazil [ORG] 0.9998
OCI [ORG] 1.0000

O JSON para o primeiro exemplo é:

Amostra de Solicitação
POST https://<region-url>/20210101/actions/batchDetectLanguageEntities
Formato da Solicitação de API:
"{
    "documents": [
       

{             "key": "doc1",             "text": " Red Bull Racing Honda, the four-time Formula-1 World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner."         }
    ]
}"
JSON de resposta:
{
    "documents": [
        {
            "key": "1",
            "entities": [
                {
                    "offset": 0,
                    "length": 15,
                    "text": "Red Bull Racing",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9914557933807373,
                    "metaInfo": null
                },
                {
                    "offset": 16,
                    "length": 5,
                    "text": "Honda",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.6515499353408813,
                    "metaInfo": null
                },
                {
                    "offset": 27,
                    "length": 9,
                    "text": "four-time",
                    "type": "QUANTITY",
                    "subType": null,
                    "score": 0.9998091459274292,
                    "metaInfo": [
                        {
                            "offset": 27,
                            "length": 9,
                            "text": "four-time",
                            "subType": "UNIT",
                            "score": 0.9998091459274292
                        }
                    ]
                },
                {
                    "offset": 47,
                    "length": 5,
                    "text": "World",
                    "type": "LOCATION",
                    "subType": "NON_GPE",
                    "score": 0.5825434327125549,
                    "metaInfo": null
                },
                {
                    "offset": 79,
                    "length": 27,
                    "text": "Oracle Cloud Infrastructure",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.998045802116394,
                    "metaInfo": null
                },
                {
                    "offset": 108,
                    "length": 3,
                    "text": "OCI",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9986366033554077,
                    "metaInfo": null
                }
            ],
            "languageCode": "en"
        }
    ],
    "errors": []
}

Limitações

  • Às vezes, as entidades não podem ser separadas ou combinadas como você espera.

  • O NER usa o contexto da frase para identificar entidades. Se o contexto não estiver presente no texto processado, as entidades podem não ser extraídas como você espera.

  • Um texto malformado (estrutura e semântica) pode reduzir o desempenho.

  • Idade não é uma entidade separada, por isso os períodos relacionados à idade podem ser identificados como uma entidade de data.