Reconhecimento de Entidade Nomeada
O Reconhecimento de Entidade Nomeada (NER) detecta entidades nomeadas no texto.
O modelo NER usa o processamento de linguagem natural para encontrar uma variedade de entidades nomeadas. Para cada entidade extraída, o NER também retorna a localização da entidade extraída (deslocamento e tamanho) e uma pontuação de confiança, que é um valor de 0 a 1.
Idiomas Suportados para Texto de Entrada
- Inglês
- Espanhol
Casos de Uso
Você poderia usar o ponto final NER de forma eficaz nestes cenários:
- Classificação do conteúdo para provedores de notícias
-
Pode ser difícil classificar e categorizar o conteúdo de artigos de notícias. O modelo NER pode verificar automaticamente os artigos para identificar as principais pessoas, organizações e locais contidos neles. As entidades extraídas podem ser salvas como tags com os artigos relacionados. Conhecer as tags relevantes de cada artigo ajuda a categorizar automaticamente os artigos em hierarquias definidas e descoberta de conteúdo.
- Atendimento ao cliente
-
O reconhecimento de entidades relevantes em reclamações e feedback dos clientes, especificações do produto, detalhes do departamento ou detalhes da filial da empresa ajuda a classificar o feedback adequadamente. As entidades podem ser encaminhadas para a pessoa responsável pelo produto identificado.
Da mesma forma, pode haver tweets de feedback nos quais você pode categorizá-los todos com base em seus locais e nos produtos mencionados.
- Algoritmos de pesquisa eficientes
-
Você poderia usar o NER para extrair entidades que são pesquisadas na consulta, em vez de procurar uma consulta nos milhões de artigos e sites on-line. Quando executadas em artigos, todas as entidades relevantes associadas a cada artigo são extraídas e armazenadas separadamente. Essa separação poderia acelerar consideravelmente o processo de pesquisa. O termo de pesquisa só corresponde a uma pequena lista de entidades em cada artigo, levando a pesquisas rápidas e eficientes.
Ele pode ser usado para pesquisar conteúdo de milhões de documentos de pesquisa, verbetes da Wikipédia, blogs, artigos e assim por diante.
- Recomendações de conteúdo
-
Com o NER, é possível extrair entidades de um artigo específico e recomendar os outros artigos que tenham as entidades mais semelhantes mencionadas neles. Por exemplo, ele pode ser usado efetivamente para desenvolver recomendações de conteúdo para um cliente do setor de mídia. Ele permite a extração das entidades associadas a um conteúdo histórico ou atividades anteriores. O NER os compara com o label designado a outro conteúdo não visto para filtrar entidades relevantes.
- Resumindo automaticamente os candidatos a cargos
-
O modelo NER poderia facilitar a avaliação dos candidatos a cargos, simplificando o esforço necessário para pré-selecionar candidatos com diversas requisições. Os recrutadores podem filtrá-las e categorizá-los com base em entidades identificadas, como localização, diplomas universitários, empregadores, habilidades, designações, certificações e patentes.
Entidades Suportadas
A tabela a seguir descreve as diferentes entidades que o NER pode extrair. O tipo e o subtipo de entidade dependem da API que você chama (detectDominantLanguageEntities
ou batchDetectDominantLanguageEntities
).
Para manter a compatibilidade com versões anteriores, o detectDominantLanguageEntities
não foi modificado quando introduzimos o conceito de subtipo. Recomendamos que você use o ponto final batchDetectDominantLanguageEntities
porque o serviço usa tipos e subtipos. A propriedade isPii
foi eliminada para introduzir a API de batch para que você possa calculá-la com os tipos de entidade suportados, como na tabela a seguir.
Entidade (Nome Completo) | Tipo de Entidade (Em Previsão) | Subtipo de Entidade (Em previsão) | API de Registro Único/API de Batch (se estiver em branco, ambas as APIs serão consistentes) | É PII | Descrição |
---|---|---|---|---|---|
DATE |
DATE |
Registro único |
X |
Datas, períodos e intervalos de datas absolutos ou relativos. Exemplos: "10o dia de junho", "terceira sexta-feira de agosto" "a primeira semana de março" |
|
DATETIME |
DATE |
Batch | |||
EMAIL |
EMAIL |
√ | |||
EVENT |
EVENT |
Χ | Furacões com nome, eventos esportivos etc. | ||
FACILITY |
FACILITY |
Registro único | Χ | Edifícios, aeroportos, rodovias, pontes etc. | |
LOCATION |
FACILITY |
Batch | |||
GEOPOLITICAL ENTITY |
GPE |
Registro único | Χ | Países, cidades e estados. | |
LOCATION |
GPE |
Batch | |||
IP ADDRESS |
IPADDRESS |
√ | Endereço IP de acordo com os padrões IPv4 e IPv6. | ||
LANGUAGE |
LANGUAGE |
Χ | Qualquer idioma denominado. | ||
LOCATION |
LOCATION |
Χ | Locais não-GPE, cadeias de montanhas, corpos de água. | ||
CURRENCY |
MONEY |
Registro único |
X |
Valores monetários, incluindo a unidade. | |
QUANTITY |
CURRENCY |
Batch | |||
|
NORP |
Χ | Nacionalidades, grupos religiosos ou políticos. | ||
ORGANIZATION |
ORG |
Χ | Empresas, agências, instituições etc. | ||
PERCENTAGE |
PERCENT |
Registro único | Χ | Porcentagem. | |
QUANTITY |
PERCENTAGE |
Batch | |||
PERSON |
PERSON |
√ | Pessoas, incluindo personagens fictícios. | ||
PHONENUMBER |
PHONE_NUMBER |
√ |
Números de telefone com suporte:
|
||
PRODUCT |
PRODUCT |
Χ | Veículos, ferramentas, alimentos etc. (não serviços). | ||
NUMBER |
QUANTITY |
Registro único | Χ | Medidas, como peso ou distância. | |
QUANTITY |
NUMBER |
Batch | X | ||
TIME |
TIME |
Registro único |
Χ
|
Qualquer coisa inferior a 24 horas (tempo, duração e assim por diante). | |
DATETIME |
TIME |
Batch | |||
URL |
URL |
√ | URL. |
Exemplos
Texto de Entrada | Entidades e Pontuações |
---|---|
|
|
|
|
O JSON para o primeiro exemplo é:
- Amostra de Solicitação
-
POST https://<region-url>/20210101/actions/batchDetectLanguageEntities
- Formato da Solicitação de API:
-
"{ "documents": [ { "key": "doc1", "text": " Red Bull Racing Honda, the four-time Formula-1 World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner." } ] }"
- JSON de resposta:
-
{ "documents": [ { "key": "1", "entities": [ { "offset": 0, "length": 15, "text": "Red Bull Racing", "type": "ORGANIZATION", "subType": null, "score": 0.9914557933807373, "metaInfo": null }, { "offset": 16, "length": 5, "text": "Honda", "type": "ORGANIZATION", "subType": null, "score": 0.6515499353408813, "metaInfo": null }, { "offset": 27, "length": 9, "text": "four-time", "type": "QUANTITY", "subType": null, "score": 0.9998091459274292, "metaInfo": [ { "offset": 27, "length": 9, "text": "four-time", "subType": "UNIT", "score": 0.9998091459274292 } ] }, { "offset": 47, "length": 5, "text": "World", "type": "LOCATION", "subType": "NON_GPE", "score": 0.5825434327125549, "metaInfo": null }, { "offset": 79, "length": 27, "text": "Oracle Cloud Infrastructure", "type": "ORGANIZATION", "subType": null, "score": 0.998045802116394, "metaInfo": null }, { "offset": 108, "length": 3, "text": "OCI", "type": "ORGANIZATION", "subType": null, "score": 0.9986366033554077, "metaInfo": null } ], "languageCode": "en" } ], "errors": [] }
Limitações
-
Às vezes, as entidades não podem ser separadas ou combinadas como você espera.
-
O NER usa o contexto da frase para identificar entidades. Se o contexto não estiver presente no texto processado, as entidades podem não ser extraídas como você espera.
-
Um texto malformado (estrutura e semântica) pode reduzir o desempenho.
-
Idade não é uma entidade separada, por isso os períodos relacionados à idade podem ser identificados como uma entidade de data.