Riconoscimento delle entità denominate
Il Named Entity Recognition (NER) rileva le entità denominate nel testo.
Il modello NER utilizza l'elaborazione in linguaggio naturale per trovare una vasta gamma di entità denominate. Per ogni entità estratta, NER restituisce anche la posizione dell'entità estratta (offset e lunghezza) e un punteggio di affidabilità, che è un valore da 0 a 1.
Lingue supportate per testo di input
- Inglese
- spagnolo
Casi d'uso
È possibile utilizzare l'endpoint NER in modo efficace in questi scenari:
- Classificazione del contenuto per i provider di notizie
-
Può essere difficile classificare e categorizzare il contenuto degli articoli di notizie. Il modello NER può eseguire automaticamente la scansione degli articoli per identificare le persone, le organizzazioni e i luoghi principali in essi contenuti. Le entità estratte possono essere salvate come tag con gli articoli correlati. Conoscere i tag rilevanti per ogni articolo consente di categorizzare automaticamente gli articoli nelle gerarchie definite e nella ricerca automatica dei contenuti.
- Assistenza clienti
-
Riconoscere le entità pertinenti in reclami e feedback dei clienti, specifiche di prodotto, dettagli del reparto o dettagli della filiale aziendale, aiuta a classificare il feedback in modo appropriato. Le entità possono quindi essere inoltrate alla persona responsabile del prodotto identificato.
Allo stesso modo, potrebbero esserci tweet di feedback in cui puoi categorizzarli tutti in base alle loro posizioni e ai prodotti menzionati.
- Algoritmi di ricerca efficienti
-
È possibile utilizzare NER per estrarre entità che vengono poi cercate nella query, invece di cercare una query tra i milioni di articoli e siti Web online. Quando vengono eseguite su articoli, tutte le entità pertinenti associate a ciascun articolo vengono estratte e memorizzate separatamente. Questa separazione potrebbe accelerare notevolmente il processo di ricerca. Il termine di ricerca viene abbinato solo a un piccolo elenco di entità in ogni articolo, portando a ricerche rapide ed efficienti.
Può essere utilizzato per cercare contenuti da milioni di articoli di ricerca, articoli di Wikipedia, blog, articoli e così via.
- Suggerimenti contenuto
-
Estrarre entità da un particolare articolo e raccomandare gli altri articoli che hanno le entità più simili menzionate in essi è possibile con NER. Ad esempio, può essere utilizzato in modo efficace per sviluppare raccomandazioni sui contenuti per un cliente del settore dei media. Consente l'estrazione delle entità associate al contenuto storico o alle attività precedenti. NER li confronta con l'etichetta assegnata ad altri contenuti invisibili per filtrare le entità rilevanti.
- Riepilogo automatico dei candidati
-
Il modello NER potrebbe aiutare la valutazione dei candidati al lavoro, semplificando lo sforzo necessario per selezionare i candidati con molte candidature. I selezionatori potrebbero filtrare e classificarli in base a entità identificate come ubicazione, diplomi universitari, datori di lavoro, competenze, designazioni, certificazioni e brevetti.
Entità supportate
La tabella seguente descrive le diverse entità che NER può estrarre. Il tipo di entità e il sottotipo dipendono dall'API chiamata (detectDominantLanguageEntities
o batchDetectDominantLanguageEntities
).
Per mantenere la compatibilità con le versioni precedenti, il file detectDominantLanguageEntities
non è stato modificato quando è stato introdotto il concetto di sottotipo. Si consiglia di utilizzare l'endpoint batchDetectDominantLanguageEntities
perché il servizio utilizza tipi e sottotipi. La proprietà isPii
è stata eliminata per introdurre l'API di batch in modo da poterla calcolare con i tipi di entità supportati come indicato nella tabella seguente.
Entità (nome completo) | Tipo di entità (in previsione) | Sottotipo di entità (in previsione) | API record singolo/API batch (se vuota, entrambe le API sono coerenti) | È PII | Descrizione |
---|---|---|---|---|---|
DATE |
DATE |
Record singolo |
X |
Date, periodi e intervalli di date assoluti o relativi. Esempi: "10 di giugno", "Terzo venerdì di agosto" "La prima settimana di marzo" |
|
DATETIME |
DATE |
Batch | |||
EMAIL |
EMAIL |
√ | |||
EVENT |
EVENT |
Χ | uragani denominati, eventi sportivi e così via. | ||
FACILITY |
FACILITY |
Record singolo | Χ | Edifici, aeroporti, autostrade, ponti e così via. | |
LOCATION |
FACILITY |
Batch | |||
GEOPOLITICAL ENTITY |
GPE |
Record singolo | Χ | Paesi, città e stati. | |
LOCATION |
GPE |
Batch | |||
IP ADDRESS |
IPADDRESS |
√ | Indirizzo IP secondo gli standard IPv4 e IPv6. | ||
LANGUAGE |
LANGUAGE |
Χ | Qualsiasi lingua designata. | ||
LOCATION |
LOCATION |
Χ | Luoghi non GPE, catene montuose, corpi idrici. | ||
CURRENCY |
MONEY |
Record singolo |
X |
Valori monetari, compresa l'unità. | |
QUANTITY |
CURRENCY |
Batch | |||
|
NORP |
Χ | Nazionalità, gruppi religiosi o politici. | ||
ORGANIZATION |
ORG |
Χ | Aziende, agenzie, istituzioni e così via. | ||
PERCENTAGE |
PERCENT |
Record singolo | Χ | Percentuale. | |
QUANTITY |
PERCENTAGE |
Batch | |||
PERSON |
PERSON |
√ | Persone, compresi i personaggi immaginari. | ||
PHONENUMBER |
PHONE_NUMBER |
√ |
Numeri di telefono supportati:
|
||
PRODUCT |
PRODUCT |
Χ | Veicoli, strumenti, alimenti e così via (non servizi). | ||
NUMBER |
QUANTITY |
Record singolo | Χ | Misure, come peso o distanza. | |
QUANTITY |
NUMBER |
Batch | X | ||
TIME |
TIME |
Record singolo |
Χ
|
Tutto meno di 24 ore (tempo, durata e così via). | |
DATETIME |
TIME |
Batch | |||
URL |
URL |
√ | URL. |
Esempi
Testo di input | Entità e punteggi |
---|---|
|
|
|
|
Il JSON per il primo esempio è:
- Richiesta campione
-
POST https://<region-url>/20210101/actions/batchDetectLanguageEntities
- Formato richiesta API:
-
"{ "documents": [ { "key": "doc1", "text": " Racing Cars, the four-time World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner." } ] }"
- JSON risposta:
-
{ "documents": [ { "key": "1", "entities": [ { "offset": 0, "length": 15, "text": "Red Bull Racing", "type": "ORGANIZATION", "subType": null, "score": 0.9914557933807373, "metaInfo": null }, { "offset": 16, "length": 5, "text": "Honda", "type": "ORGANIZATION", "subType": null, "score": 0.6515499353408813, "metaInfo": null }, { "offset": 27, "length": 9, "text": "four-time", "type": "QUANTITY", "subType": null, "score": 0.9998091459274292, "metaInfo": [ { "offset": 27, "length": 9, "text": "four-time", "subType": "UNIT", "score": 0.9998091459274292 } ] }, { "offset": 47, "length": 5, "text": "World", "type": "LOCATION", "subType": "NON_GPE", "score": 0.5825434327125549, "metaInfo": null }, { "offset": 79, "length": 27, "text": "Oracle Cloud Infrastructure", "type": "ORGANIZATION", "subType": null, "score": 0.998045802116394, "metaInfo": null }, { "offset": 108, "length": 3, "text": "OCI", "type": "ORGANIZATION", "subType": null, "score": 0.9986366033554077, "metaInfo": null } ], "languageCode": "en" } ], "errors": [] }
Limitazioni
-
A volte, le entità potrebbero non essere separate o combinate come previsto.
-
NER utilizza il contesto della frase per identificare le entità. Se il contesto non è presente nel testo elaborato, le entità potrebbero non essere estratte come previsto.
-
Il formato errato del testo (struttura e semantica) potrebbe ridurre le prestazioni.
-
L'età non è un'entità separata, pertanto i periodi correlati all'età potrebbero essere identificati come entità data.