Riconoscimento delle entità denominate

Il Named Entity Recognition (NER) rileva le entità denominate nel testo.

Il modello NER utilizza l'elaborazione in linguaggio naturale per trovare una vasta gamma di entità denominate. Per ogni entità estratta, NER restituisce anche la posizione dell'entità estratta (offset e lunghezza) e un punteggio di affidabilità, che è un valore da 0 a 1.

Lingue supportate per testo di input

  • Inglese
  • spagnolo

Casi d'uso

È possibile utilizzare l'endpoint NER in modo efficace in questi scenari:

Classificazione del contenuto per i provider di notizie

Può essere difficile classificare e categorizzare il contenuto degli articoli di notizie. Il modello NER può eseguire automaticamente la scansione degli articoli per identificare le persone, le organizzazioni e i luoghi principali in essi contenuti. Le entità estratte possono essere salvate come tag con gli articoli correlati. Conoscere i tag rilevanti per ogni articolo consente di categorizzare automaticamente gli articoli nelle gerarchie definite e nella ricerca automatica dei contenuti.

Assistenza clienti

Riconoscere le entità pertinenti in reclami e feedback dei clienti, specifiche di prodotto, dettagli del reparto o dettagli della filiale aziendale, aiuta a classificare il feedback in modo appropriato. Le entità possono quindi essere inoltrate alla persona responsabile del prodotto identificato.

Allo stesso modo, potrebbero esserci tweet di feedback in cui puoi categorizzarli tutti in base alle loro posizioni e ai prodotti menzionati.

Algoritmi di ricerca efficienti

È possibile utilizzare NER per estrarre entità che vengono poi cercate nella query, invece di cercare una query tra i milioni di articoli e siti Web online. Quando vengono eseguite su articoli, tutte le entità pertinenti associate a ciascun articolo vengono estratte e memorizzate separatamente. Questa separazione potrebbe accelerare notevolmente il processo di ricerca. Il termine di ricerca viene abbinato solo a un piccolo elenco di entità in ogni articolo, portando a ricerche rapide ed efficienti.

Può essere utilizzato per cercare contenuti da milioni di articoli di ricerca, articoli di Wikipedia, blog, articoli e così via.

Suggerimenti contenuto

Estrarre entità da un particolare articolo e raccomandare gli altri articoli che hanno le entità più simili menzionate in essi è possibile con NER. Ad esempio, può essere utilizzato in modo efficace per sviluppare raccomandazioni sui contenuti per un cliente del settore dei media. Consente l'estrazione delle entità associate al contenuto storico o alle attività precedenti. NER li confronta con l'etichetta assegnata ad altri contenuti invisibili per filtrare le entità rilevanti.

Riepilogo automatico dei candidati

Il modello NER potrebbe aiutare la valutazione dei candidati al lavoro, semplificando lo sforzo necessario per selezionare i candidati con molte candidature. I selezionatori potrebbero filtrare e classificarli in base a entità identificate come ubicazione, diplomi universitari, datori di lavoro, competenze, designazioni, certificazioni e brevetti.

Entità supportate

La tabella seguente descrive le diverse entità che NER può estrarre. Il tipo di entità e il sottotipo dipendono dall'API chiamata (detectDominantLanguageEntities o batchDetectDominantLanguageEntities).

Nota

Per mantenere la compatibilità con le versioni precedenti, il file detectDominantLanguageEntities non è stato modificato quando è stato introdotto il concetto di sottotipo. Si consiglia di utilizzare l'endpoint batchDetectDominantLanguageEntities perché il servizio utilizza tipi e sottotipi. La proprietà isPii è stata eliminata per introdurre l'API di batch in modo da poterla calcolare con i tipi di entità supportati come indicato nella tabella seguente.

Entità (nome completo) Tipo di entità (in previsione) Sottotipo di entità (in previsione) API record singolo/API batch (se vuota, entrambe le API sono coerenti) È PII Descrizione
DATE DATE Record singolo

X

Date, periodi e intervalli di date assoluti o relativi.

Esempi:

"10 di giugno",

"Terzo venerdì di agosto"

"La prima settimana di marzo"

DATETIME DATE Batch
EMAIL EMAIL
EVENT EVENT Χ uragani denominati, eventi sportivi e così via.
FACILITY FACILITY Record singolo Χ Edifici, aeroporti, autostrade, ponti e così via.
LOCATION FACILITY Batch
GEOPOLITICAL ENTITY GPE Record singolo Χ Paesi, città e stati.
LOCATION GPE Batch
IP ADDRESS IPADDRESS Indirizzo IP secondo gli standard IPv4 e IPv6.
LANGUAGE LANGUAGE Χ Qualsiasi lingua designata.
LOCATION LOCATION Χ Luoghi non GPE, catene montuose, corpi idrici.
CURRENCY MONEY Record singolo

X

Valori monetari, compresa l'unità.
QUANTITY CURRENCY Batch
NATIONALITIES, 
RELIGIOUS and 
POLITICAL GROUPS
NORP Χ Nazionalità, gruppi religiosi o politici.
ORGANIZATION ORG Χ Aziende, agenzie, istituzioni e così via.
PERCENTAGE PERCENT Record singolo Χ Percentuale.
QUANTITY PERCENTAGE Batch
PERSON PERSON Persone, compresi i personaggi immaginari.
PHONENUMBER PHONE_NUMBER

Numeri di telefono supportati:

("GB") - United Kingdom
("AU") - Australia 
("NZ") - New Zealand 
("SG") - Singapore 
("IN") - India
("US")  - United States
PRODUCT PRODUCT Χ Veicoli, strumenti, alimenti e così via (non servizi).
NUMBER QUANTITY Record singolo Χ Misure, come peso o distanza.
QUANTITY NUMBER Batch X
TIME TIME Record singolo

Χ

Tutto meno di 24 ore (tempo, durata e così via).
DATETIME TIME Batch
URL URL URL.

Esempi

Testo di input Entità e punteggi
Racing Cars, the four-time World 
Champion team, has chosen Oracle Cloud Infrastructure 
(OCI) as their infrastructure partner.
Racing Cars [ORG] 1.0000
four-time [QUANTITY/NUMBER] 1.0000
World [EVENT] 0.9705
Oracle Cloud Infrastructure (OCI [ORG] 0.9811
OCI recently added new services to the existing 
compliance program including SOC, HIPAA, and ISO, to enable our customers 
to solve their use cases. We also released new technical papers and 
guidance documents related to Object Storage, the Asteroid Prudential 
Regulation Authority (APRA), and the Central Bank of Bankland. These 
resources help regulated customers better understand how OCI 
supports their regional and industry-specific compliance requirements. 
Not only are we expanding our number of compliance offerings and 
regulatory alignments, we continue to add regions and services at 
a faster rate.
OCI [ORG] 1.0000
SOC [ORG] 1.0000
HIPAA [ORG] 1.0000
ISO [ORG] 1.0000
Asteroid Prudential Regulation Authority [ORG] 1.0000
Central Bank of Bankland [ORG] 0.9998
OCI [ORG] 1.0000

Il JSON per il primo esempio è:

Richiesta campione
POST https://<region-url>/20210101/actions/batchDetectLanguageEntities
Formato richiesta API:
"{
    "documents": [
       

{             "key": "doc1",             "text": " Racing Cars, the four-time World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner."         }
    ]
}"
JSON risposta:
{
    "documents": [
        {
            "key": "1",
            "entities": [
                {
                    "offset": 0,
                    "length": 15,
                    "text": "Red Bull Racing",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9914557933807373,
                    "metaInfo": null
                },
                {
                    "offset": 16,
                    "length": 5,
                    "text": "Honda",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.6515499353408813,
                    "metaInfo": null
                },
                {
                    "offset": 27,
                    "length": 9,
                    "text": "four-time",
                    "type": "QUANTITY",
                    "subType": null,
                    "score": 0.9998091459274292,
                    "metaInfo": [
                        {
                            "offset": 27,
                            "length": 9,
                            "text": "four-time",
                            "subType": "UNIT",
                            "score": 0.9998091459274292
                        }
                    ]
                },
                {
                    "offset": 47,
                    "length": 5,
                    "text": "World",
                    "type": "LOCATION",
                    "subType": "NON_GPE",
                    "score": 0.5825434327125549,
                    "metaInfo": null
                },
                {
                    "offset": 79,
                    "length": 27,
                    "text": "Oracle Cloud Infrastructure",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.998045802116394,
                    "metaInfo": null
                },
                {
                    "offset": 108,
                    "length": 3,
                    "text": "OCI",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9986366033554077,
                    "metaInfo": null
                }
            ],
            "languageCode": "en"
        }
    ],
    "errors": []
}

Limitazioni

  • A volte, le entità potrebbero non essere separate o combinate come previsto.

  • NER utilizza il contesto della frase per identificare le entità. Se il contesto non è presente nel testo elaborato, le entità potrebbero non essere estratte come previsto.

  • Il formato errato del testo (struttura e semantica) potrebbe ridurre le prestazioni.

  • L'età non è un'entità separata, pertanto i periodi correlati all'età potrebbero essere identificati come entità data.