Named Entity Recognition

Named Entity Recognition (NER) erkennt benannte Entitys im Text.

Das NER-Modell verwendet Natural Language Processing, um eine Vielzahl von benannten Entitys zu finden. Für jede Entity, die extrahiert wird, gibt NER auch den Speicherort der extrahierten Entity (Offset und Länge) und einen Trust Score (Wert 0 bis 1) zurück.

Unterstützte Sprachen für Eingabetext

  • Englisch
  • Spanisch

Anwendungsfälle

Sie können den NER-Endpunkt in den folgenden Szenarios effektiv verwenden:

Inhalte für Nachrichtenanbieter klassifizieren

Die Klassifizierung und Kategorisierung von Nachrichtenartikelinhalten kann sich als schwierig erweisen. Das NER-Modell kann Artikel automatisch scannen, um die wichtigsten Personen, Organisationen und Orte darin zu identifizieren. Die extrahierten Entitys können als Tags mit den zugehörigen Artikeln gespeichert werden. Wenn Sie die relevanten Tags für jeden Artikel kennen, können Sie die Artikel in definierten Hierarchien und die Inhaltserkennung automatisch kategorisieren.

Kundensupport

Durch das Erkennen relevanter Entitys in Kundenbeschwerden und -feedback, Produktspezifikationen, Abteilungsdetails oder Firmenzweigdetails können Sie das Feedback entsprechend klassifizieren. Die Entitys können dann an die für das identifizierte Produkt verantwortliche Person weitergeleitet werden.

Ebenso können Sie Feedback-Tweets basierend auf ihrem Standort und den genannten Produkten kategorisieren.

Effiziente Suchalgorithmen

Mit NER können Sie Entitys extrahieren, die dann anhand der Abfrage durchsucht werden, anstatt online nach einer Abfrage über Millionen von Artikeln und Websites zu suchen. Bei der Ausführung für Artikel werden alle relevanten Entitys, die den einzelnen Artikeln zugeordnet sind, extrahiert und separat gespeichert. Diese Trennung kann den Suchvorgang erheblich beschleunigen. Der Suchbegriff wird nur mit einer kleinen Liste von Entitys in jedem Artikel abgeglichen, was zu einer schnellen und effizienten Suche führt.

Er kann für die Suche nach Inhalten aus Millionen von Forschungsartikeln, Wikipedia-Einträgen, Blogs, Artikeln usw. verwendet werden.

Inhaltsempfehlungen

Mit NER ist es möglich, Entitys aus einem bestimmten Artikel zu extrahieren und andere Artikel zu empfehlen, deren Entitys diesen am nächsten kommen. Beispielsweise kann NER effektiv verwendet werden, um Inhaltsempfehlungen für einen Kunden aus der Medienindustrie zu entwickeln. Sie ermöglicht die Extraktion der mit historischen Inhalten oder vorherigen Aktivitäten verknüpften Entitys. NER vergleicht diese mithilfe des zugewiesenen Labels mit anderen unbekannten Inhalten, um so nach relevanten Entities zu filtern.

Bewerber automatisch zusammenfassen

Das NER-Modell kann die Bewertung von Bewerbern erleichtern, indem es den Aufwand für die engere Auswahl der Bewerber bei einer großen Zahl an Bewerbungen vereinfacht. Recruiter können sie anhand von identifizierten Entitys wie Standort, Hochschulabschluss, Arbeitgebern, Qualifikationen, Bezeichnungen, Zertifizierungen und Patenten filtern und kategorisieren.

Unterstützte Entitys

In der folgenden Tabelle werden die verschiedenen Entitys beschrieben, die NER extrahieren kann. Der Entitytyp und der Subtyp hängen von der API ab, die Sie aufrufen (detectDominantLanguageEntities oder batchDetectDominantLanguageEntities).

Hinweis

Um die Abwärtskompatibilität zu gewährleisten, wurde bei der Einführung des Subtypkonzepts der Endpunkt detectDominantLanguageEntities beibehalten. Wir empfehlen, den Endpunkt batchDetectDominantLanguageEntities zu verwenden, da der Service Typen und Subtypen verwendet. Die Eigenschaft isPii wurde gelöscht, um die Batching-API einzuführen, damit Sie sie mit den unterstützten Entitytypen wie in der folgenden Tabelle berechnen können.

Entity (vollständiger Name) Entitytyp (in Vorhersage) Entitysubtyp (in Vorhersage) API für einzelnen Datensatz/Batch (wenn leer, sind beide APIs konsistent) Ist PII Beschreibung
DATE DATE Einzelner Datensatz

X

Absolute oder relative Datumsangaben, Datumszeiträume und Datumsbereich.

Beispiele:

"10. Juni",

"dritter Freitag im August"

"die erste Märzwoche"

DATETIME DATE Batch
EMAIL EMAIL
EVENT EVENT X Benannte Hurrikane, Sportveranstaltungen usw.
FACILITY FACILITY Einzelner Datensatz X Gebäude, Flughäfen, Autobahnen, Brücken usw.
LOCATION FACILITY Batch
GEOPOLITICAL ENTITY GPE Einzelner Datensatz X Länder, Städte und Bundesländer.
LOCATION GPE Batch
IP ADDRESS IPADDRESS IP-Adresse gemäß den IPv4- und IPv6-Standards.
LANGUAGE LANGUAGE X Beliebige Sprache
LOCATION LOCATION X Standorte von Entitäten, die keine geopolitischen Einheiten (GPE) sind, sowie Gebirgszüge und Gewässer.
CURRENCY MONEY Einzelner Datensatz

X

Geldwerte, einschließlich Währungseinheit.
QUANTITY CURRENCY Batch
NATIONALITIES, 
RELIGIOUS and 
POLITICAL GROUPS
NORP X Nationalitäten, religiöse oder politische Gruppen.
ORGANIZATION ORG X Firmen, Agenturen, Institutionen usw.
PERCENTAGE PERCENT Einzelner Datensatz X Prozentsatz.
QUANTITY PERCENTAGE Batch
PERSON PERSON Personen, einschließlich fiktiver Personen.
PHONENUMBER PHONE_NUMBER

Unterstützte Telefonnummern:

("GB") - United Kingdom
("AU") - Australia 
("NZ") - New Zealand 
("SG") - Singapore 
("IN") - India
("US")  - United States
PRODUCT PRODUCT X Fahrzeuge, Werkzeuge, Lebensmittel usw. (nicht Dienstleistungen).
NUMBER QUANTITY Einzelner Datensatz X Maße, beispielweise Gewicht oder Entfernung.
QUANTITY NUMBER Batch X
TIME TIME Einzelner Datensatz

X

Alles, was kürzer ist als 24 Stunden (Zeit, Dauer usw.).
DATETIME TIME Batch
URL URL URL.

Beispiele

Eingabetext Entitys und Scores
Red Bull Racing Honda, the four-time Formula-1 World 
Champion team, has chosen Oracle Cloud Infrastructure 
(OCI) as their infrastructure partner.
Red Bull Racing Honda [ORG] 1.0000
four-time [QUANTITY/NUMBER] 1.0000
Formula-1 World [EVENT] 0.9705
Oracle Cloud Infrastructure (OCI [ORG] 0.9811
OCI recently added new services to the existing 
compliance program including SOC, HIPAA, and ISO, to enable our customers 
to solve their use cases. We also released new technical papers and 
guidance documents related to Object Storage, the Australian Prudential 
Regulation Authority (APRA), and the Central Bank of Brazil. These 
resources help regulated customers better understand how OCI 
supports their regional and industry-specific compliance requirements. 
Not only are we expanding our number of compliance offerings and 
regulatory alignments, we continue to add regions and services at 
a faster rate.
OCI [ORG] 1.0000
SOC [ORG] 1.0000
HIPAA [ORG] 1.0000
ISO [ORG] 1.0000
Australian Prudential Regulation Authority [ORG] 1.0000
Central Bank of Brazil [ORG] 0.9998
OCI [ORG] 1.0000

JSON für das erste Beispiel:

Beispielanforderung
POST https://<region-url>/20210101/actions/batchDetectLanguageEntities
API-Anforderungsformat:
"{
    "documents": [
       

{             "key": "doc1",             "text": " Red Bull Racing Honda, the four-time Formula-1 World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner."         }
    ]
}"
JSON-Antwort
{
    "documents": [
        {
            "key": "1",
            "entities": [
                {
                    "offset": 0,
                    "length": 15,
                    "text": "Red Bull Racing",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9914557933807373,
                    "metaInfo": null
                },
                {
                    "offset": 16,
                    "length": 5,
                    "text": "Honda",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.6515499353408813,
                    "metaInfo": null
                },
                {
                    "offset": 27,
                    "length": 9,
                    "text": "four-time",
                    "type": "QUANTITY",
                    "subType": null,
                    "score": 0.9998091459274292,
                    "metaInfo": [
                        {
                            "offset": 27,
                            "length": 9,
                            "text": "four-time",
                            "subType": "UNIT",
                            "score": 0.9998091459274292
                        }
                    ]
                },
                {
                    "offset": 47,
                    "length": 5,
                    "text": "World",
                    "type": "LOCATION",
                    "subType": "NON_GPE",
                    "score": 0.5825434327125549,
                    "metaInfo": null
                },
                {
                    "offset": 79,
                    "length": 27,
                    "text": "Oracle Cloud Infrastructure",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.998045802116394,
                    "metaInfo": null
                },
                {
                    "offset": 108,
                    "length": 3,
                    "text": "OCI",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9986366033554077,
                    "metaInfo": null
                }
            ],
            "languageCode": "en"
        }
    ],
    "errors": []
}

Einschränkungen

  • Manchmal werden Entitys nicht wie erwartet getrennt oder kombiniert.

  • NER verwendet den Satzkontext, um Entitys zu identifizieren. Wenn der Kontext nicht im verarbeiteten Text vorhanden ist, werden Entitys möglicherweise nicht wie erwartet extrahiert.

  • Text mit falschem Format (Struktur und Semantik) kann die Performance beeinträchtigen.

  • Für Alter (age) gibt es keine eigene Entity. Altersbezogene Zeiträume werden daher möglicherweise als Datumsentity identifiziert.