Named Entity Recognition
Named Entity Recognition (NER) erkennt benannte Entitys im Text.
Das NER-Modell verwendet Natural Language Processing, um eine Vielzahl von benannten Entitys zu finden. Für jede Entity, die extrahiert wird, gibt NER auch den Speicherort der extrahierten Entity (Offset und Länge) und einen Trust Score (Wert 0 bis 1) zurück.
Unterstützte Sprachen für Eingabetext
- Englisch
- Spanisch
Anwendungsfälle
Sie können den NER-Endpunkt in den folgenden Szenarios effektiv verwenden:
- Inhalte für Nachrichtenanbieter klassifizieren
-
Die Klassifizierung und Kategorisierung von Nachrichtenartikelinhalten kann sich als schwierig erweisen. Das NER-Modell kann Artikel automatisch scannen, um die wichtigsten Personen, Organisationen und Orte darin zu identifizieren. Die extrahierten Entitys können als Tags mit den zugehörigen Artikeln gespeichert werden. Wenn Sie die relevanten Tags für jeden Artikel kennen, können Sie die Artikel in definierten Hierarchien und die Inhaltserkennung automatisch kategorisieren.
- Kundensupport
-
Durch das Erkennen relevanter Entitys in Kundenbeschwerden und -feedback, Produktspezifikationen, Abteilungsdetails oder Firmenzweigdetails können Sie das Feedback entsprechend klassifizieren. Die Entitys können dann an die für das identifizierte Produkt verantwortliche Person weitergeleitet werden.
Ebenso können Sie Feedback-Tweets basierend auf ihrem Standort und den genannten Produkten kategorisieren.
- Effiziente Suchalgorithmen
-
Mit NER können Sie Entitys extrahieren, die dann anhand der Abfrage durchsucht werden, anstatt online nach einer Abfrage über Millionen von Artikeln und Websites zu suchen. Bei der Ausführung für Artikel werden alle relevanten Entitys, die den einzelnen Artikeln zugeordnet sind, extrahiert und separat gespeichert. Diese Trennung kann den Suchvorgang erheblich beschleunigen. Der Suchbegriff wird nur mit einer kleinen Liste von Entitys in jedem Artikel abgeglichen, was zu einer schnellen und effizienten Suche führt.
Er kann für die Suche nach Inhalten aus Millionen von Forschungsartikeln, Wikipedia-Einträgen, Blogs, Artikeln usw. verwendet werden.
- Inhaltsempfehlungen
-
Mit NER ist es möglich, Entitys aus einem bestimmten Artikel zu extrahieren und andere Artikel zu empfehlen, deren Entitys diesen am nächsten kommen. Beispielsweise kann NER effektiv verwendet werden, um Inhaltsempfehlungen für einen Kunden aus der Medienindustrie zu entwickeln. Sie ermöglicht die Extraktion der mit historischen Inhalten oder vorherigen Aktivitäten verknüpften Entitys. NER vergleicht diese mithilfe des zugewiesenen Labels mit anderen unbekannten Inhalten, um so nach relevanten Entities zu filtern.
- Bewerber automatisch zusammenfassen
-
Das NER-Modell kann die Bewertung von Bewerbern erleichtern, indem es den Aufwand für die engere Auswahl der Bewerber bei einer großen Zahl an Bewerbungen vereinfacht. Recruiter können sie anhand von identifizierten Entitys wie Standort, Hochschulabschluss, Arbeitgebern, Qualifikationen, Bezeichnungen, Zertifizierungen und Patenten filtern und kategorisieren.
Unterstützte Entitys
In der folgenden Tabelle werden die verschiedenen Entitys beschrieben, die NER extrahieren kann. Der Entitytyp und der Subtyp hängen von der API ab, die Sie aufrufen (detectDominantLanguageEntities
oder batchDetectDominantLanguageEntities
).
Um die Abwärtskompatibilität zu gewährleisten, wurde bei der Einführung des Subtypkonzepts der Endpunkt detectDominantLanguageEntities
beibehalten. Wir empfehlen, den Endpunkt batchDetectDominantLanguageEntities
zu verwenden, da der Service Typen und Subtypen verwendet. Die Eigenschaft isPii
wurde gelöscht, um die Batching-API einzuführen, damit Sie sie mit den unterstützten Entitytypen wie in der folgenden Tabelle berechnen können.
Entity (vollständiger Name) | Entitytyp (in Vorhersage) | Entitysubtyp (in Vorhersage) | API für einzelnen Datensatz/Batch (wenn leer, sind beide APIs konsistent) | Ist PII | Beschreibung |
---|---|---|---|---|---|
DATE |
DATE |
Einzelner Datensatz |
X |
Absolute oder relative Datumsangaben, Datumszeiträume und Datumsbereich. Beispiele: "10. Juni", "dritter Freitag im August" "die erste Märzwoche" |
|
DATETIME |
DATE |
Batch | |||
EMAIL |
EMAIL |
√ | |||
EVENT |
EVENT |
X | Benannte Hurrikane, Sportveranstaltungen usw. | ||
FACILITY |
FACILITY |
Einzelner Datensatz | X | Gebäude, Flughäfen, Autobahnen, Brücken usw. | |
LOCATION |
FACILITY |
Batch | |||
GEOPOLITICAL ENTITY |
GPE |
Einzelner Datensatz | X | Länder, Städte und Bundesländer. | |
LOCATION |
GPE |
Batch | |||
IP ADDRESS |
IPADDRESS |
√ | IP-Adresse gemäß den IPv4- und IPv6-Standards. | ||
LANGUAGE |
LANGUAGE |
X | Beliebige Sprache | ||
LOCATION |
LOCATION |
X | Standorte von Entitäten, die keine geopolitischen Einheiten (GPE) sind, sowie Gebirgszüge und Gewässer. | ||
CURRENCY |
MONEY |
Einzelner Datensatz |
X |
Geldwerte, einschließlich Währungseinheit. | |
QUANTITY |
CURRENCY |
Batch | |||
|
NORP |
X | Nationalitäten, religiöse oder politische Gruppen. | ||
ORGANIZATION |
ORG |
X | Firmen, Agenturen, Institutionen usw. | ||
PERCENTAGE |
PERCENT |
Einzelner Datensatz | X | Prozentsatz. | |
QUANTITY |
PERCENTAGE |
Batch | |||
PERSON |
PERSON |
√ | Personen, einschließlich fiktiver Personen. | ||
PHONENUMBER |
PHONE_NUMBER |
√ |
Unterstützte Telefonnummern:
|
||
PRODUCT |
PRODUCT |
X | Fahrzeuge, Werkzeuge, Lebensmittel usw. (nicht Dienstleistungen). | ||
NUMBER |
QUANTITY |
Einzelner Datensatz | X | Maße, beispielweise Gewicht oder Entfernung. | |
QUANTITY |
NUMBER |
Batch | X | ||
TIME |
TIME |
Einzelner Datensatz |
X
|
Alles, was kürzer ist als 24 Stunden (Zeit, Dauer usw.). | |
DATETIME |
TIME |
Batch | |||
URL |
URL |
√ | URL. |
Beispiele
Eingabetext | Entitys und Scores |
---|---|
|
|
|
|
JSON für das erste Beispiel:
- Beispielanforderung
-
POST https://<region-url>/20210101/actions/batchDetectLanguageEntities
- API-Anforderungsformat:
-
"{ "documents": [ { "key": "doc1", "text": " Red Bull Racing Honda, the four-time Formula-1 World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner." } ] }"
- JSON-Antwort
-
{ "documents": [ { "key": "1", "entities": [ { "offset": 0, "length": 15, "text": "Red Bull Racing", "type": "ORGANIZATION", "subType": null, "score": 0.9914557933807373, "metaInfo": null }, { "offset": 16, "length": 5, "text": "Honda", "type": "ORGANIZATION", "subType": null, "score": 0.6515499353408813, "metaInfo": null }, { "offset": 27, "length": 9, "text": "four-time", "type": "QUANTITY", "subType": null, "score": 0.9998091459274292, "metaInfo": [ { "offset": 27, "length": 9, "text": "four-time", "subType": "UNIT", "score": 0.9998091459274292 } ] }, { "offset": 47, "length": 5, "text": "World", "type": "LOCATION", "subType": "NON_GPE", "score": 0.5825434327125549, "metaInfo": null }, { "offset": 79, "length": 27, "text": "Oracle Cloud Infrastructure", "type": "ORGANIZATION", "subType": null, "score": 0.998045802116394, "metaInfo": null }, { "offset": 108, "length": 3, "text": "OCI", "type": "ORGANIZATION", "subType": null, "score": 0.9986366033554077, "metaInfo": null } ], "languageCode": "en" } ], "errors": [] }
Einschränkungen
-
Manchmal werden Entitys nicht wie erwartet getrennt oder kombiniert.
-
NER verwendet den Satzkontext, um Entitys zu identifizieren. Wenn der Kontext nicht im verarbeiteten Text vorhanden ist, werden Entitys möglicherweise nicht wie erwartet extrahiert.
-
Text mit falschem Format (Struktur und Semantik) kann die Performance beeinträchtigen.
-
Für Alter (age) gibt es keine eigene Entity. Altersbezogene Zeiträume werden daher möglicherweise als Datumsentity identifiziert.