Reconnaissance d'entités nommées
La reconnaissance d'entités nommées détecte les entités nommées dans le texte.
Le modèle de reconnaissance d'entités nommées utilise le traitement du langage naturel pour trouver diverses entités nommées. Pour chaque entité extraite, la reconnaissance d'entités nommées retourne également l'emplacement de l'entité extraite (décès et longueur) et une note de confiance comprise entre 0 et 1.
Langues prises en charge pour le texte d'entrée
- Anglais
- Espagnol
Cas d'utilisation
Vous pouvez utiliser efficacement le point d'extrémité de reconnaissance d'entités nommées dans les scénarios suivants :
- Classification de contenu pour les fournisseurs d'informations
-
Il peut être difficile de classer et de classer le contenu des articles d'informations. Le modèle de reconnaissance d'entités nommées peut balayer automatiquement les articles pour identifier les personnes, les organisations et les lieux principaux qui y sont mentionnés. Les entités extraites peuvent être enregistrées sous forme de marqueurs avec les articles associés. La connaissance des marqueurs pertinents pour chaque article facilite la catégorisation automatique des articles dans des hiérarchies définies et la détection de contenu.
- Soutien à la clientèle
-
La reconnaissance des entités pertinentes dans les réclamations et les rétroactions des clients, les spécifications de produit, les détails des services ou des succursales d'entreprise, permet de classer les rétroactions de manière appropriée. Les entités peuvent ensuite être transmises à la personne responsable du produit identifié.
De même, il peut exister des gazouillis de rétroaction permettant une classification en fonction des emplacements et des produits mentionnés.
- Algorithmes de recherche efficaces
-
Vous pouvez utiliser la reconnaissance d'entités nommées pour extraire des entités qui sont ensuite recherchées par rapport à une interrogation, au lieu de rechercher une interrogation dans les millions d'articles et de sites Web en ligne. Lors de l'exécution sur des articles, toutes les entités pertinentes associées à chaque article sont extraites et stockées séparément. Cette séparation peut accélérer considérablement le processus de recherche. Le terme de recherche n'est mis en correspondance qu'avec une petite liste d'entités dans chaque article, ce qui permet des recherches rapides et efficaces.
Vous pouvez rechercher du contenu dans des millions de documents de recherche, d'articles Wikipédia, de blogues, d'articles, etc.
- Recommandations de contenu
-
Grâce à la reconnaissance d'entités nommées, il est possible d'extraire des entités d'un article donné et de recommander les autres articles dans lesquels des entités similaires sont mentionnées. Par exemple, cette méthode peut être utilisée efficacement pour élaborer des recommandations de contenu pour un client du secteur des médias. Elle permet d'extraire les entités associées au contenu historique ou aux activités précédentes. La reconnaissance d'entités nommées les compare à l'étiquette affectée à d'autres contenus non lus pour filtrer les entités pertinentes.
- Récapitulatif automatique des candidats
-
Le modèle de reconnaissance d'entités nommées peut faciliter l'évaluation des candidats en simplifiant le travail requis pour présélectionner les candidats, lorsque les candidatures sont nombreuses. Les recruteurs peuvent les filtrer et les classer en fonction d'entités identifiées telles que l'emplacement, les diplômes universitaires, les employeurs, les compétences, les désignations, les certifications et les brevets.
Entités prises en charge
Le tableau suivant décrit les différentes entités que la reconnaissance d'entités nommées peut extraire. Le type et le sous-type d'entité dépendent de l'API que vous appelez (detectDominantLanguageEntities
ou batchDetectDominantLanguageEntities
).
Pour maintenir la compatibilité descendante, l'API detectDominantLanguageEntities
n'a pas été modifiée lorsque nous avons introduit le concept de sous-type. Nous vous recommandons d'utiliser le point d'extrémité batchDetectDominantLanguageEntities
car le service utilise des types et des sous-types. La propriété isPii
a été supprimée pour introduire l'API de traitement par lots afin que vous puissiez la calculer à l'aide des types d'entité pris en charge, comme dans le tableau suivant.
Entité (nom complet) | Type d'entité (dans la prévision) | Sous-type d'entité (dans la prévision) | API à enregistrement unique/API par lots (si vide, les deux API sont cohérentes) | Informations d'identification personnelle prises en charge | Description |
---|---|---|---|---|---|
DATE |
DATE |
Enregistrement unique |
X |
Dates, périodes et intervalle de dates absolus ou relatifs. Exemples : "10 le 10 juin", "troisième vendredi d'août" "la première semaine de mars" |
|
DATETIME |
DATE |
Par lots | |||
EMAIL |
EMAIL |
√ | |||
EVENT |
EVENT |
Χ | Ouragans nommés, événements sportifs, etc. | ||
FACILITY |
FACILITY |
Enregistrement unique | Χ | Bâtiments, aéroports, autoroutes, ponts, etc. | |
LOCATION |
FACILITY |
Par lots | |||
GEOPOLITICAL ENTITY |
GPE |
Enregistrement unique | Χ | Pays, villes et États. | |
LOCATION |
GPE |
Par lots | |||
IP ADDRESS |
IPADDRESS |
√ | Adresse IP conforme aux normes IPv4 et IPv6. | ||
LANGUAGE |
LANGUAGE |
Χ | Toute langue nommée. | ||
LOCATION |
LOCATION |
Χ | Emplacements hors GPE, zones de montagne, étendues d'eau. | ||
CURRENCY |
MONEY |
Enregistrement unique |
X |
Valeurs monétaires, y compris l'unité. | |
QUANTITY |
CURRENCY |
Par lots | |||
|
NORP |
Χ | Nationalités, groupes religieux ou politiques. | ||
ORGANIZATION |
ORG |
Χ | Entreprises, agences, institutions, etc. | ||
PERCENTAGE |
PERCENT |
Enregistrement unique | Χ | Pourcentage. | |
QUANTITY |
PERCENTAGE |
Par lots | |||
PERSON |
PERSON |
√ | Personnes, y compris les personnages de fiction. | ||
PHONENUMBER |
PHONE_NUMBER |
√ |
Numéros de téléphone pris en charge :
|
||
PRODUCT |
PRODUCT |
Χ | Véhicules, outils, aliments, etc. (pas les services). | ||
NUMBER |
QUANTITY |
Enregistrement unique | Χ | Mesures, en poids ou en distance. | |
QUANTITY |
NUMBER |
Par lots | X | ||
TIME |
TIME |
Enregistrement unique |
Χ
|
Toute valeur inférieure à 24 heures (temps, durée, etc.). | |
DATETIME |
TIME |
Par lots | |||
URL |
URL |
√ | URL. |
Exemples
Texte entré | Entités et notes |
---|---|
|
|
|
|
Les données JSON du premier exemple sont les suivantes :
- Exemple de demande
-
POST https://<region-url>/20210101/actions/batchDetectLanguageEntities
- Format de demande d'API :
-
"{ "documents": [ { "key": "doc1", "text": " Red Bull Racing Honda, the four-time Formula-1 World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner." } ] }"
- Réponse JSON :
-
{ "documents": [ { "key": "1", "entities": [ { "offset": 0, "length": 15, "text": "Red Bull Racing", "type": "ORGANIZATION", "subType": null, "score": 0.9914557933807373, "metaInfo": null }, { "offset": 16, "length": 5, "text": "Honda", "type": "ORGANIZATION", "subType": null, "score": 0.6515499353408813, "metaInfo": null }, { "offset": 27, "length": 9, "text": "four-time", "type": "QUANTITY", "subType": null, "score": 0.9998091459274292, "metaInfo": [ { "offset": 27, "length": 9, "text": "four-time", "subType": "UNIT", "score": 0.9998091459274292 } ] }, { "offset": 47, "length": 5, "text": "World", "type": "LOCATION", "subType": "NON_GPE", "score": 0.5825434327125549, "metaInfo": null }, { "offset": 79, "length": 27, "text": "Oracle Cloud Infrastructure", "type": "ORGANIZATION", "subType": null, "score": 0.998045802116394, "metaInfo": null }, { "offset": 108, "length": 3, "text": "OCI", "type": "ORGANIZATION", "subType": null, "score": 0.9986366033554077, "metaInfo": null } ], "languageCode": "en" } ], "errors": [] }
Limites
-
Parfois, les entités peuvent ne pas être séparées ou combinées comme vous le souhaitez.
-
La reconnaissance d'entités nommées utilise le contexte de la phrase pour identifier les entités. Si le contexte n'est pas présent dans le texte traité, les entités risquent de ne pas être extraites comme vous le souhaitez.
-
Un texte dont la structure et la sémantique sont incorrectes peut réduire la performance.
-
L'âge n'est pas une entité distincte. Par conséquent, les périodes liées à l'âge peuvent être identifiées en tant qu'entités de date.