Reconnaissance d'entités nommées

La reconnaissance d'entités nommées détecte les entités nommées dans le texte.

Le modèle de reconnaissance d'entités nommées utilise le traitement du langage naturel pour trouver diverses entités nommées. Pour chaque entité extraite, la reconnaissance d'entités nommées retourne également l'emplacement de l'entité extraite (décès et longueur) et une note de confiance comprise entre 0 et 1.

Langues prises en charge pour le texte d'entrée

  • Anglais
  • Espagnol

Cas d'utilisation

Vous pouvez utiliser efficacement le point d'extrémité de reconnaissance d'entités nommées dans les scénarios suivants :

Classification de contenu pour les fournisseurs d'informations

Il peut être difficile de classer et de classer le contenu des articles d'informations. Le modèle de reconnaissance d'entités nommées peut balayer automatiquement les articles pour identifier les personnes, les organisations et les lieux principaux qui y sont mentionnés. Les entités extraites peuvent être enregistrées sous forme de marqueurs avec les articles associés. La connaissance des marqueurs pertinents pour chaque article facilite la catégorisation automatique des articles dans des hiérarchies définies et la détection de contenu.

Soutien à la clientèle

La reconnaissance des entités pertinentes dans les réclamations et les rétroactions des clients, les spécifications de produit, les détails des services ou des succursales d'entreprise, permet de classer les rétroactions de manière appropriée. Les entités peuvent ensuite être transmises à la personne responsable du produit identifié.

De même, il peut exister des gazouillis de rétroaction permettant une classification en fonction des emplacements et des produits mentionnés.

Algorithmes de recherche efficaces

Vous pouvez utiliser la reconnaissance d'entités nommées pour extraire des entités qui sont ensuite recherchées par rapport à une interrogation, au lieu de rechercher une interrogation dans les millions d'articles et de sites Web en ligne. Lors de l'exécution sur des articles, toutes les entités pertinentes associées à chaque article sont extraites et stockées séparément. Cette séparation peut accélérer considérablement le processus de recherche. Le terme de recherche n'est mis en correspondance qu'avec une petite liste d'entités dans chaque article, ce qui permet des recherches rapides et efficaces.

Vous pouvez rechercher du contenu dans des millions de documents de recherche, d'articles Wikipédia, de blogues, d'articles, etc.

Recommandations de contenu

Grâce à la reconnaissance d'entités nommées, il est possible d'extraire des entités d'un article donné et de recommander les autres articles dans lesquels des entités similaires sont mentionnées. Par exemple, cette méthode peut être utilisée efficacement pour élaborer des recommandations de contenu pour un client du secteur des médias. Elle permet d'extraire les entités associées au contenu historique ou aux activités précédentes. La reconnaissance d'entités nommées les compare à l'étiquette affectée à d'autres contenus non lus pour filtrer les entités pertinentes.

Récapitulatif automatique des candidats

Le modèle de reconnaissance d'entités nommées peut faciliter l'évaluation des candidats en simplifiant le travail requis pour présélectionner les candidats, lorsque les candidatures sont nombreuses. Les recruteurs peuvent les filtrer et les classer en fonction d'entités identifiées telles que l'emplacement, les diplômes universitaires, les employeurs, les compétences, les désignations, les certifications et les brevets.

Entités prises en charge

Le tableau suivant décrit les différentes entités que la reconnaissance d'entités nommées peut extraire. Le type et le sous-type d'entité dépendent de l'API que vous appelez (detectDominantLanguageEntities ou batchDetectDominantLanguageEntities).

Note

Pour maintenir la compatibilité descendante, l'API detectDominantLanguageEntities n'a pas été modifiée lorsque nous avons introduit le concept de sous-type. Nous vous recommandons d'utiliser le point d'extrémité batchDetectDominantLanguageEntities car le service utilise des types et des sous-types. La propriété isPii a été supprimée pour introduire l'API de traitement par lots afin que vous puissiez la calculer à l'aide des types d'entité pris en charge, comme dans le tableau suivant.

Entité (nom complet) Type d'entité (dans la prévision) Sous-type d'entité (dans la prévision) API à enregistrement unique/API par lots (si vide, les deux API sont cohérentes) Informations d'identification personnelle prises en charge Description
DATE DATE Enregistrement unique

X

Dates, périodes et intervalle de dates absolus ou relatifs.

Exemples :

"10 le 10 juin",

"troisième vendredi d'août"

"la première semaine de mars"

DATETIME DATE Par lots
EMAIL EMAIL
EVENT EVENT Χ Ouragans nommés, événements sportifs, etc.
FACILITY FACILITY Enregistrement unique Χ Bâtiments, aéroports, autoroutes, ponts, etc.
LOCATION FACILITY Par lots
GEOPOLITICAL ENTITY GPE Enregistrement unique Χ Pays, villes et États.
LOCATION GPE Par lots
IP ADDRESS IPADDRESS Adresse IP conforme aux normes IPv4 et IPv6.
LANGUAGE LANGUAGE Χ Toute langue nommée.
LOCATION LOCATION Χ Emplacements hors GPE, zones de montagne, étendues d'eau.
CURRENCY MONEY Enregistrement unique

X

Valeurs monétaires, y compris l'unité.
QUANTITY CURRENCY Par lots
NATIONALITIES, 
RELIGIOUS and 
POLITICAL GROUPS
NORP Χ Nationalités, groupes religieux ou politiques.
ORGANIZATION ORG Χ Entreprises, agences, institutions, etc.
PERCENTAGE PERCENT Enregistrement unique Χ Pourcentage.
QUANTITY PERCENTAGE Par lots
PERSON PERSON Personnes, y compris les personnages de fiction.
PHONENUMBER PHONE_NUMBER

Numéros de téléphone pris en charge :

("GB") - United Kingdom
("AU") - Australia 
("NZ") - New Zealand 
("SG") - Singapore 
("IN") - India
("US")  - United States
PRODUCT PRODUCT Χ Véhicules, outils, aliments, etc. (pas les services).
NUMBER QUANTITY Enregistrement unique Χ Mesures, en poids ou en distance.
QUANTITY NUMBER Par lots X
TIME TIME Enregistrement unique

Χ

Toute valeur inférieure à 24 heures (temps, durée, etc.).
DATETIME TIME Par lots
URL URL URL.

Exemples

Texte entré Entités et notes
Red Bull Racing Honda, the four-time Formula-1 World 
Champion team, has chosen Oracle Cloud Infrastructure 
(OCI) as their infrastructure partner.
Red Bull Racing Honda [ORG] 1.0000
four-time [QUANTITY/NUMBER] 1.0000
Formula-1 World [EVENT] 0.9705
Oracle Cloud Infrastructure (OCI [ORG] 0.9811
OCI recently added new services to the existing 
compliance program including SOC, HIPAA, and ISO, to enable our customers 
to solve their use cases. We also released new technical papers and 
guidance documents related to Object Storage, the Australian Prudential 
Regulation Authority (APRA), and the Central Bank of Brazil. These 
resources help regulated customers better understand how OCI 
supports their regional and industry-specific compliance requirements. 
Not only are we expanding our number of compliance offerings and 
regulatory alignments, we continue to add regions and services at 
a faster rate.
OCI [ORG] 1.0000
SOC [ORG] 1.0000
HIPAA [ORG] 1.0000
ISO [ORG] 1.0000
Australian Prudential Regulation Authority [ORG] 1.0000
Central Bank of Brazil [ORG] 0.9998
OCI [ORG] 1.0000

Les données JSON du premier exemple sont les suivantes :

Exemple de demande
POST https://<region-url>/20210101/actions/batchDetectLanguageEntities
Format de demande d'API :
"{
    "documents": [
       

{             "key": "doc1",             "text": " Red Bull Racing Honda, the four-time Formula-1 World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner."         }
    ]
}"
Réponse JSON :
{
    "documents": [
        {
            "key": "1",
            "entities": [
                {
                    "offset": 0,
                    "length": 15,
                    "text": "Red Bull Racing",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9914557933807373,
                    "metaInfo": null
                },
                {
                    "offset": 16,
                    "length": 5,
                    "text": "Honda",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.6515499353408813,
                    "metaInfo": null
                },
                {
                    "offset": 27,
                    "length": 9,
                    "text": "four-time",
                    "type": "QUANTITY",
                    "subType": null,
                    "score": 0.9998091459274292,
                    "metaInfo": [
                        {
                            "offset": 27,
                            "length": 9,
                            "text": "four-time",
                            "subType": "UNIT",
                            "score": 0.9998091459274292
                        }
                    ]
                },
                {
                    "offset": 47,
                    "length": 5,
                    "text": "World",
                    "type": "LOCATION",
                    "subType": "NON_GPE",
                    "score": 0.5825434327125549,
                    "metaInfo": null
                },
                {
                    "offset": 79,
                    "length": 27,
                    "text": "Oracle Cloud Infrastructure",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.998045802116394,
                    "metaInfo": null
                },
                {
                    "offset": 108,
                    "length": 3,
                    "text": "OCI",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9986366033554077,
                    "metaInfo": null
                }
            ],
            "languageCode": "en"
        }
    ],
    "errors": []
}

Limites

  • Parfois, les entités peuvent ne pas être séparées ou combinées comme vous le souhaitez.

  • La reconnaissance d'entités nommées utilise le contexte de la phrase pour identifier les entités. Si le contexte n'est pas présent dans le texte traité, les entités risquent de ne pas être extraites comme vous le souhaitez.

  • Un texte dont la structure et la sémantique sont incorrectes peut réduire la performance.

  • L'âge n'est pas une entité distincte. Par conséquent, les périodes liées à l'âge peuvent être identifiées en tant qu'entités de date.