Reconnaissance d'entité nommée

La reconnaissance d'entité nommée détecte les entités nommées dans le texte.

Le modèle de reconnaissance d'entité nommée utilise le traitement du langage naturel pour rechercher une variété d'entités nommées. Pour chaque entité extraite, NER renvoie également l'emplacement de l'entité extraite (position et longueur) et un score de confiance, qui est une valeur de 0 à 1.

Langues prises en charge pour le texte d'entrée

  • Anglais
  • Espagnol

Cas d'emploi

Vous pouvez utiliser l'adresse de reconnaissance d'entité nommée efficacement dans les scénarios suivants :

Classification de contenu pour les journaux

Il peut être difficile de classer et de catégoriser le contenu d'un article de journal. Le modèle de reconnaissance d'entité nommée peut analyser automatiquement les articles pour identifier les personnes, organisations et lieux principaux qui y figurent. Les entités extraites peuvent être enregistrées en tant que balises avec les articles associés. La connaissance des balises appropriées pour chaque article aide à classer automatiquement les articles dans des hiérarchies définies et le repérage de contenu.

Support client

La reconnaissance des entités pertinentes dans les réclamations et les commentaires des clients, les spécifications des produits, les détails des services ou les détails des succursales de la société permet de classer les commentaires de manière appropriée. Les entités peuvent ensuite être transmises à la personne responsable du produit identifié.

De même, vous pouvez avoir des commentaires dans des tweets, dans lesquels vous pouvez catégoriser toutes les entités en fonction de leur emplacement et des produits mentionnés.

Algorithmes de recherche efficaces

Vous pouvez utiliser la reconnaissance d'entité nommée pour extraire des entités qui sont ensuite recherchées dans la requête, au lieu de rechercher une requête dans les millions d'articles et de sites Web en ligne. Lorsqu'elles sont exécutées sur des articles, toutes les entités pertinentes associées à chaque article sont extraites et stockées séparément. Cette séparation peut permettre d'accélérer considérablement le processus de recherche. Le terme de recherche n'est mis en correspondance qu'avec une petite liste d'entités dans chaque article, ce qui permet des recherches rapides et efficaces.

La reconnaissance d'entité nommée peut être utilisée pour rechercher du contenu dans des millions de documents de recherche, d'articles Wikipédia, de blogs, d'articles, etc.

Recommandations de contenu

Grâce à la reconnaissance d'entité nommée, il est possible d'extraire des entités d'un article particulier et de recommander les autres articles contenant les entités les plus similaires mentionnées dans ces articles. Par exemple, elle peut être utilisée efficacement afin d'élaborer des recommandations de contenu pour un client du secteur des médias. Elle permet d'extraire les entités associées au contenu historique ou aux activités précédentes. La reconnaissance d'entité nommée les compare avec le libellé affecté à d'autres contenus non visualisés pour filtrer les entités pertinentes.

Récapitulatif automatique des candidats

Le modèle de reconnaissance d'entité nommée peut faciliter l'évaluation de l'adéquation des candidats à un poste, en simplifiant les efforts nécessaires pour présélectionner les candidats lorsque vous recevez beaucoup de candidatures. Les recruteurs peuvent les filtrer et les catégoriser en fonction d'entités identifiées comme le lieu, les diplômes, les employeurs, les compétences, les titres, les certifications et les brevets.

Entités prises en charge

Le tableau suivant décrit les différentes entités que la reconnaissance d'entité nommée peut extraire. Le type et le sous-type d'entité dépendent de l'API que vous appelez (detectDominantLanguageEntities ou batchDetectDominantLanguageEntities).

Remarque

Pour conserver la compatibilité amont, detectDominantLanguageEntities n'a pas été modifié lors de l'introduction du concept de sous-type. Nous vous recommandons d'utiliser l'adresse batchDetectDominantLanguageEntities car le service utilise des types et des sous-types. La propriété isPii a été supprimée pour ajouter l'API de traitement en batch afin que vous puissiez la calculer avec les types d'entité pris en charge, comme dans le tableau suivant.

Entité (nom complet) Type d'entité (dans la prédiction) Sous-type d'entité (dans la prédiction) API d'enregistrement unique/API de batch (si vide, les deux API sont identiques) Est une information d'identification personnelle Description
DATE DATE Enregistrement unique

X

Dates, périodes et plage de dates absolues ou relatives.

Exemples :

"10 juin"

"troisième vendredi août"

"la première semaine de mars"

DATETIME DATE Batch
EMAIL EMAIL
EVENT EVENT Χ Ouragans nommés, événements sportifs, etc.
FACILITY FACILITY Enregistrement unique Χ Bâtiments, aéroports, autoroutes, ponts, etc.
LOCATION FACILITY Batch
GEOPOLITICAL ENTITY GPE Enregistrement unique Χ Pays, villes et Etats.
LOCATION GPE Batch
IP ADDRESS IPADDRESS Adresse IP conforme aux normes IPv4 et IPv6.
LANGUAGE LANGUAGE Χ Toute langue nommée.
LOCATION LOCATION Χ Lieux ne correspondant pas à des entités géopolitiques, chaînes de montagnes, étendues d'eau.
CURRENCY MONEY Enregistrement unique

X

Valeurs monétaires, y compris l'unité.
QUANTITY CURRENCY Batch
NATIONALITIES, 
RELIGIOUS and 
POLITICAL GROUPS
NORP Χ Nationalités, groupes religieux ou politiques.
ORGANIZATION ORG Χ Sociétés, agences, institutions, etc.
PERCENTAGE PERCENT Enregistrement unique Χ Pourcentage.
QUANTITY PERCENTAGE Batch
PERSON PERSON Personnes, y compris les personnages fictifs.
PHONENUMBER PHONE_NUMBER

Numéros de téléphone pris en charge :

("GB") - United Kingdom
("AU") - Australia 
("NZ") - New Zealand 
("SG") - Singapore 
("IN") - India
("US")  - United States
PRODUCT PRODUCT Χ Véhicules, outils, aliments, etc. (pas de services).
NUMBER QUANTITY Enregistrement unique Χ Mesures, comme un poids ou une distance.
QUANTITY NUMBER Batch X
TIME TIME Enregistrement unique

Χ

Tout ce qui est inférieur à 24 heures (heure, durée, etc.).
DATETIME TIME Batch
URL URL URL.

Exemples

Texte saisi Entités et scores
Red Bull Racing Honda, the four-time Formula-1 World 
Champion team, has chosen Oracle Cloud Infrastructure 
(OCI) as their infrastructure partner.
Red Bull Racing Honda [ORG] 1.0000
four-time [QUANTITY/NUMBER] 1.0000
Formula-1 World [EVENT] 0.9705
Oracle Cloud Infrastructure (OCI [ORG] 0.9811
OCI recently added new services to the existing 
compliance program including SOC, HIPAA, and ISO, to enable our customers 
to solve their use cases. We also released new technical papers and 
guidance documents related to Object Storage, the Australian Prudential 
Regulation Authority (APRA), and the Central Bank of Brazil. These 
resources help regulated customers better understand how OCI 
supports their regional and industry-specific compliance requirements. 
Not only are we expanding our number of compliance offerings and 
regulatory alignments, we continue to add regions and services at 
a faster rate.
OCI [ORG] 1.0000
SOC [ORG] 1.0000
HIPAA [ORG] 1.0000
ISO [ORG] 1.0000
Australian Prudential Regulation Authority [ORG] 1.0000
Central Bank of Brazil [ORG] 0.9998
OCI [ORG] 1.0000

Le contenu JSON pour le premier exemple est le suivant :

Exemple de demande
POST https://<region-url>/20210101/actions/batchDetectLanguageEntities
Format de demande d'API :
"{
    "documents": [
       

{             "key": "doc1",             "text": " Red Bull Racing Honda, the four-time Formula-1 World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner."         }
    ]
}"
Contenu JSON de la réponse :
{
    "documents": [
        {
            "key": "1",
            "entities": [
                {
                    "offset": 0,
                    "length": 15,
                    "text": "Red Bull Racing",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9914557933807373,
                    "metaInfo": null
                },
                {
                    "offset": 16,
                    "length": 5,
                    "text": "Honda",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.6515499353408813,
                    "metaInfo": null
                },
                {
                    "offset": 27,
                    "length": 9,
                    "text": "four-time",
                    "type": "QUANTITY",
                    "subType": null,
                    "score": 0.9998091459274292,
                    "metaInfo": [
                        {
                            "offset": 27,
                            "length": 9,
                            "text": "four-time",
                            "subType": "UNIT",
                            "score": 0.9998091459274292
                        }
                    ]
                },
                {
                    "offset": 47,
                    "length": 5,
                    "text": "World",
                    "type": "LOCATION",
                    "subType": "NON_GPE",
                    "score": 0.5825434327125549,
                    "metaInfo": null
                },
                {
                    "offset": 79,
                    "length": 27,
                    "text": "Oracle Cloud Infrastructure",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.998045802116394,
                    "metaInfo": null
                },
                {
                    "offset": 108,
                    "length": 3,
                    "text": "OCI",
                    "type": "ORGANIZATION",
                    "subType": null,
                    "score": 0.9986366033554077,
                    "metaInfo": null
                }
            ],
            "languageCode": "en"
        }
    ],
    "errors": []
}

Limites

  • Parfois, les entités ne sont pas séparées ou combinées comme vous l'aviez prévu.

  • La reconnaissance d'entité nommée utilise le contexte de la phrase pour identifier les entités. En cas d'absence de contexte dans le texte traité, les entités risquent de ne pas être extraites comme prévu.

  • Un texte au format incorrect (structure et sémantique) peut réduire les performances.

  • L'âge n'est pas une entité distincte. Par conséquent, les périodes liées à l'âge peuvent être identifiées comme une entité de date.