Profils de données et recommandations sémantiques

Lorsque vous créez un ensemble de données, Oracle Analytics effectue un profilage de niveau colonne afin de générer un ensemble de recommandations sémantiques pour réparer ou enrichir vos données. Lorsque vous créez des classeurs, vous pouvez également inclure des améliorations des connaissances dans vos visualisations en les ajoutant à partir du panneau de données.

Ces recommandations reposent sur le système qui détecte automatiquement un type sémantique spécifique lors de l'étape de profilage. Par exemple, les ensembles de données reposant sur des domaines locaux sont profilés à l'aide d'un simple échantillon N premiers.

Il existe différentes catégories de types sémantiques comme les emplacements géographiques identifiés par nom de ville, les modèles reconnaissables tels que ceux trouvés avec des numéros de carte de crédit, des adresses électroniques ou des numéros de sécurité sociale, les dates et les modèles récurrents. Vous pouvez également créer vos propres types sémantiques personnalisés.

Rubriques :

Catégories de type sémantique

Le profilage est appliqué à différents types sémantiques.

Les catégories de type sémantique sont analysées pour identifier les éléments suivants :

Emplacements géographiques tels que des noms de ville.
Modèles tels que ceux trouvés avec des numéros de carte de crédit ou des adresses électroniques.
Modèles récurrents tels que des données sous forme de phrases comportant des tirets.

Recommandations de type sémantique

Les recommandations de réparation, d'amélioration ou d'enrichissement de l'ensemble de données sont déterminées par le type de données.

Exemples de recommandations de type sémantique :

Enrichissements : ajout d'une nouvelle colonne aux données qui correspond à un type détecté spécifique, tel qu'un emplacement géographique. Par exemple, l'ajout de données relatives à la population d'une ville.
Concaténations de colonnes : lorsque deux colonnes sont détectées dans l'ensemble de données, l'une contenant les prénoms et l'autre contenant les noms de famille, le système recommande de concaténer les noms et prénoms dans une seule colonne. Par exemple, une colonne first_name_last_name.
Extractions sémantiques : lorsqu'un type sémantique est composé de sous-types tels qu'un numéro us_phone incluant l'indicatif régional, le système recommande d'extraire le sous-type dans sa propre colonne.
Extraction de parties : lorsqu'un séparateur de modèle générique est détecté dans les données, le système recommande d'extraire les parties de ce modèle. Par exemple, si le système détecte des tirets à répétition dans les données, il recommande d'extraire les parties dans des colonnes distinctes pour rendre les données potentiellement plus utiles pour l'analyse.
Extractions de dates : lorsque des données sont détectées, le système recommande d'extraire les parties de la date pouvant améliorer l'analyse des données. Par exemple, vous pouvez extraire le jour de la semaine à partir d'une facture ou d'une date d'achat.
Suppression/masque/brouillage dynamique complet et partiel : lorsque des champs confidentiels sont détectés tels qu'un numéro de carte de crédit, le système recommande de masquer complètement ou partiellement la colonne, voire de l'enlever.

Types sémantiques reconnus selon le modèle

Les types sémantiques sont identifiés selon les modèles trouvés dans les données.

Les recommandations sont fournies pour les types sémantiques suivants :

Dates (dans plus de 30 formats)
Numéros de sécurité sociale (NSS), Etats-Unis
Numéros de carte de crédit
Attributs de carte de crédit (CVV et date d'expiration)
Adresses électroniques
Numéros de téléphone en Amérique du Nord
Adresses américaines

Types sémantiques selon une référence

La reconnaissance des types sémantiques est déterminée par les informations de référence chargées fournies avec le service.

Des recommandations reposant sur les références sont fournies pour les types sémantiques suivants :

Noms de pays
Codes pays
Noms d'état (provinces)
Codes d'Etat
Noms de comté (juridictions)
Noms de ville (noms localisés)
Codes postaux

Enrichissements recommandés

Les enrichissements recommandés reposent sur les types sémantiques.

Ils sont déterminés en fonction de la hiérarchie des emplacements géographiques :

Pays
Province (Etat)
Juridiction (comté)
Longitude
Latitude
Population
Elévation (en mètres)
Fuseau horaire
Codes pays ISO
Federal Information Processing Series (FIPS)
Nom de pays
Capitale
Continent
ID GeoNames
Langues parlées
Indicatif téléphonique du pays
Format de code postal
Modèle de code postal
Indicatif téléphonique du pays
Nom de devise
Abréviation de devise
Domaine de niveau supérieur géographique (GeoLTD)
Kilomètre carré

Seuils requis

Le processus de profilage utilise des seuils spécifiques pour prendre des décisions concernant des types sémantiques donnés.

En règle générale, 85 % des valeurs de données dans la colonne doivent répondre aux critères pour un type sémantique unique afin que le système détermine la classification. Par conséquent, une colonne pouvant contenir 70 % de prénoms et 30 % d'éléments "autres" ne répond pas aux exigences de seuil. Aucune recommandation n'est alors formulée.

Recommandations de la base de connaissances personnalisée

Utilisez les recommandations de la base de connaissances personnalisée afin d'enrichir la base de connaissances système Oracle Analytics. La base de connaissances personnalisée permet au profileur sémantique Oracle Analytics d'identifier plus de types sémantiques propres au métier et d'émettre des recommandations d'enrichissement plus pertinentes et contrôlées. Par exemple, vous pouvez ajouter une référence de base de connaissances personnalisée qui classe les médicaments sur ordonnance dans les catégories de la pharmacopée des États-Unis (USP) Analgésiques ou Opiacés.

Tutoriel