Profils de données et recommandations sémantiques

Lorsque vous créez un ensemble de données, Oracle Analytics effectue un profilage de niveau colonne afin de générer un ensemble de recommandations sémantiques pour réparer ou enrichir vos données. Lorsque vous créez des classeurs, vous pouvez également inclure des améliorations des connaissances dans vos visualisations en les ajoutant à partir du panneau de données.

Remarque :

Les enrichissements de connaissances sont généralement activés par défaut, mais les éditeurs de classeur peuvent les activer ou les désactiver pour les ensembles de données dont ils sont propriétaires ou pour lesquels ils disposent de privilèges de modification. Oracle Analytics ne fournit pas automatiquement de recommandations d'enrichissement pour les ensembles de données générés à partir d'un flux de données. Dans ce cas, le propriétaire ou l'administrateur de l'ensemble de données doit d'abord activer l'option d'enrichissement de connaissances pour l'ensemble de données. Reportez-vous à Activation des enrichissements de connaissances pour les ensembles de données.

Ces recommandations reposent sur le système qui détecte automatiquement un type sémantique spécifique lors de l'étape de profilage. Par exemple, les ensembles de données reposant sur des domaines locaux sont profilés à l'aide d'un simple échantillon N premiers.

Il existe différentes catégories de types sémantiques comme les emplacements géographiques identifiés par nom de ville, les modèles reconnaissables tels que ceux trouvés avec des numéros de carte de crédit, des adresses électroniques ou des numéros de sécurité sociale, les dates et les modèles récurrents. Vous pouvez également créer vos propres types sémantiques personnalisés.

Catégories de type sémantique

Le profilage est appliqué à différents types sémantiques.

Les catégories de type sémantique sont analysées pour identifier les éléments suivants :

  • Emplacements géographiques tels que des noms de ville.
  • Modèles tels que ceux trouvés avec des numéros de carte de crédit ou des adresses électroniques.
  • Modèles récurrents tels que des données sous forme de phrases comportant des tirets.

Recommandations de type sémantique

Les recommandations de réparation, d'amélioration ou d'enrichissement de l'ensemble de données sont déterminées par le type de données.

Exemples de recommandations de type sémantique :

  • Enrichissements : ajout d'une nouvelle colonne aux données qui correspond à un type détecté spécifique, tel qu'un emplacement géographique. Par exemple, l'ajout de données relatives à la population d'une ville.
  • Concaténations de colonnes : lorsque deux colonnes sont détectées dans l'ensemble de données, l'une contenant les prénoms et l'autre contenant les noms de famille, le système recommande de concaténer les noms et prénoms dans une seule colonne. Par exemple, une colonne first_name_last_name.
  • Extractions sémantiques : lorsqu'un type sémantique est composé de sous-types tels qu'un numéro us_phone incluant l'indicatif régional, le système recommande d'extraire le sous-type dans sa propre colonne.
  • Extraction de parties : lorsqu'un séparateur de modèle générique est détecté dans les données, le système recommande d'extraire les parties de ce modèle. Par exemple, si le système détecte des tirets à répétition dans les données, il recommande d'extraire les parties dans des colonnes distinctes pour rendre les données potentiellement plus utiles pour l'analyse.
  • Extractions de dates : lorsque des données sont détectées, le système recommande d'extraire les parties de la date pouvant améliorer l'analyse des données. Par exemple, vous pouvez extraire le jour de la semaine à partir d'une facture ou d'une date d'achat.
  • Suppression/masque/brouillage dynamique complet et partiel : lorsque des champs confidentiels sont détectés tels qu'un numéro de carte de crédit, le système recommande de masquer complètement ou partiellement la colonne, voire de l'enlever.

Types sémantiques reconnus selon le modèle

Les types sémantiques sont identifiés selon les modèles trouvés dans les données.

Les recommandations sont fournies pour les types sémantiques suivants :

  • Dates (dans plus de 30 formats)
  • Numéros de sécurité sociale (NSS), Etats-Unis
  • Numéros de carte de crédit
  • Attributs de carte de crédit (CVV et date d'expiration)
  • Adresses électroniques
  • Numéros de téléphone en Amérique du Nord
  • Adresses américaines

Types sémantiques selon une référence

La reconnaissance des types sémantiques est déterminée par les informations de référence chargées fournies avec le service.

Des recommandations reposant sur les références sont fournies pour les types sémantiques suivants :

  • Noms de pays
  • Codes pays
  • Noms d'état (provinces)
  • Codes d'Etat
  • Noms de comté (juridictions)
  • Noms de ville (noms localisés)
  • Codes postaux

Enrichissements recommandés

Les enrichissements recommandés reposent sur les types sémantiques.

Ils sont déterminés en fonction de la hiérarchie des emplacements géographiques :

  • Pays
  • Province (Etat)
  • Juridiction (comté)
  • Longitude
  • Latitude
  • Population
  • Elévation (en mètres)
  • Fuseau horaire
  • Codes pays ISO
  • Federal Information Processing Series (FIPS)
  • Nom de pays
  • Capitale
  • Continent
  • ID GeoNames
  • Langues parlées
  • Indicatif téléphonique du pays
  • Format de code postal
  • Modèle de code postal
  • Indicatif téléphonique du pays
  • Nom de devise
  • Abréviation de devise
  • Domaine de niveau supérieur géographique (GeoLTD)
  • Kilomètre carré

Seuils requis

Le processus de profilage utilise des seuils spécifiques pour prendre des décisions concernant des types sémantiques donnés.

En règle générale, 85 % des valeurs de données dans la colonne doivent répondre aux critères pour un type sémantique unique afin que le système détermine la classification. Par conséquent, une colonne pouvant contenir 70 % de prénoms et 30 % d'éléments "autres" ne répond pas aux exigences de seuil. Aucune recommandation n'est alors formulée.

Recommandations de la base de connaissances personnalisée

Utilisez les recommandations de la base de connaissances personnalisée afin d'enrichir la base de connaissances système Oracle Analytics. La base de connaissances personnalisée permet au profileur sémantique Oracle Analytics d'identifier plus de types sémantiques propres au métier et d'émettre des recommandations d'enrichissement plus pertinentes et contrôlées. Par exemple, vous pouvez ajouter une référence de base de connaissances personnalisée qui classe les médicaments sur ordonnance dans les catégories de la pharmacopée des États-Unis (USP) Analgésiques ou Opiacés.

Icône de tutoriel Tutoriel

Demandez à votre administrateur de télécharger les fichiers de base de connaissances personnalisée dans Oracle Analytics. Lorsque vous enrichissez des ensembles de données, Oracle Analytics présente des recommandations d'enrichissement fondées sur ces données sémantiques. Lorsque vous créez des classeurs, vous pouvez également inclure des améliorations des connaissances dans vos visualisations en les ajoutant à partir du panneau de données.

Création de vos propres fichiers de base de connaissances personnalisée

Lorsque vous créez des fichiers sémantiques, veillez à respecter les consignes suivantes :

  • Créez un fichier de données au format CSV ou Microsoft Excel (XLSX). La taille maximale des fichiers que vous pouvez télécharger est de 250 Mo.
  • Indiquez dans la première colonne la clé utilisée par Oracle Analytics pour profiler les données. Par exemple, la clé peut être une date avec la précision Jour pour permettre l'analyse des données par exercice.
  • Remplissez les autres colonnes avec les valeurs d'enrichissement.

Demandez à votre administrateur de télécharger votre fichier de base de connaissances personnalisée dans Oracle Analytics.

Exemple - Intégration de périodes d'activité à vos données

Cet exemple explique comment ajouter des périodes d'activité à des données de ventes et comment activer l'analyse des ventes par exercice si l'ensemble de données d'origine ne contient pas de données fiscales.

L'exemple de visualisation montre les ventes par trimestre pour les années 2019, 2020, 2021, 2022 et 2023, où chaque année est représentée par une couleur différente. Comme vos données de ventes source ne contiennent pas de données fiscales, vous déployez une base de connaissances personnalisée supplémentaire pour ajouter des données fiscales à votre ensemble de données.

Tout d'abord, préparez les données fiscales dans un fichier nommé Fiscal Calendar.xlsx. Votre fichier contient des colonnes de date (jj-mm-aaaa), d'exercice, de mois fiscal et de semaine fiscale. Par exemple, votre fichier source peut contenir 01-23-2025 dans la colonne de date, 2025 dans la colonne d'exercice et les attributs pour compléter les colonnes restantes.

Demandez à l'administrateur de télécharger Fiscal Calendar.xlsx vers la zone de base de connaissances personnalisée de la console.

Créez ensuite un ensemble de données contenant Sales et ORDER_DATE, puis, dans l'éditeur d'ensemble de données, sélectionnez Enrich ORDER_DATE WITH Fiscal Year et Enrich ORDER_DATE with Fiscal Month dans les recommandations d'enrichissement. Oracle Analytics ajoute ces deux enrichissements à l'ensemble de données.

Enfin, créez un classeur, puis ajoutez Fiscal Year et Fiscal Qtr (sous ORDER_DATE) ainsi que Sales à une visualisation. Remarque : vous pouvez ajouter directement Fiscal Year et Fiscal Qtr sans avoir à ajouter la colonne ORDER_DATE d'origine.