Profils de données et recommandations sémantiques

Lorsque vous créez un jeu de données, Oracle Analytics réalise un profilage de niveau colonne pour produire un jeu de recommandations sémantiques permettant de réparer ou d'enrichir les données. Lors de la création de classeurs, vous pouvez également inclure des enrichissements de connaissances dans vos visualisations en les ajoutant à partir du panneau de données.

Note :

Les enrichissements de connaissances sont généralement activés par défaut, mais les éditeurs de classeur peuvent les activer ou les désactiver pour les jeux de données qu'ils possèdent ou qu'ils sont autorisés à modifier. Oracle Analytics ne fournit pas automatiquement de recommandations d'enrichissement pour les jeux de données générés à partir d'un flux de données. Dans ce cas, le responsable ou l'administrateur du jeu de données doit d'abord activer les enrichissement des connaissances pour le jeu de données. Voir Activer les enrichissements des connaissances pour les jeux de données.

Ces recommandations sont basées sur la détection automatique par le système d'un type sémantique spécifique lors de l'étape de profilage. Par exemple, les jeux de données basés sur des domaines locaux sont profilés à l'aide d'un échantillon N premiers simple.

Il existe plusieurs catégories de types sémantiques, telles que les emplacements géographiques identifiés par des noms de ville, les modèles reconnaissables comme dans les cartes de crédit, les adresses de courriel et les numéros de sécurité sociale, les dates et les modèles récurrents. Vous pouvez également créer vos propres types sémantiques personnalisés.

Catégories de type sémantique

Le profilage est appliqué à divers types sémantiques.

Les catégories de type sémantique font l'objet d'un profilage pour identifier :

  • Lieux géographiques tels que des noms de ville.
  • Modèles tels que ceux détectés en fonction de numéros de cartes de crédit ou d'adresses de courriel.
  • Les modèles récurrents tels que les données d'une phrase séparée par des tirets.

Recommandations de type sémantique

Les recommandations pour réparer, améliorer ou enrichir le jeu de données sont déterminées par le type des données.

Exemples de recommandations de type sémantique :

  • Enrichissements - Ajout d'une nouvelle colonne aux données correspondant à un type détecté particulier tel qu'un lieu géographique. Par exemple, ajout des données démographiques d'une ville.
  • Concaténations de colonnes - Lorsque deux colonnes sont détectées dans le jeu de données, l'une contenant les prénoms et l'autre, les noms de famille, le système recommande la concaténation des noms en une seule colonne. Par exemple, une colonne first_name_last_name.
  • Extractions sémantiques - Lorsqu'un type sémantique est composé de sous-types, par exemple un numéro de téléphone (us_phone) incluant un indicatif régional, le système recommande d'extraire le sous-type dans une colonne qui lui est propre.
  • Extraction de parties - Lorsqu'un séparateur de modèle générique est détecté dans les données, le système recommande d'extraire les parties de ce modèle. Par exemple, si le système détecte une coupure de mot répétitive dans les données, il recommande d'extraire les parties dans des colonnes distinctes afin que les données soient plus utiles pour l'analyse.
  • Extraction de dates - Lorsque des dates sont détectées, le système recommande d'extraire les parties de la date qui peuvent augmenter l'analyse des données. Par exemple, vous pouvez extraire le jour de la semaine à partir d'une date de facture ou d'achat.
  • Obscurcissement/masquage/suppression complet ou partiel - Lorsque des champs sensibles sont détectés, par exemple un numéro de carte de crédit, le système recommande un masquage complet ou partiel de la colonne, ou même sa suppression.

Types sémantiques basés sur un modèle reconnu

Les types sémantiques sont identifiés en fonction de modèles détectés dans les données.

Des recommandations sont fournies pour les types sémantiques suivants :

  • Dates (dans plus de 30 formats)
  • Numéro de sécurité sociale (États-Unis)
  • Numéros de carte de crédit
  • Attributs de carte de crédit (valeur de vérification de carte et date d'expiration)
  • Adresses de courriel
  • Numéros de téléphone conformes au plan de numérotation nord-américain
  • Adresses (États-Unis)

Types sémantiques basés sur une référence

La reconnaissance des types sémantiques est déterminée par des connaissances de référence chargées fournies avec le service.

Des recommandations basées sur une référence sont fournies pour les types sémantiques suivants :

  • Noms de pays
  • Codes de pays
  • Noms d'État (ou de provinces)
  • Codes d'État
  • Noms de comté (juridictions)
  • Noms de villes (noms localisés)
  • Codes postaux

Enrichissements recommandés

Les enrichissements recommandés sont fondés sur les types sémantiques.

Les enrichissements sont déterminés en fonction de la hiérarchie de l'emplacement géographique :

  • Pays
  • Province (État)
  • Juridiction (comté)
  • Longitude
  • Latitude
  • Population
  • Élévation (en mètres)
  • Fuseau horaire
  • Codes de pays ISO
  • Codes FIPS
  • Nom de pays
  • Capitale
  • Continent
  • ID noms géographiques
  • Langues parlées
  • Indicatif de pays
  • Format de code postal
  • Modèle de code postal
  • Indicatif de pays
  • Nom de devise
  • Abréviation de devise
  • Domaine géographique de niveau supérieur (GeoLTD)
  • Kilomètre carré

Seuils requis

Le processus de profilage utilise des seuils spécifiques pour prendre des décisions concernant des types sémantiques particuliers.

En règle générale, 85 % des valeurs de données de la colonne doivent correspondre aux critères d'un seul type sémantique pour que le système puisse effectuer la détermination de la classification. Ainsi, une colonne qui contiendrait 70 % de prénoms et 30 % d'un autre élément, ne répondrait pas aux exigences de seuil et en conséquence, aucune recommandation ne pourrait être faite.

Recommandations de connaissances personnalisées

Utilisez des recommandations de connaissances personnalisées pour compléter les connaissances du système Oracle Analytics. Les connaissances personnalisées permettent au profileur sémantique d'Oracle Analytics d'identifier davantage de types sémantiques propres à l'entreprise et de formuler des recommandations d'enrichissement plus pertinentes et mieux gérées. Par exemple, vous pouvez ajouter une référence de connaissance personnalisée qui classe les médicaments sur ordonnance dans les catégories de médicaments USP Analgésiques ou Opioïdes.

Icône de tutoriel Tutoriel

Demandez à votre administrateur de charger des fichiers de connaissances personnalisées dans Oracle Analytics. Lorsque vous enrichissez des jeux de données, Oracle Analytics présente des recommandations d'enrichissement basées sur ces données sémantiques. Lors de la création de classeurs, vous pouvez également inclure des enrichissements de connaissances dans vos visualisations en les ajoutant à partir du panneau de données.

Création de vos propres fichiers de connaissances personnalisées

Lorsque vous créez des fichiers sémantiques, suivez ces directives :

  • Créez un fichier de données dans le format CSV ou Microsoft Excel (XLSX). La taille maximale de fichier que vous pouvez charger est de 250 Mo.
  • Alimentez la première colonne avec la clé, qu'Oracle Analytics utilise pour profiler les données. Par exemple, la clé peut être une date avec la granularité Jour pour permettre l'analyse des données par exercice financier.
  • Alimentez les autres colonnes avec les valeurs d'enrichissement.

Demandez à votre administrateur de charger votre fichier de connaissances personnalisées dans Oracle Analytics.

Exemple - Intégrer des périodes propres à l'entreprise dans vos données

Cet exemple montre comment ajouter des périodes propres à l'entreprise dans les données des ventes et activer l'analyse des ventes par exercice financier si le jeu de données initial ne contient pas de données fiscales.

L'exemple de visualisation montre les ventes par trimestre pour les années 2019, 2020, 2021, 2022 et 2023, où chaque année est représentée dans une couleur différente. Il n'y a pas de données fiscales dans vos données de ventes sources, vous déployez donc des connaissances personnalisées supplémentaires pour ajouter des données fiscales à votre jeu de données.

Tout d'abord, vous préparez les données fiscales dans un fichier intitulé Fiscal Calendar.xlsx. Votre fichier contient une date (mm-jj-aaaa), un exercice financier, un mois d'exercice et une semaine d'exercice. Par exemple, votre fichier source peut contenir 01-23-2025 dans la colonne de date, 2025 dans la colonne d'exercice financier et les attributs pour compléter les colonnes restantes.

Demandez à l'administrateur de charger le fichier Fiscal Calendar.xlsx dans la zone de connaissances personnalisées de la console.

Ensuite vous créez un jeu de données contenant Sales et ORDER_DATE, puis dans l'éditeur de jeu de données, vous sélectionnez Enrich ORDER_DATE WITH Fiscal Year et Enrich ORDER_DATE with Fiscal Month dans les recommandations d'enrichissement. Oracle Analytics ajoute ces deux enrichissements au jeu de données.

Enfin, vous créez un classeur et ajoutez Fiscal Year et Fiscal Qtr (sous ORDER_DATE) et Sales à une visualisation. Note : Vous pouvez ajouter Fiscal Year et Fiscal Qtr directement sans avoir à ajouter la colonne ORDER_DATE initiale.