Référence d'enrichissement et de transformation

Utilisez ces informations de référence pour vous aider à enrichir et à transformer vos données.

Référence de transformation

Découvrez les options de transformation de données auxquelles vous pouvez accéder dans l'éditeur de transformation en cliquant avec le bouton droit de la souris sur une colonne d'un ensemble de données. Par exemple, pour catégoriser les temps de tour de piste d'une course dans une colonne d'un ensemble de données, cliquez avec le bouton droit de la souris sur la colonne Temps de tour de piste et sélectionnez Discrétiser.

Option Description
Discrétiser Crée vos propres groupes personnalisés pour des plages numériques. Par exemple, vous pouvez créer des discrétisations pour une colonne d'âge avec des tranches d'âge discrétisées sur Pre-Teen, Young Adult, Adult ou Senior selon vos exigences personnalisées.
Convertir en date Remplace le type de données de la colonne par une date et supprime toutes les valeurs qui ne sont pas des dates de la colonne.
Convertir en nombre Remplace le type de données de la colonne par un nombre, ce qui supprime toutes les valeurs qui ne sont pas des nombres de la colonne.
Convertir en texte Remplace le type de données d'une colonne par du texte.
Créer Crée une colonne basée sur une fonction.
Dupliquer Crée une colonne avec le même contenu que la colonne sélectionnée.
Modifier Modifie la colonne. Par exemple, vous pouvez modifier le nom, sélectionner une autre colonne ou mettre à jour les fonctions.
Groupe, Groupe conditionnel Sélectionnez Groupe pour créer vos propres groupes personnalisés. Par exemple, vous pouvez regrouper les Etats et les régions personnalisées, et catégoriser les montants en dollars dans des groupes en indiquant s'il s'agit de montants faibles, moyens et élevés.
Masquer Masque la colonne dans le panneau de données et dans les visualisations. Si vous voulez voir les colonnes masquées, cliquez sur Colonnes masquées (icône en forme de fantôme) dans le pied de page. Vous pouvez alors annuler le masquage de certaines colonnes ou de toutes les colonnes masquées à la fois.
Journaliser Calcule le logarithme népérien d'une expression.
Minuscules Met à jour le contenu d'une colonne avec des valeurs uniquement en lettres minuscules.
Puissance Elève la valeur d'une colonne à la puissance que vous indiquez. La puissance par défaut est de 2.
Renommer Permet de modifier le nom d'une colonne.
Remplacer Remplace du texte spécifique dans la colonne sélectionnée par une autre valeur que vous indiquez. Par exemple, vous pouvez remplacer toutes les instances de Mister par Mr. dans la colonne.
Majuscule en début de phrase Met à jour le contenu d'une colonne pour faire en sorte que la première lettre du premier mot d'une phrase soit une majuscule.
Fractionner Divise une valeur de colonne spécifique en plusieurs parties. Par exemple, vous pouvez séparer en deux une colonne Name, pour le prénom et le nom.
Racine carrée Crée une colonne remplie avec la racine carrée de la valeur de la colonne sélectionnée.
Majuscules Met à jour le contenu d'une colonne avec des valeurs uniquement en lettres majuscules.

Profils de données et recommandations sémantiques

Lorsque vous créez un ensemble de données, Oracle Analytics effectue un profilage de niveau colonne afin de générer un ensemble de recommandations sémantiques pour réparer ou enrichir vos données. Lorsque vous créez des classeurs, vous pouvez également inclure des améliorations des connaissances dans vos visualisations en les ajoutant à partir du panneau de données.

Ces recommandations reposent sur le système qui détecte automatiquement un type sémantique spécifique lors de l'étape de profilage. Par exemple, les ensembles de données reposant sur des domaines locaux sont profilés à l'aide d'un simple échantillon N premiers.

Il existe différentes catégories de types sémantiques comme les emplacements géographiques identifiés par nom de ville, les modèles reconnaissables tels que ceux trouvés avec des numéros de carte de crédit, des adresses électroniques ou des numéros de sécurité sociale, les dates et les modèles récurrents. Vous pouvez également créer vos propres types sémantiques personnalisés.

Catégories de type sémantique

Le profilage est appliqué à différents types sémantiques.

Les catégories de type sémantique sont analysées pour identifier les éléments suivants :

  • Emplacements géographiques tels que des noms de ville.
  • Modèles tels que ceux trouvés avec des numéros de carte de crédit ou des adresses électroniques.
  • Modèles récurrents tels que des données sous forme de phrases comportant des tirets.

Recommandations de type sémantique

Les recommandations de réparation, d'amélioration ou d'enrichissement de l'ensemble de données sont déterminées par le type de données.

Exemples de recommandations de type sémantique :

  • Enrichissements : ajout d'une nouvelle colonne aux données qui correspond à un type détecté spécifique, tel qu'un emplacement géographique. Par exemple, l'ajout de données relatives à la population d'une ville.
  • Concaténations de colonnes : lorsque deux colonnes sont détectées dans l'ensemble de données, l'une contenant les prénoms et l'autre contenant les noms de famille, le système recommande de concaténer les noms et prénoms dans une seule colonne. Par exemple, une colonne first_name_last_name.
  • Extractions sémantiques : lorsqu'un type sémantique est composé de sous-types tels qu'un numéro us_phone incluant l'indicatif régional, le système recommande d'extraire le sous-type dans sa propre colonne.
  • Extraction de parties : lorsqu'un séparateur de modèle générique est détecté dans les données, le système recommande d'extraire les parties de ce modèle. Par exemple, si le système détecte des tirets à répétition dans les données, il recommande d'extraire les parties dans des colonnes distinctes pour rendre les données potentiellement plus utiles pour l'analyse.
  • Extractions de dates : lorsque des données sont détectées, le système recommande d'extraire les parties de la date pouvant améliorer l'analyse des données. Par exemple, vous pouvez extraire le jour de la semaine à partir d'une facture ou d'une date d'achat.
  • Suppression/masque/brouillage dynamique complet et partiel : lorsque des champs confidentiels sont détectés tels qu'un numéro de carte de crédit, le système recommande de masquer complètement ou partiellement la colonne, voire de l'enlever.

Types sémantiques reconnus selon le modèle

Les types sémantiques sont identifiés selon les modèles trouvés dans les données.

Les recommandations sont fournies pour les types sémantiques suivants :

  • Dates (dans plus de 30 formats)
  • Numéros de sécurité sociale (NSS), Etats-Unis
  • Numéros de carte de crédit
  • Attributs de carte de crédit (CVV et date d'expiration)
  • Adresses électroniques
  • Numéros de téléphone en Amérique du Nord
  • Adresses américaines

Types sémantiques selon une référence

La reconnaissance des types sémantiques est déterminée par les informations de référence chargées fournies avec le service.

Des recommandations reposant sur les références sont fournies pour les types sémantiques suivants :

  • Noms de pays
  • Codes pays
  • Noms d'état (provinces)
  • Codes d'Etat
  • Noms de comté (juridictions)
  • Noms de ville (noms localisés)
  • Codes postaux

Enrichissements recommandés

Les enrichissements recommandés reposent sur les types sémantiques.

Ils sont déterminés en fonction de la hiérarchie des emplacements géographiques :

  • Pays
  • Province (Etat)
  • Juridiction (comté)
  • Longitude
  • Latitude
  • Population
  • Elévation (en mètres)
  • Fuseau horaire
  • Codes pays ISO
  • Federal Information Processing Series (FIPS)
  • Nom de pays
  • Capitale
  • Continent
  • ID GeoNames
  • Langues parlées
  • Indicatif téléphonique du pays
  • Format de code postal
  • Modèle de code postal
  • Indicatif téléphonique du pays
  • Nom de devise
  • Abréviation de devise
  • Domaine de niveau supérieur géographique (GeoLTD)
  • Kilomètre carré

Seuils requis

Le processus de profilage utilise des seuils spécifiques pour prendre des décisions concernant des types sémantiques donnés.

En règle générale, 85 % des valeurs de données dans la colonne doivent répondre aux critères pour un type sémantique unique afin que le système détermine la classification. Par conséquent, une colonne pouvant contenir 70 % de prénoms et 30 % d'éléments "autres" ne répond pas aux exigences de seuil. Aucune recommandation n'est alors formulée.

Recommandations de la base de connaissances personnalisée

Utilisez les recommandations de la base de connaissances personnalisée afin d'enrichir la base de connaissances système Oracle Analytics. La base de connaissances personnalisée permet au profileur sémantique Oracle Analytics d'identifier plus de types sémantiques propres au métier et d'émettre des recommandations d'enrichissement plus pertinentes et contrôlées. Par exemple, vous pouvez ajouter une référence de base de connaissances personnalisée qui classe les médicaments sur ordonnance dans les catégories de la pharmacopée des États-Unis (USP) Analgésiques ou Opiacés.

Icône de tutoriel Tutoriel

Vous pouvez utiliser des fichiers sémantiques existants, tels que des fichiers d'analyse sémantique non supervisée, ou créer vos propres fichiers sémantiques. Demandez à votre administrateur de télécharger les fichiers de base de connaissances personnalisée dans Oracle Analytics. Lorsque vous enrichissez des ensembles de données, Oracle Analytics présente des recommandations d'enrichissement fondées sur ces données sémantiques. Lorsque vous créez des classeurs, vous pouvez également inclure des améliorations des connaissances dans vos visualisations en les ajoutant à partir du panneau de données.

Création de vos propres fichiers de base de connaissances personnalisée

Lorsque vous créez vos propres fichiers sémantiques, veillez à respecter les consignes suivantes :

  • Créez un fichier de données au format CSV ou Microsoft Excel (XLSX). La taille maximale des fichiers que vous pouvez télécharger est de 250 Mo.
  • Indiquez dans la première colonne la clé utilisée par Oracle Analytics pour profiler les données.
  • Remplissez les autres colonnes avec les valeurs d'enrichissement.

Demandez à votre administrateur de télécharger votre fichier de base de connaissances personnalisée dans Oracle Analytics.

Chaînes de format personnalisé générales

Vous pouvez utiliser les chaînes de format personnalisé générales pour créer des formats de date ou d'heure personnalisés.

Le tableau présente les chaînes de format personnalisé générales et les résultats qu'elles affichent. Elles permettent d'afficher les champs de date et d'heure dans l'environnement local de l'utilisateur.

Chaîne de format générale Résultat

[FMT:dateShort]

Passe la date au format de date abrégé de l'environnement local. Vous pouvez également saisir [FMT:date].

[FMT:dateLong]

Passe la date au format de date long de l'environnement local.

[FMT:dateInput]

Passe la date au format d'entrée approprié pour le système.

[FMT:time]

Passe l'heure au format d'heure de l'environnement local.

[FMT:timeHourMin]

Passe l'heure au format d'heure de l'environnement local, mais sans les secondes.

[FMT:timeInput]

Passe l'heure au format d'entrée approprié pour le système.

[FMT:timeInputHourMin]

Passe l'heure au format d'entrée approprié pour le système, mais sans les secondes.

[FMT:timeStampShort]

Equivaut à saisir [FMT:dateShort] [FMT:time]. Passe la date au format de date abrégé de l'environnement local et l'heure au format d'heure de l'environnement local. Vous pouvez également saisir [FMT:timeStamp].

[FMT:timeStampLong]

Equivaut à saisir [FMT:dateLong] [FMT:time]. Passe la date au format de date long de l'environnement local et l'heure au format d'heure de l'environnement local.

[FMT:timeStampInput]

Equivaut à [FMT:dateInput] [FMT:timeInput]. Passe la date et l'heure au format d'entrée approprié pour le système.

[FMT:timeHour]

Passe uniquement le champ des heures au format de l'environnement local, par exemple, 8 PM.

YY ou yy

Affiche les deux derniers chiffres de l'année (par exemple, 11 pour 2011).

YYY ou yyy

Affiche les trois derniers chiffres de l'année (par exemple, 011 pour 2011).

YYYY ou yyyy

Affiche les quatre chiffres de l'année (par exemple, 2011).

M

Affiche la forme numérique du mois, par exemple 2 pour février.

MM

Affiche la forme numérique du mois, complétée à gauche par un zéro pour les mois à un chiffre, par exemple 02 pour février.

MMM

Affiche le nom abrégé du mois dans l'environnement local de l'utilisateur, par exemple Fév.

MMMM

Affiche le nom complet du mois dans l'environnement local de l'utilisateur, par exemple Février.

D ou d

Affiche le jour du mois, par exemple 1.

DD ou dd

Affiche le jour du mois, complété à gauche par un zéro pour les jours à un chiffre, par exemple 01.

DDD ou ddd

Affiche le nom abrégé du jour de la semaine dans l'environnement local de l'utilisateur, par exemple Jeu pour jeudi.

DDDD ou dddd

Affiche le nom complet du jour de la semaine dans l'environnement local de l'utilisateur, par exemple Jeudi.

DDDDD ou ddddd

Affiche la première lettre du nom du jour de la semaine dans l'environnement local de l'utilisateur, par exemple J pour jeudi.

r

Affiche le jour de l'année, par exemple 1.

rr

Affiche le jour de l'année, complété à gauche par un zéro pour les jours de l'année à un chiffre, par exemple 01.

rrr

Affiche le jour de l'année, complété à gauche par un zéro pour les jours de l'année à un chiffre, par exemple 001.

w

Affiche la semaine de l'année, par exemple 1.

ww

Affiche la semaine de l'année, complétée à gauche par un zéro pour les semaines à un chiffre, par exemple 01.

q

Affiche le trimestre de l'année, par exemple 4.

h

Affiche l'heure au format 12 heures, par exemple 2.

H

Affiche l'heure au format 24 heures, par exemple 23.

hh

Affiche l'heure au format 12 heures, complétée à gauche par un zéro pour les heures à un chiffre, par exemple 01.

HH

Affiche l'heure au format 24 heures, complétée à gauche par un zéro pour les heures à un chiffre, par exemple 23.

m

Affiche les minutes, par exemple 7.

mm

Affiche les minutes, complétées à gauche par un zéro pour les minutes à un chiffre, par exemple 07.

s

Affiche les secondes, par exemple 2.

Vous pouvez également inclure des valeurs décimales dans la chaîne, par exemple s.# ou s.00 (où # est un chiffre facultatif et 0 un chiffre obligatoire).

ss

Affiche les secondes, complétées à gauche par un zéro pour les secondes à un chiffre, par exemple 02.

Vous pouvez également inclure des valeurs décimales dans la chaîne, par exemple ss.# ou ss.00 (où # est un chiffre facultatif et 0 un chiffre obligatoire).

S

Affiche les millisecondes, par exemple 2.

SS

Affiche les millisecondes, complétées à gauche par un zéro pour les millisecondes à un chiffre, par exemple 02.

SSS

Affiche les millisecondes, complétées à gauche par un zéro pour les millisecondes à un chiffre, par exemple 002.

tt

Affiche l'abréviation d'ante meridiem ou de post meridiem dans l'environnement local de l'utilisateur, par exemple pm.

gg

Affiche l'époque dans l'environnement local de l'utilisateur.