Fonctions d'analyse de base de données

Les fonctions d'analyse de base de données vous permettent d'effectuer une analyse avancée et une analyse Data Mining (par exemple : détection des anomalies, création de clusters de données, échantillonnage des données et analyse d'affinité). Les fonctions d'analyse sont disponibles lorsque vous vous connectez à une base de données Oracle ou à Oracle Autonomous Data Warehouse.

Icône de tutoriel Sprint LiveLabs

Pour afficher l'étape Analyses de base de données dans l'éditeur de flux de données, vous devez vous connecter à une base de données Oracle ou à Oracle Autonomous Data Warehouse.

Types de fonction Description

Détection dynamique des anomalies

Détectez les anomalies dans vos données d'entrée sans modèle prédéfini. Par exemple, vous voulez mettre en évidence des transactions financières inhabituelles.

Lorsque vous déployez cette fonction avec des ensembles de données volumineux, configurez les colonnes de partition afin de maximiser les performances.

Création dynamique de cluster

Créez des clusters sur vos données d'entrée sans modèle prédéfini. Par exemple, vous voulez caractériser et repérer des segments de clientèle à des fins marketing.

Lorsque vous déployez cette fonction avec des ensembles de données volumineux, configurez les colonnes de partition afin de maximiser les performances.

Ensemble d'éléments fréquents

Découvrez les relations entre vos données en identifiant les ensembles d'éléments qui apparaissent souvent ensemble. La technique Data Mining est également connue sous le nom d'apprentissage par règles d'association, d'analyse d'affinité ou, dans le secteur de la vente au détail, d'analyse du panier d'achat. Si vous utilisez l'ensemble d'éléments fréquents comme outil d'analyse du panier d'achat, vous pourrez observer que les clients qui achètent du shampooing achètent également de l'après-shampooing.

Cette opération est gourmande en ressources et ses performances dépendent de plusieurs facteurs, comme le volume d'ensemble de données d'entrée, la cardinalité de l'ID de transaction et la cardinalité de la colonne de valeur d'élément. Pour éviter toute potentielle dégradation des performances sur la base de données, essayez avec une valeur supérieure de pourcentage minimal de prise en charge (0,25 par défaut) et réduisez-la progressivement pour inclure plus d'ensembles d'éléments dans la sortie.

Echantillonnage de données

Sélectionne un pourcentage d'échantillonnage aléatoire des données dans une table. Spécifiez simplement le pourcentage de données à échantillonner. Par exemple, vous pouvez chercher à échantillonner de façon aléatoire 10 % des données.

Segmentation en sèmes du texte

Analysez des données textuelles en les divisant en mots distincts et en comptant les occurrences de chaque mot. Lorsque vous exécutez le flux de données, Oracle Analytics crée une table dans la base de données nommée DR$IndexName$I, qui contient le texte du sème et les détails associés au nombre de sèmes. Utilisez la table DR$IndexName$I pour créer un ensemble de données.

  • Sous Sorties, utilisez l'option Créer en regard de chaque champ pour sélectionner les colonnes à indexer.

  • Sous Paramètres, puis Colonne de texte, cliquez sur Sélectionner une colonne pour sélectionner le champ à diviser en mots séparés. Utilisez les options Colonne de référence <number> pour inclure des colonnes dans l'ensemble de données de sortie.

La connexion de base de données utilisée pour le flux de données requiert des privilèges de base de données spéciaux. Vérifiez les points suivants auprès de l'administrateur :
  • Votre compte de base de données est doté du privilège grant EXECUTE on CTXSYS.CTX_DDL to schema name.
  • Vous employez une connexion Oracle Analytics avec le même nom utilisateur que le schéma sur lequel la table source existe. Il est recommandé d'éviter les problèmes de privilège d'accès pendant l'exécution du flux de données.
  • La colonne de table de base de données que vous analysez ne comporte aucun index CONTEXT existant. S'il existe un index CONTEXT existant sur la table de base de données que vous analysez, enlevez cet index avant d'exécuter le flux de données de segmentation en sèmes du texte.

Série temporelle

La série temporelle est une technique de Data Mining qui prévoit la valeur cible en fonction d'un historique connu des valeurs cible. L'entrée d'une analyse des séries temporelles est une séquence de valeurs cible. L'analyse fournit des estimations de la valeur cible pour chaque période d'une fenêtre de temps pouvant inclure jusqu'à 30 périodes postérieures aux données historiques.

Le modèle calcule également diverses statistiques qui mesurent la qualité de l'ajustement sur les données historiques. Ces statistiques sont disponibles en tant qu'ensemble de données de sortie supplémentaire via la définition d'un paramètre.

Remarque : l'algorithme de série temporelle est uniquement disponible à partir de la base de données Oracle version 18c ou supérieure.

Application d'une permutation colonnes vers lignes aux données

Transposez les données stockées dans des colonnes au format lignes. Par exemple, vous pouvez chercher à transposer différentes colonnes contenant une valeur de mesure de revenus pour chaque année en colonne de revenus unique avec plusieurs lignes de valeur pour la dimension Année. Sélectionnez simplement les colonnes de mesure à transposer et indiquez le nom de la nouvelle colonne. Vous obtenez un nouvel ensemble de données avec moins de colonnes et plus de lignes.

Remarque : pour utiliser les fonctions d'analyse, assurez-vous que l'administrateur les a activées (via la console, Paramètres système, Performances et compatibilité, Activation du noeud d'analyses de base de données dans les flux de données).