Fonctions d'analyse de base de données

Les fonctions d'analyse de base de données vous permettent d'effectuer une analyse avancée et une analyse d'exploration de données, par exemple, détection des anomalies, regroupement des données, échantillonnage des données et analyse d'affinité. Les fonctions d'analyse sont disponibles lorsque vous vous connectez à une base de données Oracle ou Oracle Autonomous Data Warehouse.

Icône de tutoriel Sprint LiveLabs

Pour afficher l'étape Analyse de la base de données dans l'éditeur de flux de données, vous devez vous connecter à une base de données Oracle ou à Oracle Autonomous Data Warehouse.

Types de fonction Description

Détection d'anomalie dynamique

Détectez des anomalies dans vos données d'entrée sans modèle prédéfini. Par exemple, vous pourriez vouloir mettre en évidence des transactions financières inhabituelles.

Lorsque vous déployez cette fonction avec de larges jeux de données, configurez les colonnes de partition pour maximiser la performance.

Regroupement dynamique

Regroupez vos données d'entrée sans modèle prédéfini. Par exemple, vous pourriez vouloir caractériser et détecter des segments de clients à des fins de marketing.

Lorsque vous déployez cette fonction avec de larges jeux de données, configurez les colonnes de partition pour maximiser la performance.

Jeu d'éléments fréquents

Détectez les relations des données en identifiant les jeux d'éléments qui apparaissent souvent ensemble. Cette technique d'exploration de données est également connue comme apprentissage des règles d'association, analyse d'affinité ou, dans le secteur de détail, comme analyse de panier d'achat. Si vous utilisez un jeu d'éléments fréquent comme outil d'analyse du panier d'achat, il est possible que vous découvriez que les clients qui achètent du shampoing achètent également du conditionneur.

Cette opération utilise de nombreuses ressources et sa performance dépend de plusieurs facteurs, comme le volume du jeu de données d'entrée, la cardinalité de la colonne d'ID transaction et celle de la colonne de valeur d'élément. Pour éviter une dégradation potentielle de la performance de la base de données, essayez une valeur supérieure du pourcentage minimal de prise en charge (la valeur par défaut est 0,25) et diminuez-la graduellement pour inclure des jeux d'éléments plus nombreux dans la sortie.

Échantillonnage des données

Sélectionne un pourcentage de données-échantillon aléatoire dans une table. Il vous suffit de spécifier le pourcentage des données que vous voulez échantillonner. Par exemple, vous pourriez vouloir échantillonner dix pour cent de vos données de façon aléatoire.

Segmentation de texte

Analysez les données textuelles en les décomposant en mots distincts et en comptant les occurrences de chaque mot. Lorsque vous exécutez un flux de données, Oracle Analytics crée dans la base de données une table nommée DR$IndexName$I, qui contient le texte du jeton et les détails ayant trait au nombre de jetons. Utilisez la table DR$IndexName$I pour créer un jeu de données.

  • Sous Sorties, utilisez l'option Créer à côté de chaque champ pour sélectionner les colonnes à indexer.

  • Sous Paramètres, puis sous Colonne de texte, cliquez sur Sélectionner une colonne pour sélectionner le champ que vous voulez décomposer en mots distincts. Utilisez les options Colonne de référence<numéro> pour inclure une ou plusieurs colonnes dans le jeu de données de sortie. Utilisez l'option Utiliser un analyseur lexical de langue spécial pour sélectionner des langues particulières telles que le chinois, le danois, le néerlandais, l'anglais, le finnois, l'allemand, le norvégien, le japonais, le coréen et le suédois pour des analyseurs lexicaux spéciaux. Voir Documentation sur la base de données Oracle pour plus de détails sur les langues prises en charge.

La connexion à la base de données que vous utilisez pour le flux de données requiert des privilèges spéciaux pour la base de données. Vérifiez auprès de l'administrateur les points suivants :
  • Votre compte de base de données indique grant EXECUTE on CTXSYS.CTX_DDL to schema name.
  • Vous utilisez une connexion Oracle Analytics ayant le même nom d'utilisateur que le schéma dans lequel la table source existe. Les meilleures pratiques consistent à éviter les problèmes de privilège d'accès lors de l'exécution du flux de données.
  • La colonne de la table de base de données que vous analysez ne comprend pas d'index CONTEXT existant. Si la table de base de données que vous analysez en a un, supprimez-le avant d'exécuter le flux de données de segmentation de texte.

Séries chronologiques

La fonction Séries chronologiques est une technique d'exploration de données qui permet de prévoir une valeur cible en fonction d'un historique connu de valeurs cibles. Les données entrées pour l'analyse des séries chronologiques sont une séquence de valeurs cibles. Elles fournissent des estimations de la valeur cible pour chaque période d'une fenêtre de temps qui peut compter jusqu'à 30 périodes au-delà des données historiques.

Le modèle calcule également diverses statistiques qui mesurent la qualité de l'ajustement aux données historiques. Ces statistiques sont disponibles en tant que jeu de données de sortie supplémentaire au moyen d'un réglage de paramètre.

Note : L'algorithme des séries chronologiques est disponible uniquement à partir d'Oracle Database version 18c.

Annulation du pivotement des données

Transposez les données stockées dans des colonnes dans le format de rangée. Par exemple, vous pourriez vouloir transposer plusieurs colonnes affichant une valeur de mesure de revenus pour chaque année en une seule colonne de revenus comprenant plusieurs rangées de valeurs pour la dimension Année. Il vous suffit de sélectionner les colonnes de mesure à transposer et de spécifier un nom pour la nouvelle colonne. Vous obtenez un nouveau jeu de données avec moins de colonnes et plus de rangées.

Note : Pour utiliser les fonctions d'analyse, assurez-vous que l'administrateur a activé les fonctions analytiques (voir Console, Paramètres de système avancés, Performance et compatibilité, Activer le noeud d'analyse de la base de données dans les flux de données).