Création et utilisation de modèles prédictifs Oracle Analytics

Les modèles prédictifs Oracle Analytics utilisent plusieurs algorithmes Oracle Machine Learning imbriqués pour explorer vos ensembles de données, prévoir une valeur cible et identifier les classes des enregistrements. Utilisez l'éditeur de flux de données pour créer et entraîner des modèles prédictifs, puis les appliquer à vos données.

Que sont les modèles prédictifs Oracle Analytics ?

Un modèle prédictif Oracle Analytics applique un algorithme spécifique à un ensemble de données pour prévoir des valeurs ou des classes, ou pour identifier des groupes dans les données.

Vous pouvez également utiliser des modèles d'apprentissage automatique Oracle pour prévoir les données.

Oracle Analytics inclut des algorithmes qui vont vous aider à entraîner des modèles prédictifs dans différents buts. Les arborescences de classification et de régression (CART), la régression logistique et la classification par partitionnement sont des exemples d'algorithme.

Utilisez l'éditeur de flux de données pour commencer par entraîner le modèle sur un ensemble de données d'entraînement. Une fois que le modèle prédictif a été entraîné, vous pouvez l'appliquer aux ensembles de données sur lesquels effectuer des prévisions.

Vous pouvez mettre un modèle entraîné à la disposition des autres utilisateurs pour qu'ils l'appliquent à leurs données afin de prévoir des valeurs. Dans certains cas, des utilisateurs entraînent les modèles, mais d'autres utilisateurs les appliquent.

Remarque :

Si vous avez des doutes sur ce que vous devez rechercher dans vos données, vous pouvez commencer par utiliser la fonctionnalité Expliquer, qui s'appuie sur l'apprentissage automatique pour identifier des tendances. Vous pouvez ensuite utiliser l'éditeur de flux de données pour créer et entraîner des modèles prédictifs pour explorer les tendances identifiées par la fonctionnalité Expliquer.
Utilisez l'éditeur de flux de données pour entraîner un modèle :
  • D'abord, créez un flux de données et ajoutez l'ensemble de données à utiliser pour entraîner le modèle. Cet ensemble de données d'entraînement contient les données sur lesquelles effectuer des prévisions (par exemple, une valeur telle que les ventes ou l'ancienneté, ou une variable telle que la catégorie de risque de crédit).
  • Si nécessaire, vous pouvez utiliser l'éditeur de flux de données pour modifier l'ensemble de données en ajoutant des colonnes, en sélectionnant des colonnes, en procédant à des jointures, etc.
  • Une fois que vous avez confirmé que les données sont celles sur lesquelles entraîner le modèle, ajoutez une étape d'entraînement au flux de données et choisissez un algorithme de classification (binaire ou multi-classification), de régression ou de cluster pour entraîner un modèle. Nommez le modèle obtenu, enregistrez le flux de données, puis exécutez-le pour entraîner et créer le modèle.
  • Examinez les propriétés des objets d'apprentissage automatique pour déterminer la qualité du modèle. Si nécessaire, répétez le processus d'entraînement jusqu'à ce que le modèle atteigne la qualité souhaitée.

Utilisez le modèle finalisé pour évaluer des données inconnues, ou non libellées, afin de générer un ensemble de données dans un flux de données ou d'ajouter une visualisation de prévision à un classeur.

Exemple

Supposons que vous voulez créer et entraîner un modèle de multi-classification pour prévoir les patients qui présentent un risque élevé de développer une maladie cardiaque.

  1. Fournissez un ensemble de données d'entraînement contenant des attributs sur chaque patient, comme l'âge, le genre et les antécédents de douleur à la poitrine, et des mesures telles que la pression artérielle, la glycémie à jeun, le cholestérol et la fréquence cardiaque maximale. L'ensemble de données d'entraînement contient également une colonne nommée "Probabilité" présentant l'une des valeurs suivantes : aucune, faible, intermédiaire, élevée, certaine.
  2. Choisissez l'algorithme CART (arborescence de décision), car il ignore les colonnes redondantes sans valeur ajoutée pour les prévisions, et il identifie et utilise uniquement les colonnes utiles pour prévoir la cible. Lorsque vous ajoutez l'algorithme au flux de données, vous choisissez la colonne Probabilité pour entraîner le modèle. L'algorithme utilise l'apprentissage automatique pour choisir les colonnes de facteur dont il a besoin pour effectuer et fournir les prévisions et les ensembles de données associés.
  3. Inspectez les résultats et affinez le modèle d'entraînement, puis appliquez le modèle à un ensemble de données plus volumineux pour prévoir les patients présentant une forte probabilité d'avoir ou de développer une maladie cardiaque.

Choix d'un algorithme de modèle prédictif

Oracle Analytics fournit des algorithmes pour tous vos besoins de modélisation d'apprentissage automatique : prévision numérique, multi-classification, classification binaire et création de cluster.

La fonctionnalité d'apprentissage automatique d'Oracle s'adresse aux analystes de données experts qui savent ce qu'ils recherchent dans leurs données, maîtrisent la pratique de l'analyse prédictive et comprennent les différences entre les algorithmes.

Remarque :

Si vous utilisez des données provenant d'Oracle Autonomous Data Warehouse, vous pouvez employer la fonction AutoML afin d'entraîner rapidement et facilement un modèle prédictif sans nécessiter de compétences en apprentissage automatique. Reportez-vous à Entraînement d'un modèle prédictif à l'aide d'AutoML dans Autonomous Data Warehouse.

En général, les utilisateurs veulent créer plusieurs modèles de prévision, les comparer, puis choisir celui qui est le plus susceptible de fournir des résultats répondant à leurs critères et à leurs exigences. Ces critères peuvent varier. Par exemple, les utilisateurs vont choisir parfois les modèles avec la meilleure exactitude globale, parfois ceux avec le moins d'erreurs de type I (faux positifs) et de type II (faux négatifs), parfois ceux qui renvoient des résultats le plus rapidement et avec un niveau d'exactitude acceptable même si les résultats ne sont pas optimaux.

Oracle Analytics contient plusieurs algorithmes d'apprentissage automatique pour chaque type de prévision ou de classification. Avec ces algorithmes, les utilisateurs peuvent créer plusieurs modèles, appliquer différents paramètres affinés, ou utiliser divers ensembles de données d'entraînement d'entrée et choisir le meilleur modèle. L'utilisateur va choisir le meilleur modèle en comparant et en pondérant les modèles par rapport à ses propres critères. Pour déterminer le meilleur modèle, les utilisateurs peuvent appliquer le modèle et visualiser les résultats des calculs afin de déterminer l'exactitude, ou ils peuvent ouvrir et explorer les ensembles de données associés employés par Oracle Analytics pour générer le modèle.

Consultez le tableau suivant pour en savoir plus sur les algorithmes fournis :

Nom Type Catégorie Fonction Description
CART

Classification

Régression

Classificateur binaire

Multi-classificateur

Numérique

- Utilise des arborescences de décision pour prévoir des valeurs discrètes et continues.

A utiliser avec des ensembles de données volumineux.

Régression linéaire Elastic Net Régression Numérique ElasticNet Modèle de régression avancé. Fournit des informations supplémentaires (régularisation), effectue la sélection des variables et effectue des combinaisons linéaires. Pénalités des méthodes de régression Lasso et Ridge.

A utiliser avec un grand nombre d'attributs pour éviter la colinéarité (où plusieurs attributs sont parfaitement corrélés) et le surajustement.

Hiérarchique Création de cluster Création de cluster AgglomerativeClustering Crée une hiérarchie de création de cluster à l'aide du mode ascendant (chaque observation constitue son propre cluster et est ensuite fusionnée) ou descendant (toutes les observations forment un seul cluster de départ) et de mesures de distance.

A utiliser lorsque l'ensemble de données n'est pas volumineux et que le nombre de clusters n'est pas connu à l'avance.

Classification par partitionnement Création de cluster Création de cluster Classification par partitionnement Segmente de façon itérative les enregistrements en clusters de partitionnement où chaque observation appartient au cluster dont la moyenne est la plus proche.

A utiliser pour les colonnes de mesure de création de cluster et avec un nombre attendu de clusters nécessaires. Fonctionne bien avec les ensembles de données volumineux. Les résultats sont différents à chaque exécution.

Régression linéaire Régression Numérique Moindres carrés standard

Ridge

Lasso

Approche linéaire d'une relation de modélisation entre une variable cible et d'autres attributs dans l'ensemble de données.

A utiliser pour prévoir les valeurs numériques lorsque les attributs ne sont pas parfaitement corrélés.

Régression logistique Régression Classificateur binaire LogisticRegressionCV A utiliser pour prévoir la valeur d'une variable dépendante catégorique. La variable dépendante est une variable binaire contenant les données codées avec 1 ou 0.
Naive Bayes Classification

Classificateur binaire

Multi-classificateur

GaussianNB Classification probabiliste basée sur le théorème de Bayes qui part du principe qu'aucune dépendance n'existe entre les caractéristiques.

A utiliser en présence d'un grand nombre de dimensions d'entrée.

Réseau neuronal Classification

Classificateur binaire

Multi-classificateur

MLPClassifier Algorithme de classification itératif qui apprend en comparant son résultat de classification à la valeur réelle et le renvoie au réseau afin que l'algorithme soit modifié pour les itérations à venir.

A utiliser pour l'analyse de texte.

Forêt aléatoire Classification

Classificateur binaire

Multi-classificateur

Numérique

- Méthode d'apprentissage d'ensemble qui construit plusieurs arborescences de décision et génère la valeur qui représente collectivement toutes les arborescences de décision.

A utiliser pour prévoir des variables numériques et catégoriques.

SVM Classification

Classificateur binaire

Multi-classificateur

LinearSVC, SVC Classe les enregistrements en les mappant dans l'espace et en construisant des hyperplans utilisables pour la classification. Les nouveaux enregistrements (données d'évaluation) sont mappés dans l'espace et la prévision de leur catégorie est effectuée, selon le côté de l'hyperplan sur lequel ils se trouvent.

Entraînement d'un modèle prédictif à l'aide d'AutoML dans Oracle Autonomous Data Warehouse

Lorsque vous utilisez des données issues d'Oracle Autonomous Data Warehouse, vous pouvez vous servir de sa fonction AutoML à des fins de recommandation et d'entraînement d'un modèle prédictif. AutoML analyse les données, calcule le meilleur algorithme à utiliser et inscrit un modèle de prévision dans Oracle Analytics pour que vous puissiez obtenir des prévisions sur vos données.

L'utilisation d'AutoML signifie qu'Oracle Autonomous Data Warehouse s'occupe des tâches complexes pour vous, afin que vous puissiez déployer un modèle de prévision sans compétences en apprentissage automatique ou en intelligence artificielle. Le modèle de prévision généré est enregistré dans la zone Modèles de la page Machine Learning. Pour prévoir les données sur la base du nouveau modèle, créez un flux de données et utilisez l'étape Appliquer un modèle.
Avant de commencer :
  • Créez un ensemble de données basé sur les données d'Oracle Autonomous Data Warehouse sur lesquelles vous voulez effectuer les prévisions. Par exemple, vous disposez peut-être de données concernant les départs d'employés, avec un champ nommé ATTRITION indiquant 'Yes' ou 'No' pour les départs.
  • Assurez-vous que l'utilisateur de base de données spécifié dans la connexion Oracle Analytics à Oracle Autonomous Data Warehouse possède le rôle OML_Developer et n'est pas un superutilisateur 'admin'. Sinon, toute tentative d'enregistrement ou d'exécution entraîne l'échec du flux de données.
  1. Sur la page d'accueil, cliquez sur Créer, puis sur Flux de données.
  2. Dans Ajouter un ensemble de données, sélectionnez l'ensemble de données basé sur Oracle Autonomous Data Warehouse contenant les données à analyser.
  3. Cliquez sur Ajouter une étape, puis sur AutoML.
  4. Pour Cible, cliquez sur Sélectionner une colonne, puis sélectionnez la colonne de données contenant la valeur que vous tentez de prévoir.
    Par exemple, pour prévoir les départs d'employés, vous pouvez sélectionner un champ nommé ATTRITION indiquant 'TRUE' ou 'FALSE' selon que les employés ont quitté ou non une organisation.

  5. Acceptez les suggestions d'Oracle Analytics pour Type de tâche et Mesure de classement de modèle, ou sélectionnez un autre algorithme.
  6. Cliquez sur Enregistrer le modèle et indiquez le nom du modèle de prévision généré.
  7. Cliquez sur Enregistrer et indiquez le nom du flux de données.
  8. Cliquez sur Exécuter pour analyser les données et générer un modèle prédictif.
  9. Sur la page d'accueil, cliquez sur Naviguer, puis sur Machine Learning, et cliquez avec le bouton droit de la souris sur le modèle généré, puis sélectionnez Inspecter.
Vous pouvez localiser le modèle généré par Oracle Analytics sur la page Apprentissage automatique, dans l'onglet Modèles. Inspectez le modèle pour évaluer sa qualité. Reportez-vous à Evaluation de la qualité d'un modèle prédictif. Vous pouvez également utiliser les ensembles de données associés qui sont générés pour les modèles générés par AutoML. Reportez-vous à Qu'est-ce que les ensembles de données associés d'un modèle prédictif ?.

Création et entraînement d'un modèle prédictif

En fonction du problème à résoudre, l'analyste de données expert choisit un algorithme approprié pour entraîner un modèle prédictif, puis évalue les résultats du modèle.

Icône de tutoriel Sprint LiveLabs

L'obtention d'un modèle exact est un processus itératif, et l'analyse de données expert peut essayer différents modèles, comparer leurs résultats et affiner les paramètres par tâtonnements. Un analyste de données peut utiliser le modèle prédictif exact finalisé pour prévoir les tendances d'autres ensembles de données ou ajouter le modèle aux classeurs.

Remarque :

Si vous utilisez des données provenant d'Oracle Autonomous Data Warehouse, vous pouvez employer la fonction AutoML afin d'entraîner rapidement et facilement un modèle prédictif sans nécessiter de compétences en apprentissage automatique. Reportez-vous à Entraînement d'un modèle prédictif à l'aide d'AutoML dans Autonomous Data Warehouse.

Oracle Analytics fournit des algorithmes pour la prévision numérique, la multi-classification, la classification binaire et la création de cluster.

  1. Sur la page d'accueil, cliquez sur Créer, puis sélectionnez Flux de données.
  2. Sélectionnez l'ensemble de données à utiliser pour entraîner le modèle. Cliquez sur Ajouter.
  3. Dans l'éditeur de flux de données, cliquez sur Ajouter une étape (+).
    Après l'ajout d'un ensemble de données, vous pouvez soit utiliser toutes les colonnes de l'ensemble de données pour élaborer le modèle, soit sélectionner uniquement les colonnes pertinentes. Pour choisir les colonnes pertinentes, vous devez maîtriser l'ensemble de données. Ignorez les colonnes lorsque vous avez la certitude qu'elles n'influeront pas sur le comportement des résultats ou qu'elles contiennent des informations redondantes. Vous pouvez choisir uniquement les colonnes pertinentes en ajoutant l'étape Sélectionner des colonnes. Si vous n'êtes pas certain d'identifier les colonnes pertinentes, utilisez toutes les colonnes.
  4. Sélectionnez l'une des étapes d'entraînement de modèle (par exemple, Entraîner la prévision numérique ou Entraîner le clustering).
  5. Sélectionnez un algorithme et cliquez sur OK.
  6. Si vous utilisez un modèle supervisé (prévision, classification, etc.), cliquez sur Cible et sélectionnez la colonne que vous tentez de prévoir. Par exemple, si vous créez un modèle pour prévoir les revenus d'une personne, sélectionnez la colonne Revenus.
    Si vous utilisez un modèle non supervisé (création de cluster...), aucune colonne cible n'est requise.
  7. Modifiez les paramètres par défaut du modèle afin d'affiner et d'améliorer l'exactitude du résultat prévu. Le modèle utilisé détermine ces paramètres.
  8. Cliquez sur l'étape Enregistrer le modèle et saisissez un nom et une description.
  9. Cliquez sur Enregistrer, saisissez le nom et la description du flux de données, puis cliquez sur OK pour enregistrer le flux de données.
  10. Cliquez sur Exécuter le flux de données pour créer le modèle prédictif en fonction de l'ensemble de données d'entrée et des paramètres de modèle fournis.

Etapes de flux de données pour l'entraînement des modèles d'apprentissage automatique

Oracle Analytics vous permet d'entraîner des modèles d'apprentissage automatique à l'aide d'étapes dans des flux de données. Lorsque vous avez entraîné un modèle d'apprentissage automatique, appliquez-le à vos données à l'aide de l'étape Appliquer un modèle.

Nom de l'étape Description
AutoML (requiert Oracle Autonomous Data Warehouse) Utilisez la fonction AutoML d'Oracle Autonomous Data Warehouse pour la recommandation et l'entraînement d'un modèle prédictif. L'étape AutoML analyse les données, calcule le meilleur algorithme à utiliser et inscrit un modèle de prévision dans Oracle Analytics.
Entraîner le classificateur binaire

Entraîner un modèle Machine Learning pour classer les données dans l'une de deux catégories prédéfinies.

Entraîner le clustering Entraîner un modèle Machine Learning pour séparer des groupes aux caractéristiques similaires et les affecter dans des clusters.
Entraîner le classificateur multiple Entraîner un modèle Machine Learning pour classer les données dans au moins trois catégories prédéfinies.
Entraîner la prévision numérique Entraîner un modèle Machine Learning pour prévoir une valeur numérique en fonction de valeurs de données connues.

Inspection d'un modèle prédictif

Une fois que vous avez créé le modèle prédictif et exécuté le flux de données, vous pouvez examiner les informations sur le modèle afin de déterminer son exactitude. Utilisez ces informations pour ajuster par itération les paramètres du modèle afin d'améliorer son exactitude et de prévoir des résultats plus fiables.

Affichage des détails d'un modèle prédictif

Les informations détaillées d'un modèle prédictif vous aident à comprendre le modèle et à déterminer s'il convient à la prévision de vos données. Les détails du modèle incluent sa classe, son algorithme, ses colonnes d'entrée et ses colonnes de sortie.

  1. Sur la page d'accueil, cliquez sur Navigateur, puis sur Machine Learning.
  2. Cliquez sur l'icône de menu d'un modèle d'entraînement et sélectionnez Inspecter.
  3. Cliquez sur Détails pour afficher les informations du modèle.

Evaluation de la qualité d'un modèle prédictif

Consultez les informations qui vous aideront à déterminer la qualité d'un modèle prédictif. Vous pouvez, par exemple, examiner des mesures de performances d'exactitude telles que l'exactitude du modèle, la précision, le rappel, la valeur F1 et le taux de faux positifs.

Oracle Analytics fournit des mesures similaires quel que soit l'algorithme utilisé pour créer le modèle, ce qui facilite la comparaison de différents modèles. Pendant le processus de création du modèle, l'ensemble de données d'entrée est divisé en deux parties pour entraîner et tester le modèle en fonction du paramètre de pourcentage de partition d'entraînement. Le modèle utilise la partie test de l'ensemble de données pour tester l'exactitude du modèle en cours d'élaboration.
En fonction des résultats de l'onglet Qualité, vous devrez peut-être ajuster les paramètres du modèle et l'entraîner à nouveau.
  1. Sur la page d'accueil, cliquez sur Navigateur, puis sur Machine Learning.
  2. Cliquez sur l'icône de menu d'un modèle d'entraînement et sélectionnez Inspecter.
  3. Cliquez sur l'onglet Qualité pour examiner les mesures de qualité du modèle et évaluer le modèle. Par exemple, consultez le score Exactitude du modèle.

Conseil : cliquez sur Plus afin d'afficher les détails des vues générées pour le modèle.

Qu'est-ce que les ensembles de données associés d'un modèle prédictif ?

Lorsque vous exécutez le flux de données pour créer le modèle d'entraînement du modèle prédictif Oracle Analytics, Oracle Analytics crée un groupe d'ensembles de données associés. Vous pouvez ouvrir et créer des classeurs sur ces ensembles de données pour en savoir plus sur l'exactitude du modèle.

En fonction de l'algorithme que vous choisissez pour le modèle, les ensembles de données associés contiennent des détails sur le modèle : règles de prévision, mesures de performances d'exactitude, matrice de confusion et facteurs clés de prévision. Vous pouvez utiliser ces informations pour affiner le modèle afin d'obtenir de meilleurs résultats, et vous pouvez utiliser les ensembles de données associés pour comparer les modèles et déterminer celui qui est le plus exact.

Par exemple, vous pouvez ouvrir un ensemble de données Facteurs pour déterminer les colonnes ayant une forte influence positive ou négative sur le modèle. En examinant ces colonnes, vous allez constater que certaines ne sont pas traitées comme des variables de modèle car elles ne constituent pas des entrées réalistes ou elles sont trop fines pour la prévision. Utilisez l'éditeur de flux de données pour ouvrir le modèle et, sur la base des informations identifiées, enlevez les colonnes non pertinentes ou trop fines, et régénérez le modèle. Consultez les onglets Qualité et Résultats, et vérifiez si l'exactitude du modèle est meilleure. Poursuivez ce processus jusqu'à ce que vous soyez satisfait de l'exactitude du modèle et que ce dernier soit prêt à évaluer un nouvel ensemble de données.

Différents algorithmes génèrent des ensembles de données associés similaires. Certains paramètres et noms de colonne peuvent changer dans l'ensemble de données en fonction du type d'algorithme, mais la fonctionnalité de l'ensemble de données reste la même. Par exemple, les noms de colonne d'un ensemble de données statistiques peuvent passer de Régression linéaire à Régression logistique, mais l'ensemble de données contient les mesures de performances d'exactitude du modèle.

Ensembles de données associés pour les modèles AutoML

Lorsque vous entraînez un modèle prédictif à l'aide d'AutoML, Oracle Analytics crée des ensembles de données supplémentaires contenant des informations utiles sur le modèle. Le nombre d'ensembles de données créés dépend de l'algorithme du modèle. Par exemple, pour les modèles de classification naïve bayésienne, Oracle Analytics crée un ensemble de données fournissant des informations sur les probabilités conditionnelles. Pour un modèle d'arborescence de décision, l'ensemble de données fournit des informations sur les statistiques de l'arborescence de décision. Lorsque vous inspectez un modèle généré par AutoML à l'aide de l'algorithme du modèle linéaire généralisé, vous voyez des entrées (dotées du préfixe GLM*) pour les ensembles de données propres au modèle contenant des informations sur les métadonnées du modèle.
La description de GUID-1A190D76-82D5-4BEC-82C4-D881CFECA14D-default.png est la suivante
.png

Ensembles de données associés

CARTree

Cet ensemble de données est une représentation tabulaire de CART (Arborescence de décision), calculée pour prévoir les valeurs de colonne cible. Il contient des colonnes qui représentent les conditions et leurs critères dans l'arborescence de décision, une prévision pour chaque groupe et la confiance des prévisions. La visualisation d'arborescence intégrée peut être utilisée pour visualiser cette arborescence.

L'ensemble de données CARTree est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.

Modèle Algorithme
Numérique CART pour la prévision numérique
Classification binaire CART (Arborescence de décision)
Multi-classification CART (Arborescence de décision)

Rapport de classification

Cet ensemble de données est une représentation tabulaire des mesures de performances d'exactitude pour chaque valeur distincte de la colonne cible. Par exemple, si la colonne cible peut contenir les deux valeurs distinctes Oui et Non, cet ensemble de données présente des mesures de performances d'exactitude telles que F1, Précision, Rappel et Prise en charge (nombre de lignes dans l'ensemble de données d'entraînement avec cette valeur) pour chaque valeur distincte de la colonne cible.

L'ensemble de données Classification est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.

Modèle Algorithmes
Classification binaire

Naive Bayes

Réseau neuronal

Machine à vecteurs de support

Multi-classification

Naive Bayes

Réseau neuronal

Machine à vecteurs de support

Matrice de confusion

Cet ensemble de données, également appelé matrice d'erreur, est une mise en page de tableau croisé dynamique. Chaque ligne représente une instance d'une classe prévue, et chaque colonne représente une instance d'une classe réelle. Cette table rapporte le nombre de faux positifs, de faux négatifs, de vrais positifs et de vrais négatifs, permettant de calculer les mesures de performances d'exactitude F1, de précision et de rappel.

L'ensemble de données Matrice de confusion est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.

Modèle Algorithmes
Classification binaire

Régression logistique

CART (Arborescence de décision)

Naive Bayes

Réseau neuronal

Forêt aléatoire

Machine à vecteurs de support

Multi-classification

CART (Arborescence de décision)

Naive Bayes

Réseau neuronal

Forêt aléatoire

Machine à vecteurs de support

Facteurs

Cet ensemble de données fournit des informations sur les colonnes qui déterminent les valeurs de colonne cible. Des régressions linéaires sont utilisées pour identifier ces colonnes. Des valeurs de coefficient et de corrélation sont affectées à chaque colonne. La valeur de coefficient décrit la pondération de la colonne, utilisée pour déterminer la valeur de la colonne cible. La valeur de corrélation indique la direction de la relation entre la colonne cible et la colonne dépendante. Par exemple, si la valeur de la colonne cible augmente ou diminue en fonction de la colonne dépendante.

L'ensemble de données Facteurs est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.

Modèle Algorithmes
Numérique

Régression linéaire

Régression linéaire Elastic Net

Classification binaire

Régression logistique

Machine à vecteurs de support

Multi-classification Machine à vecteurs de support

Hitmap

Cet ensemble de données contient des informations sur les noeuds feuille de l'arborescence de décision. Chaque ligne de la table représente un noeud feuille et contient des informations décrivant ce que représente le noeud feuille, comme la taille de segment, la confiance et le nombre de lignes attendu. Par exemple : Nombre attendu de prévisions correctes = Taille de segment * Confiance.

L'ensemble de données Hitmap est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.

Modèle Algorithme
Numérique CART pour la prévision numérique

Résidus

Cet ensemble de données fournit des informations sur la qualité des prévisions résiduelles. Le résidu est la différence entre la valeur mesurée et la valeur prévue d'un modèle de régression. Cet ensemble de données contient la valeur de somme agrégée de la différence absolue entre la valeur réelle et la valeur prévue pour toutes les colonnes de l'ensemble de données.

L'ensemble de données Résidus est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.

Modèle Algorithmes
Valeurs numériques

Régression linéaire

Régression linéaire Elastic Net

CART pour la prévision numérique

Classification binaire CART (Arborescence de décision)
Multi-classification CART (Arborescence de décision)

Statistiques

Les mesures de cet ensemble de données dépendent de l'algorithme utilisé pour le générer. Notez cette liste de mesures selon l'algorithme :

  • Régression linéaire, CART pour la prévision numérique, Régression linéaire Elastic Net : ces algorithmes contiennent R carré, R carré ajusté, Ecart moyen absolu (MAE), Ecart carré moyen (MSE), Ecart relatif absolu (RAE), Ecart carré absolu (RSE), Ecart quadratique moyen (RMSE).
  • CART (Arborescence de classification et de régression), Classification Naive Bayes, Réseau neuronal, Machine à vecteurs de support (SVM), Forêt aléatoire, Régression logistique : ces algorithmes contiennent Exactitude, Total F1.

Cet ensemble de données est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.

Modèle Algorithme
Numérique

Régression linéaire

Régression linéaire Elastic Net

CART pour la prévision numérique

Classification binaire

Régression logistique

CART (Arborescence de décision)

Naive Bayes

Réseau neuronal

Forêt aléatoire

Machine à vecteurs de support

Multi-classification

Naive Bayes

Réseau neuronal

Forêt aléatoire

Machine à vecteurs de support

Récapitulatif

Cet ensemble de données contient des informations telles que les noms de cible et de modèle.

L'ensemble de données Récapitulatif est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.

Modèle Algorithmes
Classification binaire

Naive Bayes

Réseau neuronal

Machine à vecteurs de support

Multi-classification

Naive Bayes

Réseau neuronal

Machine à vecteurs de support

Recherche des ensembles de données associés d'un modèle prédictif

Les ensembles de données associés sont générés pendant l'entraînement du modèle prédictif.

En fonction de l'algorithme, les ensembles de données associés contiennent des détails sur le modèle : règles de prévision, mesures de performances d'exactitude, matrice de confusion, facteurs clés de prévision, etc. Ces paramètres vous aident à comprendre les règles que le modèle a utilisées pour déterminer les prévisions et les classifications.
  1. Sur la page d'accueil, cliquez sur Navigateur, puis sur Machine Learning.
  2. Cliquez sur l'icône de menu d'un modèle d'entraînement et sélectionnez Inspecter.
  3. Cliquez sur l'onglet Associé pour accéder aux ensembles de données associés du modèle.
  4. Cliquez deux fois sur un ensemble de données associé pour l'afficher ou pour l'utiliser dans un classeur.

Ajout d'un modèle prédictif à un classeur

Lorsque vous créez un scénario dans un classeur, vous appliquez un modèle prédictif à l'ensemble de données du classeur pour révéler les tendances que le modèle a été conçu pour identifier.

Remarque :

Vous ne pouvez pas appliquer un modèle d'apprentissage automatique Oracle aux données d'un classeur.
Une fois que vous avez ajouté le modèle au classeur et mappé les entrées du modèle avec les colonnes de l'ensemble de données, le panneau de données contient les objets du modèle, que vous pouvez glisser-déplacer sur le canevas. L'apprentissage automatique génère les valeurs du modèle selon les colonnes de données correspondantes de la visualisation.
  1. Sur la page d'accueil, cliquez sur Créer, puis sur Classeur.
  2. Sélectionnez l'ensemble de données à utiliser pour créer le classeur, puis cliquez sur Ajouter au classeur.
  3. Dans le panneau Données, cliquez sur Ajouter, puis sélectionnez Créer un scénario.
  4. Dans la boîte de dialogue Créer un scénario - Sélectionner un modèle, sélectionnez un modèle et cliquez sur OK.
    Vous pouvez uniquement appliquer un modèle prédictif. Vous ne pouvez pas appliquer un modèle d'apprentissage automatique Oracle.
    Si chaque entrée de modèle n'est pas mise en correspondance avec un élément de données, la boîte de dialogue Mapper les données avec le modèle apparaît.
  5. Si la boîte de dialogue Mapper les données avec le modèle est affichée, dans le champ Ensemble de données, sélectionnez l'ensemble de données à utiliser avec le modèle.
  6. Mettez en correspondance les entrées du modèle et les éléments de données comme nécessaire. Cliquez sur Terminé.
    Le scénario est affiché en tant qu'ensemble de données dans le panneau Eléments de données.
  7. Glissez-déplacez les éléments de l'ensemble de données et du modèle vers le canevas Visualiser.
  8. Pour ajuster le scénario, cliquez avec le bouton droit de la souris sur le scénario dans le panneau Eléments de données, puis sélectionnez Modifier le scénario.
  9. Modifiez l'ensemble de données, et mettez à jour le mapping des entrées du modèle et des éléments de données si nécessaire.
  10. Cliquez sur Enregistrer pour enregistrer le classeur.