Les modèles prédictifs Oracle Analytics utilisent plusieurs algorithmes Oracle Machine Learning imbriqués pour explorer vos ensembles de données, prévoir une valeur cible et identifier les classes des enregistrements. Utilisez l'éditeur de flux de données pour créer et entraîner des modèles prédictifs, puis les appliquer à vos données.
Un modèle prédictif Oracle Analytics applique un algorithme spécifique à un ensemble de données pour prévoir des valeurs ou des classes, ou pour identifier des groupes dans les données.
Vous pouvez également utiliser des modèles d'apprentissage automatique Oracle pour prévoir les données.
Oracle Analytics inclut des algorithmes qui vont vous aider à entraîner des modèles prédictifs dans différents buts. Les arborescences de classification et de régression (CART), la régression logistique et la classification par partitionnement sont des exemples d'algorithme.
Utilisez l'éditeur de flux de données pour commencer par entraîner le modèle sur un ensemble de données d'entraînement. Une fois que le modèle prédictif a été entraîné, vous pouvez l'appliquer aux ensembles de données sur lesquels effectuer des prévisions.
Vous pouvez mettre un modèle entraîné à la disposition des autres utilisateurs pour qu'ils l'appliquent à leurs données afin de prévoir des valeurs. Dans certains cas, des utilisateurs entraînent les modèles, mais d'autres utilisateurs les appliquent.
Remarque :
Si vous avez des doutes sur ce que vous devez rechercher dans vos données, vous pouvez commencer par utiliser la fonctionnalité Expliquer, qui s'appuie sur l'apprentissage automatique pour identifier des tendances. Vous pouvez ensuite utiliser l'éditeur de flux de données pour créer et entraîner des modèles prédictifs pour explorer les tendances identifiées par la fonctionnalité Expliquer.Utilisez le modèle finalisé pour évaluer des données inconnues, ou non libellées, afin de générer un ensemble de données dans un flux de données ou d'ajouter une visualisation de prévision à un classeur.
Exemple
Supposons que vous voulez créer et entraîner un modèle de multi-classification pour prévoir les patients qui présentent un risque élevé de développer une maladie cardiaque.
Oracle Analytics fournit des algorithmes pour tous vos besoins de modélisation d'apprentissage automatique : prévision numérique, multi-classification, classification binaire et création de cluster.
La fonctionnalité d'apprentissage automatique d'Oracle s'adresse aux analystes de données experts qui savent ce qu'ils recherchent dans leurs données, maîtrisent la pratique de l'analyse prédictive et comprennent les différences entre les algorithmes.
Remarque :
Si vous utilisez des données provenant d'Oracle Autonomous Data Warehouse, vous pouvez employer la fonction AutoML afin d'entraîner rapidement et facilement un modèle prédictif sans nécessiter de compétences en apprentissage automatique. Reportez-vous à Entraînement d'un modèle prédictif à l'aide d'AutoML dans Autonomous Data Warehouse.En général, les utilisateurs veulent créer plusieurs modèles de prévision, les comparer, puis choisir celui qui est le plus susceptible de fournir des résultats répondant à leurs critères et à leurs exigences. Ces critères peuvent varier. Par exemple, les utilisateurs vont choisir parfois les modèles avec la meilleure exactitude globale, parfois ceux avec le moins d'erreurs de type I (faux positifs) et de type II (faux négatifs), parfois ceux qui renvoient des résultats le plus rapidement et avec un niveau d'exactitude acceptable même si les résultats ne sont pas optimaux.
Oracle Analytics contient plusieurs algorithmes d'apprentissage automatique pour chaque type de prévision ou de classification. Avec ces algorithmes, les utilisateurs peuvent créer plusieurs modèles, appliquer différents paramètres affinés, ou utiliser divers ensembles de données d'entraînement d'entrée et choisir le meilleur modèle. L'utilisateur va choisir le meilleur modèle en comparant et en pondérant les modèles par rapport à ses propres critères. Pour déterminer le meilleur modèle, les utilisateurs peuvent appliquer le modèle et visualiser les résultats des calculs afin de déterminer l'exactitude, ou ils peuvent ouvrir et explorer les ensembles de données associés employés par Oracle Analytics pour générer le modèle.
Consultez le tableau suivant pour en savoir plus sur les algorithmes fournis :
Nom | Type | Catégorie | Fonction | Description |
---|---|---|---|---|
CART |
Classification Régression |
Classificateur binaire Multi-classificateur Numérique |
- | Utilise des arborescences de décision pour prévoir des valeurs discrètes et continues.
A utiliser avec des ensembles de données volumineux. |
Régression linéaire Elastic Net | Régression | Numérique | ElasticNet | Modèle de régression avancé. Fournit des informations supplémentaires (régularisation), effectue la sélection des variables et effectue des combinaisons linéaires. Pénalités des méthodes de régression Lasso et Ridge.
A utiliser avec un grand nombre d'attributs pour éviter la colinéarité (où plusieurs attributs sont parfaitement corrélés) et le surajustement. |
Hiérarchique | Création de cluster | Création de cluster | AgglomerativeClustering | Crée une hiérarchie de création de cluster à l'aide du mode ascendant (chaque observation constitue son propre cluster et est ensuite fusionnée) ou descendant (toutes les observations forment un seul cluster de départ) et de mesures de distance.
A utiliser lorsque l'ensemble de données n'est pas volumineux et que le nombre de clusters n'est pas connu à l'avance. |
Classification par partitionnement | Création de cluster | Création de cluster | Classification par partitionnement | Segmente de façon itérative les enregistrements en clusters de partitionnement où chaque observation appartient au cluster dont la moyenne est la plus proche.
A utiliser pour les colonnes de mesure de création de cluster et avec un nombre attendu de clusters nécessaires. Fonctionne bien avec les ensembles de données volumineux. Les résultats sont différents à chaque exécution. |
Régression linéaire | Régression | Numérique | Moindres carrés standard
Ridge Lasso |
Approche linéaire d'une relation de modélisation entre une variable cible et d'autres attributs dans l'ensemble de données.
A utiliser pour prévoir les valeurs numériques lorsque les attributs ne sont pas parfaitement corrélés. |
Régression logistique | Régression | Classificateur binaire | LogisticRegressionCV | A utiliser pour prévoir la valeur d'une variable dépendante catégorique. La variable dépendante est une variable binaire contenant les données codées avec 1 ou 0. |
Naive Bayes | Classification |
Classificateur binaire Multi-classificateur |
GaussianNB | Classification probabiliste basée sur le théorème de Bayes qui part du principe qu'aucune dépendance n'existe entre les caractéristiques.
A utiliser en présence d'un grand nombre de dimensions d'entrée. |
Réseau neuronal | Classification |
Classificateur binaire Multi-classificateur |
MLPClassifier | Algorithme de classification itératif qui apprend en comparant son résultat de classification à la valeur réelle et le renvoie au réseau afin que l'algorithme soit modifié pour les itérations à venir.
A utiliser pour l'analyse de texte. |
Forêt aléatoire | Classification |
Classificateur binaire Multi-classificateur Numérique |
- | Méthode d'apprentissage d'ensemble qui construit plusieurs arborescences de décision et génère la valeur qui représente collectivement toutes les arborescences de décision.
A utiliser pour prévoir des variables numériques et catégoriques. |
SVM | Classification |
Classificateur binaire Multi-classificateur |
LinearSVC, SVC | Classe les enregistrements en les mappant dans l'espace et en construisant des hyperplans utilisables pour la classification. Les nouveaux enregistrements (données d'évaluation) sont mappés dans l'espace et la prévision de leur catégorie est effectuée, selon le côté de l'hyperplan sur lequel ils se trouvent. |
Lorsque vous utilisez des données issues d'Oracle Autonomous Data Warehouse, vous pouvez vous servir de sa fonction AutoML à des fins de recommandation et d'entraînement d'un modèle prédictif. AutoML analyse les données, calcule le meilleur algorithme à utiliser et inscrit un modèle de prévision dans Oracle Analytics pour que vous puissiez obtenir des prévisions sur vos données.
OML_Developer
et n'est pas un superutilisateur 'admin'. Sinon, toute tentative d'enregistrement ou d'exécution entraîne l'échec du flux de données.En fonction du problème à résoudre, l'analyste de données expert choisit un algorithme approprié pour entraîner un modèle prédictif, puis évalue les résultats du modèle.
L'obtention d'un modèle exact est un processus itératif, et l'analyse de données expert peut essayer différents modèles, comparer leurs résultats et affiner les paramètres par tâtonnements. Un analyste de données peut utiliser le modèle prédictif exact finalisé pour prévoir les tendances d'autres ensembles de données ou ajouter le modèle aux classeurs.
Remarque :
Si vous utilisez des données provenant d'Oracle Autonomous Data Warehouse, vous pouvez employer la fonction AutoML afin d'entraîner rapidement et facilement un modèle prédictif sans nécessiter de compétences en apprentissage automatique. Reportez-vous à Entraînement d'un modèle prédictif à l'aide d'AutoML dans Autonomous Data Warehouse.Oracle Analytics fournit des algorithmes pour la prévision numérique, la multi-classification, la classification binaire et la création de cluster.
Oracle Analytics vous permet d'entraîner des modèles d'apprentissage automatique à l'aide d'étapes dans des flux de données. Lorsque vous avez entraîné un modèle d'apprentissage automatique, appliquez-le à vos données à l'aide de l'étape Appliquer un modèle.
Nom de l'étape | Description |
---|---|
AutoML (requiert Oracle Autonomous Data Warehouse) | Utilisez la fonction AutoML d'Oracle Autonomous Data Warehouse pour la recommandation et l'entraînement d'un modèle prédictif. L'étape AutoML analyse les données, calcule le meilleur algorithme à utiliser et inscrit un modèle de prévision dans Oracle Analytics. |
Entraîner le classificateur binaire |
Entraîner un modèle Machine Learning pour classer les données dans l'une de deux catégories prédéfinies. |
Entraîner le clustering | Entraîner un modèle Machine Learning pour séparer des groupes aux caractéristiques similaires et les affecter dans des clusters. |
Entraîner le classificateur multiple | Entraîner un modèle Machine Learning pour classer les données dans au moins trois catégories prédéfinies. |
Entraîner la prévision numérique | Entraîner un modèle Machine Learning pour prévoir une valeur numérique en fonction de valeurs de données connues. |
Une fois que vous avez créé le modèle prédictif et exécuté le flux de données, vous pouvez examiner les informations sur le modèle afin de déterminer son exactitude. Utilisez ces informations pour ajuster par itération les paramètres du modèle afin d'améliorer son exactitude et de prévoir des résultats plus fiables.
Les informations détaillées d'un modèle prédictif vous aident à comprendre le modèle et à déterminer s'il convient à la prévision de vos données. Les détails du modèle incluent sa classe, son algorithme, ses colonnes d'entrée et ses colonnes de sortie.
Consultez les informations qui vous aideront à déterminer la qualité d'un modèle prédictif. Vous pouvez, par exemple, examiner des mesures de performances d'exactitude telles que l'exactitude du modèle, la précision, le rappel, la valeur F1 et le taux de faux positifs.
Lorsque vous exécutez le flux de données pour créer le modèle d'entraînement du modèle prédictif Oracle Analytics, Oracle Analytics crée un groupe d'ensembles de données associés. Vous pouvez ouvrir et créer des classeurs sur ces ensembles de données pour en savoir plus sur l'exactitude du modèle.
En fonction de l'algorithme que vous choisissez pour le modèle, les ensembles de données associés contiennent des détails sur le modèle : règles de prévision, mesures de performances d'exactitude, matrice de confusion et facteurs clés de prévision. Vous pouvez utiliser ces informations pour affiner le modèle afin d'obtenir de meilleurs résultats, et vous pouvez utiliser les ensembles de données associés pour comparer les modèles et déterminer celui qui est le plus exact.
Par exemple, vous pouvez ouvrir un ensemble de données Facteurs pour déterminer les colonnes ayant une forte influence positive ou négative sur le modèle. En examinant ces colonnes, vous allez constater que certaines ne sont pas traitées comme des variables de modèle car elles ne constituent pas des entrées réalistes ou elles sont trop fines pour la prévision. Utilisez l'éditeur de flux de données pour ouvrir le modèle et, sur la base des informations identifiées, enlevez les colonnes non pertinentes ou trop fines, et régénérez le modèle. Consultez les onglets Qualité et Résultats, et vérifiez si l'exactitude du modèle est meilleure. Poursuivez ce processus jusqu'à ce que vous soyez satisfait de l'exactitude du modèle et que ce dernier soit prêt à évaluer un nouvel ensemble de données.
Différents algorithmes génèrent des ensembles de données associés similaires. Certains paramètres et noms de colonne peuvent changer dans l'ensemble de données en fonction du type d'algorithme, mais la fonctionnalité de l'ensemble de données reste la même. Par exemple, les noms de colonne d'un ensemble de données statistiques peuvent passer de Régression linéaire à Régression logistique, mais l'ensemble de données contient les mesures de performances d'exactitude du modèle.
Ensembles de données associés pour les modèles AutoML
Lorsque vous entraînez un modèle prédictif à l'aide d'AutoML, Oracle Analytics crée des ensembles de données supplémentaires contenant des informations utiles sur le modèle. Le nombre d'ensembles de données créés dépend de l'algorithme du modèle. Par exemple, pour les modèles de classification naïve bayésienne, Oracle Analytics crée un ensemble de données fournissant des informations sur les probabilités conditionnelles. Pour un modèle d'arborescence de décision, l'ensemble de données fournit des informations sur les statistiques de l'arborescence de décision. Lorsque vous inspectez un modèle généré par AutoML à l'aide de l'algorithme du modèle linéaire généralisé, vous voyez des entrées (dotées du préfixe GLM*) pour les ensembles de données propres au modèle contenant des informations sur les métadonnées du modèle.
.png
Ensembles de données associés
CARTree
Cet ensemble de données est une représentation tabulaire de CART (Arborescence de décision), calculée pour prévoir les valeurs de colonne cible. Il contient des colonnes qui représentent les conditions et leurs critères dans l'arborescence de décision, une prévision pour chaque groupe et la confiance des prévisions. La visualisation d'arborescence intégrée peut être utilisée pour visualiser cette arborescence.
L'ensemble de données CARTree est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.
Modèle | Algorithme |
---|---|
Numérique | CART pour la prévision numérique |
Classification binaire | CART (Arborescence de décision) |
Multi-classification | CART (Arborescence de décision) |
Rapport de classification
Cet ensemble de données est une représentation tabulaire des mesures de performances d'exactitude pour chaque valeur distincte de la colonne cible. Par exemple, si la colonne cible peut contenir les deux valeurs distinctes Oui et Non, cet ensemble de données présente des mesures de performances d'exactitude telles que F1, Précision, Rappel et Prise en charge (nombre de lignes dans l'ensemble de données d'entraînement avec cette valeur) pour chaque valeur distincte de la colonne cible.
L'ensemble de données Classification est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.
Modèle | Algorithmes |
---|---|
Classification binaire |
Naive Bayes Réseau neuronal Machine à vecteurs de support |
Multi-classification |
Naive Bayes Réseau neuronal Machine à vecteurs de support |
Matrice de confusion
Cet ensemble de données, également appelé matrice d'erreur, est une mise en page de tableau croisé dynamique. Chaque ligne représente une instance d'une classe prévue, et chaque colonne représente une instance d'une classe réelle. Cette table rapporte le nombre de faux positifs, de faux négatifs, de vrais positifs et de vrais négatifs, permettant de calculer les mesures de performances d'exactitude F1, de précision et de rappel.
L'ensemble de données Matrice de confusion est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.
Modèle | Algorithmes |
---|---|
Classification binaire |
Régression logistique CART (Arborescence de décision) Naive Bayes Réseau neuronal Forêt aléatoire Machine à vecteurs de support |
Multi-classification |
CART (Arborescence de décision) Naive Bayes Réseau neuronal Forêt aléatoire Machine à vecteurs de support |
Facteurs
Cet ensemble de données fournit des informations sur les colonnes qui déterminent les valeurs de colonne cible. Des régressions linéaires sont utilisées pour identifier ces colonnes. Des valeurs de coefficient et de corrélation sont affectées à chaque colonne. La valeur de coefficient décrit la pondération de la colonne, utilisée pour déterminer la valeur de la colonne cible. La valeur de corrélation indique la direction de la relation entre la colonne cible et la colonne dépendante. Par exemple, si la valeur de la colonne cible augmente ou diminue en fonction de la colonne dépendante.
L'ensemble de données Facteurs est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.
Modèle | Algorithmes |
---|---|
Numérique |
Régression linéaire Régression linéaire Elastic Net |
Classification binaire |
Régression logistique Machine à vecteurs de support |
Multi-classification | Machine à vecteurs de support |
Hitmap
Cet ensemble de données contient des informations sur les noeuds feuille de l'arborescence de décision. Chaque ligne de la table représente un noeud feuille et contient des informations décrivant ce que représente le noeud feuille, comme la taille de segment, la confiance et le nombre de lignes attendu. Par exemple : Nombre attendu de prévisions correctes = Taille de segment * Confiance.
L'ensemble de données Hitmap est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.
Modèle | Algorithme |
---|---|
Numérique | CART pour la prévision numérique |
Résidus
Cet ensemble de données fournit des informations sur la qualité des prévisions résiduelles. Le résidu est la différence entre la valeur mesurée et la valeur prévue d'un modèle de régression. Cet ensemble de données contient la valeur de somme agrégée de la différence absolue entre la valeur réelle et la valeur prévue pour toutes les colonnes de l'ensemble de données.
L'ensemble de données Résidus est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.
Modèle | Algorithmes |
---|---|
Valeurs numériques |
Régression linéaire Régression linéaire Elastic Net CART pour la prévision numérique |
Classification binaire | CART (Arborescence de décision) |
Multi-classification | CART (Arborescence de décision) |
Statistiques
Les mesures de cet ensemble de données dépendent de l'algorithme utilisé pour le générer. Notez cette liste de mesures selon l'algorithme :
Cet ensemble de données est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.
Modèle | Algorithme |
---|---|
Numérique |
Régression linéaire Régression linéaire Elastic Net CART pour la prévision numérique |
Classification binaire |
Régression logistique CART (Arborescence de décision) Naive Bayes Réseau neuronal Forêt aléatoire Machine à vecteurs de support |
Multi-classification |
Naive Bayes Réseau neuronal Forêt aléatoire Machine à vecteurs de support |
Récapitulatif
Cet ensemble de données contient des informations telles que les noms de cible et de modèle.
L'ensemble de données Récapitulatif est généré lorsque vous sélectionnez ces combinaisons modèle-algorithme.
Modèle | Algorithmes |
---|---|
Classification binaire |
Naive Bayes Réseau neuronal Machine à vecteurs de support |
Multi-classification |
Naive Bayes Réseau neuronal Machine à vecteurs de support |
Les ensembles de données associés sont générés pendant l'entraînement du modèle prédictif.
Lorsque vous créez un scénario dans un classeur, vous appliquez un modèle prédictif à l'ensemble de données du classeur pour révéler les tendances que le modèle a été conçu pour identifier.
Remarque :
Vous ne pouvez pas appliquer un modèle d'apprentissage automatique Oracle aux données d'un classeur.