Les modèles prédictifs d'Oracle Analytics utilisent plusieurs algorithmes Oracle Machine Learning intégrés pour explorer vos jeux de données, prédire une valeur cible ou identifier des classes d'enregistrements. Utilisez l'éditeur de flux de données pour créer, entraîner et appliquer des modèles prédictifs à vos données.
Un modèle prédictif Oracle Analytics applique un algorithme spécifique à un jeu de données afin de prédire des valeurs ou des classes, ou d'identifier des groupes dans les données.
Vous pouvez également utiliser des modèles d'apprentissage automatique Oracle pour prédire des données.
Oracle Analytics inclut des algorithmes pour vous aider à entraîner des modèles prédictifs à différentes fins. Parmi des exemples d'algorithmes figurent des arbres de classification et de régression (CART), la régression logique et les k moyennes.
L'éditeur de flux de données vous permet d'entraîner un modèle sur un jeu de données d'entraînement en premier lieu. Une fois le modèle prédictif entraîné, vous l'appliquez aux jeux de données à prédire.
Vous pouvez mettre le modèle entraîné à la disposition d'autres utilisateurs qui peuvent l'appliquer sur leurs données pour prédire des valeurs. Dans certains cas, des utilisateurs entraînent les modèles, d'autres les appliquent.
Note :
En cas de doute sur ce que vous pouvez rechercher dans vos données, vous pouvez utiliser Expliquer qui utilise l'apprentissage automatique pour identifier des tendances et schémas. Vous utilisez ensuite l'éditeur de flux de données pour créer et entraîner des modèles prédictifs pour forer dans les tendances et schémas trouvés par Expliquer.Utilisez le modèle terminé pour noter des données inconnues ou sans étiquette, et générer un jeu de données dans le flux de données ou ajouter une visualisation de prédiction à un classeur.
Exemple
Vous voulez, par exemple, créer et entraîner un modèle multiclasse afin de prédire les patients présentant un risque élevé de contracter une cardiopathie.
Oracle Analytics fournit des algorithmes pour tous vos besoins en modélisation d'apprentissage automatique : prédiction numérique, multi-classificateur, classificateur binaire et regroupement.
La fonctionnalité d'apprentissage automatique d'Oracle est destinée aux analystes de données expérimentés qui ont une idée de ce qu'ils recherchent dans leurs données, sont familiarisés avec la pratique des analyses prédictives et comprennent les différences entre les algorithmes.
Note :
Si vous utilisez des données provenant d'Oracle Autonomous Data Warehouse, vous pouvez utiliser la fonction AutoML pour entraîner rapidement et facilement un modèle prédictif pour vous-même, sans avoir aucune connaissance en apprentissage automatique. Voir Entraîner un modèle prédictif à l'aide de la fonction AutoML d'Autonomous Data Warehouse.En général, les utilisateurs veulent créer plusieurs modèles de prédiction, les comparer et choisir le plus susceptible de donner des résultats répondant à leurs critères et à leurs exigences. Ces critères peuvent varier. Par exemple, les utilisateurs choisissent parfois des modèles présentant une meilleure exactitude générale, ou le moins d'erreurs de type I (faux positif) et de type II (faux négatif), et parfois des modèles retournant rapidement des résultats de niveau d'exactitude acceptable même s'ils ne sont pas idéaux.
Oracle Analytics contient plusieurs algorithmes d'apprentissage automatique pour chaque type de prédiction ou de classification. Ils permettent aux utilisateurs de créer plusieurs modèles, d'ajuster différents paramètres ou de sélectionner différents jeux de données d'entraînement d'entrée, puis de choisir le meilleur modèle. Pour choisir le meilleur, l'utilisateur compare et pondère des modèles par rapport à ses critères propres. Pour déterminer le meilleur, les utilisateurs peuvent appliquer le modèle et visualiser les résultats des calculs pour évaluer l'exactitude. Ils peuvent également ouvrir et explorer les jeux de données connexes produits par Oracle Analytics à l'aide du modèle.
Consultez ce tableau pour en savoir plus sur les algorithmes fournis :
Nom | Type | Catégorie | Fonction | Description |
---|---|---|---|---|
CART |
Classification Régression |
Classificateur binaire Multi-classificateur Numérique |
- | Utilise des arbres de décision pour prédire des valeurs discrètes et continues.
À utiliser avec des jeux de données volumineux. |
Régression linéaire élastique nette | Régression | Numérique | ElasticNet | Modèle de régression avancé. Fournit des informations supplémentaires (régularisation), effectue la sélection de variable et des combinaisons linéaires. Pénalités des méthodes de régression Lasso et Arête.
À utiliser avec un nombre important d'attributs pour éviter la colinéarité (quand plusieurs attributs sont parfaitement corrélés) et le surapprentissage. |
Hiérarchique | Regroupement | Regroupement | AgglomerativeClustering | Établit une hiérarchie de regroupements ascendante (chaque observation constitue un regroupement, puis est fusionné) ou descendante (toutes les observations constituent un regroupement au départ), et à l'aide de mesures de distance.
À utiliser lorsque le jeu de données n'est pas important et que le nombre de regroupements est inconnu au départ. |
K moyennes | Regroupement | Regroupement | K moyennes | Partitionne des enregistrements de manière itérative en k regroupements, où chaque observation appartient au regroupement avec la moyenne la plus proche.
À utiliser pour les colonnes de mesures de regroupement et avec un nombre déterminé de regroupements nécessaires. Fonctionne bien avec les jeux de données volumineux. Les résultats sont différents à chaque exécution. |
Régression linéaire | Régression | Numérique | Moindres carrés ordinaires
Arête Lasso |
Approche linéaire pour une relation de modélisation entre une variable cible et d'autres attributs du jeu de données.
À utiliser pour prédire des valeurs numériques lorsque les attributs ne sont pas parfaitement corrélés. |
Régression logistique | Régression | Classificateur binaire | LogisticRegressionCV | À utiliser pour prédire la valeur d'une variable catégoriquement dépendante. La variable dépendante est une variable binaire qui contient des données codées 1 ou 0. |
Bayésien naïf | Classification |
Classificateur binaire Multi-classificateur |
GaussianNB | Classification probabiliste basée sur le théorème de Bayes qui ne suppose aucune dépendance entre les fonctions.
À utiliser s'il existe un grand nombre de dimensions d'entrée. |
Réseau neuronal | Classification |
Classificateur binaire Multi-classificateur |
MLPClassifier | Algorithme de classification itératif qui apprend en comparant le résultat de sa classification à la valeur réelle et la retourne au réseau pour modifier l'algorithme pour des itérations supplémentaires.
À utiliser pour l'analyse de texte. |
Forêt aléatoire | Classification |
Classificateur binaire Multi-classificateur Numérique |
- | Une méthode d'apprentissage d'ensemble qui construit plusieurs arbres de décision et produit la valeur qui les représente tous collectivement.
À utiliser pour prédire des variables numériques et catégoriques. |
SVM | Classification |
Classificateur binaire Multi-classificateur |
LinearSVC, SVC | Classe les enregistrements en les mappant dans l'espace et en construisant des hyperplans utilisables pour la classification. Les nouveaux enregistrements (données de notation) sont mappés dans l'espace et leur appartenance à une catégorie est prédite, selon le côté de l'hyperplan où ils se situent. |
Lorsque vous utilisez des données provenant d'Oracle Autonomous Data Warehouse, la fonction AutoML de ce service vous permet de recommander et d'entraîner un modèle prédictif. Cette fonction analyse vos données, calcule le meilleur algorithme à utiliser et enregistre un modèle de prédiction dans Oracle Analytics pour vous permettre d'effectuer des prédictions relatives à vos données.
OML_Developer
et qu'il n'est pas un superutilisateur 'admin'. Sinon, le flux de données échouera lorsque vous essaierez de l'enregistrer ou de l'exécuter.Les analystes de données avancés créent et entraînent des modèles prédictifs afin de pouvoir les utiliser pour déployer des algorithmes Oracle Machine Learning, analyser des jeux de données, prédire une valeur cible ou identifier des classes d'enregistrement. Utilisez l'éditeur de flux de données pour créer et entraîner des modèles prédictifs et les appliquer à vos données.
Parvenir à un modèle exact est un processus itératif et un analyste expérimenté peut tester différents modèles, comparer leurs résultats et affiner les paramètres en procédant par essai et erreur. Un analyste de données peut utiliser le modèle prédictif exact finalisé pour prédire des tendances dans d'autres jeux de données, ou ajouter le modèle à des classeurs.
Note :
Si vous utilisez des données provenant d'Oracle Autonomous Data Warehouse, vous pouvez utiliser la fonction AutoML pour entraîner rapidement et facilement un modèle prédictif pour vous-même, sans avoir aucune connaissance en apprentissage automatique. Voir Entraîner un modèle prédictif à l'aide de la fonction AutoML d'Autonomous Data Warehouse.Oracle Analytics fournit des algorithmes de prédiction numérique, de classification multiclasse, de classification binaire et de regroupement.
Oracle Analytics vous permet d'entraîner des modèles d'apprentissage automatique à l'aide d'étapes de flux de données. Après avoir entraîné un modèle d'apprentissage automatique, appliquez-le à vos données à l'aide de l'étape Appliquer le modèle.
Nom de l'étape | Description |
---|---|
AutoML (Oracle Autonomous Data Warehouse est requis) | La fonction AutoML d'Oracle Autonomous Data Warehouse vous permet de recommander et d'entraîner un modèle prédictif pour vous-même. L'étape AutoML analyse vos données, calcule le meilleur algorithme à utiliser et enregistre un modèle de prédiction dans Oracle Analytics. |
Entraîner le classificateur binaire |
Entraîner un modèle d'apprentissage automatique pour classer vos données dans l'une des deux catégories prédéfinies. |
Entraîner le regroupement | Entraîner un modèle d'apprentissage automatique pour séparer des groupes ayant des traits similaires et les affecter à des regroupements. |
Entraîner le multi-classificateur | Entraîner un modèle d'apprentissage automatique pour classer vos données dans l'une des trois catégories prédéfinies ou plus. |
Entraîner la prédiction numérique | Entraîner un modèle d'apprentissage automatique pour prédire une valeur numérique en fonction de valeurs de données connues. |
Après avoir créé le modèle prédictif et exécuté le flux de données, vous pouvez vérifier les informations concernant le modèle pour déterminer son exactitude. À l'aide de ces informations, adaptez les paramètres du modèle de manière itérative pour améliorer son exactitude et prédire de meilleurs résultats.
Les informations détaillées d'un modèle prédictif vous aident à comprendre le modèle et à déterminer s'il convient pour prédire les données. Les détails du modèle comprennent la classe, l'algorithme, les colonnes d'entrée et de sortie du modèle.
Voyez des informations qui vous aident à comprendre la qualité d'un modèle prédictif. Par exemple, vous pouvez vérifier des mesures d'exactitude comme l'exactitude du modèle, la précision, le rappel, la valeur F1 et le taux de faux positifs.
Lorsque vous exécutez le flux de données pour créer le modèle d'entraînement du modèle prédictif Oracle Analytics, Oracle Analytics crée un ensemble de jeux de données connexes. Vous pouvez ouvrir et créer des classeurs sur ces jeux de données pour en savoir plus sur l'exactitude du modèle.
Selon l'algorithme choisi pour le modèle, les jeux de données connexes contiennent des détails sur celui-ci : règles de prédiction, mesures d'exactitude, matrice de confusion, inducteurs clés de prédiction, etc. Vous pouvez utiliser ces informations pour affiner le modèle afin d'obtenir de meilleurs résultats, et vous servir des jeux de données connexes pour comparer des modèles et décider lequel est plus précis.
Par exemple, vous pouvez ouvrir un jeu de données Inducteurs pour découvrir les colonnes qui ont une forte influence positive ou négative sur le modèle. En examinant ces colonnes, vous constatez que certaines colonnes ne sont pas traitées en tant que variables de modèle car elles sont trop granulaires pour la prévision ou leurs entrées ne sont pas réalistes. Dans l'éditeur de flux de données, ouvrez le modèle et, en fonction des informations obtenues, supprimez les colonnes non pertinentes ou trop granulaires, et régénérez le modèle. Consultez les onglets Qualité et Résultats et vérifiez si l'exactitude du modèle s'est améliorée. Poursuivez ce processus jusqu'à ce que l'exactitude du modèle soit satisfaisante et qu'il soit prêt à évaluer un nouveau jeu de données.
Différents algorithmes génèrent des jeux de données connexes similaires. En fonction du type d'algorithme, les paramètres individuels et les noms de colonne peuvent changer dans le jeu de données, mais la fonctionnalité de ce dernier reste la même. Par exemple, la colonne Régression Linéaire d'un jeu de données de statistiques peut être remplacée par Régression logistique, mais celui-ci contient des mesures d'exactitude du modèle.
Jeux de données connexes pour les modèles AutoML
Lorsque vous entraînez un modèle prédictif à l'aide de la fonction AutoML, Oracle Analytics crée des jeux de données supplémentaires qui contiennent des informations utiles sur le modèle. Le nombre de jeux de données créés dépend de l'algorithme du modèle. Par exemple, pour les modèles bayésiens naïfs, Oracle Analytics crée un jeu de données qui fournit des informations sur les probabilités conditionnelles. Pour un modèle d'arbre de décision, le jeu de données fournit des informations sur les statistiques de l'arbre de décision. Lorsque vous inspectez un modèle généré par la fonction AutoML à l'aide de l'algorithme de modèle linéaire généralisé (GLM), vous voyez des entrées dotées du préfixe GLM* pour les jeux de données propres au modèle qui contiennent des informations de métadonnées sur le modèle.
.png
Jeux de données connexes
Note :
Oracle Analytics ajoute le nom de la sortie du flux de données au type de jeu de données connexe. Par exemple, pour un modèle CART, si la sortie du flux de données est nommée cart_model2, le jeu de données est nommé cart_model2_CART.CART
Oracle Analytics crée une table pour le jeu de données connexe CART (arbre de classification et de régression). Elle contient des colonnes représentant les conditions et leurs critères dans l'arbre de décision, une prédiction pour chaque groupe et le niveau de confiance de la prédiction. Utilisez la visualisation d'arbre pour visualiser cet arbre de décision.
Le jeu de données CART est créé lorsque vous sélectionnez ces combinaisons de modèle et d'algorithme.
Modèle | Algorithme |
---|---|
Numérique | CART pour prédiction numérique |
Classification binaire | CART |
Multiclasse | CART |
Rapport de classification
Oracle Analytics crée une table pour le jeu de données connexe Rapport de classification. Par exemple, si la colonne cible peut contenir deux valeurs distinctes, Oui et Non, ce jeu de donnés présente des mesures d'exactitude, telles que la valeur F1, la précision, le rappel et le soutien (nombre de rangées du jeu de données d'entraînement contenant cette valeur), pour chaque valeur distincte de la colonne cible.
Le jeu de données Classification est créé lorsque vous sélectionnez ces combinaisons de modèle et d'algorithme.
Modèle | Algorithmes |
---|---|
Classification binaire |
Bayésien naïf Réseau neuronal Machine à vecteurs de support |
Multiclasse |
Bayésien naïf Réseau neuronal Machine à vecteurs de support |
Matrice de confusion
Oracle Analytics crée un tableau croisé dynamique pour le jeu de données connexe Matrice de confusion, également appelé matrice des covariances. Chaque rangée représente une instance d'une classe prédite, et chaque colonne, une instance dans une classe réelle. Ce tableau signale le nombre de faux positifs, de faux négatifs, de vrais positifs et de vrais négatifs. Ces valeurs sont utilisés pour calculer les mesures d'exactitude Précision, Rappel et F1.
Le jeu de données Matrice de confusion est créé lorsque vous sélectionnez ces combinaisons de modèle et d'algorithme.
Modèle | Algorithmes |
---|---|
Classification binaire |
Régression logistique CART (Arbre de décision) Bayésien naïf Réseau neuronal Forêt aléatoire Machine à vecteurs de support |
Multiclasse |
CART (Arbre de décision) Bayésien naïf Réseau neuronal Forêt aléatoire Machine à vecteurs de support |
Inducteurs
Oracle Analytics crée une table pour le jeu de données connexe Inducteurs, qui contient des informations sur les colonnes qui déterminent les valeurs de la colonne cible. Les régressions linéaires servent à identifier ces colonnes. À chaque colonne sont affectées des valeurs de coefficient et de corrélation. La valeur de coefficient décrit le poids-âge de la colonne utilisé pour déterminer la valeur de la colonne cible. La valeur de corrélation indique le sens de la relation entre la colonne cible et la colonne dépendante; par exemple, si la valeur de la colonne cible augmente ou diminue selon la colonne dépendante.
Le jeu de données Inducteurs est créé lorsque vous sélectionnez ces combinaisons de modèle et d'algorithme.
Modèle | Algorithmes |
---|---|
Numérique |
Régression linéaire Régression linéaire élastique nette |
Classification binaire |
Régression logistique Machine à vecteurs de support |
Multiclasse | Machine à vecteurs de support |
Hitmap
Oracle Analytics crée une table pour le jeu de données connexe Hitmap, qui contient des informations sur les noeuds feuilles de l'arbre de décision. Chaque rangée du tableau figure un noeud feuille et contient des informations décrivant ce qu'il représente; par exemple, taille de segment, niveau de confiance et nombre attendu de rangées. Par exemple, nombre attendu de prédictions correctes = Taille de segment * Confiance.
Le jeu de données Hitmap est créé lorsque vous sélectionnez ces combinaisons de modèle et d'algorithme.
Modèle | Algorithme |
---|---|
Numérique | CART pour prédiction numérique |
Valeurs résiduelles
Oracle Analytics crée une table pour le jeu de données connexe Valeurs résiduelles, qui contient des informations sur la qualité des prédictions résiduelles. Une valeur résiduelle est la différence entre la valeur mesurée et la valeur prédite par un modèle de régression. Ce jeu de données contient une valeur de somme agrégée de différence absolue entre les valeurs réelles et prédites pour toutes les colonnes qu'il contient.
Le jeu de données Valeurs résiduelles est créé lorsque vous sélectionnez ces combinaisons de modèle et d'algorithme.
Modèle | Algorithmes |
---|---|
Valeurs numériques |
Régression linéaire Régression linéaire élastique nette CART pour prédiction numérique |
Classification binaire | CART (Arbre de décision) |
Multiclasse | CART (Arbre de décision) |
Statistiques
Oracle Analytics crée une table pour le jeu de données connexe Statistiques. Les mesures de ce jeu de données dépendent de l'algorithme utilisé pour le générer. Notez cette liste de mesures basées sur l'algorithme :
Ce jeu de données est créé lorsque vous sélectionnez ces combinaisons de modèle et d'algorithme.
Modèle | Algorithme |
---|---|
Numérique |
Régression linéaire Régression linéaire élastique nette CART pour prédiction numérique |
Classification binaire |
Régression logistique CART (Arbre de décision) Bayésien naïf Réseau neuronal Forêt aléatoire Machine à vecteurs de support |
Multiclasse |
Bayésien naïf Réseau neuronal Forêt aléatoire Machine à vecteurs de support |
Sommaire
Oracle Analytics crée une table pour le jeu de données connexe Sommaire, qui contient des informations, telles que Nom de cible et Nom de modèle.
Le jeu de données Sommaire est créé lorsque vous sélectionnez ces combinaisons de modèle et d'algorithme.
Modèle | Algorithmes |
---|---|
Classification binaire |
Bayésien naïf Réseau neuronal Machine à vecteurs de support |
Multiclasse |
Bayésien naïf Réseau neuronal Machine à vecteurs de support |
Des jeux de données connexes sont générés lorsque vous entraînez un modèle prédictif.
Lorsque vous créez un scénario dans un classeur, vous appliquez un modèle prédictif au jeu de données de ce dernier pour révéler les tendances et les schémas que la conception du modèle permet de trouver.
Note :
Vous ne pouvez pas appliquer un modèle d'apprentissage automatique Oracle aux données d'un classeur.