Evaluation des modèles d'apprentissage automatique à l'aide des courbes d'efficacité et de gain

Les courbes d'efficacité et de gain vous permettent de comparer différents modèles d'apprentissage automatique afin d'identifier celui qui est le plus précis.

Présentation de l'utilisation des courbes d'efficacité et de gain

Les courbes d'efficacité et de gain vous permettent d'évaluer différents modèles prédictifs d'apprentissage automatique en affichant les statistiques des modèles sous forme de graphiques au sein d'une visualisation dans Oracle Analytics.

Lorsque vous utilisez un flux de données pour appliquer un modèle de classification à un ensemble de données, Oracle Analytics vous permet de calculer les valeurs d'efficacité et de gain. Vous pouvez ensuite visualiser ces données dans un graphique afin d'évaluer la précision des modèles prédictifs et d'identifier celui qu'il convient d'utiliser.

La description de GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png est la suivante
.png

Prérequis

  • Oracle Database ou Oracle Autonomous Data Warehouse
  • Modèle de classification incluant une probabilité de prévision (par exemple, modèle de multi-classificateur créé à l'aide du script d'entraînement Naive Bayes).

    Vous accédez aux modèles prédictifs existants dans la section Apprentissage automatique d'Oracle Analytics.

Statistiques générées pour l'analyse d'efficacité et de gain

Lorsque vous appliquez un modèle de classification prédictif à un ensemble de données et générez des statistiques d'efficacité et de gain, un ensemble de données nommé <Data flow name>_LIFT et comportant les colonnes suivantes est généré :
  • Pourcentage de population (PopulationPercentile) : population de l'ensemble de données répartie en 100 groupes égaux.
  • Gains cumulés (CumulativeGain) : ratio du nombre cumulé de cibles positives jusqu'à ce pourcentage par rapport au nombre total de cibles positives. Plus la ligne des gains cumulatifs est proche de l'angle supérieur gauche du graphique, plus le gain est important ; plus la proportion de répondants joints pour la proportion plus faible de clients contactés est élevée.
  • Valeur de référence de la courbe de gain (GainChartBaseline) : taux de réponse global. Cette courbe représente le pourcentage d'enregistrements positifs attendus en cas de sélection des enregistrements au hasard. Par exemple, lors d'une campagne marketing, si X % de clients sont contactés au hasard, nous recevons X % de la réponse positive totale.
  • Valeur de référence de la courbe d'efficacité (LiftChartBaseline) : valeur égale à 1 utilisée comme référence pour la comparaison d'efficacité.
  • Valeur d'efficacité (LiftValue) : efficacité cumulée pour un pourcentage. L'efficacité correspond au ratio de la densité d'enregistrements positive cumulée pour les données sélectionnées par rapport à la densité positive sur l'ensemble des données de test.
  • Ligne de modèle idéale (IdealModelLine) : ratio du nombre cumulé de cibles positives par rapport au nombre total de cibles positives.
  • Gains maximaux (OptimalGain) : indique le nombre optimal de clients à contacter. La courbe de gains cumulés s'aplatira au-delà de ce point.

Vous pouvez ensuite visualiser l'ensemble de données <Data flow name>_LIFT dans un graphique Oracle Analytics. Par exemple, pour analyser les gains, vous pouvez placer le pourcentage de population (PopulationPercentile) sur l'axe des X et les gains cumulés (CumulativeGain), la valeur de référence de la courbe de gain (GainChartBaseline), la ligne de modèle idéale (IdealModelLine) et les gains maximaux (OptimalGain) sur l'axe des Y.

La description de GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png est la suivante
.png

Génération de données prédictives pour les courbes d'efficacité et de gain

Lorsque vous utilisez un flux de données pour appliquer un modèle de classification à un ensemble de données, Oracle Analytics vous permet de calculer des statistiques que vous pouvez ensuite visualiser à l'aide de courbes d'efficacité et de gain.

Avant de commencer, créez un modèle de classification incluant une probabilité de prévision (par exemple, un modèle de multi-classificateur créé à l'aide du script d'entraînement Naive Bayes). Oracle Analytics affiche les modèles disponibles dans l'onglet Modèles de la page Apprentissage automatique (sur la page d'accueil, cliquez sur Apprentissage automatique).
  1. Sur la page d'accueil, cliquez sur Créer, puis sur Flux de données.
  2. Sélectionnez une source de données, puis cliquez sur Ajouter.
  3. Cliquez sur Ajouter une étape et sélectionnez Appliquer un modèle.
  4. A l'étape Sélectionner un modèle, sélectionnez un modèle de classification incluant une probabilité de prévision, puis cliquez sur OK.
  5. A l'étape Appliquer un modèle, dans la section Paramètres :
    • Dans Calculer l'efficacité et le gain, sélectionnez Oui.
    • Dans Colonne cible pour calculer l'efficacité, sélectionnez le nom de colonne de la valeur calculée. Par exemple, si le modèle prévoit si les clients vont s'inscrire à l'aide d'une colonne nommée INSCRIPTION, sélectionnez INSCRIPTION.
    • Dans Classe positive à calculer, indiquez la valeur de données (en respectant les minuscules et les majuscules) représentant la classe positive (ou le résultat souhaité) de la prédiction. Par exemple, si le modèle prévoit si les clients vont s'inscrire à l'aide d'une colonne nommée INSCRIPTION comportant des valeurs OUI ou NON, indiquez OUI.
  6. Ajoutez un noeud Enregistrer les données au flux de données.
  7. Exécutez le flux de données.
Le flux de données génère un ensemble de données appelé <Data flow name>_LIFT contenant les statistiques d'efficacité et de gain, que vous pouvez analyser.

Evaluation d'un modèle d'apprentissage automatique à l'aide d'une courbe d'efficacité et de gain

Utilisez un graphique pour analyser les statistiques générées par les modèles de classification d'apprentissage automatique afin d'identifier le meilleur modèle à utiliser.

Avant de commencer, appliquez un modèle prédictif aux données, et générez des statistiques d'efficacité et de gain dans un ensemble de données.
  1. Sur la page d'accueil, cliquez sur Créer, puis sur Classeur.
  2. Dans Ajouter un ensemble de données, sélectionnez l'ensemble de données <Data flow name>_LIFT, qui est généré lors de la tâche précédente, puis cliquez sur Ajouter au classeur.
  3. Dans le panneau Visualiser, sélectionnez les statistiques à analyser, puis cliquez avec le bouton droit de la souris et sélectionnez Choisir une visualisation, puis choisissez Graphique à courbes.
    Par exemple, pour analyser les gains, vous pouvez placer le pourcentage de population (PopulationPercentile) sur l'axe des X, et les gains cumulés (CumulativeGain), la valeur de référence de la courbe de gain (GainChartBaseline), la ligne de modèle idéale (IdealModelLine) et les gains maximaux (OptimalGain) sur l'axe des Y.
    Pour analyser l'efficacité, vous pouvez représenter le pourcentage de population (PopulationPercentile) sur l'axe des X, et la valeur de référence de la courbe d'efficacité (LiftChartBaseline) ainsi que la valeur d'efficacité (LiftValue) sur l'axe des Y.