Évaluer les modèles d'apprentissage automatique à l'aide de graphiques d'efficacité et de gain

Les graphiques d'efficacité et de gain vous permettent de comparer différents modèles d'apprentissage automatique pour déterminer le modèle le plus précis.

Aperçu de l'utilisation des graphiques d'efficacité et de gain

Les graphiques d'efficacité et de gain vous permettent d'évaluer des modèles d'apprentissage automatique prédictifs en représentant graphiquement des statistiques de modélisation dans une visualisation dans Oracle Analytics.

Lorsque vous utilisez un flux de données pour appliquer un modèle de classification à un jeu de données, Oracle Analytics vous permet de calculer les valeurs d'efficacité et de gain. Vous pouvez ensuite visualiser ces données dans un graphique pour vous aider à évaluer l'exactitude des modèles prédictifs et déterminer celui qu'il convient d'utiliser.

Description de GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png ci-après
.png

Préalables

  • Oracle Database ou Oracle Autonomous Data Warehouse
  • Un modèle de classification comprenant une probabilité de prédiction (par exemple, un modèle multi-classificateur créé à l'aide du script d'entraînement bayésien naïf).

    Vous accédez à des modèles prédictifs existants dans la zone d'apprentissage automatique d'Oracle Analytics.

Statistiques générées pour des analyses d'efficacité et de gain

Lorsque vous appliquez un modèle de classification prédictif à un jeu de données et que vous générez des statistiques d'efficacité et de gain, vous produisez un jeu de données nommé <Nom du flux de données>_LIFT avec ces colonnes :
  • PopulationPercentile - Alimentation du jeu de données fractionnée en 100 groupes égaux.
  • CumulativeGain - Ratio entre le nombre cumulé de cibles positives jusqu'à ce centile et le nombre total de cibles positives. Plus la ligne de gains cumulés est proche de l'angle supérieur gauche du graphique, plus le gain est important; plus la proportion des répondants atteints par rapport à la proportion inférieure de clients contactés est élevée.
  • GainChartBaseline - Taux de réponse global : La ligne représente le pourcentage d'enregistrements positifs que nous prévoyons de recevoir si nous avons sélectionné les enregistrements de façon aléatoire. Par exemple, dans une campagne de marketing, si nous contactons X % des clients de façon aléatoire, nous recevrons X % du nombre total de réponses positives.
  • LiftChartBaseline - Valeur 1, utilisée comme référence pour la comparaison de l'efficacité.
  • LiftValue - Efficacité cumulée pour un centile. L'efficacité est le ratio entre la densité d'enregistrements positifs cumulés pour les données sélectionnées et la densité positive sur toutes les données de test.
  • IdealModelLine - Ratio entre le nombre cumulé de cibles positives et le nombre total de cibles positives.
  • OptimalGain - Indique le nombre optimal de clients à contacter. La courbe des gains cumulés est nivelée au-delà de ce point.

Vous pouvez ensuite visualiser le jeu de données <Nom du flux de données>_LIFT dans un graphique Oracle Analytics. Par exemple, pour analyser des gains, vous pouvez tracer PopulationPercentile sur l'axe des X, et CumulativeGain, GainChartBaseline, IdealModelLine et OptimalGain sur l'axe des Y.

Description de GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png ci-après
.png

Générer des données prédictives pour les graphiques d'efficacité et de gain

Lorsque vous utilisez un flux de données pour appliquer un modèle de classification à un jeu de données, Oracle Analytics vous permet de calculer des statistiques que vous pouvez visualiser dans des graphiques d'efficacité et de gain.

Avant de commencer, créez un modèle de classification comprenant une probabilité de prédiction (par exemple, un modèle multi-classificateur créé à l'aide du script d'entraînement bayésien naïf). Oracle Analytics affiche les modèles disponibles dans l'onglet Modèles de la page Apprentissage automatique (dans la page d'accueil, cliquez sur Apprentissage automatique).
  1. Dans la page d'accueil, cliquez sur Créer, puis sur Flux de données.
  2. Sélectionnez une source de données, puis cliquez sur Ajouter.
  3. Cliquez sur Ajouter une étape et sélectionnez Appliquer le modèle.
  4. Dans Sélectionner un modèle, sélectionnez un modèle de classification qui comprend une probabilité de prédiction, puis cliquez sur OK.
  5. Dans Appliquer le modèle, dans la section Paramètres :
    • Dans Calculer l'efficacité et le gain, sélectionnez Oui.
    • Dans Colonne cible pour le calcul de l'efficacité, sélectionnez le nom de colonne de la valeur qui est prédite. Par exemple, si votre modèle prédit si les clients s'inscriront pour une adhésion à l'aide d'une colonne nommée INSCRIPTION, sélectionnez INSCRIPTION.
    • Dans Classe positive à calculer, spécifiez la valeur de données sensible à la casse représentant la classe positive (ou le résultat préféré) dans la prédiction. Par exemple, si votre modèle prédit si les clients s'inscriront pour une adhésion à l'aide d'une colonne nommée INSCRIPTION avec les valeurs OUI ou NON, sélectionnez OUI.
  6. Ajoutez un noeud Enregistrer les données à votre flux de données.
  7. Exécutez ce flux de données.
Le flux de données produit un jeu de données nommé <Nom du flux de données>_LIFT qui contient les statistiques d'efficacité et de gain que vous pouvez évaluer.

Évaluer un modèle d'apprentissage automatique à l'aide d'un graphique d'efficacité et de gain

Utilisez un graphique pour analyser les analyses générées par des modèles de classification d'apprentissage automatique et déterminer le meilleur modèle à utiliser.

Avant de commencer, appliquez un modèle prédictif à vos données et générez des statistiques d'efficacité et de gain dans un jeu de données.
  1. Dans la page d'accueil, cliquez sur Créer, puis sur Classeur.
  2. Dans Ajouter un jeu de données, sélectionnez le jeu de données <Nom du flux de données>_LIFT que vous avez généré lors de la tâche précédente, puis cliquez sur Ajouter au classeur.
  3. Dans le panneau Visualiser, sélectionnez les statistiques à analyser, puis cliquez avec le bouton droit de la souris et sélectionnez Choisir la visualisation, puis sélectionnez Graphique linéaire.
    Par exemple, pour analyser les gains, vous pouvez placer PopulationPercentile sur l'axe des X et placer CumulativeGain, GainChartBaseline, IdealModelLine et OptimalGain sur l'axe des Y.
    Pour analyser l'efficacité, vous pouvez placer PopulationPercentile sur l'axe des X et placer LiftChartBaseline et LiftValue sur l'axe des Y.