リフトおよびゲイン・チャートを使用した機械学習モデルの評価

リフトおよびゲイン・チャートを使用すると、様々な機械学習モデルを比較して、最も正確なモデルを判別できます。

リフトおよびゲイン・チャートの使用の概要

リフトおよびゲイン・チャートにより、Oracle Analytics内のビジュアライゼーションのモデリング統計をグラフ化することで、予測機械学習モデルを評価できます。

データ・フローを使用して分類モデルをデータセットに適用する場合、Oracle Analyticsにより、リフトおよびゲインの値を計算できます。そして、このデータをチャートでビジュアル化すると、予測モデルの正確性を評価し、使用に最適なモデルを決定するのに役立ちます。

GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.pngの説明が続きます
.pngの説明

前提条件

  • Oracle DatabaseまたはOracle Autonomous Data Warehouse
  • 予測確率(たとえば、Naive Bayesトレーニング・スクリプトを使用して作成された多項分類子モデルなど)を含む分類モデル。

    Oracle Analyticsの機械学習領域で、既存の予測モデルにアクセスします。

リフトおよびゲインの分析のために生成された統計

予測分類モデルをデータセットに適用し、リフトおよびゲインの統計を生成すると、次の列を含む<データ・フロー名>_LIFTという名前のデータセットが作成されます:
  • PopulationPercentile - 100等分したグループに分割されたデータセットの母集団です。
  • CumulativeGain - ポジティブ・ターゲットの総数に対する、そのパーセンタイルまでのポジティブ・ターゲットの累積数の比率です。累積ゲインの線がチャートの左上隅に近いほど、ゲインは大きくなります。連絡を受けた顧客の割合が低いほど、到達した応答者の割合が高くなります。
  • GainChartBaseline - 全体的な応答率: この線は、レコードをランダムに選択した場合に得られると予想されるポジティブ・レコードの割合を表します。たとえば、マーケティング・キャンペーンで、X%の顧客にランダムに連絡すると、全体のX%のポジティブな応答を得ることができます。
  • LiftChartBaseline - 値は1で、リフト比較のベースラインとして使用されます。
  • LiftValue - パーセンタイルの累積リフトです。リフトは、すべてのテスト・データのポジティブ密度に対する、選択したデータの累積ポジティブ・レコード密度の比率です。
  • IdealModelLine - ポジティブ・ターゲットの総数に対する、ポジティブ・ターゲットの累積数の比率です。
  • OptimalGain - これは、連絡を取る最適な顧客数を示しています。累積ゲイン曲線は、このポイントを超えると平坦になります。

これで、<データ・フロー名>_LIFTデータセットをOracle Analyticsのチャートでビジュアル化できます。たとえば、ゲインを分析するには、X軸にPopulationPercentileを配置し、Y軸にCumulativeGain、GainChartBaseline、IdealModelLineおよびOptimalGainを配置します。

GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.pngの説明が続きます
.pngの説明

リフトおよびゲイン・チャートの予測データの生成

データ・フローを使用して分類モデルをデータセットに適用する場合、Oracle Analyticsにより、リフトおよびゲイン・チャートでビジュアル化できる統計を計算できます。

開始する前に、予測確率(たとえば、Naive Bayesトレーニング・スクリプトを使用して作成された多項分類子モデルなど)を含む分類モデルを作成します。Oracle Analyticsでは、機械学習ページ(ホーム・ページから「機械学習」をクリック)の「モデル」タブに使用可能なモデルが表示されます。
  1. ホーム・ページで、「作成」をクリックし、「データ・フロー」をクリックします。
  2. データ・ソースを選択し、「追加」をクリックします。
  3. 「ステップの追加」をクリックし、「モデルの適用」を選択します。
  4. 「モデルの選択」で、予測確率を含む分類モデルを選択し、「OK」をクリックします。
  5. 「モデルの適用」「パラメータ」セクションで、次を行います:
    • リフトおよびゲインの計算で、「はい」をクリックします。
    • リフトを計算するターゲット列で、予測している値の列名を選択します。たとえば、SIGNUPという名前の列を使用して顧客がメンバーシップにサインアップするかどうかを予測するモデルの場合は、SIGNUPを選択します。
    • 計算するポジティブ・クラスで、予測におけるポジティブ・クラス(または優先結果)を表す、大/小文字を区別するデータ値を指定します。たとえば、値がYESまたはNOのSIGNUPという名前の列を使用して顧客がメンバーシップにサインアップするかどうかを予測するモデルの場合は、YESを指定します。
  6. 「データの保存」ノードをデータ・フローに追加します。
  7. このデータ・フローを実行します。
データ・フローでは、<データ・フロー名>_LIFTという名前のデータセットが作成され、このデータセットには、評価可能なリフトおよびゲインの統計が含まれています。

リフトおよびゲイン・チャートを使用した機械学習モデルの評価

チャートを使用して、機械学習分類モデルによって生成された統計を分析し、使用する最適なモデルを決定します。

開始する前に、予測モデルをデータに適用して、データセットにリフトおよびゲイン統計を生成します。
  1. ホーム・ページで、「作成」をクリックし、「ワークブック」をクリックします。
  2. 「データセットの追加」で、前のタスク生成した<Data flow name>_LIFTデータセットを選択して、「ワークブックに追加」をクリックします。
  3. 「ビジュアル化」パネルで、分析する統計を選択し、右クリックして「ビジュアライゼーションの選択」を選択し、「折れ線グラフ」を選択します。
    たとえば、ゲインを分析するには、PopulationPercentileをx軸に配置し、CumulativeGainGainChartBaseline、IdealModelLineおよびOptimalGainをy軸に配置します。
    リフトを分析するには、PopulationPercentileをx軸に配置し、LiftChartBaselineおよびLiftValueをy軸に配置します。