リフトおよびゲイン・チャートを使用した機械学習モデルの評価

リフトおよびゲイン・チャートを使用すると、様々な分類の機械学習モデルを比較して、最も正確なモデルを決定できます。

リフトおよびゲイン・チャートの使用の概要

リフトおよびゲイン・チャートを使用すると、Oracle Analyticsのビジュアライゼーションでモデリング統計をチャートにすることで、予測的な機械学習モデルを評価できます。

データ・フローを使用して分類モデルをデータセットに適用する場合、Oracle Analyticsではリフトおよびゲインの値を計算できます。その後、チャートでこのデータをビジュアル化して予測モデルの精度を評価し、最適なものを決定することができます。

ml-lift-and-gain-analysis-2.pngの説明が続きます
図ml-lift-and-gain-analysis-2.pngの説明

前提条件

  • Oracle DatabaseまたはOracle Autonomous Data Warehouse
  • 予測確率(たとえば、Naive Bayesトレーニング・スクリプトを使用して作成された多項分類子モデルなど)を含む分類モデル。

    既存の予測モデルには、Oracle Analyticsの「機械学習」領域からアクセスします。

リフトおよびゲインの分析のために生成された統計

予測分類モデルをデータセットに適用し、リフトおよびゲイン統計を生成すると、次の列を含む<データ・フロー名>_LIFTというデータセットが生成されます。
  • PopulationPercentile - データセットの移入は、100のグループに等分されます。
  • CumulativeGain - ポジティブ・ターゲットの総数に対する、そのパーセンタイルまでのポジティブ・ターゲットの累積数の割合。累積ゲイン線がチャートの左上隅に近づくほど、ゲインが大きくなり、接触の割合の低い顧客に到達できた応答者の割合が高くなります。
  • GainChartBaseline - 全体的な応答率: 線はレコードをランダムに選択した場合に取得すると予想されるポジティブ・レコードの割合を表します。たとえば、マーケティング・キャンペーンで顧客のX%にランダムに連絡すると、ポジティブな応答を合計X%得られます。
  • LiftChartBaseline - 値1で、リフト比較のベースラインとして使用されます。
  • LiftValue - パーセンタイルの累積リフト。リフトは、選択したデータの累積ポジティブ・レコードの密度と、すべてのテスト・データのポジティブの密度との比率です。
  • IdealModelLine - ポジティブ・ターゲットの総数に対するポジティブ・ターゲットの累計数の割合。
  • OptimalGain - 接触する顧客の最適な数を示します。累積ゲイン曲線はこの点を越えて平坦化されます。

その後、Oracle Analyticsチャートで<データ・フロー名>_LIFTデータセットをビジュアル化できます。たとえば、ゲインを分析するには、PopulationPercentileをX軸に、CumulativeGain、GainChartBaseline、IdealModelLineおよびOptimalGainをY軸に描画します。

ml-lift-and-gain-analysis-1.pngの説明が続きます
図ml-lift-and-gain-analysis-1.pngの説明

リフトおよびゲイン・チャートの予測データの生成

データ・フローを使用して分類モデルをデータセットに適用する場合、Oracle Analyticsでは、リフトおよびゲイン・チャートでビジュアル化できる統計を計算できます。

開始する前に、予測確率(たとえば、Naive Bayesトレーニング・スクリプトを使用して作成された多項分類子モデルなど)を含む分類モデルを作成します。Oracle Analyticsでは、機械学習ページ(ホーム・ページから「機械学習」をクリック)の「モデル」タブに使用可能なモデルが表示されます。
  1. ホーム・ページで、「作成」をクリックしてから、「データ・フロー」をクリックします。
  2. データ・ソースを選択し、「追加」をクリックします。
  3. 「ステップの追加」をクリックして「モデルの適用」を選択します。
  4. 「モデルの選択」で、予測確率を含む分類モデルを選択し、「OK」をクリックします。
  5. 「モデルの適用」「パラメータ」セクションで、次の手順を実行します。
    • リフトおよびゲインの計算で、「はい」を選択します。
    • リフトを計算するターゲット列で、予測される値の列名を選択します。たとえば、モデルで、顧客がSIGNUPという名前の列を使用してメンバーシップにサインアップするかどうかを予測する場合は、「SIGNUP」を選択します。
    • 計算対象のポジティブ・クラスで、予測のポジティブ・クラス(または望ましい結果)を表すデータ値を大/小文字を区別して指定します。たとえば、値YESまたはNOのあるSIGNUPという名前の列を使用して、顧客がメンバーシップにサインアップするかどうかをモデルで予測する場合は、YESを指定します。
  6. 「データの保存」ノードをデータ・フローに追加します。
  7. このデータ・フローを実行します。
データ・フローでは、リフトおよびゲイン統計を含む<データ・フロー名>_LIFTという名前のデータセットが生成されるため、評価できます。リフトおよびゲイン・チャートを使用した機械学習モデルの評価を参照してください。

リフトおよびゲイン・チャートを使用した機械学習モデルの評価

チャートを使用して、機械学習分類モデルによって生成された統計を分析し、使用に最適なモデルを決定します。

開始する前に、予測モデルをデータに適用して、データセットにリフトおよびゲイン統計を生成します。リフトおよびゲイン・チャートの予測データの生成を参照してください。
  1. ホーム・ページで、「作成」「ワークブック」の順にクリックします。
  2. 「データセットの追加」で、「リフトおよびゲイン・チャートの予測データの生成」のタスクで生成した<Data flow name>_LIFTデータセットを選択して、「ワークブックに追加」をクリックします。
  3. 「ビジュアル化」パネルで分析する統計を選択し、右クリックして「ビジュアライゼーションの選択」を選択し、「折れ線グラフ」を選択します。
    たとえば、ゲインを分析するには、PopulationPercentileをX軸に配置し、CumulativeGainGainChartBaselineIdealModelLineおよびOptimalGainをY軸に配置します。
    リフトを分析するには、PopulationPercentileをX軸に配置し、LiftChartBaselineおよびLiftValueをY軸に配置します。