データの準備

プレディクションを実行する前に、データを評価および管理する方法(外れ値や欠損値の処理方法など)を定義します。データを準備するためのこれらのオプションにより、プレディクションに使用するデータの品質を向上させることができます。

各ドライバのデータを管理する方法を定義します。「ターゲット」の値が「はい」である場合は、プレディクト対象のターゲット・メジャーを示します。

  1. 将来の入力ドライバ・データについて、入力ドライバ値が欠落する値をプレディクトする場合は、「欠落した入力ドライバ値のプレディクト」を選択します。

    欠損値は、統計予測(単変量プレディクション)を使用してプレディクトされ、MLモデルのトレーニングに使用されます。

  2. ドライバごとに、欠落値の処理方法を定義します。「アクション」列の「編集」アイコン「編集」アイコンをクリックした後、「欠落した値」リストから、ドライバの欠損値を処理するためのオプションを選択します。

    データには、測定の失敗、フォーマットの問題、ヒューマン・エラー、情報の欠如など、いくつかの理由で欠損値が含まれることがあります。これらの欠損値の入力方法を定義することより、データセット内の欠落しているエントリに標準化された値が追加されるようにします。

    • なし—アクションを実行せず、そのままデータを送信します。
    • ゼロ—任意の列の欠損値をゼロに置き換えます。
    • 平均値で置換—履歴系列の平均値に置き換えます。
    • 中央値で置換—履歴系列の中央値に置き換えます。
    • 最頻値で置換—履歴系列で頻度が最も高い値に置き換えます。
    • 次の実測値で置換欠損値を直前の期間で観測された値に置き換えます。
    • 最後の実測値で置換—欠損値を直前の期間で観測された値に置き換えます。
  3. 各ドライバについて、「外れ値」リストから、外れ値(ドライバの平均値 +/- 3*標準偏差の範囲外の値)の処理に使用するオプションを選択します:
    • なし—アクションを実行せず、そのままデータを送信します。

    • ゼロに置き換える—ゼロに置き換えます。

    • 平均値に置き換える—平均値に置き換えます。

    • Z_scoreに置き換える—z_scoreに置き換えます。

      いずれの数値列においても、平均値 +/- 3*標準偏差の範囲外の値は外れ値として扱われます。平均値 - 3*標準偏差未満の値は、平均値 -3*標準偏差に置き換えられます。平均値 + 3*標準偏差を超える値は、平均値 + 3*標準偏差に置き換えられます。

  4. 「次」をクリックします。