プレディクションを実行する前に、データを評価および管理する方法(外れ値や欠損値の処理方法など)を定義します。データを準備するためのこれらのオプションにより、プレディクションに使用するデータの品質を向上させることができます。
各ドライバのデータを管理する方法を定義します。「ターゲット」の値が「はい」である場合は、プレディクト対象のターゲット・メジャーを示します。
欠損値は、統計予測(単変量プレディクション)を使用してプレディクトされ、MLモデルのトレーニングに使用されます。
データには、測定の失敗、フォーマットの問題、ヒューマン・エラー、情報の欠如など、いくつかの理由で欠損値が含まれることがあります。これらの欠損値の入力方法を定義することより、データセット内の欠落しているエントリに標準化された値が追加されるようにします。
平均値 +/- 3*標準偏差の範囲外の値)の処理に使用するオプションを選択します:
なし—アクションを実行せず、そのままデータを送信します。
ゼロに置き換える—ゼロに置き換えます。
平均値に置き換える—平均値に置き換えます。
Z_scoreに置き換える—z_scoreに置き換えます。
いずれの数値列においても、平均値 +/- 3*標準偏差の範囲外の値は外れ値として扱われます。平均値 - 3*標準偏差未満の値は、平均値 -3*標準偏差に置き換えられます。平均値 + 3*標準偏差を超える値は、平均値 + 3*標準偏差に置き換えられます。