k-Means用のデータ準備

k-Meansアルゴリズムのデータ準備について学習します。

k-Meansアルゴリズムでは、通常、正規化が必要です。自動データ準備では、k-Meansに対して、正規化が実行されます。ADPを使用しない場合、モデルを作成または適用する前に量的属性を正規化する必要があります。

単純な(ネストしていない)データ型の列に欠損値がある場合、k-Meansではそれらをランダムに欠損した値として解釈します。質的データの欠損値は最頻値に置換され、量的データの欠損値は平均値に置換されます。

ネストした列に欠損値がある場合、k-Meansではそれらをスパースとして解釈します。スパースな量的データは0 (ゼロ)に置換され、スパースな質的データはゼロ・ベクトルに置換されます。

KMNS_WINSORIZEパラメータを使用すると、平均値の周囲の6つの標準偏差のウィンドウ・サイズでデータを制約できます。ADPがONに設定されているかOFFに設定されているかに関係なく、KMNS_WINSORIZEパラメータを使用できます。範囲外の値は範囲の端にマップされます。このパラメータは、ユークリッド距離が使用される場合にのみ適用されます。