プライマリ・コンテンツに移動
Oracle® Data Miningユーザーズ・ガイド
12c リリース1 (12.1)
B72967-05
目次へ移動
目次
索引へ移動
索引

前
次

外れ値の処理のルーチン

外れ値は極端な値であり、通常は平均値から標準偏差の数倍離れた値のことを指します。外れ値の影響を最小限に抑えるには、データをウィンザライズするかトリミングします。

ウィンザライズでは、属性の両端の値を特定の指定値に設定します。たとえば、ウィンザライズを90%とする場合、値の下位5%は5パーセンタイルの最小値と同じ値に設定され、値の上位5%は95パーセンタイルの最大値に一致する値に設定されます。

トリミングでは、末端値をNULLに設定します。これらの値はアルゴリズムで欠損値として処理されます。

外れ値が及ぼす影響はアルゴリズムによって異なります。通常、外れ値は、等幅ビニングおよびmin-max正規化において歪みを生じさせます。

表4-5 DBMS_DATA_MINING_TRANSFORMの外れ値の処理手法

変換 説明

トリミング

この手法では、非NULL値をソートし、一定の割合に基づいて末端値を計算し、その末端値をNULLに置き換えることによって数値列の外れ値を取り除く。

ウィンザライズ

この手法では、非NULL値をソートし、一定の割合に基づいて末端値を計算し、その末端値を指定値に置き換えることによって数値列の外れ値を取り除く。