欠損値の処理方法は、アルゴリズムおよびデータの性質(質的または量的、スパースまたはランダムな欠損)によって異なります。欠損値の処理方法を次の表で要約します。
注意:
Oracle Data Miningでは、自動データ準備が使用されているかどうかにかかわらず、同じ欠損値処理が実行されます。
表3-2 アルゴリズムによる欠損値処理
欠損データ | EM、GLM、NMF、k-Means、SVD、SVM | DT、MDL、NB、OC | Apriori |
---|---|---|---|
ランダムな欠損値(量的) |
欠損している量的な値はアルゴリズムにより平均値に置換される。 期待値の最大化(EM)では、ガウス分布でモデル化された列のみ置換される。 |
すべての欠損データがスパースとして解釈される。 |
|
ランダムな欠損値(質的) |
一般化線形モデル(GLM)、Non-Negative Matrix Factorization (NMF)、k-Meansおよびサポート・ベクター・マシン(SVM)により、欠損している質的データがモードに置換される。 特異値分解(SVD)は、質的データに対応していない。 EMは欠損している質的な値を置換しない。EMはNULLを、独自の頻度カウントとともに、個別値として扱う。 |
欠損値はそのままランダムな欠損として処理される。 |
すべての欠損データがスパースとして解釈される。 |
スパース・データ(量的) |
スパースな量的データはアルゴリズムにより0(ゼロ)に置換される。 |
O-Clusterはネストしたデータをサポートしないため、スパース・データもサポートされない。ディシジョン・ツリー(DT)、最小記述長(MDL)およびNaive Bayes (NB)により、スパースな量的データが0に置換される。 |
スパース・データは処理される。 |
スパース・データ(質的) |
SVD以外のすべてのアルゴリズムは、スパースな質的データをゼロ・ベクターで置換する。SVDは質的データをサポートしない。 |
O-Clusterはネストしたデータをサポートしないため、スパース・データもサポートされない。DT、MDLおよびNBでは、スパースな質的データは |
スパース・データは処理される。 |