Oracle Data Miningにおける欠損値の扱い

欠損値の処理方法は、アルゴリズムおよびデータの性質(質的または量的、スパースまたはランダムな欠損)によって異なります。欠損値の処理方法を次の表で要約します。

注意:

Oracle Data Miningでは、自動データ準備が使用されているかどうかにかかわらず、同じ欠損値処理が実行されます。

表3-2 アルゴリズムによる欠損値処理

欠損データ	EM、GLM、NMF、k-Means、SVD、SVM	DT、MDL、NB、OC	Apriori
ランダムな欠損値(量的)	欠損している量的な値はアルゴリズムにより平均値に置換される。期待値の最大化(EM)では、ガウス分布でモデル化された列のみ置換される。	欠損値はそのままランダムな欠損として処理される。	すべての欠損データがスパースとして解釈される。
ランダムな欠損値(質的)	一般化線形モデル(GLM)、Non-Negative Matrix Factorization (NMF)、k-Meansおよびサポート・ベクター・マシン(SVM)により、欠損している質的データがモードに置換される。特異値分解(SVD)は、質的データに対応していない。 EMは欠損している質的な値を置換しない。EMはNULLを、独自の頻度カウントとともに、個別値として扱う。	欠損値はそのままランダムな欠損として処理される。	すべての欠損データがスパースとして解釈される。
スパース・データ(量的)	スパースな量的データはアルゴリズムにより0(ゼロ)に置換される。	O-Clusterはネストしたデータをサポートしないため、スパース・データもサポートされない。ディシジョン・ツリー(DT)、最小記述長(MDL)およびNaive Bayes (NB)により、スパースな量的データが0に置換される。	スパース・データは処理される。
スパース・データ(質的)	SVD以外のすべてのアルゴリズムは、スパースな質的データをゼロ・ベクターで置換する。SVDは質的データをサポートしない。	O-Clusterはネストしたデータをサポートしないため、スパース・データもサポートされない。DT、MDLおよびNBでは、スパースな質的データは`DM$SPARSE`という特別な値に置換される。	スパース・データは処理される。