プライマリ・コンテンツに移動
Oracle® Data Miningユーザーズ・ガイド
12c リリース1 (12.1)
B72967-05
目次へ移動
目次
索引へ移動
索引

前
次

Oracle Data Miningにおける欠損値の扱い

欠損値の処理方法は、アルゴリズムおよびデータの性質(質的または量的、スパースまたはランダムな欠損)によって異なります。欠損値の処理方法を次の表で要約します。

注意:

Oracle Data Miningでは、自動データ準備が使用されているかどうかにかかわらず、同じ欠損値処理が実行されます。

表3-2 アルゴリズムによる欠損値処理

欠損データ EM、GLM、NMF、k-Means、SVD、SVM DT、MDL、NB、OC Apriori

ランダムな欠損値(量的)

欠損している量的な値はアルゴリズムにより平均値に置換される。

期待値の最大化(EM)では、ガウス分布でモデル化された列のみ置換される。

欠損値はそのままランダムな欠損として処理される。

すべての欠損データがスパースとして解釈される。

ランダムな欠損値(質的)

一般化線形モデル(GLM)、Non-Negative Matrix Factorization (NMF)、k-Meansおよびサポート・ベクター・マシン(SVM)により、欠損している質的データがモードに置換される。

特異値分解(SVD)は、質的データに対応していない。

EMは欠損している質的な値を置換しない。EMはNULLを、独自の頻度カウントとともに、個別値として扱う。

欠損値はそのままランダムな欠損として処理される。

すべての欠損データがスパースとして解釈される。

スパース・データ(量的)

スパースな量的データはアルゴリズムにより0(ゼロ)に置換される。

O-Clusterはネストしたデータをサポートしないため、スパース・データもサポートされない。ディシジョン・ツリー(DT)、最小記述長(MDL)およびNaive Bayes (NB)により、スパースな量的データが0に置換される。

スパース・データは処理される。

スパース・データ(質的)

SVD以外のすべてのアルゴリズムは、スパースな質的データをゼロ・ベクターで置換する。SVDは質的データをサポートしない。

O-Clusterはネストしたデータをサポートしないため、スパース・データもサポートされない。DT、MDLおよびNBでは、スパースな質的データはDM$SPARSEという特別な値に置換される。

スパース・データは処理される。