MDL用のデータ準備

最小記述長(MDL)のデータ準備について学習します。

MDLに対する自動データ準備では、教師ありビニングが実行されます。教師ありビニングでは、デシジョン・ツリーを使用して最適なビンの境界が作成されます。質的属性と量的属性のいずれもビニングされます。

MDLでは、欠損値をそのまま(ランダムに欠損している値として)処理します。スパースな量的データは0 (ゼロ)に置換され、スパースな質的データはゼロ・ベクトルに置換されます。ネストした列の欠損値はスパースとして解釈されます。単純なデータ型の列の欠損値は、ランダムに欠損した値として解釈されます。

独自のデータ準備を行う場合、MDLでは通常ビニングを行うことによってメリットが得られます。ただし、データ内に外れ値が存在する場合に外部等幅ビニングを使用すると、属性評価モデルの識別能力が著しく低下することがあります。この手法では、ほとんどのデータが少数のビン(極端な場合は単一のビン)に集中する可能性があります。この場合、より優れた解決策として、分位ビニングを使用します。

参照:

使用可能なモデル設定のリストおよび説明は、DBMS_DATA_MINING — 自動データ準備を参照してください。

ノート:

モデル設定と同じ意味でハイパーパラメータという用語も使用されます。

関連トピック