Naive Bayes用のデータ準備

Naive Bayesのデータ準備について学習します。

Naive Bayesの場合、自動データ準備(ADP)では教師ありビニングが実行されます。教師ありビニングでは、デシジョン・ツリーを使用して最適なビンの境界が作成されます。質的属性と量的属性のいずれもビニングされます。

Naive Bayesでは、欠損値をそのまま(ランダムに欠損している値として)処理します。スパースな量的データは0 (ゼロ)に置換され、スパースな質的データはゼロ・ベクトルに置換されます。ネストした列の欠損値はスパースとして解釈されます。単純なデータ型の列の欠損値は、ランダムに欠損した値として解釈されます。

独自のデータ準備を行う場合、Naive Bayesでは通常ビニングが必要となります。Naive Bayesは、確率を計算するうえで集計手法に依存しています。カーディナリティを必要に応じて削減するために、列がビニングされます。量的データは値の範囲(低、中、高など)にビニングでき、質的データはメタクラス(都市のかわりに地域など)にビニングできます。等幅ビニングはお薦めできませんが、これは、外れ値が存在すると、ほとんどのデータが小数のビン(場合によっては1つのビン)に集中するためです。その結果、アルゴリズムの識別能力が著しく低下します

関連トピック