SVM用のデータ準備

サポート・ベクター・マシン(SVM)では、データ準備の際に正規化と欠損値処理を使用します。

SVMアルゴリズムは、量的属性に対してネイティブに作用します。SVMでは、量的属性に対してz-スコア正規化を使用します。正規化は、(ネストされていない)2次元数値列に対してのみ行われます。このアルゴリズムでは、質的データはカテゴリ値ごとに2項属性のセットとして自動的に展開されます。たとえば、値marriedまたはsingleを持つ婚姻区分用の文字列の列は、marriedsingleという2つの量的属性に変換されます。新規属性には、1 (真)または0 (不適切)を設定できます。

単純な(ネストしていない)データ型の列に欠損値がある場合、SVMではそれらをランダムに欠損した値として解釈します。質的データの欠損値は最頻値に、量的データの欠損値は平均値に自動的に置換されます。

ネストした列に欠損値がある場合、SVMではそれらをスパースとして解釈します。スパースな量的データは0 (ゼロ)に、スパースな質的データはゼロ・ベクトルに自動的に置換されます。