線形回帰用のデータ準備

一般化線形モデル(GLM)アルゴリズムのための自動データ準備(ADP)について学習します。

ADPが有効になっている場合は、このアルゴリズムでは、入力データ・プロパティおよびその他の設定に基づいて変換が選択されます。変換には、量的データに対して次の中から1つ以上を含めることができます。平均値の引き算、標準偏差によるスケール化または相関の変換(1990年Neter他)。量的データに対して相関変換が適用される場合、質的属性にも適用されます。

標準化の前に、質的属性はN-1個の列に展開されます(Nは属性のカーディナリティ)。最頻値(mode)は、展開の変換中に省略されます。タイの最頻値が存在する場合、属性値は英数字の昇順でソートされ、リストの最初の値が展開時に除外されます。展開の変換は、ADPが有効化されているかどうかに関係なく発生します。

質的属性のカーディナリティが高い場合、ここで説明した変換(展開の後に標準化)によって、作成データのサイズが増えることがありますが、これは、結果のデータ表現が稠密であるためです。メモリー、ディスク領域および処理に関する要件を下げるには、代替手段を使用します。これらの事情により、VIF統計は注意して使用する必要があります。

関連トピック

参照:

  • Neter, J.、Wasserman, W.およびKutner, M.H.共著、『Applied Statistical Models』(Richard D.Irwin, Inc.、Burr Ridge、IL、1990)