ロジスティック回帰用のデータ準備

質的属性はN-1個の列に展開されます(Nは属性のカーディナリティ)。最頻値(mode)は、展開の変換中に省略されます。タイの最頻値が存在する場合、属性値は英数字の昇順でソートされ、リストの最初の値が展開時に除外されます。展開の変換は、自動データ準備(ADP)が有効化されているかどうかに関係なく発生します。

ADPが有効な場合、量的属性は標準偏差でスケーリングされます。この変動性の測度は、原点(平均値ではない)に関して属性ごとに標準偏差として計算されます(Marquardt、1980)。

参照:

Marquardt, D.W.著、『A Critique of Some Ridge Regression Methods: Comment』(Journal of the American Statistical Association、Vol. 75、No. 369、1980、pp 87-91)