データ属性とは、モデルの作成、テストまたはスコアリングに使用されるデータセットの列のことです。モデル属性とは、モデルによって内部的に使用されるデータ表現のことです。
データ属性とモデル属性が同一である場合もあります。たとえば、SIZE
という名前の列と、値S
、M
およびL
は、いずれもモデルを作成するアルゴリズムで使用される属性です。モデル属性SIZE
は、内部的にはその導出元であるデータ属性と同じである可能性が最も高いと考えられます。
一方、ある製品グループの売上高が格納されているネストした列SALES_PROD
は、モデル属性と対応しません。データ属性がSALES_PROD
の可能性はありますが、各製品および対応する売上高(ネストした列の各行)がモデル属性です。
変換によっても、データ属性とモデル属性の不一致が起こります。たとえば、変換で2つのデータ属性に対し計算を適用し、結果を新しい属性以下苦悩することができます。この新しい属性は、対応するデータ属性を持たないモデル属性です。ビニング、正規化および外れ値の処理などの変換では、ケース表のデータ属性とモデルの属性表現の不一致が起こります。
関連項目:
変換の詳細は、「データの変換」を参照してください。