特徴選択

9.1 属性の検出

前処理ステップによってノイズ、相関および高いディメンション性を減らすことで、重要な属性を識別します。

情報量が多すぎると、機械学習の有効性が低下する可能性があります。教師ありモデルの作成やテストのために集められたデータ属性の列が、そのモデルにとって意味のある情報にならない場合もあります。実際にモデルの質や精度を落としてしまう場合もあります。

たとえば、ある集団内で特定の病気が発生する可能性を予測する目的で、その集団に関するデータを大量に集めたとします。この情報の一部(おそらくその大部分)は、その病気に対する罹患率についてほとんどあるいはまったく影響を与えません。1世帯当たりの車の所有台数といった属性は、通常は何の影響も及ぼさない可能性があります。

無関係な属性は、データにノイズを加えることになりモデルの精度に影響します。ノイズがあると、モデルのサイズが大きくなり、モデルの作成およびスコアリングに必要な時間やシステム・リソースも増大します。

多くの属性を持つデータセットには、相関した属性のグループが含まれることがあります。これらの属性は、実際には基底に存在する同一の特徴を測定します。こうした属性が作成データに混在していると、アルゴリズムによって検出されるパターンが歪められ、モデルの精度に影響する可能性があります。

ワイド・データ(多数の属性)は、一般に機械学習アルゴリズムによる処理を増やします。モデル属性は、アルゴリズムで使用される処理空間のディメンションです。処理空間のディメンション性が高くなるほど、アルゴリズムの処理にかかる計算コストが高くなります。

ノイズ、相関、高いディメンション性の影響を最小限に抑えるには、なんらかの形式のディメンションの削減が前処理ステップとして望ましいことがあります。特徴選択では、最も予測性の高い属性を特定して、そこからモデル作成のアルゴリズムを提供するものを選択します。モデルの価値をほとんどまたはまったく高めない属性を削除すると、処理が必要な属性が少なくなるため、モデルの精度が向上し、計算時間が短縮される可能性があるという利点があります。情報的なサンプルや典型的なサンプルには、特徴選択が最適です。変数の線形結合を表すよりも重要な変数を表現できる場合があります。教師なしの方法(低ランクのマトリックス分解)では、データ・マトリックスの列または行の「重要度」を選抜して測定できます。

特徴選択の最適化は、デシジョン・ツリー・アルゴリズム(アルゴリズム動作としてはNaive Bayes)で実行されます。一般化線形モデル(GLM)アルゴリズムは、特徴選択を実行するようにモデル設定によって構成できます。

9.2 特徴選択および属性評価について

属性をそれらの重要性に基づいてランク付けして、計算効率と予測精度を高めます。

一部の機械学習プロジェクトでは、最も重要な予測子を見つけることが最終目的になります。たとえば、高い信用リスクを示す顧客の主要な特徴を見つけることを目的とするモデルなどです。Oracle Machine Learningでは、属性を重要度に応じてランク付けする、属性評価の機械学習手法がサポートされています。属性評価は、実際には特徴を選択するものではなく、結果の予測との関連性に応じて特徴をランク付けするものです。ユーザーは、ランク付けされた特徴を再検討して、目的とする特徴が含まれるデータセットを作成する責任を負います。

特徴選択は、予測モデリングの計算効率を向上させるための前処理手段として有効です。

9.2.1 属性評価およびスコアリング

分類モデルおよび回帰モデルにおいて、より適切なトレーニング・データを選択するために、属性をそれらの影響によってランク付けします。

属性評価の結果は、影響力に応じてランク付けされた作成データの属性です。ランキングと重要度の測定基準は、分類モデルと回帰モデルに対応するトレーニング・データの選択に使用できます。また、教師なしアルゴリズム(CURマトリックス分解など)のデータの選択にも使用されます。Oracle Machine Learningでは、属性評価のスコアリング操作はサポートされていません。

9.3 属性評価のアルゴリズム

属性評価に使用するアルゴリズムについて説明します。

Oracle Machine Learning for SQLは、次に示す属性評価のアルゴリズムをサポートしています。

最小記述長
CURマトリックス分解

関連トピック

9 特徴選択

9.1 属性の検出

9.2 特徴選択および属性評価について

9.2.1 属性評価およびスコアリング

9.3 属性評価のアルゴリズム