9 特徴の選択と抽出

この章では、特徴選択、属性評価および特徴抽出について説明します。Oracle Data Miningでは、監視ありデータ・マイニングとして属性評価が、監視なしマイニング機能として特徴抽出がサポートされています。監視ありおよび監視なしデータ・マイニングの概要については、第2章を参照してください。

この章では、次の項目について説明します。

最適な属性の検出
特徴選択および属性評価とは
特徴抽出とは
属性評価および特徴抽出のアルゴリズム

最適な属性の検出

情報が大きくなりすぎると、データ・マイニングの効率が低下する場合があります。モデルの作成およびテスト用にアセンブルされたデータ属性の一部の列は、モデルに意味のある情報を提供しない場合があります。実際に、モデルの質および精度を低減させる場合があります。

一例として、ある集団内で特定の病気が発生する可能性を予測する目的で、その集団に関するデータを大量に集めたとします。この情報の一部(おそらくその大部分)は、その病気に対する罹患率についてほとんどあるいはまったく影響を与えないと予想されます。1世帯当たりの車の所有台数といった属性は、通常は何の影響も及ぼしません。

無関係な属性は、データにノイズを加えるのでモデルの精度に響きます。ノイズがあると、モデルのサイズが大きくなり、モデルの作成およびスコアリングに必要な時間やシステム・リソースも増大します。

多くの属性を持つデータセットには、相関した属性のグループが含まれることがあります。これらの属性は、実際には基底に存在する同一の特徴を測定している場合があります。こうした属性が作成データに存在していると、アルゴリズムのロジックが歪められ、モデルの精度が影響を受ける可能性があります。

ワイド・データ(多くの属性)は通常、データ・マイニング・アルゴリズムについて処理上の問題が生じる元となります。モデル属性は、アルゴリズムで使用される処理空間のディメンションです。処理空間のディメンション性が高くなるほど、アルゴリズムの処理にかかる計算コストが高くなります。

ノイズ、相関、高いディメンション性の影響を最小限に抑えるには、データ・マイニングの前処理手順として、なんらかの形でディメンションを削減することが望ましい場合があります。ディメンションを削減するには、特徴選択と特徴抽出という2つの方法があります。

特徴選択 - 最適な属性の選択
特徴抽出: 属性の組合せによる、新しい削減された特徴セットの作成

特徴選択および属性評価とは

一部のデータ・マイニング・プロジェクトでは、最も重要な予測子を見つけることが最終目的となります。たとえば、高い信用リスクを示す顧客の主要な特徴を見つけることを目的とするモデルなどです。

Oracle Data Miningでは、ターゲット予測での重要度に従って属性をランク付けする属性評価マイニング機能がサポートされています。属性評価では、すべての予測子がモデルに保持されていないため、実際には特徴選択は実行されません。実際の特徴選択では、指定した重要度のしきい値以下にランク付けされた属性は、モデルから削除されます。

特徴選択は、予測モデリングの計算効率を向上させるための前処理手段として有効です。Oracle Data Miningは、ディシジョン・ツリー・アルゴリズム内およびNaive Bayes(ADPが有効化されている場合)内で最適化を行うために特徴選択を実装しています。

属性評価およびスコアリング

Oracle Data Miningでは、属性評価のスコアリング操作はサポートしていません。属性評価の結果は、予測における影響度に従ってランク付けされた作成データの属性です。ランキングおよび重要度の測度は、分類モデルに対するトレーニング・データの選択に使用することができます。

特徴抽出とは

特徴抽出は、属性を削減するプロセスです。最も重要な属性を選択および保持する特徴選択とは異なり、特徴抽出では実際に属性を変換します。変換された属性、つまり特徴は、元の属性の一次結合です。

特徴抽出のプロセスによって、より小さく上質な属性のセットが生成されます。特徴の最大数は、ユーザーが指定するか、アルゴリズムによって決定されます。デフォルトでは、アルゴリズムによって決定されます。

抽出した特徴で作成されたモデルは、意味のある少数の属性でデータが説明されるため、質が高くなります。

特徴抽出では、より高いディメンション性を持つデータセットが、より少ない数のディメンションに投影されます。複雑なデータセットは、2つまたは3つのディメンションに低減すると有効に視覚化できるため、データの視覚化に有効です。

特徴抽出の用途には、潜在意味解析、データ圧縮、データ分解および投影、パターン認識などがあります。特徴抽出を使用して、監視あり学習の速度と効率を向上させることもできます。

特徴抽出は、一連のキーワードとその頻度によって表されるドキュメントのまとまりからテーマを抽出する場合に使用できます。各テーマ(特徴)は、キーワードの組合せで表されます。これにより、発見されたテーマで各ドキュメントを表現できるようになります。

特徴抽出とスコアリング

Oracle Data Miningでは、特徴抽出のスコアリング操作をサポートしています。監視なしマイニング機能として、特徴抽出にはターゲットは含まれません。適用されると、特徴抽出モデルによって、入力が特徴のセットに変換されます。

属性評価および特徴抽出のアルゴリズム

Oracle Data Miningでは、属性評価用に最小記述長アルゴリズムをサポートしています。第14章「最小記述長」を参照してください。

Oracle Data Miningでは、特徴抽出用にNon-Negative Matrix Factorizationアルゴリズムをサポートしています。第16章「Non-Negative Matrix Factorization」を参照してください。