11 特徴抽出

特徴抽出を教師なし機能として使用して、属性削減を実行する方法を学習します。

Oracle Machine Learning for SQLでは、教師なし機械学習機能として特徴抽出がサポートされています。

11.1 特徴抽出について

特徴抽出は、ディメンション性を削減する手法です。最も重要な属性を選択および保持する特徴選択とは異なり、特徴抽出では実際に属性を変換します。変換された属性、つまり特徴は、元の属性の一次結合です。

特徴抽出の手法によって、より小さく上質な属性のセットが生成されます。特徴の最大数は、ユーザーが指定するか、アルゴリズムによって決定されます。デフォルトでは、アルゴリズムによって決定されます。

抽出した特徴で作成されたモデルは、意味のある少数の属性でデータが説明されるため、質が高くなります。

特徴抽出では、高いディメンション性を持つデータセットを、少数のディメンションに投影します。そのため、特徴抽出はデータの視覚化に役立ちます(ディメンションを2つまたは3つに削減すると、複雑なデータセットを効果的に視覚化できるためです)。

特徴抽出の用途には、潜在意味解析、データ圧縮、データ分解および投影、パターン認識などがあります。特徴抽出は、機械学習アルゴリズムの速度と効果を高めるためにも使用できます。

特徴抽出は、一連のキーワードとその頻度によって表されるドキュメントのまとまりからテーマを抽出する場合に使用できます。各テーマ(特徴)は、キーワードの組合せで表されます。これにより、発見されたテーマで各ドキュメントを表現できるようになります。

11.1.1 特徴抽出とスコアリング

Oracle Machine Learning for SQLは、特徴抽出のスコアリング操作をサポートしています。教師なし機械学習手法として、特徴抽出にはターゲットは含まれません。適用されると、特徴抽出モデルによって、入力が特徴のセットに変換されます。

11.2 特徴抽出用のアルゴリズム

特徴抽出に使用されるアルゴリズムについて説明します。

OML4SQLは、次に示す特徴抽出アルゴリズムをサポートしています。

  • 明示的セマンティック分析 (ESA)

  • Non-Negative Matrix Factorization (NMF)

  • 特異値分解(SVD)および主成分分析(PCA)

ノート:

OML4SQLでは、デフォルトの特徴抽出アルゴリズムとしてNMFを使用します。