11 特徴抽出

教師なし機能としての特徴抽出を使用して属性の削減を実行する方法について説明します。

Oracle Machine Learning for SQLでは、教師なし機械学習機能として特徴抽出がサポートされています。

11.1 特徴抽出について

特徴抽出は、ディメンション性を削減するプロセスです。最も重要な属性を選択および保持する特徴選択とは異なり、特徴抽出では実際に属性を変換します。変換された属性、つまり特徴は、元の属性の一次結合です。

特徴抽出のプロセスによって、より小さく上質な属性のセットが生成されます。特徴の最大数は、ユーザーが指定するか、アルゴリズムによって決定されます。デフォルトでは、アルゴリズムによって決定されます。

抽出した特徴で作成されたモデルは、意味のある少数の属性でデータが説明されるため、質が高くなります。

特徴抽出では、高いディメンション性を持つデータセットを、少数のディメンションに投影します。そのため、特徴抽出はデータの視覚化に役立ちます(ディメンションを2つまたは3つに削減すると、複雑なデータセットを効果的に視覚化できるためです)。

特徴抽出の用途には、潜在意味解析、データ圧縮、データ分解および投影、パターン認識などがあります。特徴抽出は、機械学習アルゴリズムの速度と効率を向上するためにも使用できます。

特徴抽出は、一連のキーワードとその頻度によって表されるドキュメントのまとまりからテーマを抽出する場合に使用できます。各テーマ(特徴)は、キーワードの組合せで表されます。これにより、発見されたテーマで各ドキュメントを表現できるようになります。

11.1.1 特徴抽出とスコアリング

Oracle Machine Learning for SQLでは、特徴抽出のスコアリング操作がサポートされています。教師なし機械学習機能としての特徴抽出にはターゲットは関係ありません。適用されると、特徴抽出モデルによって、入力が特徴のセットに変換されます。

11.2 特徴抽出のアルゴリズム

特徴抽出に使用するアルゴリズムについて説明します。

OML4SQLでは、次の特徴抽出アルゴリズムがサポートされています。

  • 明示的セマンティック分析 (ESA)

  • Non-Negative Matrix Factorization (NMF)

  • 特異値分解(SVD)および予測成分分析(PCA)

注意:

OML4SQLでは、デフォルトの特徴抽出アルゴリズムとしてNMFが使用されます。