11 特徴抽出
教師なし機能としての特徴抽出を使用して属性の削減を実行する方法について説明します。
Oracle Machine Learning for SQLでは、教師なし機械学習機能として特徴抽出がサポートされています。
11.1 特徴抽出について
特徴抽出は、ディメンション性を削減するプロセスです。最も重要な属性を選択および保持する特徴選択とは異なり、特徴抽出では実際に属性を変換します。変換された属性、つまり特徴は、元の属性の一次結合です。
特徴抽出のプロセスによって、より小さく上質な属性のセットが生成されます。特徴の最大数は、ユーザーが指定するか、アルゴリズムによって決定されます。デフォルトでは、アルゴリズムによって決定されます。
抽出した特徴で作成されたモデルは、意味のある少数の属性でデータが説明されるため、質が高くなります。
特徴抽出では、高いディメンション性を持つデータセットを、少数のディメンションに投影します。そのため、特徴抽出はデータの視覚化に役立ちます(ディメンションを2つまたは3つに削減すると、複雑なデータセットを効果的に視覚化できるためです)。
特徴抽出の用途には、潜在意味解析、データ圧縮、データ分解および投影、パターン認識などがあります。特徴抽出は、機械学習アルゴリズムの速度と効率を向上するためにも使用できます。
特徴抽出は、一連のキーワードとその頻度によって表されるドキュメントのまとまりからテーマを抽出する場合に使用できます。各テーマ(特徴)は、キーワードの組合せで表されます。これにより、発見されたテーマで各ドキュメントを表現できるようになります。