この章では、特徴抽出用にOracle Data Miningで使用される監視なしアルゴリズムであるNon-Negative Matrix Factorizationについて説明します。
この章では、次の項目について説明します。
Non-Negative Matrix Factorization(NMF)は、最新の抽出アルゴリズムです。NMFは、多数の属性があるときに、これらの属性があいまいな場合や予測可能性が低い場合に有効です。属性を組み合せることによって、意味のあるパターン、トピックまたはテーマが生成されます。
NMFは、多くの場合テキスト・マイニングで役立ちます。テキスト・ドキュメントでは、同じ言葉が異なる場所で別の意味を持って出現することがあります。たとえば、「hike」という単語は、アウトドア(outdoor)または金利(interest rate)に関連して使用されます。NMFでは、次のように属性を組み合せることによって、予測能力にとって必須であるコンテキストを取り入れます。
NMFに対する自動データ準備では、量的属性が正規化されます。
単純な(ネストしていない)データ型の列に欠損値がある場合、NMFではそれらをランダムに欠損した値として解釈します。質的データの欠損値は最頻値に、量的データの欠損値は平均値に置換されます。
ネストした列に欠損値がある場合、NMFではそれらをスパースとして解釈します。スパースな量的データは0(ゼロ)に、スパースな質的データはゼロ・ベクトルに置換されます。
独自のデータ準備を行う場合、外れ値が存在するとNMFに大きな影響を与える可能性があります。ビニングまたは正規化を行う前に、クリッピング変換を実行してください。NMFでは通常、正規化を行うことによってメリットが得られます。ただし、min-max正規化で外れ値が存在すると、行列因数分解のパフォーマンスが低下します。行列因数分解のパフォーマンスを向上するには、許容誤差を減らす必要があります。しかし、許容誤差を減らすと作成時間が長くなります。
SVDやその他の従来の分解手法と比較して、NMFはテキスト抽出に優れた方法であることが知られています。NMFは、ドキュメントの用語行列を入力として受け取り、共起用語の加重セットを表すトピック・セットを生成します。検出されたトピックによって、元のドキュメントを効率的に表現する基盤が形成されます。