13 明示的セマンティック分析

Oracle Data Mining特徴抽出マイニング機能を使用して、明示的セマンティック分析(ESA)を監視なしアルゴリズムとして使用する方法を学習します。

13.1 明示的セマンティック分析とは

明示的セマンティック分析(ESA)は、特徴抽出用にOracle Data Miningで使用される監視なしアルゴリズムです。ESAは潜在的な機能は検出しませんが、既存ナレッジ・ベースに基づき明示的な機能を使用します。

量的または質的な値(あるいはその両方)で構成される属性ベクターは、各特徴(概念)を表します。値は、属性と概念の間の相関の強度を定量化します。ESAでは、各属性の最も重要な概念を示す逆インデックスを作成します。

ESAへの入力は属性ベクターのセットです。ESAの出力は、最も重要な属性と概念の相関が含まれるスパース属性概念マトリックスです。相関の強度は各属性と概念ペアの重みの値によって取得されます。

注意:

ESAアルゴリズムは元の特徴空間を投影せず、ディメンション性を減少させません。ESAアルゴリズムは制限されたまたは有益でない属性セットの機能を除外します。

13.1.1 ESAでのスコアリング

明示的セマンティック分析アルゴリズム(ESA)を使用してスコアリングする方法を学習します。

ESAの典型的なアプリケーションは、指定された入力に最も関連する機能を識別して、その関連性をスコアリングします。ESAモデルのスコアリングによって、概念の特徴空間にデータ投影が生成されます。特徴抽出のSQLスコアリング関数では、ESAモデルがサポートされます。ESAモデルがドキュメントの任意の集合から作成される場合、それぞれが機能として扱われます。こうすることで、集合内で最も関連するドキュメントを識別することが簡単になります。特徴抽出関数は、FEATURE_DETAILSFEATURE_IDFEATURE_SETFEATURE_VALUEおよびFEATURE_COMPAREです。

13.1.2 大きいESAモデルのスコアリング

テキスト・ドキュメントの大きな集合に明示的セマンティック分析アルゴリズム(ESA)モデルを作成すると、多くの機能またはタイトルを持つモデルになる場合があります。スコアリングのモデル情報は、共有(共有プール・サイズ)ライブラリ・キャッシュ・オブジェクトとして、システム・グローバル領域(SGA)にロードされます。別のSQL予測問合せがこのオブジェクトを参照できます。モデル・サイズが大きい場合、データベースのSGAパラメータを大きなオブジェクトに対応する十分なサイズに設定する必要があります。

SGAが小さすぎると、モデルが参照されるたびに再ロードする必要があり、パフォーマンスが低下する可能性があります。

13.2 テキスト・マイニング用のESA

明示的セマンティック分析(ESA)をテキスト・マイニングで使用する方法を学習します。

明示的な知識は、通常、テキスト形式で存在します。複数のナレッジ・ベースがテキスト・ドキュメントの集合として使用できます。これらのナレッジ・ベースは、Wikipediaなど一般的なものでもドメイン固有のものでもかまいません。データ準備は、テキストを属性と概念の相関を取得するベクターに変換します。ESAは、共通の用語がない場合でも、ドキュメントの意味的な関連性を定量化できます。意味的な関連性を計算するために、関数FEATURE_COMPAREを使用できます。

13.3 ESA用のデータ準備

自動データ準備では、明示的セマンティック分析(ESA)のために入力ベクターをユニット長に正規化します。

単純な(ネストされていない)データ型の列に欠損値がある場合、ESAによって質的データの欠損値は最頻値に、量的データの欠損値は平均値に自動的に置換されます。ネストした列に欠損値がある場合、ESAではそれらをスパースとして解釈します。スパースな量的データは0(ゼロ)に、スパースな質的データはゼロ・ベクターに置換されます。Oracle Data Miningデータ準備では、入力テキストは実数のベクターに変換されます。これらの数値は、テキスト内の各用語の重要度を表しています。