ルールベース分類の場合は、ユーザー自身がドキュメントを分類するルールを作成します。管理型分類の場合は、Oracle Textによりルールが作成されますが、事前分類したトレーニング・ドキュメント・セットを提供する必要があります。非管理型分類(またはクラスタリング)では、では、トレーニング・ドキュメント・セットを提供する必要がありません。
CTX_CLS.CLUSTERING
プロシージャを使用して、クラスタ化が行われます。CTX_CLS.CLUSTERING
により、クラスタと呼ばれるドキュメント・グループの階層が作成され、ドキュメントごとに全リーフ・クラスタの関連性のスコアが戻されます。
たとえば、動物に関するドキュメントの膨大なコレクションがあるとします。CTX_CLS.CLUSTERING
では、犬、猫、魚、熊に関するリーフ・クラスタを個別に作成できます。(最初の3つのリーフ・クラスタをペットに関するノード・クラスタの下位にグループ化できます。)さらに、チワワなど、特定の犬種に関するドキュメントがあるとします。CTX_CLS.CLUSTERING
では、関連性スコアの高いドキュメントに犬のクラスタが割り当てられ、猫のクラスタにはそれより低いスコアが割り当てられ、魚と熊のクラスタにはさらに低いスコアが割り当てられます。すべてのクラスタのスコアがすべてのドキュメントに割り当てられる場合、アプリケーションではスコアに基づいて処理を実行できます。
「意思決定ツリー管理型分類」に示したように、クラスタの決定に使用される属性は単純なワード(またはトークン)、ワードのステムおよびテーマ(サポートされている場合)で構成されます。
CTX_CLS.CLUSTERING
により、出力は2つの表(インメモリー表)に割り当てられます。
ドキュメント割当て表は、各リーフ・クラスタに対するドキュメントの類似性を示します。この情報は、ドキュメント識別、クラスタ識別およびドキュメントとクラスタ間の類似性のスコアで表されます。
クラスタ説明表には、生成されたクラスタに関する情報が含まれます。この表には、クラスタ識別、クラスタ説明テキスト、提示されたクラスタ・ラベル、およびクラスタの品質スコアが含まれます。
CTX_CLS.CLUSTERING
では、K-MEAN
アルゴリズムを使用して、クラスタ化を実行します。KMEAN_CLUSTERING
プリファレンスを使用して、CTX_CLS.CLUSTERING
の操作方法を決定します。