Oracle Textを使用すると、次の方法でドキュメントを分類できます。
ルールベース分類。ルールベース分類では、ドキュメントをグループ化し、カテゴリを決定し、そのカテゴリを定義する(実際には問合せフレーズとなる)ルールを作成します。次に、そのルールに索引を付け、MATCHES
演算子を使用してドキュメントを分類します。
メリット: ルールベース分類は、小さなドキュメント・セットに対しては非常に正確です。ユーザーがルールを作成しているため、常にユーザーの定義に基づいた結果が出ます。
デメリット: カテゴリが多数である大きなドキュメント・セットに対してルールを定義する作業は、冗長になる可能性があります。ドキュメント・セットが大きくなるにつれ、対応するルールをさらに作成する必要があります。
管理型分類。このメソッドはルールベース分類に類似していますが、ルール作成の手順はCTX_CLS.TRAIN
によって自動化されます。CTX_CLS.TRAIN
により、ユーザーが提供する事前分類済のサンプル・ドキュメント・セットから、一連の分類ルールが形成されます。ルールベース分類と同様に、MATCHES
演算子を使用してドキュメントを分類します。
Oracle Textには、2つのバージョンの管理型分類があります。1つはRULE_CLASSIFIER
プリファレンスを使用したもので、もう1つはSVM_CLASSIFIER
プリファレンスを使用したものです。これらについては、「管理型分類」で説明します。
メリット: ルールが自動的に作成されます。これは、大きなドキュメント・セットに対して役立ちます。
デメリット:
ルールを生成する前にドキュメントをカテゴリに割り当てる必要があります。
ルールは、ユーザーが自分で作成したものには、特定的または正確ではない場合があります。
非管理型分類(クラスタ化分類)。ドキュメントのグループ化からカテゴリ・ルール作成までのすべての手順がCTX_CLS.CLUSTERING
によって自動化されます。Oracle Textでは、ドキュメント・セットを統計的に分析し、その内容に応じてそれらをクラスタと相関付けます。
メリット:
ユーザーが分類ルールや参考用のサンプル・ドキュメントを提供する必要はありません。
ユーザーが見すごす可能性がある、ドキュメント・セットのパターンおよび内容の類似性を検出できます。
実際には、ルールまたは分類の方法を見出せない場合に、非管理型分類を使用できます。また、非管理型分類を使用して最初のカテゴリ・セットを作成し、それを基にして管理型分類を行う方法もあります。
デメリット:
クラスタ化処理はユーザー定義ではなく内部アルゴリズムに基づいているため、クラスタ化によって予期しないグループ化となる可能性があります。
クラスタを作成するルールは表示できません。
クラスタ化はCPU集中型の処理であり、少なくとも索引付けと同じ時間がかかります。