分類ソリューション

9.3 分類ソリューション

Oracle Textを使用すると、次の方法でドキュメントを分類できます。

ルールベース分類。このソリューションの場合、ドキュメントをグループ化し、カテゴリを選択し、そのカテゴリを定義する(実際には問合せ句となる)ルールを作成します。次に、そのルールに索引を付け、MATCHES演算子を使用してドキュメントを分類します。

メリット: このソリューションは、ドキュメント・セットが小さい場合は非常に正確です。ユーザーがルールを作成しているため、常にユーザーの定義に基づいた結果が出ます。

デメリット: カテゴリが多数である大きなドキュメント・セットに対してルールを定義する作業は、冗長になる可能性があります。ドキュメント・セットが大きくなるにつれ、対応するルールをさらに作成する必要があります。
教師あり分類。このソリューションはルールベース分類に類似していますが、ルール作成のステップはCTX_CLS.TRAINによって自動化されます。このプロシージャにより、ユーザーが提供する事前分類済のサンプル・ドキュメント・セットから、一連の分類ルールが形成されます。ルールベース分類と同様に、MATCHES演算子を使用してドキュメントを分類します。

Oracle Textには、2つのバージョンの教師あり分類があります。1つはRULE_CLASSIFIERプリファレンスを使用したもので、もう1つはSVM_CLASSIFIERプリファレンスを使用したものです。これらのプリファレンスの詳細は、「教師なし分類」を参照してください。

メリット: ルールが自動的に作成されます。この方法は、ドキュメント・セットが大きい場合に役立ちます。

デメリット: ルールを生成する前にドキュメントをカテゴリに割り当てる必要があります。ルールは、ユーザーが自分で作成したものには、特定的または正確ではない場合があります。
教師なし分類(クラスタリング)。ドキュメントのグループ化からカテゴリ・ルール作成までのすべてのステップがCTX_CLS.CLUSTERINGによって自動化されます。Oracle Textでは、ドキュメント・セットを統計的に分析し、その内容に応じてそれらをクラスタと相関付けます。

メリット:
- ユーザーが分類ルールや参考用のサンプル・ドキュメントを提供する必要はありません。
- このソリューションは、ドキュメント・セットで見逃されたパターンおよび内容の類似性の検出に役立ちます。
  
  実際、ルールまたは分類の方法を見出せない場合に、このソリューションを使用できます。たとえば、これを使用して初期のカテゴリ・セットを作成し、そのカテゴリを基にして教師あり分類を行います。
デメリット:
- クラスタ化は、内部ソリューションに基づいています。クラスタ化処理がユーザー定義ではないため、グループ化が予期しないものになる可能性があります。
- クラスタを作成するルールは表示できません。
- クラスタ化はCPU集中型の処理であり、少なくとも索引付けと同じ時間がかかります。