9.1 ドキュメント分類の概要
各テーマは、単一のワード、単一の句または親テーマの階層リストになります。
莫大な数のドキュメントを選別するために、キーワード検索エンジンを使用できます。ただし、キーワード検索には限界があります。キーワード検索のデメリットの1つが、文脈による識別ができないことです。多くの言語で、1つのワードまたは1つの句に複数の意味があるため、検索すると特定のトピックに関連しないものに多数一致する可能性があります。たとえば、bankというワードには2つの意味があるため、river bankというフレーズに対して問い合せると、Hudson River Bank & Trust Companyに関するドキュメントが戻されることがあります。
あるいは、ドキュメントをソートして、その内容で分類することもできます。このアプローチは、大量のドキュメントには適していません。
Oracle Textは、ドキュメント分類の様々な方法を提供します。ルールベース分類(単純な分類とも呼ばれます)では、ユーザー自身が分類ルールを作成します。教師なし分類では、ユーザーが事前に分類したサンプル・ドキュメント・セットに基づいて、Oracle Textにより分類ルールが作成されます。教師なし分類(またはクラスタリング)では、分類ルールの記述からドキュメントの分類に至るすべてのステップがOracle Textで自動的に実行されます。