Microsoft WordやPDFなどの書式設定されたドキュメントを索引付けするには、テキストにフィルタ処理する必要があります。システムで使用されるフィルタ処理のタイプは、FILTER
プリファレンス型によって決まります。デフォルトでは、ドキュメントの形式が自動的に検出され、それらをテキストにフィルタリングするAUTO_FILTER
フィルタ型が使用されます。
Oracle Textでは、ほとんどの形式を索引付けできます。また、複合形式を持つドキュメントを含む列も索引付けできます。
Microsoft Word、プレーン・テキストおよびHTMLのドキュメントを含む列などの複合形式列がある場合は、テキスト表に形式列を組み込んで、プレーン・テキストやHTMLのフィルタ処理をバイパスできます。形式列では、各行にTEXT
またはBINARY
のタグを付けることができます。TEXT
タグを付けた行は、フィルタ処理されません。
たとえば、HTMLおよびプレーン・テキストの行にTEXT
タグを付け、Microsoft Wordの行にBINARY
タグを付けることができます。その形式列をCREATE INDEX
のPARAMETERS句で指定します。
第3の形式列の型IGNORE
は、ドキュメントに索引を付ける必要がない場合のために用意されています。これは、英語と日本語の両方によるプレーン・テキスト・ドキュメントを含む複合形式の表があり、英語のドキュメントのみを処理する場合や、プレーン・テキスト・ドキュメントとイメージの両方を含む複合形式の表などに役立ちます。IGNORE
はデータストア・レベルで実装されるため、すべてのフィルタとともに使用できます。