XHTML情報の収集

output.dom.includeプロパティをtrueに設定すると、Web CrawlerはHTMLドキュメントのコンテンツを正規化してXHTMLに変換し、レコード内のEndeca.Document.XHTMLプロパティに格納します。

  1. テキスト・エディタでdefault.xmlを開きます。
  2. output.dom.includetrueに設定します。

    これにより、XSLTまたはその他のXML処理システムを使用して、XHTMLから情報を抽出できるようになります。

  3. Endeca.Document.Textプロパティにも、抽出されたテキストがXMLヘッダーとHTMLタグが削除された形式で格納されることに注意してください。したがって、XHTMLバージョンのコンテンツが不要な場合は、output.dom.includeプロパティをfalseに設定します。
  4. ファイルを保存して閉じます。