XPathフィルタ式の定義について

document.prune.xpathプロパティは、Endeca Document Prune XPath Filter(endeca-xpath-filterプラグイン)によって使用されるXPath式を定義します。

XPath式は、3つの連続したチルダ(~~~)によって区切られ、この定義順でドキュメントのプルーニングに使用されます。要素名はすべて大文字で定義する必要があり、属性名は小文字で定義する必要があります。

注意: このプロパティを使用するには、plugin.includesプロパティにendeca-xpath-filterを含めます。
例1: このプロパティに次のXPath式の値が設定されているとします。
//DIV~~~//A[@href]
この式は、ドキュメント内のすべてのDIV要素とリンク(Aアンカー要素)をプルーニングします。
例2: クロールしている多くのページに同じヘッダーとフッターがあるとします。ヘッダーとフッターのテキストはページの主題と関係がないので、ヘッダーとフッターのテキストをプルーニングします。この処理のためのXPath式の一例を次に示します。
//DIV[@id="masthead"]~~~//DIV[@class="flash"]~~~//DIV[@id="header"]~~~
//DIV[@id="footer"]~~~//SCRIPT~~~//DIV[@id="breadcrumbs"]~~~//DIV[@id="clearBoth"]
注意: ヘッダーとフッターがリンクである場合は、document.prune.xpath.follow-outlinksプロパティをfalseに設定して、すべての外部リンクをプルーニングすることもできます。