Sun Java System Portal Server 7.2 管理指南

篩選器語法

filter.conf 檔案包含列舉篩選器與產生篩選器的定義。這個檔案可以包含多個用於列舉與產生的篩選器。網頁抓取程式所使用的篩選器是由 robot.conf 檔案中的 enumeration-filtergeneration-filter 特性指定。

篩選器定義擁有一個定義良好的結構:標題、內文與結尾。標題會識別篩選器的開始並公佈其名稱,例如:


<Filter name="myFilter">

內文包含一系列的篩選器指令,這些指令可定義篩選器在設定、測試、列舉或產生和關閉期間的行為。每條指令會指定一個功能,且若適用,還會為功能指定特性。

結尾標記符為 </Filter>

範例 19–1 顯示名為 enumeration1 的篩選器。


範例 19–1 列舉檔案語法


<Filter name="enumeration1>
   Setup fn=filterrules-setup config=./config/filterrules.conf
#  處理規則
   MetaData fn=filterrules-process
#  再次按類型和處理規則篩選
   Data fn=assign-source dst=type src=content-type
   Data fn=filterrules-process
#  僅在 HTML 上列舉
   Enumerate enable=true fn=enumerate-urls max=1024 type=text/html
#  清除
   Shutdown fn=filterrules-shutdown
</Filter>