filter.conf 檔案包含列舉篩選器與產生篩選器的定義。這個檔案可以包含多個用於列舉與產生的篩選器。網頁抓取程式所使用的篩選器是由 robot.conf 檔案中的 enumeration-filter 和 generation-filter 特性指定。
篩選器定義擁有一個定義良好的結構:標題、內文與結尾。標題會識別篩選器的開始並公佈其名稱,例如:
<Filter name="myFilter"> |
內文包含一系列的篩選器指令,這些指令可定義篩選器在設定、測試、列舉或產生和關閉期間的行為。每條指令會指定一個功能,且若適用,還會為功能指定特性。
結尾標記符為 </Filter>。
範例 19–1 顯示名為 enumeration1 的篩選器。
<Filter name="enumeration1> Setup fn=filterrules-setup config=./config/filterrules.conf # 處理規則 MetaData fn=filterrules-process # 再次按類型和處理規則篩選 Data fn=assign-source dst=type src=content-type Data fn=filterrules-process # 僅在 HTML 上列舉 Enumerate enable=true fn=enumerate-urls max=1024 type=text/html # 清除 Shutdown fn=filterrules-shutdown </Filter> |