搜尋伺服器網頁抓取程式是一種代理程式,可識別及報告其網域上的資源。它使用兩種篩選器來執行這個作業:列舉篩選器與產生篩選器。
列舉篩選器使用網路通訊協定來找出資源。篩選器會測試每個資源,如果資源符合適當的條件,則列舉該資源。例如,列舉篩選器可從 HTML 檔案擷取超文字連結,並使用這些連結尋找額外的資源。
產生篩選器會測試每個資源以決定是否應建立資源描述 (Resource Description, RD)。若資源通過測試,產生器會建立 RD 並將其儲存在搜尋伺服器資料庫中。
圖 19–1 顯示網頁抓取程式如何檢查 URL 及其相關網路資源。列舉器和產生器會測試每個資源。如果資源通過列舉器測試,網頁抓取程式會檢查它是否有額外的 URL。若資源通過產生器測試,網頁抓取程式會產生儲存於搜尋伺服器資料庫的資源描述。
網頁抓取程式配置檔案會定義網頁抓取程式的運作方式。這些檔案位在目錄 /var/opt/SUNWportal/searchservers/searchserverid/config 中。以下清單提供每個網頁抓取程式配置檔案的描述。
包含用於將網頁抓取程式所產生的 RD 分類的規則。
定義網頁抓取程式所使用的列舉篩選器和產生篩選器。
包含網頁抓取程式的網站定義、起點 URL、根據 MIME 類型的篩選規則和 URL 式樣。
為網頁抓取程式定義大部分的作業特性。
因為您可以藉由使用「搜尋伺服器管理介面」設定大部分的特性,一般來說不需要編輯 robot.conf 檔案。然而,進階使用者可以手動編輯此檔案,以設定無法透過介面設定的特性。
網頁抓取程式會尋找資源並判定是否將其描述新增到資料庫中。而決定應訪問哪些伺服器以及應為這些伺服器的哪些部分編列索引,即所謂的網站定義。
定義網頁抓取程式的網站乃是伺服器管理員的重要工作之一。您一方面必須確定將網頁抓取程式傳送到所有需要索引的伺服器,同時也需要剔除無關的網站,以免因其佔據資料庫而更難找出正確資訊。
網頁抓取程式會擷取及跟隨選取用來編列索引的各個網站連結。身為系統管理員,您可以透過一些設定來控制這些程序,包括:
啟動、停止和排程網頁抓取程式
定義網頁抓取程式造訪的網站
可決定網頁抓取程式抓取積極程度的抓取屬性
透過定義篩選器,控制網頁抓取程式編列索引的資源類型。
透過定義編列索引屬性,控制網頁抓取程式建立何種資料庫項目。
如需網頁抓取程式抓取屬性的描述,請參閱「Sun Java System Portal Server 7.2 Technical Reference」。
篩選器能夠識別資源,因此可藉由根據篩選器定義來比對資源屬性,進而排除或包含資源。網頁抓取程式提供大量的預先定義篩選器,依預設會啟用其中一些篩選器。以下為預先定義的篩選器。標示星號的篩選器為預設啟用。
歸檔檔案*
音效檔案*
備份檔案*
二進位檔案*
CGI 檔案*
影像檔案*
Java、JavaScript、樣式表檔案*
記錄檔案*
Lotus Domino 文件
Lotus Domino OpenViews
外掛程式檔案
Power Point 檔案
修訂控制檔案*
原始碼檔案*
試算表檔案
系統目錄 (UNIX)
系統目錄 (NT)
暫存檔案*
視訊檔案*
您可以建立新的篩選器定義、修改篩選器定義或啟用或停用篩選器。如需詳細資訊,請參閱資源篩選程序。
網頁抓取程式具有兩種除錯工具或公用程式:
為了保持搜尋資料的及時性,網頁抓取程式應定時搜尋網站和編列索引。由於網頁抓取程式抓取和編列索引會消耗處理資源和網路頻寬,您應該安排在非尖峰日期與時間執行網頁抓取程式。管理主控台可讓管理員設定執行網頁抓取程式的排程。