Sun Java System Portal Server 7.2 管理指南

瞭解搜尋伺服器網頁抓取程式

搜尋伺服器網頁抓取程式是一種代理程式,可識別及報告其網域上的資源。它使用兩種篩選器來執行這個作業:列舉篩選器與產生篩選器。

列舉篩選器使用網路通訊協定來找出資源。篩選器會測試每個資源,如果資源符合適當的條件,則列舉該資源。例如,列舉篩選器可從 HTML 檔案擷取超文字連結,並使用這些連結尋找額外的資源。

產生篩選器會測試每個資源以決定是否應建立資源描述 (Resource Description, RD)。若資源通過測試,產生器會建立 RD 並將其儲存在搜尋伺服器資料庫中。

以下章節將說明管理網頁抓取程式所需的配置和維護作業:

網頁抓取程式的作業方式

圖 19–1 顯示網頁抓取程式如何檢查 URL 及其相關網路資源。列舉器和產生器會測試每個資源。如果資源通過列舉器測試,網頁抓取程式會檢查它是否有額外的 URL。若資源通過產生器測試,網頁抓取程式會產生儲存於搜尋伺服器資料庫的資源描述。

圖 19–1 網頁抓取程式的作業方式

本圖將說明網頁抓取程式的作業方式。

網頁抓取程式配置檔案

網頁抓取程式配置檔案會定義網頁抓取程式的運作方式。這些檔案位在目錄 /var/opt/SUNWportal/searchservers/searchserverid/config 中。以下清單提供每個網頁抓取程式配置檔案的描述。

classification.conf

包含用於將網頁抓取程式所產生的 RD 分類的規則。

filter.conf

定義網頁抓取程式所使用的列舉篩選器和產生篩選器。

filterrules.conf

包含網頁抓取程式的網站定義、起點 URL、根據 MIME 類型的篩選規則和 URL 式樣。

robot.conf

為網頁抓取程式定義大部分的作業特性。

因為您可以藉由使用「搜尋伺服器管理介面」設定大部分的特性,一般來說不需要編輯 robot.conf 檔案。然而,進階使用者可以手動編輯此檔案,以設定無法透過介面設定的特性。

定義網站

網頁抓取程式會尋找資源並判定是否將其描述新增到資料庫中。而決定應訪問哪些伺服器以及應為這些伺服器的哪些部分編列索引,即所謂的網站定義

定義網頁抓取程式的網站乃是伺服器管理員的重要工作之一。您一方面必須確定將網頁抓取程式傳送到所有需要索引的伺服器,同時也需要剔除無關的網站,以免因其佔據資料庫而更難找出正確資訊。

控制網頁抓取程式抓取

網頁抓取程式會擷取及跟隨選取用來編列索引的各個網站連結。身為系統管理員,您可以透過一些設定來控制這些程序,包括:

如需網頁抓取程式抓取屬性的描述,請參閱「Sun Java System Portal Server 7.2 Technical Reference」。

篩選網頁抓取程式資料

篩選器能夠識別資源,因此可藉由根據篩選器定義來比對資源屬性,進而排除或包含資源。網頁抓取程式提供大量的預先定義篩選器,依預設會啟用其中一些篩選器。以下為預先定義的篩選器。標示星號的篩選器為預設啟用。

您可以建立新的篩選器定義、修改篩選器定義或啟用或停用篩選器。如需詳細資訊,請參閱資源篩選程序

使用網頁抓取程式公用程式

網頁抓取程式具有兩種除錯工具或公用程式:

網頁抓取程式排程

為了保持搜尋資料的及時性,網頁抓取程式應定時搜尋網站和編列索引。由於網頁抓取程式抓取和編列索引會消耗處理資源和網路頻寬,您應該安排在非尖峰日期與時間執行網頁抓取程式。管理主控台可讓管理員設定執行網頁抓取程式的排程。