Sun Java System Portal Server 7.2 管理指南

可修改特性

robot.conf 檔案會定義許多網頁抓取程式選項,包括將網頁抓取程式指向在 filter.conf 檔案中適當的篩選器。如需與舊版本向下相容,robot.conf 也可包含起點 URL。

因為您可以藉由使用管理主控台設定大部分的特性,一般來說不需要編輯 robot.conf 檔案。然而,進階使用者可以手動編輯此檔案,以設定無法透過管理主控台設定的特性。如需此檔案範例的詳細資訊,請參閱 robot.conf 檔案範例

表 19–4 列出 robot.conf 檔案中您可變更的特性。

表 19–4 使用者可修改特性

特性 

說明 

範例 

auto-proxy

指定網頁抓取程式的代理伺服器設定值。它可以是代理伺服器或用於自動配置代理伺服器的 JavaScript 檔案。 

auto-proxy="http://proxy_server/proxy.pac"

bindir

指定網頁抓取程式是否要新增 bin 目錄至 PATH 環境。這是一個額外的 PATH,供使用者在網頁抓取程式中執行外部程式,例如由 cmd-hook 特性指定的外部程式。

bindir=path

cmd-hook

指定外部的完成程序檔以在網頁抓取程式完成一次執行作業之後執行。這必須要是指令名稱的一個完整路徑。網頁抓取程式會從 /var/opt/SUNWportal/ 目錄執行此程序檔。

未設定任何預設值。 

必須至少註冊一個 RD,指令才能執行。 

 

cmd-hook=”command-string”

command-port

指定網頁抓取程式用來偵聽以接受來自其他程式 (如管理介面或網頁抓取程式控制面板) 之指令的連接埠號碼。 

為了安全理由,網頁抓取程式僅可接受來自本地主機的指令,除非 remote-access 設定為 yes

command-port=port_number

connect-timeout

指定所允許的網路回應連線請求的最長時間。 

預設為 120 秒。

command-timeout=seconds

convert-timeout

指定所允許的文件轉換的最長時間。 

預設為 600 秒。

convert-timeout=seconds

depth

指定網頁抓取程式從起點 URL 檢查的連結數。這個特性為任何未指定深度的起點 URL 設定預設值。 

預設為 10

值為負 1 (depth=-1) 表示該連結深度為無限。

depth=integer

email

指定執行網頁抓取程式者的電子郵件位址。 

電子郵件位址會連同 HTTP 請求標頭中的 user-agent 一起傳送,讓 Web 管理員能夠連絡在其網站上執行網頁抓取程式的人。 

預設為 user@domain

email=user@hostname

enable-ip

為每個所建立 RD 的 URL 產生 IP 位址。 

預設為 true

enable-ip=[true | yes | false | no]

enable-rdm-probe

確定伺服器是否支援 RDM。網頁抓取程式可根據此特性決定是否查詢每個所碰到的伺服器。如果伺服器支援 RDM,則網頁抓取程式不嘗試列舉伺服器資源,伺服器可以充當自己的資源描述伺服器。 

預設為 false

enable-rdm-probe=[true | false | yes | no]

enable-robots-txt

確定網頁抓取程式是否應該檢查每個所造訪站台的 robots.txt 檔案 (若有的話)。

預設為 yes

enable-robots-txt=[true | false | yes | no]

engine-concurrent

指定網頁抓取程式要使用的預建立執行緒的數目。 

預設為 10

您無法使用管理主控台互動式設定此特性。 

engine-concurrent=[1..100]

enumeration-filter

指定由網頁抓取程式使用以決定是否應列舉資源的列舉篩選器。值必須是定義於 filter.conf 檔案的篩選器名稱。

預設為 enumeration-default

您無法使用管理主控台互動式設定此特性。 

enumeration-filter=enumfiltername

generation-filter

指定由網頁抓取程式使用以決定是否應為資源產生資源描述的產生篩選器。值必須是定義於 filter.conf 檔案的篩選器名稱。

預設為 generation-default

您無法使用管理主控台互動式設定此特性。 

generation-filter=genfiltername

index-after-ngenerated

指定網頁抓取程式在為搜尋伺服器批次處理 RD 之前收集 RD 應持續的分鐘數。 

預設值是 30 分鐘。 


index-after-ngenerated=30

loglevel

指定記錄層級。loglevel 值如下所示:

  • 層級 0:只記錄嚴重錯誤

  • 層級 1:也記錄 RD 產生 (預設值)

  • 層級 2:也記錄擷取作業

  • 層級 3:也記錄篩選作業

  • 層級 4:也記錄產生作業

  • 層級 5:也記錄擷取進度

    預設值為 1


loglevel=[0...100]

max-connections

指定網頁抓取程式可以執行的最大並行擷取數。 

預設為 8


max-connections=[1..100]

max-filesize-kb

以 KB 為單位指定網頁抓取程式擷取檔案的最大檔案大小。 


max-filesize-kb=1024

max-memory-per-url / max-memory

以位元組為單位指定每個 URL 所使用的最大記憶體。如果 URL 需要更多記憶體,則 RD 會儲存至磁碟。 

預設為 64k

您無法使用管理主控台互動式設定此特性。 


max-memory-per-url=n_bytes

max-working

指定網頁抓取程式作業集設定的大小,也就是網頁抓取程式一次可處理的 URL 的最大數。 

您無法使用管理主控台互動式設定此特性。 


max-working=1024

onCompletion

確定網頁抓取程式在完成執行之後的工作事項。網頁抓取程式可以成為閒置模式、回送、重新開始或退出。 

預設為 idle

此特性搭配 cmd-hook 特性使用。網頁抓取程式完成時,會執行 onCompletion 動作,然後執行 cmd-hook 程式。


OnCompletion=[idle | loop | quit]

password

指定用於 httpd 認證與 ftp 連線的 password


password=string

referer

如果被設定為在存取網頁時將網頁抓取程式識別為參照,則指定 HTTP 請求中傳送的特性 


referer=string

register-user

指定用來將 RD 向搜尋伺服器資料庫註冊的使用者名稱。 

此特性無法透過搜尋伺服器管理主控台互動式設定。 


register-user=string

register-password

指定用來將 RD 向搜尋伺服器資料庫註冊的密碼。 

這個特性無法透過管理主控台互動式設定。 


register-password=string

remote-access

這個特性會決定網頁抓取程式是否可以接受來自遠端主機的指令。 

預設為 false


remote-access=[true | false | yes | no]

robot-state-dir

指定網頁抓取程式儲存其狀態的目錄。在此工作目錄中,網頁抓取程式可記錄收集的 RD 數目等等。 


robot-state-dir="/var/opt/SUNWportal/
searchservers/<searchserverid>/config/robot"

server-delay

指定兩次造訪相同網站之間的時間週期,可以避免網頁抓取程式存取相同網站的頻率過高。預設為 0 秒。 


server-delay=delay_in_seconds

site-max-connections

指定網頁抓取程式可以連至任何網站的最大並行連線數。 

預設為 2


site-max-connections=[1..100]

smart-host-heuristics

使網頁抓取程式能夠變更自動重建其 DNS 正規主機名稱的網站。例如,www123.siroe.com 變更為 www.siroe.com

預設為 false


smart-host-heuristics=[true | false]

tmpdir

指定網頁抓取程式建立暫存檔的位置。 

使用這個值設定環境變數 TMPDIR


tmpdir=path

user-agent

指定隨 http-request 中的電子郵件位址傳送至伺服器的特性。


user-agent=SunONERobot/6.2

username

指定執行網頁抓取程式的使用者名稱,該名稱用於 httpd 認證和 ftp 連線。

預設為 anonymous


username=string