auto-proxy
|
指定網頁抓取程式的代理伺服器設定值。它可以是代理伺服器或用於自動配置代理伺服器的 JavaScript 檔案。
|
auto-proxy="http://proxy_server/proxy.pac"
|
bindir
|
指定網頁抓取程式是否要新增 bin 目錄至 PATH 環境。這是一個額外的 PATH,供使用者在網頁抓取程式中執行外部程式,例如由 cmd-hook 特性指定的外部程式。
|
bindir=path
|
cmd-hook
|
指定外部的完成程序檔以在網頁抓取程式完成一次執行作業之後執行。這必須要是指令名稱的一個完整路徑。網頁抓取程式會從 /var/opt/SUNWportal/ 目錄執行此程序檔。
未設定任何預設值。
必須至少註冊一個 RD,指令才能執行。
|
cmd-hook=”command-string”
|
command-port
|
指定網頁抓取程式用來偵聽以接受來自其他程式 (如管理介面或網頁抓取程式控制面板) 之指令的連接埠號碼。
為了安全理由,網頁抓取程式僅可接受來自本地主機的指令,除非 remote-access 設定為 yes。
|
command-port=port_number
|
connect-timeout
|
指定所允許的網路回應連線請求的最長時間。
預設為 120 秒。
|
command-timeout=seconds
|
convert-timeout
|
指定所允許的文件轉換的最長時間。
預設為 600 秒。
|
convert-timeout=seconds
|
depth
|
指定網頁抓取程式從起點 URL 檢查的連結數。這個特性為任何未指定深度的起點 URL 設定預設值。
預設為 10。
值為負 1 (depth=-1) 表示該連結深度為無限。
|
depth=integer
|
email
|
指定執行網頁抓取程式者的電子郵件位址。
電子郵件位址會連同 HTTP 請求標頭中的 user-agent 一起傳送,讓 Web 管理員能夠連絡在其網站上執行網頁抓取程式的人。
預設為 user@domain。
|
email=user@hostname
|
enable-ip
|
為每個所建立 RD 的 URL 產生 IP 位址。
預設為 true。
|
enable-ip=[true | yes | false | no]
|
enable-rdm-probe
|
確定伺服器是否支援 RDM。網頁抓取程式可根據此特性決定是否查詢每個所碰到的伺服器。如果伺服器支援 RDM,則網頁抓取程式不嘗試列舉伺服器資源,伺服器可以充當自己的資源描述伺服器。
預設為 false。
|
enable-rdm-probe=[true | false | yes | no]
|
enable-robots-txt
|
確定網頁抓取程式是否應該檢查每個所造訪站台的 robots.txt 檔案 (若有的話)。
預設為 yes。
|
enable-robots-txt=[true | false | yes | no]
|
engine-concurrent
|
指定網頁抓取程式要使用的預建立執行緒的數目。
預設為 10。
您無法使用管理主控台互動式設定此特性。
|
engine-concurrent=[1..100]
|
enumeration-filter
|
指定由網頁抓取程式使用以決定是否應列舉資源的列舉篩選器。值必須是定義於 filter.conf 檔案的篩選器名稱。
預設為 enumeration-default。
您無法使用管理主控台互動式設定此特性。
|
enumeration-filter=enumfiltername
|
generation-filter
|
指定由網頁抓取程式使用以決定是否應為資源產生資源描述的產生篩選器。值必須是定義於 filter.conf 檔案的篩選器名稱。
預設為 generation-default。
您無法使用管理主控台互動式設定此特性。
|
generation-filter=genfiltername
|
index-after-ngenerated
|
指定網頁抓取程式在為搜尋伺服器批次處理 RD 之前收集 RD 應持續的分鐘數。
預設值是 30 分鐘。
|
index-after-ngenerated=30
|
|
loglevel
|
指定記錄層級。loglevel 值如下所示:
-
層級 0:只記錄嚴重錯誤
-
層級 1:也記錄 RD 產生 (預設值)
-
層級 2:也記錄擷取作業
-
層級 3:也記錄篩選作業
-
層級 4:也記錄產生作業
-
層級 5:也記錄擷取進度
預設值為 1。
|
|
max-connections
|
指定網頁抓取程式可以執行的最大並行擷取數。
預設為 8。
|
|
max-filesize-kb
|
以 KB 為單位指定網頁抓取程式擷取檔案的最大檔案大小。
|
|
max-memory-per-url / max-memory
|
以位元組為單位指定每個 URL 所使用的最大記憶體。如果 URL 需要更多記憶體,則 RD 會儲存至磁碟。
預設為 64k。
您無法使用管理主控台互動式設定此特性。
|
max-memory-per-url=n_bytes
|
|
max-working
|
指定網頁抓取程式作業集設定的大小,也就是網頁抓取程式一次可處理的 URL 的最大數。
您無法使用管理主控台互動式設定此特性。
|
|
onCompletion
|
確定網頁抓取程式在完成執行之後的工作事項。網頁抓取程式可以成為閒置模式、回送、重新開始或退出。
預設為 idle。
此特性搭配 cmd-hook 特性使用。網頁抓取程式完成時,會執行 onCompletion 動作,然後執行 cmd-hook 程式。
|
OnCompletion=[idle | loop | quit]
|
|
password
|
指定用於 httpd 認證與 ftp 連線的 password。
|
|
referer
|
如果被設定為在存取網頁時將網頁抓取程式識別為參照,則指定 HTTP 請求中傳送的特性
|
|
register-user
|
指定用來將 RD 向搜尋伺服器資料庫註冊的使用者名稱。
此特性無法透過搜尋伺服器管理主控台互動式設定。
|
|
register-password
|
指定用來將 RD 向搜尋伺服器資料庫註冊的密碼。
這個特性無法透過管理主控台互動式設定。
|
|
remote-access
|
這個特性會決定網頁抓取程式是否可以接受來自遠端主機的指令。
預設為 false。
|
remote-access=[true | false | yes | no]
|
|
robot-state-dir
|
指定網頁抓取程式儲存其狀態的目錄。在此工作目錄中,網頁抓取程式可記錄收集的 RD 數目等等。
|
robot-state-dir="/var/opt/SUNWportal/
searchservers/<searchserverid>/config/robot"
|
|
server-delay
|
指定兩次造訪相同網站之間的時間週期,可以避免網頁抓取程式存取相同網站的頻率過高。預設為 0 秒。
|
server-delay=delay_in_seconds
|
|
site-max-connections
|
指定網頁抓取程式可以連至任何網站的最大並行連線數。
預設為 2。
|
site-max-connections=[1..100]
|
|
smart-host-heuristics
|
使網頁抓取程式能夠變更自動重建其 DNS 正規主機名稱的網站。例如,www123.siroe.com 變更為 www.siroe.com。
預設為 false。
|
smart-host-heuristics=[true | false]
|
|
tmpdir
|
指定網頁抓取程式建立暫存檔的位置。
使用這個值設定環境變數 TMPDIR。
|
|
user-agent
|
指定隨 http-request 中的電子郵件位址傳送至伺服器的特性。
|
user-agent=SunONERobot/6.2
|
|
username
|
指定執行網頁抓取程式的使用者名稱,該名稱用於 httpd 認證和 ftp 連線。
預設為 anonymous。
|
|