附錄 F
搜尋屬性
此附錄描述可透過 Sun ONE Identity Server 管理主控台為搜尋引擎進行配置的屬性。
當您從「服務管理檢視」選取「搜尋屬性」時,將會顯示雙色調的索引標籤式功能表列。此附錄根據功能表列上方所列的主題或標籤為準進行編排。
選取其中一個標籤時,下方的功能表列即會列出該主題相關的子主題。預設「搜尋」頁面可選取「伺服器/設定」。每一個子主題使用一個或多個表格來說明該子主題的屬性。本表格分為三欄:屬性、預設值以及說明。「屬性」提供頁面上所載的描述性文字;「預設值」提供「屬性」的預設值;「說明」則說明「屬性」及其格式。
每一個「搜尋屬性」頁面皆提供您表 F-1 中所描述的「選取伺服器」屬性。
表 F-1 搜尋選取伺服器屬性
屬性
|
預設值
|
說明
|
Select Server
|
http://servername:80/portal
|
您的「搜尋」伺服器完整的伺服器名稱。
|
伺服器
「伺服器」區段即是您配置伺服器喜好設定的所在。您可選取針對暫存檔所要使用的目錄、要記錄的資訊及日誌中應記錄的詳細資訊數量。「伺服器」屬性分兩個頁面顯示:
設定
本頁面包含管理與操作搜尋伺服器的基本設定。
表 F-2 伺服器設定屬性
屬性
|
預設值
|
說明
|
Server Root
|
/var/opt/SUNWps/https-servernamefull/portal
|
儲存配置、日誌、資料庫與 robot 資訊檔案。此外,其亦為進行搜尋時所產生與更新之所有搜尋檔案的根目錄。其無法配置。
|
Temporary Files
|
/var/opt/SUNWps/https-servernamefull/portal/tmp
|
包含所有在搜尋時用來管理搜尋的暫存檔。其包括尚未新增至主資料庫的新產生資源描述。完成搜尋時便將之移除。
|
Document level security
|
Off
|
控制有權存取文件的使用者。
當此設定有所變更時,必須重新啟動伺服器。
值:
- Off (預設) 表示所有使用者皆可存取 RD。
- 開啟表示 RD 中的 ReadACL 欄位為已核取,以便檢視要求 RD 的使用者是否具有許可權 (因為使用者在可接受的組織或角色中,或為可接受的個人使用者)。ReadACL 欄位可於「資源描述元」頁面的「資料庫」中設定。
|
Robot
本頁面包含管理與操作搜尋伺服器的進階設定。此處說明您可於何處配置使用者查詢、索引維護、資源描述管理與除錯的日誌檔案。
表 F-3 伺服器進階設定屬性
屬性
|
預設值
|
說明
|
Search (rdm)
|
/var/opt/SUNWps/https-servername/portal/logs/rdm.log
|
記錄一般使用者在資料庫中所進行的查詢。您亦可核取「停用搜尋日誌」核取方塊以停止此記錄。
若這麼做,您將無法檢視「使用者查詢 (rdm)」報告。
|
Disable Search Log
|
False (已取消核取) - 已啟用
|
控制查詢日誌的使用
在報告區段中,您可以以此日誌為準,產生列出最熱門查詢的報告。
值:
|
Index Maintenance
|
/var/opt/SUNWps/https-servername/portal/logs/searchengine.log
|
記錄有搜尋引擎有關的異動,未註冊的資源描述除外。
|
RD Manager
|
/var/opt/SUNWps/https-servername/portal/logs/rdmgr.log
|
記錄從 robot 註冊的資源描述或匯入代理程式至資料庫。您可將此日誌視為「RD 管理員 (rdmgr)」報告。
|
RDM Server
|
/var/opt/SUNWps/https-servername/portal/logs/rdmserver.log
|
記錄 RDM 異動的除錯資訊。詳細資訊的層級由「日誌層次」控制。您可將此日誌視為「RDM 伺服器 (rdmsvr)」報告。
|
Log Level
|
1
|
控制「RDM 伺服器」日誌檔案所包括的詳細資料數量。
可能的層次為 2、10、20、50、100 與 999。
設定為 1 (預設) 僅記錄嚴重錯誤。數字愈大,「RDM 伺服器」日誌檔案所包含的詳細資料也就愈多。
|
Robot
robot 屬性是相當複雜的。您可以選取待搜尋與待耙梳的站台、檢查站台是否有效、定義要撿取的文件的類型與進行排程進行搜尋的時間。
本節編排方式如下:
摘要
您可以在「Robot 摘要」面板中看到 robot 正在執行何種動作:是否為「關閉」、「閒置」、「執行中」或「已暫停」;如果它為「執行中」,您也可以看見目前搜尋的進度如何,因為此面板大約每 30 秒會更新一次。使用 search.conf 檔案中的 robot-refresh 參數即可定義更新率。
右上方的兩個按鈕會反應出按鈕狀態。若 robot 為「關閉」,則按鈕為「啟動與移除狀態」。若為「執行中」或「閒置」,則按鈕為「停止與暫停」。若為「已暫停」,則按鈕為「停止與恢復」。藉由選取任一屬性,您可以前往「報告」區段,從中取得該屬性最新的詳細報告。
表 F-4 Robot 摘要屬性
屬性
|
預設值
|
說明
|
The Robot is
|
目前活動
|
Robot 狀態。值可為 Idle、Running、Paused 或 Off
|
Updated at date
|
上次更新日期與時間
|
本頁面會不斷更新,如此您即可持續注意 robot 的進度。
|
Starting Points
|
定義數
|
您已選取要進行搜尋的站台數。「站台」頁面中 Robot 上的一個站台已停用 (未包含在搜尋中)。
|
URL Pool
|
等待中的 URL 數
|
尚未查驗的 URL 數。當您開始搜尋時,起點 URL 會輸入至 URL 儲存區中。進行搜尋時,robot 會找出連至其他 URL 的連結。這些 URL 會新增至儲存區中。儲存區中的所有 URL 皆處理完畢之後,URL 儲存區將清空,而 robot 則成為閒置狀態。
|
Extracting
|
每秒連線數
|
每秒資源讀取數
「擷取」是發現或找出要納入資料庫中的資源、文件或超連結然後過濾不需要的項目的程序。
|
Filtering
|
拒絕的 URL 數
|
排除的 URL 總數
|
Indexing
|
每秒 URL 數
|
每秒資源或文件轉為資源描述的數。
「編列索引」是當所有收集到文件中的資訊轉為資源描述以便納入搜資料庫中的階段。
|
Excluded URLs
|
過濾器排除的 URL 數
|
不符合過濾準則的 URL 數。
|
|
依據錯誤排除的 URL 數
|
因為找不到檔案 robot 發生錯誤的 URL 數。
|
Resource Descriptions
|
提供的 RD 數
|
新增至資料庫的資源描述數。
|
|
提供的 RD 位元數
|
新增至資料庫的位元數。
|
General Stats
|
擷取的 URL 數
|
執行時擷取的 URL 數。
|
|
RD 位元數平均大小
|
每個資源描述的平均位元數。
|
|
以日、時、分及秒為單位的執行時間
|
robot 的執行時間值。
|
站台
本節首頁說明可進行搜尋的站台。
使用單選按鈕即可啟用 (開啟) 與停用 (關閉) 站台。robot 執行時將不會搜尋已停用的站台。「編輯」連結會顯示您可於其中變更搜尋站台定義的頁面。
若要刪除站台,請核取核取方塊,然後選取「刪除」。
若要新增新的站台,請選擇「開啟新檔」。在文字方塊中新增 URL 或網域,然後選取搜尋深度。選取「建立」以使用預設值。否則,請選取「建立與編輯」以選取非預設值,然後前往「編輯」頁面以定義搜尋站台。
表 F-5 Robot 管理站台屬性
屬性
|
預設值
|
說明
|
Lock or cluster graphic
|
站台狀態
|
開鎖表示可存取此URL。閉鎖表示此站台為有安全措施的網路伺服器並使用 SSL。叢集表示此站台為一網域。
|
On/Off
|
On
|
robot 執行時選擇是否搜尋此站台。
|
您可於「新站台」頁面設定整個站台以便編列索引。
表 F-6 Robot 新站台屬性
屬性
|
預設值
|
說明
|
New site
|
URL
|
URL - 格式: http://www.sesta.com
網域 - 格式: *.sesta.com
|
Depth
|
10
|
您可選擇:1 僅適用此 URL、2 適用此 URL 與首個連結、100 適用於 robot、3 - 10 或無限。預設值於「耙梳」頁面的 Robot 中設定。
|
您可於「編輯」頁面更完整地定義搜尋站台。您可指定伺服器類型、重新定義搜尋深度及選取要新增至搜尋資料庫的檔案類型。「URL 與網域」站台的屬性大致相同。本表格中的附加欄顯示出共享及唯一的屬性。
本頁面可執行多個動作。您可驗證自己輸入的搜尋站台伺服器名稱。您可藉由選取「伺服器群組」區段中的「新增」,將更多的伺服器新增至伺服器群組。您可藉由選取「起點」區段中的「新增」,新增更多起點。在「過濾器定義」區段中,您可以新增或刪除、排除或包括特定檔案類型,以及變更這些檔案所套用的過濾器順序。
表 F-7 Robot 站台編輯屬性
屬性
|
URL/網域
|
預設值
|
說明
|
Site Nickname
|
URL/D
|
輸入的站台 - www.sesta.com
|
顯示在初始頁面上的名稱。預設值為您所輸入的 URL 或網域。您可於此處變更此名稱。
|
Checkbox to select site for deletion or verification
|
URL/D
|
已取消核取
|
已取消核取 - 未選取
已核取 - 已選取
|
Server Group - Name
|
URL
|
URL - www.sesta.com
|
為單一伺服器或單一伺服器的一部份。輸入項必須包括主機全名。若您僅指定一個主機名稱,則站台僅限於該主機。若除了主機名稱之外您還提供目錄資訊,則站台將僅依據該目錄及其任何子目錄定義。
|
網域後綴
|
D
|
輸入的網域 - *.sesta.com
|
包括網域內所有的伺服器,如 *.sesta.com。
|
Port
|
URL/D
|
80用於 URL;網域則保留空白
|
若您所搜尋的站台使用不同的連接埠,請於此處輸入。
|
Type
|
URL
|
Web Server
|
網路伺服器、檔案伺服器、FTP 伺服器、有安全措施的網路伺服器
|
Allowed Protocols
|
D
|
已核取所有核取方塊
|
http、檔案、ftp、https 的核取方塊
|
Starting Points- Checkbox to select site for deletion
|
URL/D
|
已取消核取
|
已取消核取 - 未選取
已核取 - 已選取
|
Starting Points- URL
|
URL/D
|
http:// URL:80
|
URL 或網域
|
Starting Points - Depth
|
URL/D
|
10
|
1 - 僅適用此 URL
2 - 適用此 URL 與第一個連結
3-10
無限
|
Filter Definition - Checkbox to select file type for deletion
|
URL/D
|
已取消核取
|
已取消核取 - 未選取
已核取 - 已選取
|
Filter Definitions
|
URL/D
|
預設值依序為:「歸檔檔案」、「音效檔案」、「備份檔案」、「二元檔案」、「CGI 檔案」、「影像檔案」、「Java」、「Javascript」、「樣式表檔案」、「日誌檔」、「修訂控制檔案」、「原始碼檔案」、「暫存檔案」、「視訊檔案」。
|
可能的選擇有:「歸檔檔案」、「音效檔案」、「備份檔案」、「二元檔案」、「CGI 檔案」、「影像檔案」、「Java」、「Javascript」、「樣式表檔案」、「日誌檔」、「Power Point 檔案」、「修訂控制檔案」、「原始碼檔案」、「暫存檔案」、「視訊檔案」、「試算表檔案」、「Plug-in 檔案」、「Lotus Domino 文件」、「Lotus Domino OpenViews」、「系統目錄 (UNIX)」、「系統目錄 (NT)」。
|
Comment
|
URL/D
|
空白
|
向您描述站台的文字欄位。robot 不使用此欄位。
|
DNS Translation
|
URL
|
空白
|
DNS 轉換可藉由以 canme 取代網域名稱或別名的方式修改 URL 與其耙梳的方式。格式:alias1->cname1,alias2->cname1
|
過濾器
本段落中的初始頁面顯示所有定義的過濾器規則,以及使用這些規則的站台定義。每一個過濾器名稱由核取方塊處理,以便選取該文件類型;由兩個單選按鈕處理,以便開啟或關閉「過濾器規則」。若核取方塊已核取,則表示已選取該過濾器,並可將之刪除。您可以選取「開啟新檔」來新增新的過濾器。新過濾器頁面是一個縮簡的「編輯」頁面,僅需一個「暱稱」及一個規則。另一個作法是選取「編輯」連結,如此系統即會將您導引至可定義該檔案類型規則及過濾器作業的頁面。每一個規則包括「過濾器來源」的下拉式清單、「過濾依據」下拉式清單以及可輸入指定過濾器字串的文字方塊。
表 F-8 Robot 過濾器編輯屬性
屬性
|
預設值
|
說明
|
Filter Name
|
新名稱提示。您選擇進行編輯之檔案類型的檔案名稱。
|
反映過濾器所套用之檔案類型的描述性名稱。
|
Drop down list of Filter Sources
|
新過濾器的 URL。顯示該特定檔案類型先前選擇的資訊。
|
URL、協定、主機、路徑、MIME 類型
|
Drop down list of positions
|
is 用於新過濾器。顯示該特定檔案類型先前選擇的資訊。例如,以 exe 結尾的「二元檔案」。
|
是、包含、開頭、結尾常規表示式
|
Text box for type (directory, protocol, file extensions) specifics
|
空白適用於新過濾器。顯示該特定檔案類型先前輸入的資訊。例如,包含 /tmp/ 的「暫存檔案」。
|
此文字方塊中列出必須符合的項目。本範列中的符合項目 - http://docs.sesta.com/manual.html
協定為 http、包含 sesta 的主機、以 html 結尾的檔案。
|
Description
|
新描述提示。顯示該特定檔案類型先前輸入的描述。
|
描述您自己的過濾器規則。robot 不使用此規則。
|
New Site
|
適用於新過濾器的「True (已取核)」。顯示該特定檔案類型先前選擇的值。
|
建立新站台時使用此過濾器作為預設過濾器之一。若您未核取此核取方塊,您仍然可以編輯「站台」頁面 Robot 中的站台來將此過濾器新增至新站台。
|
By Default
|
新過濾器未選取任何項目。先前針對已定義檔案類型選取的預設值。
|
排除符合此過濾器的文件。
包括符合此過濾器的文件。
選取新過濾器並不會影響現有的站台定義。若要在現在的站台上使用新過濾器,您必須編輯「站台」頁面 Robot 中的站台以新增新過濾器。
|
Deployment
|
列出使用此過濾器的站台。
|
|
耙梳
本頁面中的設定控制 robot 的操作參數與預設值。其分為幾個部分:「速度」、「完成的動作」、「日誌檔案設定」、「標準核可」、「認證參數」、「代理程序」、「進階設定」與「連結擷取」。
表 F-9 Robot 耙梳屬性
屬性
|
預設值
|
說明
|
Server Delay
|
不延遲
|
不延遲 (預設)、1 秒、2 秒、5 秒、10 秒、30 秒、1 分鐘、5 分鐘。
|
Maximum Connections - Max concurrent retrieval URLs
|
8
|
1、2、4、8 (預設)、10、12、16、20。
|
Maximum Connections
|
2
|
(無限)、1、2、4、8、10、12、16、20。
|
Send RDs to Indexing every
|
30 分鐘
|
3 分鐘、5 分鐘、10 分鐘、15 分鐘、30 分鐘 (預設)、1 小時、2 小時、4 小時、8 小時。
|
Script to Launch
|
無( 預設)
|
無 (預設)。如需範本檔案,請參閱 /opt/SUNWps/samples/robot 目錄 (適用於預設安裝) 中的 cmdHook 檔案。
|
After Processing all URLs
|
變為閒置狀態( 預設)
|
變為閒置狀態 (預設)、關機、重新啟動。
|
Contact Email
|
user@domain
|
輸入您的位址。
|
Log Level
|
1 - 產生
|
0 僅錯誤;1 產生 (預設);2 列舉、轉換;3 過濾;4 出產;5 擷取
|
User Agent
|
SunONERobot/6.0
|
搜尋伺服器的版本。
|
Ignore robots.txt protocol
|
Fasle (未核取)
|
部份伺服器具有說明 robot 未到達此處的 robot.txt 檔案。若您的搜尋 robot 在站台上遭遇此檔案且此屬性為假時,則不會搜尋此站台。若此屬性為真,則 robot 會忽略此檔案,然後搜尋此站台。
|
Perform Authentication
|
是
|
是
否
|
Robot Username
|
anonymous
|
Robot 使用匿名的使用者名稱來取得站台的存取權。
|
Password
|
user@domain
|
通常允許匿名使用者存取的站台皆要求以電子郵件位址作為密碼。此位址為一般文字。
|
Proxy Username
|
anonymous
|
Robot 使用匿名的使用者名稱來取得站台的存取權。
|
Password
|
user@domain
|
通常允許匿名使用者存取的站台皆要求以電子郵件位址作為密碼。此位址為一般文字。
|
Proxy Connection Type
|
直接網際網路連線
|
直接網際網路連線、代理伺服器 - 自動配置、代理伺服器 - 手動配置
|
Auto Proxy Configuration Type
|
本端代理伺服器檔案
|
本端代理伺服器檔案、遠端代理伺服器檔案
|
Auto Proxy Configuration Location
|
空白
|
自動代理伺服器具有列出全部所需代理伺服器資訊的檔案。
本端代理伺服器檔案的範例是 robot.pac;遠端代理伺服器檔案的範例是 http://proxy.sesta.com:8080/proxy.pac
|
Manual Configuration HTTP Proxy
|
空白
|
格式:server1.sesta.com:8080 這三個手動配置值置於 /var/opt/SUNWps/https-servername/portal/config 目錄的 robot.pac 檔案中。
|
Manual Configuration HTTPS Proxy
|
空白
|
此手動配置值置於 robot.pac 檔案中。
格式:server1.sesta.com:8080
|
Manual Configuration FTP Proxy
|
空白
|
此手動配置值置於 robot.pac 檔案中。
格式:server1.sesta.com:8080
|
Follow links in HTML
|
True (核取)
|
自 HTML 擷取超連結
|
maximum links
|
1024
|
限制 robot 可自任何 HTML 資源擷取的連結數。當 robot 定位並找出連至其他資源的連結時,robot 可終止追循為數眾多的連結 (與其原始起點相距甚遠)。
|
Follow links in plain text
|
False (未核取)
|
自一般文字擷取超連結。
|
maximum links
|
1024
|
限制 robot 可自任何文字資源擷取的連結數。
|
Use Cookies
|
False (未核取)
|
若已核取,則 robot 會在進行耙梳時使用 cookies。有些站台要求使用 cookies 以便正確導覽。robot 將其 cookies 保存在 Robot 狀態目錄的 cookies.txt 檔案中。cookies.txt 的格式與 NetscapeCommunicator 瀏覽器所使用的格式相同。
|
Use IP as Source
|
True (核取)
|
在大多數的情況中,robot 僅會依據資源網域名稱運作。而在有些情況下,您可能希望能夠依據網際網路協定 (IP) 位址,以子網路為基準過濾或分類資源。在這種情況下,除了網域名稱外,您亦必須允許 robot 擷取 IP 位址。若要擷取 IP 位置,必須有額外的 DNS 查找,其可顯示 robot 操作情況。若您不需要此選項,您可將之關閉以提升效能。
|
Smart Host Heuristics
|
False (未核取)
|
若已核取,則 robot 會將伺服器使用的一般替代主機名稱轉換為單一名稱。當站台具有多個全部另稱為相同位址的伺服器時,最適合進行上述動作,像是 www.sesta.com 通常具有如 www1.sesta.com、www2.sesta.com 等等的名稱。
當您選取此選項時,robot 會在內部將以 wwwn 為開頭的主機名稱轉換為 www,其中 n 是任意整數。此屬性僅可在以 wwwn 開頭的主機名稱上運作。
當 CNAME 解析度為關閉 (假) 時,即無法使用此屬性。
|
Resolve hostnames to CNAMEs
|
False (未核取)
|
若已核取,則 robot 會驗證其所遭遇的任何主機名稱,並將之變為正規名稱。如此 robot 即可精確地追蹤唯一 RD。若未核取,則 robot 僅會驗證主機名稱,而不會將之轉換為正規格式。因此,robot 可能會找到完全一樣的 RD,但卻列有不同的主機名稱。
例如,devedge.sesta.com 是 developer.sesta.com 的別名。開啟 CNAME 解析時,參照為 devedge.sesta.com 的 URL 即會列為於 developer.sesta.com 上找到。關閉 CNAME 解析時,RD 會保留至 devedge.sesta.com 的原始參照。
當 CNAME 解析為關閉 (假) 時,即無法啟用智慧型主機試探法。
|
Accepts commands from ANY host
|
False (未核取)
|
多數的 robot 控制功能皆透過 TCP/IP 埠操作。此屬性可控制下達給 robot 的指令是否必須來自本端主機系統 (假),或可來自網路上的任意處 (真)。
建議您限制對本端主機 (假) 的直接 robot 控制。您還是可以透過「管理主控台」於遠端管理 robot。
|
Default Starting Point Depth
|
10
|
1- 僅起點、2- 書籤樣式、3-10、無限。
robot 自任何起點開始移動的超連結層次預設值。您可在「站台」頁面的 Robot 中編輯站台以設定任意起點的深度。
|
Work Directory
|
/var/opt/SUNWps/https-servernamefull/portal/tmp
|
robot 可用來儲存資料的暫時工作目錄完整路徑名稱。robot 會將整個文件內容擷取至此目錄中 (通常一次擷取大量內容),因此目錄空間必須夠大才能立刻處理數量龐大的內容。
|
狀態目錄
|
/var/opt/SUNWps/https-servernamefull/portal/robot
|
robot 可用來儲存其狀態資訊的暫時目錄完整路徑名稱,包含其已造訪的 URL 清單、URL 儲存區等等。此資料庫可能非常龐大,因此您可能會想要將之置於「工作目錄」外的獨立分割區。
|
編列索引
robot 會根據您所選取的過濾器來搜尋站台與收集文件。所收集的文件有多種不同的格式。若要統一文件並使其易於讀取,就必須統一為一個格式,也就是 HTML。本頁面控制會進入各資源描述的部份項目。
表 F-10 Robot 索引屬性
屬性
|
預設值
|
說明
|
Full Text or Partial Text
|
部份文字
|
完整文字使用資源描述中完整的文件。部份文字則僅使用資源描述中特定的位元數。
|
extract first # bytes
|
4096
|
輸入位元數。
|
Extract Table Of Contents
|
True (核取)
|
「True」包括資源描述中的目錄。
|
Extract data in META tags
|
True (核取)
|
「True」包括資源描述中的 META 標記。
|
Document Converters
|
全部核取 (真);若為假,則該文件類型將無法編列索引。
|
Adobe PDF
Corel Presentations
Corel Quattro Pro
FrameMaker
Lotus Ami Pro
Lotus Freelance
Lotus Word Pro
Lotus 1-2-3
Microsoft Excel
Microsoft Powerpoint
Microsoft RTF
Microsoft Word
Microsoft Works
Microsoft Write
WordPerfect
StarOfficeCalc
StarOfficeImpress
StarOfficeWriter
XyWrite
|
Converter Timeout
|
600
|
將文件轉換為 HTML 所允許的時間 (秒)。若超出此時間值,則會排除此 URL。
|
模擬器
本頁面為可在 URL 上執行 robot 過濾部份模擬的除錯工具。您可以鍵入新的 URL 以進行檢查。其可檢查 URL、DNS 轉換 (包括 Smart Host Heuristics) 及站台重導。其不會檢查 URL 指定的文件內容,因此就不會偵測重複狀態、MIME 類型、網路錯誤、許可權等類似項目。模擬器會指出 robot 是 (接受) 否 (警告) 會接受列出的站台。
表 F-11 Robot 模擬器屬性
屬性
|
預設值
|
說明
|
URL
|
您已定義的 URL 與一個空白的文字方塊。
|
您可在此空白文字方塊中鍵入新站台的 URL,以檢查是否有存取新站台的權限。這項檢查動作亦可得知新站台是否接受耙梳。
格式 http://www.sesta.com:80/
|
Check for DNS aliases
|
True (核取)
|
「True (已核取)」可檢查另稱為相同位址的伺服器數量。
|
Check for Server Redirects (302)
|
True (核取)
|
「True (已核取)」可檢查任何伺服器重導。
|
站台探查
本頁面為可檢查 DNS 別名、伺服器重導與虛擬伺服器的除錯工具。此工具會傳回站台相關資訊,但並不會測試站台是否接受耙梳。
表 F-12 Robot 站台探查屬性
屬性
|
預設值
|
說明
|
Site
|
空白
|
以 http://www.sesta.com:80 的格式鍵入 URL
|
Show advanced DNS information
|
False (未核取)
|
「True (已核取)」顯示包含 IP 位址在內的更多站台相關資訊。
|
排程
您可於本頁面設定 robot 的自動搜尋排程。
表 F-13 Robot 排程屬性
屬性
|
預設值
|
說明
|
Start Robot Time in hours and minutes
|
00:00
|
此為 robot 開啟搜尋的時間。
|
Days
|
未核取
|
週日、週一、週二、週三、週四、週五或週六
請至少核取一個日期。
|
Stop Robot Time in hours and minutes
|
00:00
|
若您想要讓 robot 持續執行,建議您每天至少停止 robot 然後重新啟動一次。這樣可讓 robot 釋放資源,並自動重新初始化。
|
Days
|
未核取
|
週日、週一、週二、週三、週四、週五或週六
|
資料庫
「資料庫」屬性劃分如下:
- 排程
|
備註
|
若要分割資料庫,您必須使用指令行功能,因為必須停止搜尋伺服器。
|
|
管理
初始「管理」頁面會列出可用的資料庫。您可以建立新的資料庫,或重新編列索引、清除或到期現有的資料庫。使用核取方塊來選取要在其中執行動作的資料庫。使用核取方塊上方的小圖示來選取或取消選取所有資料庫。當您選取「重新編列索引」、「清除」或「到期」時,螢幕上會出現一個提示以確認您是否要執行資料庫名稱清單所顯示的動作。若要執行動作,請選取「確定」。
若您已編輯綱目並新增或移除了已編列索引的欄位 (以作者的身份),或者如果磁碟錯誤導致索引損壞,您應該重新編列索引。您需要在變更綱目之後重新啟動伺服器。
由於重新編列資料庫索引所需的時間與資料庫中的 RD 數成比例,因此當伺服器不在高度需求的狀態時,即應重新編列大型資料庫索引。
當您清除資料庫的內容時,用於索引的磁碟空間將會回復,但是用於主資料庫的磁碟空間將不會回復,該空間將會被再利用,作為新資料新增至資料庫中。
使資料庫到期可刪除所有被視為過期的 RD。資料庫大小並不會減少。依預設,自建立時間後的第 90 天 RD 即到期。
選取「編輯」連結之後,您將會進入定義資料庫屬性的頁面,您也可以利用此種方式來編輯資料庫。
表 F-14 資料庫管理屬性
屬性
|
預設值
|
說明
|
Name
|
Default
|
「搜尋」所使用的資料庫名稱。
|
Title
|
空白
|
資料庫的標題。
|
Description
|
空白
|
描述您自己的資料庫。
|
匯入代理程式
匯入代理程式是可自其他伺服器或資料庫帶入資源描述,並將之合併至搜尋資料庫中的程序。
初始「匯入」頁面會列出可用的匯入代理程式。您可以建立新的代理程式,或執行、編輯或刪除現有的代理程式。使用核取方塊來選取待刪除的代理程序。使用核取方塊上方的小圖示來選取或取消選取所有匯入代理程式。使用單選按鈕來開啟或關閉「代理程式動作」。若要排程匯入代理程式,請選取下方功能表列中的「排程」。
若您選擇編輯或修改現有的匯入代理程式,或是建立新的匯入代理程式,則會顯示下列屬性。
表 F-15 資料庫匯入代理程式屬性
屬性
|
預設值
|
說明
|
Charset
|
新屬性為空白
|
指定輸入 SOIF 串流的字元集。例如,ISO8859-1、UTF-8、UTF-16。支援 ISO8859-1 到 ISO8859-15 之間的字元集。
|
Import From
|
本機檔案
|
選取「本機檔案」或「搜尋伺服器」(如有任一啟用的話)。
|
Local File Path
|
新屬性為空白
|
以 SOIF (摘要物件交換格式) 格式輸入包含有效資源描述的本機檔案完整路徑名稱。只要此路徑是可尋址的 (如同設置於本機一樣),也可以是另一個伺服器上的檔案。
|
Database Name
|
Default
|
目標資料庫的名稱。
|
Remote Server
|
新屬性為空白
|
輸入擷取資源描述來源的搜尋伺服器 URL,格式為 http://www.sesta.com:80
|
Instance Name
|
新屬性為空白
|
搜尋伺服器使用的伺服器實例名稱。您可在匯入伺服器的「伺服器喜好設定」中找到此實例名稱。值必須為 3.01C 或 3.01C SP1。
|
Search URI
|
新屬性為空白
|
輸入完整路徑與檔案名稱。使用 /portal/search。
|
Is Compass Server 3.01X?
|
False (未核取)
|
您的匯入伺服器是 Compass Server 3.01X 嗎?
|
Enable SSL
|
False (未核取)
|
若此為伺服器間的異動,請選取伺服器是否應使用 SSL (Secure Sockets Layer) 協定。
|
Authentication
|
None (預設)
|
None (預設) 或使用使用者/密碼
這可指定匯入代理程式自身在來源匯入系統中的識別方式。依預設,不使用認證。若您的來源匯入伺服器要求認證,您可指定使用者名稱與密碼供匯入代理程式使用。自 3.01C 匯入不需認證。自 3.01C SP1 匯入資料需要認證。
|
User
|
新屬性或無屬性時為空白
|
若您已選取「使用使用者/密碼」,請輸入使用者。
|
Password
|
新屬性或無屬性時為空白
|
若您已選取「使用使用者/密碼」,請輸入密碼 (以 * 顯示)。
|
Content Transfer
|
使用完整內容增量聚集( 預設)
|
選擇使用完整內容增量聚集 (預設) 或使用搜尋查詢
上述選項可指定要自來源匯入的資源描述。
依預設,匯入代理程式會要求所有自上次從相同來源匯入開始已新增或變更的資源描述。
搜尋查詢可指定匯入代理程式應僅要求來自來源的特定資源描述。這與使用者要求來自搜尋資料庫的資源列表是類似的方式。
使用「範圍」、「檢視屬性」與「檢視符合項目」欄位來指定查詢。
|
Scope
|
新屬性為空白
|
查詢的文字。查詢語法與一般使用者自伺服器查詢所用的語法相同。
|
View-Attributes
|
新屬性為空白
|
列出想要匯入各資源描述的欄位 (大小寫不須相符) 例如,標題與作者。預設為全部。
|
View-Hits
|
新屬性為空白
|
符合的待匯入資源描述最大數。若未指定符合項目數,其預設值為 20。
|
Agent Description
|
新屬性為空白
|
顯示在初始「匯入」頁面上的可用匯入代理程式清單中。程式將會予以忽略。若此欄位為空白,則將「資源描述來源」檔案名稱或伺服器名稱用來識別匯入代理程式。請注意此處是否需要使用者名稱與密碼。
|
Newest Resource Description
|
新屬性為空白
|
先前由此匯入代理程式匯入的最新資源描述建立日期。「使用完整內容增量聚集」選項會使用此日期來判定新的與應匯入的資源。
|
Network Timeout in seconds
|
新屬性為空白
|
指定網路連線逾時前,匯入代理程式所允許的秒數。您可調整此值以適用不同的網路流量及品質。
|
資源描述
初始的「資源描述」頁可以讓您搜尋資料庫中的「資源描述」。例如,您可以修正 RD 中的編排錯誤,或將 robot 找到的 RD 手動指派至種類中。
表 F-16 資源描述屬性
屬性
|
預設值
|
說明
|
Search For
|
全部 RD
|
全部 RD、未分類的 RD、已分類的 RD、依種類區分的 RD、依 URL 區分的特定 RD、RD 包含
|
Text box
|
空白
|
輸入唯一的文字字串以識別所搜尋的 RD。使用「依種類區分的 RD」、「依 URL 區分的特定 RD」與「包含屬性值的 RD」。
|
Database
|
預設
|
要搜尋的資料庫名稱。
|
Select Category
|
|
瀏覽並選取種類樹中的種類。
|
Delete
|
|
刪除一個或多個從 RD 搜尋中傳回的選取 RD。
|
Next
|
|
顯示從 RD 搜尋中傳回的下一個 RD 集
|
Previous
|
|
顯示從 RD 搜尋中傳回的上一個 RD 集
|
Edit Selected
|
|
編輯一個或多個從 RD 搜尋中傳回的 RD 屬性。
|
Edit All
|
|
編輯從 RD 搜尋中傳回的目前 RD 集的屬性。
|
若要依種類限制搜尋,請選取「選取種類」。「種類編輯程式」頁顯示允許您在搜尋中指定分類法的種類。您可以在「選取種類」文字方塊中指定種類,或是透過瀏覽分類法進行選取。在指定種類之後,請選取「確定」以返回 RD 搜尋頁。
表 F-17 種類編輯程式屬性
屬性
|
預設值
|
說明
|
Selected Categories
|
空白
|
顯示選取種類的文字欄位
|
Expand All
|
|
展開分類法,使得階層中的所有項目皆可顯示以進行瀏覽。
|
Collapse All
|
空白
|
摺疊分類法,使得只有階層的前兩層中的種類才會顯示以供瀏覽。
|
Categories per page
|
25
|
每頁顯示的種類數目的下拉式清單。數值為 25、50、100、250、500 和全部。
|
成功的搜尋將顯示找到的 RD 數,以及包含找到的 RD 的清單方塊。按一下 RD 的「編輯」連結之後,即會顯示下列可編輯的屬性,及 RD 的部份文字。除了「類別」之外,上述所有屬性在「資料庫/綱目」頁面中皆設為可編輯。
表 F-18 資料庫 RD 可編輯屬性
屬性
|
預設值
|
說明
|
Author
|
空白
|
文件作者。
|
Author e-mail
|
空白
|
與文件作者聯繫的電子郵件位址。
|
Classification
|
選定 RD 之類別名稱。
|
若已分類則為種類名稱;若未分類則無類別。
|
ReadACL
|
空白
|
與文件層次安全性相關。
|
Content-Charset
|
|
來自「HTTP 伺服器」的「內容 - 字元集」資訊。
|
Content-Encoding
|
空白
|
來自「HTTP 伺服器」的「內容 - 編碼」資訊。
|
Content-Language
|
空白
|
來自「HTTP 伺服器」的「內容 - 語言」資訊。
|
Content-Length
|
空白
|
來自「HTTP 伺服器」的「內容 - 長度」資訊。
|
Content-Type
|
空白
|
來自「HTTP 伺服器」的「內容 - 類型」資訊。
|
Description
|
選定 RD 之描述。
|
來自 RD 的描述。
|
Expires
|
有效值。.
|
資源描述失效日期。
|
Full-Text
|
空白
|
文件全部內容。
|
Keywords
|
選定 RD 之關鍵字 (若有的話)
|
取自中繼標記的關鍵字。
|
Last-Modified
|
上次修改日期
|
文件最後修改日期。
|
Partial-text
|
文件的部份文字
|
選取部份文件文字
|
Phone
|
空白
|
聯繫作者的電話號碼
|
Title
|
選定 RD 之標題
|
RD 標題
|
URL
|
空白
|
文件的單一資源定址器
|
綱目
綱目可判定存在於資源描述中的資訊及資訊格式。您可以將新屬性或欄位新增至 RD 中,然後設定何者可進行編輯,及何者可編列索引。匯入新 RD 時,您可以將內嵌在新 RD 中的綱目轉換為您自己的綱目。
表 F-19 資料庫綱目編輯屬性
屬性
|
描述
|
Author
|
文件作者。
|
Author-EMail
|
與文件作者聯繫的電子郵件位址。
|
Content-Charset
|
來自「HTTP 伺服器」的「內容 - 字元集」資訊。
|
Content-Encoding
|
來自「HTTP 伺服器」的「內容 - 編碼」資訊。
|
Content-Language
|
來自「HTTP 伺服器」的「內容 - 語言」資訊。
|
Content-Length
|
來自「HTTP 伺服器」的「內容 - 長度」資訊。
|
Content-Type
|
來自「HTTP 伺服器」的「內容 - 類型」資訊。
|
Description
|
文件簡要單行描述。
|
Expires
|
資源描述失效日期。
|
Full-Text
|
文件全部內容。
|
Keywords
|
最佳描述文件的關鍵字。
|
Last-modifie
|
文件最後修改日期。
|
Partial-Text
|
選取部份文件文字。
|
Phone
|
聯繫作者的電話號碼。
|
ReadACL
|
「搜尋」伺服器用來加強安全性。
|
Title
|
文件標題。
|
URL
|
文件的單一資源定址器
|
Aliases
Name
Description
|
匯入新 RD 時,您可以將內嵌在新 RD 中的綱目轉換為您自己的綱目。當匯入資料庫綱目中欄位所用的名稱及您的資料庫 RD 所用的綱目之間有矛盾時,即可使用上述轉換動作。範例:若您匯入使用「撰寫者」作為作者欄位的 RD,且您在自己的 RD 中使用「作者」作為作者欄位。「撰寫者」將會轉換為「作者」,因此您會在此文字方塊中輸入「撰寫者」。
|
Data Type
|
定義資料類型。
|
Editable
|
若為「True (已核取)」,則所選屬性 (欄位) 會顯示在「資料庫 RD 編輯程式」中,如此您即可變更其值。
描述、關鍵字、標題及 ReadACL 都是可編輯的。
|
Indexable
|
若為「True (已核取)」,則所選屬性 (欄位) 即可用來作為編列索引的基礎。
「作者」、「標題」與 URL 會顯示在一般使用者的「進階搜尋」畫面功能表中。一般使用者即可搜尋上述特定欄位中的值。
「作者」、「到期」、「關鍵字」、「最後修改日期」、「標題」、「URL」與「ReadACL」皆可用來作為編列索引的基礎。
|
Score Multiplier
|
記錄特殊元素的權重欄位。任何正值皆為有效值。
|
分析
「分析」頁將顯示所有站台的排序清單及目前存在於搜尋資料庫中之站台的資源數。選取「更新分析」以更新檔案的分析。
表 F-20 資料庫分析屬性
屬性
|
預設值
|
說明
|
Total number of RDs
|
資料庫中目前的資源描述數。
|
列出資料庫中目前的資源描述總數。
|
Number of servers
|
資料庫目前分割放置於的伺服器的個數。
|
資料庫可在數個伺服器上分割與放置。
|
Site
|
Robot 已成功搜尋到的 URL 或 網域
|
已將資源描述新增至資料庫的 URL 或網域。
|
Number of RDs
|
來自該站台的目前資源描述個數。
|
列出來自該站台的目前 RD 數。
|
Type
|
資源描述類型
|
資源描述可為許多不同的類型,如 http。
|
Percentage
|
資源描述類型/總數
|
相較於資源描述總數的此文件類型百分比。
|
排程
您可於本頁設定執行匯入代理程式排程。
表 F-21 資料庫匯入排程屬性
屬性
|
預設值
|
說明
|
Start Import Time in hours and minutes
|
00:00
|
匯入代理程式開始匯入的時間。
|
Days
|
未選取
|
週日至週六
請至少核取一個日期。
|
種類
一般使用者可用兩種不同的方式與搜尋資料庫產生互動:使用者可鍵入直接查詢以搜尋資料庫,或是使用自己設計的一組種類來瀏覽整個資料庫內容。您可將搜尋資料庫中的資源指派至種類,以釐清複雜性。若資料庫中有大量的項目,把相關的項目分為一組將會很有幫助。您在設定種類時最重要的考量點應該是可用性,如此一般使用者即可更快速地找到特定種類的項目。
搜尋伺服器使用名為分類法 的種類等級制度。一般來說,分類法一詞即可說明任何種類系統。在如搜尋伺服器資料庫這類的網路資源資料庫環境下,其可說明您選擇用來促進擷取的任何網路資源分類方法。
「種類」主題分為下列幾個子主題:
種類編輯程式
「種類編輯程式」頁會顯示分類法中的種類清單,讓您可以瀏覽種類。在瀏覽種類之後,您可以選取種類連結,啟動「類別規則編輯程式」以設定特定種類底下的 Robot 集合。
表 F-22 種類編輯程式屬性
屬性
|
預設值
|
說明
|
Expand All
|
|
展開分類法,使得階層中的所有項目皆可顯示以進行瀏覽。
|
Collapse All
|
|
摺疊分類法,使得只有階層的前兩層中的種類才會顯示以供瀏覽。
|
Reindex
|
|
重新編列資料庫索引。若您已建立自己的分類法,則您必須編列資料庫索引以使一般使用者能夠搜尋種類。若您已變更種類,則您必須重新編列資料庫索引以使其維持最新的狀態。重新編列資料庫索引之前請先儲存種類樹。載入新的分類法。
|
Categories per page
|
25
|
每頁顯示的種類數目的下拉式清單。數值為 25、50、100、250、500 和全部。
|
Name
|
選定種類
|
顯示要編輯的選取種類名稱。
|
Description
|
空白
|
顯示選取種類的說明。
|
Matching Rule
|
空白
|
顯示在選取種類中使用的符合規則。
|
Update
|
|
更新種類定義。
|
Add as a child
|
|
新增種類為子種類。
|
Add as a sibling
|
|
新增種類為兄弟種類。
|
類別規則編輯程式
在您為自己的資料庫設定好種類之後,請按一下「新增」以設定或變更選取種類的 robot 用來將資源指派至種類的規則。
表 F-23 種類分類規則編輯程式屬性
屬性
|
預設值
|
說明
|
Source
|
Author
|
有效屬性包括:
- Author
- Author-EMail
- Content-Charset
- Content-Encoding
- Content-Language
- Content-Length
- Content-Type
- Description
- Expires
- Full-Text
- Keywords
- Last-modified
- Partial-Text
- Phone
- ReadACL
- Title
- URL
- Host
- Protocol
- IP
- Path
- Type
|
Method
|
is
|
is, contains, begins with, ends with, regular expression
|
Criteria
|
空白
|
指定規則的準則。
|
Classification
|
空白
|
如果規則條件符合的話,用於在其中分類 RD 的種類。鍵入種類或使用「選取種類編輯」頁來瀏覽。
|
報告
「報告」區段可讓您監控自己的搜尋伺服器。您可以看見此活動的摘要:搜尋到什麼網站、什麼 URL 被排除以及被排除的原因、有關 robot 造訪的 URL 的詳細資訊,以及一般使用者感興趣的內容。
「報告」主題分為下列幾個子主題:
起點
robot 將在每次啟動時造訪已啟用的站台。
表 F-24 報告起點屬性
屬性
|
預設值
|
說明
|
Enabled
|
站台的當前值。
|
「是」或「否」。
此值可於「Robot/站台」頁面中設定。
|
Starting Point
|
所選 URL:80
|
帶出所選 URL 的連結。
|
in site definition
|
所選 URL
|
連至「Robot/站台」編輯頁面的連結。
|
Depth
|
列出所選搜尋級別。
|
1-n 於「Robot/站台」頁面中設定。
|
排除的 URL
本頁面顯示 robot 執行清單。若要顯示排除 URL 的原因清單,請選取 robot 執行以進行檢驗,選取「所選檢視」,然後選取其中一個「排除原因」。顯示的是該原因的已排除 URL 清單。已移除重複及警告的排除項。
表 F-25 報告已排除 URL 屬性
屬性
|
預設值
|
說明
|
Log
|
列出最近運行的日誌。
|
列出所有可取得的執行日誌。
|
Count
|
數字
|
含排除原因的數字清單。
|
Reason for Exclusion
|
尚不允許使用的站台的原因清單。每一個原因皆會連結到屬於該排除原因的所有 URL 清單。
|
過濾器規則、找不到檔案、不允許的站台、不允許的協定、錯誤、重複是將 URL 排除的部份原因。
|
Robot 進階報告
您可於本頁面存取來自 robot 的許多不同報告。從下拉式清單中選取,顯示所選報告,並取得資訊。使用「更新」按鈕即可取得目前資訊。
表 F-26 報告 Robot 進階報告屬性
屬性
|
預設值
|
說明
|
Advanced Robot Reports
|
版本
|
版本、DNS 快取轉儲、效能、找到的伺服器 - 全部、找到的伺服器 - RDM、狀態 - 目前配置、狀態 - 資料庫 (內部)、狀態 -Libnet、狀態 - 模組、狀態 - 摘要、URL - 擷取就緒、URL - 編列索引就緒、URL - 等待過濾 (URL 儲存區)、URL - 等待編列索引、所有報告。
|
日誌檔案
本頁可讓您檢視日誌檔案中的項目或特定行。日誌檔案下拉式清單選取「檢視」按鈕時,輸入想要顯示的行數。
表 F-27 報告檢視日誌檔案屬性
屬性
|
預設值
|
說明
|
View this logfile
|
排除的 URL (過濾器)
|
排除的 URL (過濾器)、RD 管理員 (rdmgr)、RDM 伺服器 (rdmsvr)、Robot 活動 (robot)、搜尋引擎 (searchengine)、使用者查詢 (rdm)。
|
Number of lines
|
25
|
您可輸入一個顯示日誌檔案中最新輸入項的數。
|
熱門搜尋
您可於本頁面檢視使用者的搜尋項目。最常搜尋的項目會先顯示在報告中。
表 F-28 報告熱門搜尋屬性
屬性
|
預設值
|
說明
|
Exclude Browsing
|
False (未核取)
|
使用「False (已取消核取)」可納入使用者所瀏覽的種類;「True (已核取)」則會排除瀏覽統計數字。
|