附錄 F
搜尋屬性
此附錄描述可透過 Sun Java System Identity Server 管理主控台為搜尋引擎配置的屬性。
當您從「服務管理檢視」選取「搜尋特性」時,將會顯示雙色調的索引標籤式功能表列。此附錄根據功能表列上方所列的主題或標籤為準進行編排。
選取其中一個標籤時,下方的功能表列即會列出該主題相關的子主題。預設 [搜尋] 頁面可選取 [伺服器/設定]。每一個子主題使用一個或多個表格來說明該子主題的屬性。本表格分為三欄:屬性、預設值以及說明。「屬性」提供頁面上所載的描述性文字;「預設值」提供「屬性」的預設值;「說明」則說明「屬性」及其格式。
每一個「搜尋特性」頁面皆提供您表 F-1 中所描述的「選取伺服器」屬性。
表 F-1 搜尋選取伺服器屬性
屬性
|
預設值
|
說明
|
選取伺服器
|
http://servername:80/portal
|
您的「搜尋」伺服器完整的伺服器名稱。
|
伺服器
[伺服器] 區段即是您配置伺服器喜好設定的所在。您可選取針對暫存檔所要使用的目錄、要記錄的資訊及日誌中應記錄的詳細資訊數量。「伺服器」屬性分兩個頁面顯示:
設定
本頁面包含管理與操作搜尋伺服器的基本設定。
表 F-2 伺服器設定屬性
屬性
|
預設值
|
說明
|
伺服器根
|
/var/opt/SUNWps/https-servernamefull/portal
|
儲存配置、日誌、資料庫與自動器資訊檔案。此外,其亦為進行搜尋時所產生與更新之所有搜尋檔案的根目錄。其無法配置。
|
暫存檔
|
/var/opt/SUNWps/https-servernamefull/portal/tmp
|
包含所有在搜尋時用來管理搜尋的暫存檔。其包括尚未新增至主資料庫的新產生資源描述。完成搜尋時便將之移除。
|
文件層級安全性
|
關閉
|
控制有權存取文件的使用者。
當此設定有所變更時,必須重新啟動伺服器。
值:
- 關閉 (預設) 表示所有使用者皆可存取 RD。
- 開啟表示 RD 中的 ReadACL 欄位為已核取,以便檢視要求 RD 的使用者是否具有許可權 (因為使用者在可接受的組織或角色中,或為可接受的個人使用者)。ReadACL 欄位可於 [資源描述元] 頁面的 [資料庫] 中設定。
|
Robot
本頁面包含管理與操作搜尋伺服器的進階設定。 您可於此處配置使用者查詢、索引維護、資源描述管理與除錯的日誌檔案。
表 F-3 伺服器進階設定屬性
屬性
|
預設值
|
說明
|
搜尋 (rdm)
|
/var/opt/SUNWps/https-servername/portal/logs/rdm.log
|
記錄一般使用者在資料庫中所進行的查詢。您亦可核取 [停用搜尋日誌] 核取方塊以停止此記錄。
若這麼做,您將無法檢視「使用者查詢 (rdm)」報告。
|
停用搜尋日誌
|
False (已取消核取) - 已啟用
|
控制查詢日誌的使用。
在報告區段中,您可以以此日誌為準,產生列出最熱門查詢的報告。
值:
|
索引維護
|
/var/opt/SUNWps/https-servername/portal/logs/searchengine.log
|
記錄有搜尋引擎有關的異動,未註冊的資源描述除外。
|
RD 管理員
|
/var/opt/SUNWps/https-servername/portal/logs/rdmgr.log
|
記錄從自動器註冊的資源描述或匯入代理程式至資料庫。您可將此日誌視為「RD 管理員 (rdmgr)」報告。
|
RDM 伺服器
|
/var/opt/SUNWps/https-servername/portal/logs/rdmserver.log
|
記錄 RDM 異動的除錯資訊。詳細資訊的層級由「日誌層次」控制。您可將此日誌視為「RDM 伺服器 (rdmsvr)」報告。
|
日誌層次
|
1
|
控制「RDM 伺服器」日誌檔案所包括的詳細資料數量。
可能的層次為 2、10、20、50、100 與 999。
設定為 1 (預設) 僅記錄嚴重錯誤。數字愈大,「RDM 伺服器」日誌檔案所包含的詳細資料也就愈多。
|
自動器
自動器特性是相當複雜的。您可以選取待搜尋與待耙梳的站台、檢查站台是否有效、定義要撿取的文件的類型與進行排程進行搜尋的時間。
本節編排方式如下:
摘要
您可以在 [自動器摘要] 面板中看到自動器正在執行何種動作:是否為「關閉」、「閒置」、「執行中」或「已暫停」;如果它為「執行中」,您也可以看見目前搜尋的進度如何,因為此面板大約每 30 秒會更新一次。使用 search.conf 檔案中的 robot-refresh 參數即可定義更新率。
右上方的兩個按鈕會反應出按鈕狀態。若自動器為「關閉」,則按鈕為 [啟動與移除狀態]。若為「執行中」或「閒置」,則按鈕為 [停止與暫停]。若為「已暫停」,則按鈕為 [停止與恢復]。藉由選取任一屬性,您可以前往 [報告] 區段,從中取得該屬性最新的詳細報告。
表 F-4 自動器摘要屬性
屬性
|
預設值
|
說明
|
自動器為
|
目前活動
|
自動器狀態。值可為閒置、執行中、已暫停或關閉。
|
更新時間
|
上次更新日期與時間
|
本頁面會不斷更新,如此您即可持續注意自動器的進度。
|
起始點
|
定義數
|
您已選取要進行搜尋的站台數。[站台] 頁面中自動器上的一個站台已停用 (未包含在搜尋中)。
|
URL 儲存區
|
等待中的 URL 數
|
尚未查驗的 URL 數。當您開始搜尋時,起始點 URL 會輸入至 URL 儲存區中。進行搜尋時,自動器會找出連至其他 URL 的連結。這些 URL 會新增至儲存區中。儲存區中的所有 URL 皆處理完畢之後,URL 儲存區將清空,而自動器則成為閒置狀態。
|
正在擷取
|
每秒連線數
|
每秒資源讀取數。
「擷取」是發現或找出要納入資料庫中的資源、文件或超連結然後過濾不需要的項目的程序。
|
正在過濾
|
拒絕的 URL 數
|
排除的 URL 總數。
|
正在編列索引
|
每秒 URL 數
|
每秒資源或文件轉為資源描述的數。
「編列索引」是當所有收集到文件中的資訊轉為資源描述以便納入搜資料庫中的階段。
|
已排除 URL
|
過濾器排除的 URL 數
|
不符合過濾準則的 URL 數。
|
|
依據錯誤排除的 URL 數
|
因為找不到檔案自動器發生錯誤的 URL 數。
|
資源描述
|
提供的 RD 數
|
新增至資料庫的資源描述數。
|
|
提供的 RD 位元數
|
新增至資料庫的位元數。
|
整體狀態
|
擷取的 URL 數
|
執行時擷取的 URL 數。
|
|
RD 位元數平均大小
|
每個資源描述的平均位元數。
|
|
以日、時、分及秒為單位的執行時間
|
自動器的執行時間值。
|
站台
本節首頁說明可進行搜尋的站台。
使用單選按鈕即可啟用 (開啟) 與停用 (關閉) 站台。自動器執行時將不會搜尋已停用的站台。[編輯] 連結會顯示您可於其中變更搜尋站台定義的頁面。
若要刪除站台,請核取核取方塊,然後選取 [刪除]。
若要新增新的站台,請選擇 [開啟新檔]。在文字方塊中新增 URL 或網域,然後選取搜尋深度。選取 [建立] 以使用預設值。否則,請選取 [建立與編輯] 以選取非預設值,然後前往 [編輯] 頁面以定義搜尋站台。
表 F-5 自動器管理站台屬性
屬性
|
預設值
|
說明
|
鎖或叢集圖形
|
站台狀態
|
開鎖表示可存取此URL。閉鎖表示此站台為有安全措施的 web 伺服器並使用 SSL。叢集表示此站台為一網域。
|
開啟/關閉
|
開啟
|
自動器執行時選擇是否搜尋此站台。
|
您可於 [新站台] 頁面設定整個站台以便編列索引。
表 F-6 自動器新站台屬性
屬性
|
預設值
|
說明
|
新站台
|
URL
|
URL - 格式 http://www.sesta.com
網域 - 格式 *.sesta.com
|
深度
|
10
|
您可選擇:1 僅適用此 URL、2 適用此 URL 與首個連結、100 適用於自動器、3 - 10 或無限。預設值於 [耙梳] 頁面的自動器中設定。
|
您可於 [編輯] 頁面更完整地定義搜尋站台。您可指定伺服器類型、重新定義搜尋深度及選取要新增至搜尋資料庫的檔案類型。[URL 與網域] 站台的屬性大致相同。本表格中的附加欄顯示出共享及唯一的屬性。
本頁面可執行多個動作。您可驗證自己輸入的搜尋站台伺服器名稱。您可藉由選取 [伺服器群組] 區段中的 [新增],將更多的伺服器新增至伺服器群組。您可藉由選取 [起始點] 區段中的 [新增],新增更多起始點。在 [過濾器定義] 區段中,您可以新增或刪除、排除或包括特定檔案類型,以及變更這些檔案所套用的過濾器順序。
表 F-7 自動器站台編輯屬性
屬性
|
URL/網域
|
預設值
|
說明
|
站台暱稱
|
URL/D
|
輸入的站台 - www.sesta.com
|
顯示在初始頁面上的名稱。預設值為您所輸入的 URL 或網域。您可於此處變更此名稱。
|
選取要刪除或驗證的站台的核取方塊
|
URL/D
|
已取消核取
|
已取消核取─ 未選取
已核取─ 已選取
|
伺服器群組 - 名稱
|
URL
|
URL - www.sesta.com
|
為單一伺服器或單一伺服器的一部份。輸入項必須包括主機全名。若您僅指定一個主機名稱,則站台僅限於該主機。若除了主機名稱之外您還提供目錄資訊,則站台將僅依據該目錄及其任何子目錄定義。
|
網域後綴
|
D
|
輸入的網域 - *.sesta.com
|
包括網域內所有的伺服器,如 *.sesta.com。
|
連接埠
|
URL/D
|
80用於 URL;網域則保留空白
|
若您所搜尋的站台使用不同的連接埠,請於此處輸入。
|
類型
|
URL
|
Web 伺服器
|
Web 伺服器、檔案伺服器、FTP 伺服器、有安全措施的 web 伺服器
|
允許的協定
|
D
|
已核取所有核取方塊
|
http、檔案、ftp、https 的核取方塊
|
起始點 - 選取要刪除站台的核取方塊
|
URL/D
|
已取消核取
|
已取消核取—未選取
已核取—已選取
|
起始點- URL
|
URL/D
|
http:// URL:80
|
URL 或網域
|
起始點 - 深度
|
URL/D
|
10
|
1 - 僅適用此 URL
2 - 適用此 URL 與第一個連結
3-10
無限
|
過濾器定義 - 選取要刪除檔案類型的核取方塊
|
URL/D
|
已取消核取
|
已取消核取 - 未選取
已核取 - 已選取
|
過濾器定義
|
URL/D
|
預設值依序為:「歸檔檔案」、「音效檔案」、「備份檔案」、「二元檔案」、「CGI 檔案」、「影像檔案」、「Java」、「Javascript」、「樣式表檔案」、「日誌檔」、「修訂控制檔案」、「原始碼檔案」、「暫存檔案」、「視訊檔案」。
|
可能的選擇有:「歸檔檔案」、「音效檔案」、「備份檔案」、「二元檔案」、「CGI 檔案」、「影像檔案」、「Java」、「Javascript」、「樣式表檔案」、「日誌檔」、「Power Point 檔案」、「修訂控制檔案」、「原始碼檔案」、「暫存檔案」、「視訊檔案」、「試算表檔案」、「Plug-in 檔案」、「Lotus Domino 文件」、「Lotus Domino OpenViews」、「系統目錄 (UNIX)」、「系統目錄 (NT)」。
|
註釋
|
URL/D
|
空白
|
向您描述站台的文字欄位。自動器不使用此欄位。
|
DNS 轉換
|
URL
|
空白
|
DNS 轉換可藉由以 canme 取代網域名稱或別名的方式修改 URL 與其耙梳的方式。格式:alias1->cname1,alias2->cname1
|
過濾器
本段落中的初始頁面顯示所有定義的過濾器規則,以及使用這些規則的站台定義。每一個過濾器名稱由核取方塊處理,以便選取該文件類型;由兩個單選按鈕處理,以便開啟或關閉 [過濾器規則]。若核取方塊已核取,則表示已選取該過濾器,並可將之刪除。您可以選取 [開啟新檔] 來新增新的過濾器。新過濾器頁面是一個縮簡的 [編輯] 頁面,僅需一個 [暱稱] 及一個規則。另一個作法是選取 [編輯] 連結,如此系統即會將您導引至可定義該檔案類型規則及過濾器作業的頁面。每一個規則包括 [過濾器來源] 的下拉式清單、[過濾依據] 下拉式清單以及可輸入指定過濾器字串的文字方塊。
表 F-8 自動器過濾器編輯屬性
屬性
|
預設值
|
說明
|
過濾器名稱
|
新名稱提示。您選擇進行編輯之檔案類型的檔案名稱。
|
反映過濾器所套用之檔案類型的描述性名稱。
|
過濾器源的下拉清單
|
新過濾器的 URL。顯示該特定檔案類型先前選擇的資訊。
|
URL、協定、主機、路徑、MIME 類型
|
位置下拉清單
|
is 用於新過濾器。顯示該特定檔案類型先前選擇的資訊。例如,以 exe 結尾的「二元檔案」。
|
是、包含、開始於、結束於常規表示式
|
類型 (目錄、協定、副檔名)的特定文字方塊
|
空白適用於新過濾器。顯示該特定檔案類型先前輸入的資訊。例如,包含 /tmp/ 的「暫存檔案」。
|
此文字方塊中列出必須符合的項目。本範列中的符合項目 - http://docs.sesta.com/manual.html
協定為 http、包含 sesta 的主機、以 html 結尾的檔案。
|
說明
|
新描述提示。顯示該特定檔案類型先前輸入的描述。
|
描述您自己的過濾器規則。自動器不使用此規則。
|
新增站台
|
適用於新過濾器的「True (已取 核)」。顯示該特定檔案類型先前選擇的值。
|
建立新站台時使用此過濾器作為預設過濾器之一。若您未核取此核取方塊,您仍然可以編輯 [站台] 頁面自動器中的站台來將此過濾器新增至新站台。
|
依預設
|
新過濾器未選取任何項目。先前針對已定義檔案類型選取的預設值。
|
排除符合此過濾器的文件。
包括符合此過濾器的文件。
選取新過濾器並不會影響現有的站台定義。若要在現在的站台上使用新過濾器,您必須編輯 [站台] 頁面自動器中的站台以新增新過濾器。
|
部署
|
列出使用此過濾器的站台。
|
|
耙梳
本頁面中的設定控制自動器的操作參數與預設值。其分為幾個部分:「速度」、「完成的動作」、「日誌檔案設定」、「標準核可」、「認證參數」、「代理程序」、「進階設定」與「連結擷取」。
表 F-9 自動器耙梳屬性
屬性
|
預設值
|
說明
|
伺服器延遲
|
未延遲
|
未延遲 (預設)、1 秒、2 秒、5 秒、10 秒、30 秒、1 分鐘、5 分鐘。
|
最大連線 - 最大並行擷取 URL
|
8
|
1、2、4、8 (預設)、10、12、16、20。
|
各站台最大連線
|
2
|
(無限)、1、2、4、8、10、12、16、20。
|
將 RD 傳送至索引的時間間隔
|
30 分鐘
|
3 分鐘、5 分鐘、10 分鐘、15 分鐘、30 分鐘 (預設)、1 小時、2 小時、4 小時、8 小時。
|
待啟動的程序檔
|
無 (預設)
|
無 (預設)。如需範本檔案,請參閱 /opt/SUNWps/samples/robot 目錄 (適用於預設安裝) 中的 cmdHook 檔案。
|
處理完所有 URL 後
|
進行閒置 (預設)
|
進行閒置 (預設)、關機、重新啟動。
|
聯絡電子郵件位址
|
user@domain
|
輸入您的位址。
|
日誌層次
|
1 - 產生
|
0 僅錯誤;1 產生 (預設);2 列舉、轉換;3 過濾;4 出產;5 擷取。
|
使用者代理程式
|
SunJavaSystemRobot/6.0
|
搜尋伺服器的版本。
|
忽略 robots.txt 協定
|
False (已取消核取)
|
部份伺服器具有說明自動器未到達此處的 robot.txt 檔案。若您的搜尋自動器在站台上遭遇此檔案且此屬性為假時,則不會搜尋此站台。若此屬性為真,則自動器會忽略此檔案,然後搜尋此站台。
|
執行認證
|
是
|
是
否
|
自動器使用者名稱
|
anonymous
|
自動器使用匿名的使用者名稱來取得站台的存取權。
|
密碼
|
user@domain
|
通常允許匿名使用者存取的站台皆要求以電子郵件位址作為密碼。此位址為一般文字。
|
代理伺服器使用者名稱
|
anonymous
|
自動器使用匿名的使用者名稱來取得站台的存取權。
|
密碼
|
user@domain
|
通常允許匿名使用者存取的站台皆要求以電子郵件位址作為密碼。此位址為一般文字。
|
代理伺服器連線類型
|
直接網際網路連線
|
直接網際網路連線、代理伺服器—自動配置、代理伺服器—手動配置
|
自動代理伺服器配置類型
|
本端代理伺服器檔案
|
本端代理伺服器檔案、遠端代理伺服器檔案
|
自動代理伺服器配置位置
|
空白
|
自動代理伺服器具有列出全部所需代理伺服器資訊的檔案。
本端代理伺服器檔案的範例是 robot.pac;遠端代理伺服器檔案的範例是 http://proxy.sesta.com:8080/proxy.pac
|
手動配置 HTTP 代理伺服器
|
空白
|
格式:server1.sesta.com:8080 這三個手動配置值置於 /var/opt/SUNWps/https-servername/portal/config 目錄的 robot.pac 檔案中。
|
手動配置 HTTPS 代理伺服器
|
空白
|
此手動配置值置於 robot.pac 檔案中。
格式:server1.sesta.com:8080
|
手動配置 FTP 代理伺服器
|
空白
|
此手動配置值置於 robot.pac 檔案中。
格式:server1.sesta.com:8080
|
跟隨 HTML 中的連結
|
True (已核取)
|
自 HTML 擷取超連結。
|
最大連結
|
1024
|
限制自動器可自任何 HTML 資源擷取的連結數。當自動器定位並找出連至其他資源的連結時,自動器可終止追循為數眾多的連結 (與其原始起始點相距甚遠)。
|
跟隨一般文字中的連結
|
False (已取消核取)
|
自一般文字擷取超連結。
|
最大連結
|
1024
|
限制自動器可自任何文字資源擷取的連結數。
|
使用 Cookie
|
False (已取消核取)
|
若已核取,則自動器會在進行耙梳時使用 cookies。有些站台要求使用 cookies 以便正確導覽。自動器將其 cookies 保存在自動器狀態目錄的 cookies.txt 檔案中。cookies.txt 的格式與 Netscape Communicator 瀏覽器所使用的格式相同。
|
使用 IP 作為來源
|
True (已核取)
|
在大多數的情況中,自動器僅會依據資源網域名稱運作。而在有些情況下,您可能希望能夠依據網際網路協定 (IP) 位址,以子網路為基準過濾或分類資源。在這種情況下,除了網域名稱外,您亦必須允許自動器擷取 IP 位址。若要擷取 IP 位置,必須有額外的 DNS 查找,其可顯示自動器操作情況。若您不需要此選項,您可將之關閉以提升效能。
|
智慧型主機試探法
|
False (已取消核取)
|
若已核取,則自動器會將伺服器使用的一般替代主機名稱轉換為單一名稱。當站台具有多個全部另稱為相同位址的伺服器時,最適合進行上述動作,像是 www.sesta.com 通常具有如 www1.sesta.com、www2.sesta.com 等等的名稱。
當您選取此選項時,自動器會在內部將以 wwwn 為開頭的主機名稱轉換為 www,其中 n 是任意整數。此屬性僅可在以 wwwn 開頭的主機名稱上運作。
當 CNAME 解析度為關閉 (假) 時,即無法使用此屬性。
|
將主機名稱改為 CNAME
|
False (已取消核取)
|
若已核取,則自動器會驗證其所遭遇的任何主機名稱,並將之變為正規名稱。如此自動器即可精確地追蹤唯一 RD。若未核取,則自動器僅會驗證主機名稱,而不會將之轉換為正規格式。因此,自動器可能會找到完全一樣的 RD,但卻列有不同的主機名稱。
例如,devedge.sesta.com 是 developer.sesta.com 的別名。開啟 CNAME 解析時,參照為 devedge.sesta.com 的 URL 即會列為於 developer.sesta.com 上找到。關閉 CNAME 解析時,RD 會保留至 devedge.sesta.com 的原始參照。
當 CNAME 解析為關閉 (假) 時,即無法啟用智慧型主機試探法。
|
接受來自任何主機的指令
|
False (已取消核取)
|
多數的自動器控制功能皆透過 TCP/IP 埠操作。此屬性可控制下達給自動器的指令是否必須來自本端主機系統 (假),或可來自網路上的任意處 (真)。
建議您限制對本端主機 (假) 的直接自動器控制。您還是可以透過「管理主控台」於遠端管理自動器。
|
預設起始點深度
|
10
|
1- 僅起始點、2- 書籤樣式、3-10、無限。
自動器自任何起始點開始移動的超連結層次預設值。您可在 [站台] 頁面的自動器中編輯站台以設定任意起始點的深度。
|
工作目錄
|
/var/opt/SUNWps/https-servernamefull/portal/tmp
|
自動器可用來儲存資料的暫時工作目錄完整路徑名稱。自動器會將整個文件內容擷取至此目錄中 (通常一次擷取大量內容),因此目錄空間必須夠大才能立刻處理數量龐大的內容。
|
狀態目錄
|
/var/opt/SUNWps/https-servernamefull/portal/robot
|
自動器可用來儲存其狀態資訊的暫時目錄完整路徑名稱,包含其已造訪的 URL 清單、URL 儲存區等等。此資料庫可能非常龐大,因此您可能會想要將之置於「工作目錄」外的獨立分割區。
|
編列索引
自動器會根據您所選取的過濾器來搜尋站台與收集文件。所收集的文件有多種不同的格式。若要統一文件並使其易於讀取,就必須統一為一個格式,也就是 HTML。本頁面控制會進入各資源描述的部份項目。
表 F-10 自動器索引屬性
屬性
|
預設值
|
說明
|
完整文字或部份文字
|
部份文字
|
完整文字使用資源描述中完整的文件。部份文字則僅使用資源描述中特定的位元數。
|
先行擷取 # 位元
|
4096
|
輸入位元數。
|
擷取目錄
|
True (已核取)
|
「True」包括資源描述中的目錄。
|
擷取 META 標記中的資料
|
True (已核取)
|
「True」包括資源描述中的 META 標記。
|
文件轉換器
|
全部核取 (真);若為假,則該文件類型將無法編列索引。
|
Adobe PDF
Corel Presentations
Corel Quattro Pro
FrameMaker
Lotus Ami Pro
Lotus Freelance
Lotus Word Pro
Lotus 1-2-3
Microsoft Excel
Microsoft Powerpoint
Microsoft RTF
Microsoft Word
Microsoft Works
Microsoft Write
WordPerfect
StarOffice Calc
StarOffice Impress
StarOffice Writer
XyWrite
|
轉換器逾時
|
600
|
將文件轉換為 HTML 所允許的時間 (秒)。若超出此時間值,則會排除此 URL。
|
模擬器
本頁面為可在 URL 上執行自動器過濾部份模擬的除錯工具。您可以鍵入新的 URL 以進行檢查。其可檢查 URL、DNS 轉換 (包括智慧型主機試探法) 及站台重導。其不會檢查 URL 指定的文件內容,因此就不會偵測重複狀態、MIME 類型、網路錯誤、許可權等類似項目。模擬器會指出自動器是 (接受) 否 (警告) 會接受列出的站台。
表 F-11 自動器模擬器特性
屬性
|
預設值
|
說明
|
URL
|
您已定義的 URL 與一個空白的文字方塊。
|
您可在此空白文字方塊中鍵入新站台的 URL,以檢查是否有存取新站台的權限。這項檢查動作亦可得知新站台是否接受耙梳。
格式 http://www.sesta.com:80/
|
檢查 DNS 別名
|
True (已核取)
|
「True (已核取)」可檢查另稱為相同位址的伺服器數量。
|
檢查伺服器重導 (302)
|
True (已核取)
|
「True (已核取)」可檢查任何伺服器重導。
|
站台探查
本頁面為可檢查 DNS 別名、伺服器重導與虛擬伺服器的除錯工具。此工具會傳回站台相關資訊,但並不會測試站台是否接受耙梳。
表 F-12 自動器站台探查屬性
屬性
|
預設值
|
說明
|
站台
|
空白
|
以 http://www.sesta.com:80 的格式鍵入 URL
|
顯示進階 DNS 資訊
|
False (已取消核取)
|
「True (已核取)」顯示包含 IP 位址在內的更多站台相關資訊。
|
排程
您可於本頁面設定自動器的自動搜尋排程。
表 F-13 自動器排程屬性
屬性
|
預設值
|
說明
|
啟動自動器時間 (時/分)
|
00:00
|
此為自動器開啟搜尋的時間。
|
天
|
未選取
|
週日、週一、週二、週三、週四、週五或週六
請至少核取一個日期。
|
停止自動器時間 (時/分)
|
00:00
|
若您想要讓自動器持續執行,建議您每天至少停止自動器然後重新啟動一次。這樣可讓自動器釋放資源,並自動重新初始化。
|
天
|
未選取
|
週日、週一、週二、週三、週四、週五或週六
|
資料庫
「資料庫」屬性劃分如下:
- 排程
|
備註
|
若要分割資料庫,您必須使用指令行功能,因為必須停止搜尋伺服器。
|
|
管理
初始 [管理] 頁面會列出可用的資料庫。您可以建立新的資料庫,或重新編列索引、清除或到期現有的資料庫。使用核取方塊來選取要在其中執行動作的資料庫。使用核取方塊上方的小圖示來選取或取消選取所有資料庫。當您選取 [重新編列索引]、[清除] 或 [到期] 時,螢幕上會出現一個提示以確認您是否要執行資料庫名稱清單所顯示的動作。若要執行動作,請選取 [確定]。
若您已編輯模式並新增或移除了已編列索引的欄位 (以作者的身份),或者如果磁碟錯誤導致索引損壞,您應該重新編列索引。您需要在變更模式之後重新啟動伺服器。
由於重新編列資料庫索引所需的時間與資料庫中的 RD 數成比例,因此當伺服器不在高度需求的狀態時,即應重新編列大型資料庫索引。
當您清除資料庫的內容時,用於索引的磁碟空間將會回復,但是用於主資料庫的磁碟空間將不會回復,該空間將會被再利用,作為新資料新增至資料庫中。
使資料庫到期可刪除所有被視為過期的 RD。資料庫大小並不會減少。依預設,自建立時間後的第 90 天 RD 即到期。
選取 [編輯] 連結之後,您將會進入定義資料庫屬性的頁面,您也可以利用此種方式來編輯資料庫。
表 F-14 資料庫管理屬性
屬性
|
預設值
|
說明
|
名稱
|
Default
|
「搜尋」所使用的資料庫名稱。
|
標題
|
空白
|
資料庫的標題。
|
說明
|
空白
|
描述您自己的資料庫。
|
匯入代理程式
匯入代理程式是可自其他伺服器或資料庫帶入資源描述,並將之合併至搜尋資料庫中的程序。
初始 [匯入] 頁面會列出可用的匯入代理程式。您可以建立新的代理程式,或執行、編輯或刪除現有的代理程式。使用核取方塊來選取待刪除的代理程序。使用核取方塊上方的小圖示來選取或取消選取所有匯入代理程式。使用單選按鈕來開啟或關閉 [代理程式動作]。若要排程匯入代理程式,請選取下方功能表列中的 [排程]。
若您選擇編輯或修改現有的匯入代理程式,或是建立新的匯入代理程式,則會顯示下列屬性。
表 F-15 資料庫匯入代理程式屬性
屬性
|
預設值
|
說明
|
字元集
|
新屬性為空白
|
指定輸入 SOIF 串流的字元集。例如,ISO8859-1、UTF-8、UTF-16。支援 ISO8859-1 到 ISO8859-15 之間的字元集。
|
匯入來源
|
本機檔案
|
選取 [本機檔案] 或 [搜尋伺服器] (如有任一啟用的話)。
|
本機檔案路徑
|
新屬性為空白
|
以 SOIF (摘要物件交換格式) 格式輸入包含有效資源描述的本機檔案完整路徑名稱。只要此路徑是可尋址的 (如同設置於本機一樣),也可以是另一個伺服器上的檔案。
|
資料庫名稱
|
Default
|
目標資料庫的名稱。
|
遠端伺服器
|
新屬性為空白
|
輸入擷取資源描述來源的搜尋伺服器 URL,格式為 http://www.sesta.com:80
|
實例名稱
|
新屬性為空白
|
搜尋伺服器使用的伺服器實例名稱。您可在匯入伺服器的「伺服器喜好設定」中找到此實例名稱。值必須為 3.01C 或 3.01C SP1。
|
搜尋 URI
|
新屬性為空白
|
輸入完整路徑與檔案名稱。使用 /portal/search。
|
是 Compass Server 3.01X 嗎?
|
False (已取消核取)
|
您的匯入伺服器是 Compass Server 3.01X 嗎?
|
啟用 SSL
|
False (已取消核取)
|
若此為伺服器間的異動,請選取伺服器是否應使用 SSL (Secure Sockets Layer) 協定。
|
認證
|
無 (預設)
|
無 (預設) 或使用使用者/密碼
這可指定匯入代理程式自身在來源匯入系統中的識別方式。依預設,不使用認證。若您的來源匯入伺服器要求認證,您可指定使用者名稱與密碼供匯入代理程式使用。自 3.01C 匯入不需認證。自 3.01C SP1 匯入資料需要認證。
|
使用者
|
新屬性或無此屬性時為空白
|
若您已選取「使用使用者/密碼」,請輸入使用者。
|
密碼
|
新屬性或無此屬性時為空白
|
若您已選取「使用使用者/密碼」,請輸入密碼 (以 * 顯示)。
|
內容傳輸
|
使用完整內容增量集中 (預設)
|
選擇使用完整內容增量聚集 (預設) 或使用搜尋查詢。
上述選項可指定要自來源匯入的資源描述。
依預設,匯入代理程式會要求所有自上次從相同來源匯入開始已新增或變更的資源描述。
搜尋查詢可指定匯入代理程式應僅要求來自來源的特定資源描述。這與使用者要求來自搜尋資料庫的資源列表是類似的方式。
使用 [範圍]、[檢視屬性] 與 [檢視符合項目] 欄位來指定查詢。
|
範圍
|
新屬性為空白
|
查詢的文字。查詢語法與一般使用者自伺服器查詢所用的語法相同。
|
檢視屬性
|
新屬性為空白
|
列出想要匯入各資源描述的欄位 (大小寫不須相符) 例如,標題與作者。預設為全部。
|
檢視符合項目
|
新屬性為空白
|
符合的待匯入資源描述最大數。若未指定符合項目數,其預設值為 20。
|
代理程式說明
|
新屬性為空白
|
顯示在初始 [匯入] 頁面上的可用匯入代理程式清單中。程式將會予以忽略。若此欄位為空白,則將「資源描述來源」檔案名稱或伺服器名稱用來識別匯入代理程式。請注意此處是否需要使用者名稱與密碼。
|
最新的資源說明
|
新屬性為空白
|
先前由此匯入代理程式匯入的最新資源描述建立日期。[使用完整內容增量聚集] 選項會使用此日期來判定新的與應匯入的資源。
|
網路逾時秒數
|
新屬性為空白
|
指定網路連線逾時前,匯入代理程式所允許的秒數。您可調整此值以適用不同的網路流量及品質。
|
資源描述
初始 [資源描述] 頁可以讓您搜尋資料庫中的「資源描述」。例如,您可以修正 RD 中的編排錯誤,或將自動器找到的 RD 手動指派至種類中。
表 F-16 資源描述屬性
屬性
|
預設值
|
說明
|
搜尋
|
所有 RD
|
所有 RD、未分類的 RD、已分類的 RD、依種類區分的 RD、依 URL 區分的特定 RD、RD 包含。
|
文字方塊
|
空白
|
輸入唯一的文字字串以識別所搜尋的 RD。使用「依種類區分的 RD」、「依 URL 區分的特定 RD」與「包含屬性值的 RD」。
|
資料庫
|
Default
|
要搜尋的資料庫名稱。
|
選取種類
|
|
瀏覽並選取種類樹中的種類。
|
刪除
|
|
刪除一個或多個從 RD 搜尋中傳回的選取 RD。
|
下一個
|
|
顯示從 RD 搜尋中傳回的下一個 RD 集。
|
上一個
|
|
顯示從 RD 搜尋中傳回的上一個 RD 集。
|
編輯所選
|
|
編輯一個或多個從 RD 搜尋中傳回的 RD 屬性。
|
編輯全部
|
|
編輯從 RD 搜尋中傳回的目前 RD 集的屬性。
|
若要依種類限制搜尋,請選取 [選取種類]。[種類編輯程式] 頁顯示允許您在搜尋中指定分類法的種類。您可以在 [選取種類] 文字方塊中指定種類,或是透過瀏覽分類法進行選取。在指定種類之後,請選取 [確定] 以返回 RD 搜尋頁。
表 F-17 種類編輯程式屬性
屬性
|
預設值
|
說明
|
所選種類
|
空白
|
顯示選取種類的文字欄位。
|
全部展開
|
|
展開分類法,使得階層中的所有項目皆可顯示以進行瀏覽。
|
全部收縮
|
空白
|
摺疊分類法,使得只有階層的前兩層中的種類才會顯示以供瀏覽。
|
各頁面種類
|
25
|
每頁顯示的種類數目的下拉式清單。數值為 25、50、100、250、500 和全部。
|
成功的搜尋將顯示找到的 RD 數,以及包含找到的 RD 的清單方塊。按一下 RD 的 [編輯] 連結之後,即會顯示下列可編輯的屬性,及 RD 的部份文字。除了 [類別] 之外,上述所有屬性在 [資料庫/模式] 頁面中皆設為可編輯。
表 F-18 資料庫 RD 可編輯屬性
屬性
|
預設值
|
說明
|
作者
|
空白
|
文件作者。
|
作者電子郵件位址
|
空白
|
與文件作者聯繫的電子郵件位址。
|
分類
|
所選 RD 的種類名稱
|
若已分類則為種類名稱;若未分類則無類別。
|
ReadACL
|
空白
|
與文件層次安全性相關。
|
內容 - 字元集
|
|
來自 [HTTP 伺服器] 的 [內容 - 字元集] 資訊。
|
內容 - 編碼
|
空白
|
來自 [HTTP 伺服器] 的 [內容 - 編碼] 資訊。
|
內容 - 語言
|
空白
|
來自 [HTTP 伺服器] 的 [內容 - 語言] 資訊。
|
內容 - 長度
|
空白
|
來自 [HTTP 伺服器] 的 [內容 - 長度] 資訊。
|
內容 - 類型
|
空白
|
來自 [HTTP 伺服器] 的 [內容 - 類型] 資訊。
|
說明
|
來自所選 RD 的描述
|
來自 RD 的描述。
|
過期
|
有效日期
|
資源描述失效日期。
|
全部文字
|
空白
|
文件全部內容。
|
關鍵字
|
所選 RD 中的關鍵字,如果有
|
取自中繼標記的關鍵字。
|
上次修改
|
上次修改日期
|
文件最後修改日期。
|
部份文字
|
文件的部份文字
|
選取部份文件文字。
|
電話號碼
|
空白
|
聯繫作者的電話號碼。
|
標題
|
所選 RD 的標題
|
RD 標題。
|
URL
|
空白
|
文件的單一資源定址器。
|
模式
模式可判定存在於資源描述中的資訊及資訊格式。您可以將新屬性或欄位新增至 RD 中,然後設定何者可進行編輯,及何者可編列索引。匯入新 RD 時,您可以將內嵌在新 RD 中的模式轉換為您自己的模式。
表 F-19 資料庫模式編輯屬性
屬性
|
說明
|
作者
|
文件作者。
|
作者電子郵件位址
|
與文件作者聯繫的電子郵件位址。
|
內容 - 字元集
|
來自 [HTTP 伺服器] 的 [內容 - 字元集] 資訊。
|
內容 - 編碼
|
來自 [HTTP 伺服器] 的 [內容 -編碼] 資訊。
|
內容 - 語言
|
來自 [HTTP 伺服器] 的 [內容 - 語言] 資訊。
|
內容 - 長度
|
來自 [HTTP 伺服器] 的 [內容 - 長度] 資訊。
|
內容 - 類型
|
來自 [HTTP 伺服器] 的 [內容 - 類型] 資訊。
|
說明
|
文件簡要單行描述。
|
過期
|
資源描述失效日期。
|
全部文字
|
文件全部內容。
|
關鍵字
|
最佳描述文件的關鍵字。
|
上次修改
|
文件最後修改日期。
|
部份文字
|
選取部份文件文字。
|
電話號碼
|
聯繫作者的電話號碼。
|
ReadACL
|
「搜尋」伺服器用來加強安全性。
|
標題
|
文件標題。
|
URL
|
文件的單一資源定址器。
|
別名
名稱
說明
|
匯入新 RD 時,您可以將內嵌在新 RD 中的模式轉換為您自己的模式。當匯入資料庫模式中欄位所用的名稱及您的資料庫 RD 所用的模式之間有矛盾時,即可使用上述轉換動作。範例:若您匯入使用 [撰寫者] 作為作者欄位的 RD,且您在自己的 RD 中使用 [作者] 作為作者欄位。「撰寫者」將會轉換為「作者」,因此您會在此文字方塊中輸入「撰寫者」。
|
資料類型
|
定義資料類型。
|
可編輯
|
若為「True (已核取)」,則所選屬性 (欄位) 會顯示在 [資料庫 RD 編輯程式] 中,如此您即可變更其值。
描述、關鍵字、標題及 ReadACL 都是可編輯的。
|
可編列索引
|
若為「True (已核取)」,則所選屬性 (欄位) 即可用來作為編列索引的基礎。
[作者]、[標題] 與 URL 會顯示在一般使用者的 [進階搜尋] 畫面功能表中。一般使用者即可搜尋上述特定欄位中的值。
[作者]、[到期]、[關鍵字]、[最後修改日期]、[標題]、[URL] 與 [ReadACL] 皆可用來作為編列索引的基礎。
|
計算倍數
|
記錄特殊元素的權重欄位。任何正值皆為有效值。
|
分析
[分析] 頁將顯示所有站台的排序清單及目前存在於搜尋資料庫中之站台的資源數。選取 [更新分析] 以更新檔案的分析。
表 F-20 資料庫分析屬性
屬性
|
預設值
|
說明
|
RD 總數
|
資料庫中目前的資源描述總數。
|
列出資料庫中目前的資源描述總數。
|
伺服器數量
|
資料庫在多少個伺服器上分割。
|
資料庫可在數個伺服器上分割與放置。
|
站台
|
自動器成功搜尋到的 URL 或網域。
|
已將資源描述新增至資料庫的 URL 或網域。
|
RD 數量
|
來自該站台的目前 RD 數。
|
列出來自該站台的目前 RD 數。
|
類型
|
RD 類型
|
資源描述可為許多不同的類型,如 http。
|
百分比
|
RD 類型 / RD 總數量
|
相較於資源描述總數的此文件類型百分比。
|
排程
您可於本頁設定執行匯入代理程式排程。
表 F-21 資料庫匯入排程屬性
屬性
|
預設值
|
說明
|
啟動匯入時間 (時/分)
|
00:00
|
匯入代理程式開始匯入的時間。
|
天
|
未選取
|
週日至週六
請至少核取一個日期。
|
種類
一般使用者可用兩種不同的方式與搜尋資料庫產生互動:使用者可鍵入直接查詢以搜尋資料庫,或是使用自己設計的一組種類來瀏覽整個資料庫內容。您可將搜尋資料庫中的資源指派至種類,以釐清複雜性。若資料庫中有大量的項目,把相關的項目分為一組將會很有幫助。您在設定種類時最重要的考量點應該是可用性,如此一般使用者即可更快速地找到特定種類的項目。
搜尋伺服器使用名為分類法的種類等級制度。一般來說,分類法一詞即可說明任何種類系統。在如搜尋伺服器資料庫這類的網路資源資料庫環境下,其可說明您選擇用來促進擷取的任何網路資源分類方法。
「種類」主題分為下列幾個子主題:
種類編輯程式
[種類編輯程式] 頁會顯示分類法中的種類清單,讓您可以瀏覽種類。在瀏覽種類之後,您可以選取種類連結,啟動 [類別規則編輯程式] 以設定特定種類底下的自動器集合。
表 F-22 種類編輯程式屬性
屬性
|
預設值
|
說明
|
全部展開
|
|
展開分類法,使得階層中的所有項目皆可顯示以進行瀏覽。
|
全部收縮
|
|
摺疊分類法,使得只有階層的前兩層中的種類才會顯示以供瀏覽。
|
重新編列索引
|
|
重新編列資料庫索引。若您已建立自己的分類法,則您必須編列資料庫索引以使一般使用者能夠搜尋種類。若您已變更種類,則您必須重新編列資料庫索引以使其維持最新的狀態。重新編列資料庫索引之前請先儲存種類樹。載入新的分類法。
|
各頁面種類
|
25
|
每頁顯示的種類數目的下拉式清單。數值為 25、50、100、250、500 和全部。
|
名稱
|
所選種類
|
顯示要編輯的選取種類名稱。
|
說明
|
空白
|
顯示選取種類的說明。
|
相符規則
|
空白
|
顯示在選取種類中使用的符合規則。
|
更新
|
|
更新種類定義。
|
作為子項加入
|
|
新增種類為子種類。
|
作為同層項加入
|
|
新增種類為兄弟種類。
|
類別規則編輯程式
在您為自己的資料庫設定好種類之後,請按一下 [新增] 以設定或變更選取種類的自動器用來將資源指派至種類的規則。
表 F-23 種類分類規則編輯程式屬性
屬性
|
預設值
|
說明
|
來源
|
作者
|
有效屬性包括:
- 作者
- 作者電子郵件位址
- 內容 - 字元集
- 內容 - 編碼
- 內容 - 語言
- 內容 - 長度
- 內容 - 類型
- 說明
- 過期
- 全部文字
- 關鍵字
- 上次修改
- 部份文字
- 電話號碼
- ReadACL
- 標題
- URL
- 主機
- 協定
- IP
- 路徑
- 類型
|
方法
|
是
|
是、包含、開始於、結束於、常規表示式
|
準則
|
空白
|
指定規則的準則。
|
分類
|
空白
|
如果規則條件符合的話,用於在其中分類 RD 的種類。鍵入種類或使用 [選取種類編輯] 頁來瀏覽。
|
報告
[報告] 區段可讓您監控自己的搜尋伺服器。您可以看見此活動的摘要:搜尋到什麼網站、什麼 URL 被排除以及被排除的原因、有關自動器造訪的 URL 的詳細資訊,以及一般使用者感興趣的內容。
「報告」主題分為下列幾個子主題:
起始點
自動器將在每次啟動時造訪已啟用的站台。
表 F-24 報告起始點屬性
屬性
|
預設值
|
說明
|
已啟用
|
站台目前的值。
|
「是」或「否」。
此值可於 [Robot/站台] 頁面中設定。
|
起始點
|
所選 URL:80
|
帶出所選 URL 的連結。
|
用於站台定義
|
所選 URL
|
連至 [Robot/站台] 編輯頁面的連結。
|
深度
|
列出所選搜尋層次。
|
1-n 於 [Robot/站台] 頁面中設定。
|
已排除 URL
本頁面顯示自動器執行清單。若要顯示排除 URL 的原因清單,請選取自動器執行以進行檢驗,選取 [所選檢視],然後選取其中一個 [排除原因]。顯示的是該原因的已排除 URL 清單。已移除重複及警告的排除項。
表 F-25 報告已排除 URL 屬性
屬性
|
預設值
|
說明
|
日誌
|
列出最近執行的日誌。
|
列出所有可取得的執行日誌。
|
計數
|
數字
|
含排除原因的數字清單。
|
排除原因
|
尚不允許使用的站台的原因清單。每一個原因皆會連結到屬於該排除原因的所有 URL 清單。
|
過濾器規則、找不到檔案、不允許的站台、不允許的協定、錯誤、重複是將 URL 排除的部份原因。
|
自動器進階報告
您可於本頁面存取來自自動器的許多不同報告。從下拉式清單中選取,顯示所選報告,並取得資訊。使用 [更新] 按鈕即可取得目前資訊。
表 F-26 報告自動器進階報告屬性
屬性
|
預設值
|
說明
|
進階自動器報告
|
版本
|
版本、DNS 快取轉儲、效能、找到的伺服器 - 全部、找到的伺服器 - RDM、狀態 - 目前配置、狀態 - 資料庫 (內部)、狀態 -Libnet、狀態 - 模組、狀態 - 摘要、URL - 擷取就緒、URL - 編列索引就緒、URL -等待過濾 (URL 儲存區)、URL - 等待編列索引、所有報告。
|
日誌檔案
本頁可讓您檢視日誌檔案中的項目或特定行。日誌檔案下拉式清單選取 [檢視] 按鈕時,輸入想要顯示的行數。
表 F-27 報告檢視日誌檔案屬性
屬性
|
預設值
|
說明
|
檢視此日誌檔案
|
已排除 URL (過濾器)
|
已排除 URL (過濾器)、RD 管理員 (rdmgr)、RDM 伺服器 (rdmsvr)、自動器活動 (robot)、搜尋引擎 (searchengine)、使用者查詢 (rdm)。
|
行數
|
25
|
您可輸入一個顯示日誌檔案中最新輸入項的數。
|
熱門搜尋
您可於本頁面檢視使用者的搜尋項目。最常搜尋的項目會先顯示在報告中。
表 F-28 報告熱門搜尋屬性
屬性
|
預設值
|
說明
|
排除瀏覽
|
False (已取消核取)
|
使用「False (已取消核取)」可納入使用者所瀏覽的種類;「True (已核取)」則會排除瀏覽統計數字。
|