Sun Java System Portal Server 6 2005Q4 管理指南 |
第 13 章
管理搜尋引擎服務本章說明如何配置與管理 Sun Java System Portal Server 搜尋引擎服務。
本章包含下列章節:
搜尋引擎服務簡介Portal Server 搜尋引擎是一種分類法暨資料庫服務,專門支援搜尋及瀏覽介面,功能類似 Google、Alta Vista 等常見的網際網路搜尋引擎。搜尋引擎內含網頁抓取程式程式,負責搜尋、轉換並彙集文件資源。介面是由桌面單獨提供並使用 JSP 提供者。搜尋引擎包含用來編輯配置的管理工具,以及系統管理的指令行工具。配置設定可透過 Sun Java System Access Manager 管理主控台進行定義並儲存為 Sun Java System Access Manager 服務屬性值。
搜尋資料庫
搜尋使用者是透過資料庫進行搜尋,找出特定資源或某類資源。資料庫中的各個項目稱作資源描述 (RD)。資源描述是單一資源的特定資料集。每個資源描述的欄位是由資料庫模式決定。
在資料庫中輸入 RD 有兩種方法:
Portal Server 搜尋引擎中的 RD 乃依據開放式網際網路標準 (例如「摘要物件交換格式 (SOIF)」和資源描述訊息 (RDM)) 而定。這些標準能夠讓搜尋引擎在跨平台企業環境中運作。
搜尋網頁抓取程式
填充資料的一個方法是使用網頁抓取程式,搜尋引擎使用它在網域中尋找資源並進行報告。網頁抓取程式是一種小程式,它會:
身為系統管理員,您會透過多種方法來控制這些程序的每一個方面,包括:
搜尋引擎亦提供公用程式,以確保網頁抓取程式確實達成您所要的結果。
資料庫分類法種類
使用者有兩種方式可與搜尋系統互動:使用者可鍵入直接查詢以搜尋資料庫,或是使用自己設計的一組種類來瀏覽整個資料庫內容。種類的階層有時稱為分類法。資源分類好比是為資料庫建立一個目錄。
瀏覽是搜尋系統的選用功能。也就是說,不一定要使用依種類瀏覽的功能,依然能夠擁有相當好用的搜尋系統。您需要判斷加入可瀏覽的種類對於索引使用者來說是否有用,然後判斷應建立哪些種類。
搜尋資料庫中的資源需指派到各個種類以釐清複雜性。如果資料庫中的項目數量龐大,宜將相關項目分組歸類。如此可讓使用者迅速找出特定類型的項目、在類似項目之間進行比較,而從中選擇所要的項目。
這種分類方式在產品及服務索引中十分常見。服飾型錄會分男裝、女裝及童裝服飾,每一大類又可細分為外套、襯衫、鞋子等。辦公室用品型錄則可區分為傢具、文具用品、電腦及軟體等。廣告目錄即根據產品及服務的種類編排而成。
印刷品索引的分門別類原則亦適用於線上索引。其用意是讓使用者易於找出特定類型的資源,以便從中選擇自己所要的資訊。無論您設計的索引範圍大或小,設定種類時都應以可用性為首要考量。換句話說,您需要瞭解使用者如何使用這些種類。例如您受託為一家在三個不同地區設有辦事處的公司設計索引,此時您可能會以各家分公司作為頂層種類。但假設使用者對於業務執掌的重視超乎地緣關係,則依據企業部門進行資源分類較為適宜。
種類一旦定義,就必須設定規則將資源指派到各個種類。這些規則稱作分類規則。如果未定義適當的分類規則,使用者將無法透過瀏覽種類找到資源。固然應避免錯誤歸類資源,但也要避免漏掉要歸類的文件。
文件可指派到多項種類,最多達設定值定義的數目為止。分類規則比篩選器規則簡單,因為它不涉及任何流程控制的決定。在分類規則下,您需要決定使用何種準則將特定種類指派到某項資源,使其成為資源描述中的一部份。分類規則是一種簡單的條件陳述式,格式為「if <某條件> is true, assign the resource to <種類>」。
配置搜尋通道本節說明如何進行搜尋引擎服務的初始配置。配置設定可透過 Sun Java System Access Manager 管理主控台加以定義,並儲存為 Sun Java System Access Manager 服務屬性值。
搜尋服務在全域範圍內新增,其配置套用至整個 Portal Server。依預設,在 Portal Server 的安裝期間所指定的組織將會新增搜尋服務。如安裝範例入口網站,範例 Portal 桌面的 [搜尋] 標籤即包含搜尋通道。這會在 Portal Server 安裝期間自動配置。不過,您必須為新組織和新實例定義搜尋 URL。
當搜尋提供者使用者輸入查詢時,預設行為是顯示 [沒有符合的文件]。
您需要配置搜尋伺服器並建立文件資料庫,才能獲得搜尋結果。
起始配置搜尋伺服器
請參考下列步驟配置搜尋提供者。此方法僅為填充資料庫的舉例。您也可以使用匯入功能。
- 以管理員的身份登入 Sun Java System Access Manager 管理主控台。
依預設,已選取位置窗格中的 [身份管理] 且 [所有已建立的組織] 已顯示於瀏覽窗格中。
- 選擇位置窗格中的 [服務配置]。
- 按一下瀏覽窗格中搜尋旁邊的特性箭頭。
- 建立新網站。
- 建立分類法。
建立分類法時,可使用 [種類] 下的 [種類編輯程式],或者將範例分類法 SOIF 檔複製到 config/taxonomy.rdm。
- 停用任何不需使用的預設篩選器。
按一下 [網頁抓取程式],然後再按一下 [篩選器]。關閉 [篩選器規則] 清單中任何不需使用的篩選器。
- (選擇性) 如要分種類顯示文件搜尋結果,需建立網頁抓取程式分類規則。
您可以使用「種類」下的「分類規則編輯程式」來建立網頁抓取程式分類規則。
- 啟動網頁抓取程式。
依序按一下 [網頁抓取程式]、[摘要] 及 [啟動],即可啟動網頁抓取程式。
- 重新編列種類索引。
按一下 [種類],然後再按一下 [重新編列索引],開始重新編列索引。
要定義搜尋 URL
searchServer 特性用來定義搜尋 URL。此屬性係自動配置到預設的組織;但是當您建立新的組織或新的 SearchProvider 執行個體,或者手動載入範例 dp-org.xml 時,此值都不會自動定義。如果使用者在此值未定義的情況下進行搜尋,該使用者的桌面上會顯示下列錯誤訊息:
You got a com.sun.portal.search.providers.taglib.SearchTaglibException: SearchRequest Error: search server is not defined.
- 以管理員的身份登入 Sun Java System Access Manager 管理主控台。
依預設,已選取位置窗格中的 [身份管理] 且 [所有已建立的組織] 已顯示於瀏覽窗格中。
- 選擇組織作為定義搜尋 URL 的對象。
- 從 [檢視] 功能表中選擇 [服務]
使用瀏覽窗格中的 [顯示] 功能表以及位置窗格中的位置路徑。
- 按一下瀏覽窗格中 [桌面] 旁邊的特性箭頭。
桌面屬性頁面隨即出現在資料窗格中。
- 在桌面頁中按一下 [通道與容器管理] 連結。
[通道] 頁面隨即顯示。容器路徑顯示於頂端。已定義的通道會顯示在清單中。
- 按一下您要修改的 [搜尋] 通道旁之 [編輯特性] 連結。
[特性] 頁面隨即顯示。
- 指定「搜尋伺服器」特性中的搜尋URL,格式為:
http://portal_server_name:port/portal/search
- 按一下 [儲存]。
- 執行下列動作,檢驗搜尋 URL:
管理搜尋引擎一旦初次完成搜尋引擎配置並產生資料庫後,即可從 Sun Java System Access Manager 管理主控台檢視並管理搜尋引擎。
檢視、管理與監視搜尋引擎作業
搜尋引擎的操作屬性有兩種層級:基本層級和進階層級。當您從管理主控台選取搜尋服務時,會依預設顯示基本設定頁面。其中的基本設定包括伺服器根目錄、暫存檔的存放位置,以及文件層級安全性。進階設定項目則包括各種搜尋引擎元件的記錄位置,及已配置的記錄層級。
此外,管理主控台還可供管理員檢視記錄檔案,或是從記錄檔中擷取出來的特定資訊。
檢視或管理基本設定
- 以管理員的身份登入 Sun Java System Access Manager 管理主控台。
依預設,已選取位置窗格中的 [身份管理] 且 [所有已建立的組織] 已顯示於瀏覽窗格中。
- 選擇位置窗格中的 [服務配置]。
- 按一下瀏覽窗格中搜尋旁邊的特性箭頭。
- 從功能表列選取 [伺服器],再選取 [設定]。
- 檢視或指定搜尋引擎的「伺服器根」目錄。
- 檢視或指定搜尋引擎的「暫存檔」目錄。
- 檢視或指定 [文件層級安全性] 屬性。
關閉表示所有使用者皆可存取資料庫中的 RD。開啟表示必須先評估 RD 中的 ReadACL 欄位,之後才能確定使用者是否有權存取 RD。
- 按一下 [儲存] 以記錄任何更動過的屬性。
檢視或管理進階設定
要監視搜尋引擎活動
搜尋引擎提供多種報告可供您監視搜尋活動。
檢視各種報告的步驟如下:
管理網頁抓取程式以下舉出您在管理網頁抓取程式時可能需要執行的一些配置及維護工作:
定義網站
網頁抓取程式的作用在於找出資源並判定是否 (及如何) 將其描述加入資料庫中。而決定應造訪哪些伺服器以及應對該等伺服器的哪些部分編列索引,即所謂的網站定義。
定義搜尋引擎的網站乃是伺服器管理員的重要工作之一。您一方面必須確定將網頁抓取程式傳送到所有需要編列索引的伺服器,同時也需要剔除無關緊要的網站,以免因其佔據資料庫而難以找出正確資訊。
定義網站供網頁抓取程式編列索引
控制網頁抓取程式抓取
網頁抓取程式會擷取及遵循選取用來編列索引的各個網站連結。管理員可藉由定義抓取的操作參數來控制網頁抓取程式搜尋網站的方式。抓取參數可供您定義速度、完成動作、記錄層級、標準核可、認證參數、代理伺服器設定、依循連結的最大數目,以及其他設定等。如需網頁抓取程式抓取屬性的說明,請參閱「Sun Java System Portal Server 6 2005Q4 Technical Reference Guide 」。
若要控制網頁抓取程式抓取
- 以管理員的身份登入 Sun Java System Access Manager 管理主控台。
依預設,已選取位置窗格中的 [身份管理] 且 [所有已建立的組織] 已顯示於瀏覽窗格中。
- 選擇位置窗格中的 [服務配置]。
- 按一下瀏覽窗格中搜尋旁邊的特性箭頭。
- 從功能表列上按一下 [網頁抓取程式],接著按 [抓取]。
如此會顯示一個窗體,其中包含定義網頁抓取程式抓取操作參數及其設定的屬性。如需網頁抓取程式抓取屬性的詳細資訊,請參閱「Sun Java System Portal Server 6 2005Q4 Technical Reference Guide」。
- 視需要修改網頁抓取程式抓取屬性。
- 按一下 [儲存]。
篩選網頁抓取程式資料
若要識別資源以讓網站定義包含或不包含該資源,篩選器可將資源屬性與篩選器定義進行比較。網頁抓取程式提供大量的預定義篩選器,依預設,會啟用其中一些篩選器。下列為預先定義的篩選器,標記星號的檔案為依預設啟用:
為了管理篩選程序,您可以建立新的篩選器定義、修改篩選器定義,或者啟用或停用篩選器。
要新建篩選器定義
- 以管理員的身份登入 Sun Java System Access Manager 管理主控台。
依預設,已選取位置窗格中的 [身份管理] 且 [所有已建立的組織] 已顯示於瀏覽窗格中。
- 選擇位置窗格中的 [服務配置]。
- 按一下瀏覽窗格中搜尋旁邊的特性箭頭。
- 從功能表列選取 [網頁抓取程式],再選取 [篩選器]。
- 按一下 [新增] 並指定新篩選器的 [暱稱]。
- 在 [篩選器定義] 中,勾選核取方塊並指定 [篩選器來源]、[篩選依據] 及 [篩選器字串] 等設定值。您可視需要指定多個篩選器定義。
- 鍵入篩選器的描述。
- 如要在建立新網站時使用此篩選器,請勾選 [新網站]。
- 按一下按鈕指明是要納入或排除符合此篩選器的資源。
- 按一下 [儲存]。
要修改現有的篩選器定義
要啟用或停用篩選器
定義編列索引屬性
對於每個通過網頁抓取程式篩選器的資源,網頁抓取程式均會為其產生一個 RD,並放在資料庫中。對產生 RD 所做的設定,將會決定使用者在搜尋資料庫時看到的結果。例如,您可以選擇將各個文件的完整內文編列索引,或者僅將文件開始的某些固定部份編列索引。
要定義編列索引屬性
使用網頁抓取程式公用程式
網頁抓取程式具有兩種除錯工具或公用程式:
執行網站探查公用程式
執行模擬器
網頁抓取程式排程
為保持搜尋資料為最新,網頁抓取程式應定時搜尋網站並編列索引。由於網頁抓取程式抓取和編列索引會消耗處理資源和網路頻寬,您應該安排在非尖峰日期與時間執行網頁抓取程式。管理主控台可供管理員設定 cron 工作,以及執行網頁抓取程式的時間和日期。
進行網頁抓取程式排程
管理資料庫搜尋引擎會將資源描述儲存在資料庫中。以下舉出您在管理資料庫時可能需執行的一些配置及維護工作:
匯入至資料庫
一般而言,您搜尋資料庫中的項目通常來自網頁抓取程式。只要告訴網頁抓取程式去造訪哪些網站,它就會找出所有找得到的資源並產生描述。您也可以匯入來自 Portal Server 搜尋引擎、iPlanet Web Servers、Netscape Enterprise Servers 或其他來源所產生的資料庫的現有項目資料庫。匯入現有的 RD 資料庫而非傳送網頁抓取程式以建立 RD 資料庫,可幫助減少網路傳輸量。這樣會將該作業分成數個小部份執行,從而也可以更加快速地完成大型的索引作業。如果中央資料庫與編列索引的伺服器之間的實際距離較遠時,比較有效的方法是先在本端產生 RD,再讓中央資料庫定期匯入各個遠端資料庫。
搜尋引擎是以匯入代理程式從另一台伺服器或資料庫匯入 RD。匯入代理程式係一項程序,即從外部來源擷取許多的 RD,再將該等資訊合併到本端資料庫中。其中含有參數,告訴程式到哪裡匯入 RD、到達目標時提出何種要求,以及用來善加控制其執行匯入工作的其他資訊等。
在匯入資料庫前,必須先建立匯入代理程式。代理程式一旦建立完成後,即可立刻開始進行匯入程序,或是排定執行匯入程序的時間。
建立匯入代理程式
編輯現有的匯入代理程式
若要編輯資源描述
有時您會需要變更一或多個資源描述的內容。例如,您可能需要修正從原始文件複製到資源描述中的編排錯誤。
編輯資源描述
- 以管理員的身份登入 Sun Java System Access Manager 管理主控台。
依預設,已選取位置窗格中的 [身份管理] 且 [所有已建立的組織] 已顯示於瀏覽窗格中。
- 選擇位置窗格中的 [服務配置]。
- 按一下瀏覽窗格中搜尋旁邊的特性箭頭。
- 從功能表列選取 [資料庫],再選取 [資源描述]。
- 選取所要搜尋的資源描述類型,以便進行編輯。
可用的類型如下:全部 RD、未分類的 RD、已分類的 RD、依種類區分的 RD、依 URL 區分的特定 RD、包含的 RD。
- 如選用包含資源描述,請指定要在資源描述中搜尋的文字字串。
- 按一下「搜尋」。
- 從找到的資源描述清單中,選取您要編輯的資源描述。
- 適當編輯資源描述屬性。
- 按一下 [儲存]。
編輯資料庫模式
模式決定您的搜尋引擎針對各項資源所維護的資訊及其格式。您的模式設計會決定影響索引可用性的兩大因素:
模式是指資料庫中的資源描述之主資料結構。如何定義該資料結構的欄位並編列索引,將會影響到使用者存取資源的程度。
模式與搜尋引擎及其網頁抓取程式所使用的檔案之結構息息相關。您應該僅使用管理主控台中的模式工具變更資料結構。絕對不要直接編輯模式檔。
您可以編輯搜尋引擎的資料庫模式,在其中加入新的模式屬性、編輯模式屬性或刪除屬性。
模式具有下列屬性:
- 可編輯—勾選後,此屬性將表示顯示於資源描述編輯器的屬性,如此您將可以變更其值。有關資源描述編輯器的說明,請參閱若要編輯資源描述。
- 可編列索引—此屬性代表 [進階搜尋] 畫面的快顯功能表中出現的欄位。以便讓使用者搜尋該特定欄位中的值。
- 描述—用於描述模式的文字字串。可當作註釋或備註使用。
- 別名—此屬性可供您定義別名,以便將匯入的資料庫模式名稱轉換成您自己的模式。
編輯資料庫模式
定義模式別名
您可能會發現用於資料庫模式之欄位的名稱之間有不一致的情況。當您將資源描述從某台伺服器匯入另一台伺服器時,您無法保證這兩台伺服器始終在各自的模式中為項目使用相同的名稱。同樣,當網頁抓取程式將 HTML <meta> 標記從文件轉換到模式欄位時,名稱由文件控制。
搜尋引擎可讓您針對模式屬性定義模式別名,使這些外部模式名稱對映到您資料庫欄位的有效名稱。
定義模式別名
檢視資料庫分析
搜尋引擎可產生報告,提供有關已編列索引的網站數以及資料庫中各個網站之資源數目等資訊。
檢視資料庫分析資訊
重新編列資料庫索引
如果您已編輯模式以新增或移除已編列索引的欄位,或者由於磁碟錯誤造成索引檔毀壞,則您需要為搜尋引擎重新編列資源描述資料庫索引。在新增大量資源描述之後,最好也要重新編列索引。
重新編列資料庫索引可能需要數小時來完成。
重新編列資料庫索引需要的時間和資料庫的記錄數有關。如果您擁有大型資料庫,請在伺服器閒置時重新編列索引。
重新編列資料庫索引
若要使資料庫到期
使資料庫過期會移除過期的資源描述。僅當您執行過期時,資源描述才會過期。過期的資源描述會被刪除,但是資料庫的大小不會減少。
使資料庫到期
清除資料庫
到期日是資源描述的屬性之一。您的網頁抓取程式可透過 HTML <meta> 標記或資源伺服器所提供的資訊設定到期日期。在預設下,資源描述自建立日起三個月後過期,除非資源另有指定不同的到期日。您應讓搜尋引擎定期清除資料庫中過期的資源描述。
清除功能可用來移除資料庫的內容。用於索引的磁碟空間將被回復,但不會回復主資料庫所使用的磁碟空間。相反,當新資料加入資料庫時會重新使用該空間。
清除伺服器中過期的資源描述
分割資料庫
搜尋引擎可讓您分割涉及搜尋資料庫的實體檔案,無論該資料庫是否使用多個磁碟、檔案系統、目錄或分割區。透過將資料庫散佈在不同的實體或邏輯裝置中,您可建立超過單一裝置容量的大型資料庫。
在預設下,搜尋引擎設定資料庫僅使用一個目錄。指令行介面可供您針對資料庫分割區執行兩種操作:
搜尋引擎不會檢查各分割區是否尚有剩餘空間。您必須自行維護足夠的空間供資料庫使用。
資料庫分割區最多共可新增到 15 個。
若要變更任何資料庫分割區的實際位置,請指定新位置的名稱。同樣,您也可以將現有的分割區重新命名。使用 rdmgr 指令進行分割區操作。如需 rdmgr 指令的詳細資訊,請參閱「Sun Java System Portal Server 6 2005Q4 Technical Reference Guide」。
管理資料庫分類法以下舉出您在管理資料庫分類法時可能必需執行的一些配置及維護工作:
配置種類
透過 Sun Java System Access Manager 管理主控台可執行下列程序來配置資料庫分類法:
建立子種類
更新種類
刪除種類
定義分類規則
分類規則是一種簡單的條件陳述式。其格式為 [if <某條件> is true, assign the resource to <種類>]。
定義分類規則
- 以管理員的身份登入 Sun Java System Access Manager 管理主控台。
依預設,已選取位置窗格中的 [身份管理] 且 [所有已建立的組織] 已顯示於瀏覽窗格中。
- 選擇位置窗格中的 [服務配置]。
- 按一下瀏覽窗格中搜尋旁邊的特性箭頭。
- 從功能表列選取 [種類],再選取 [分類規則編輯器]。
- 如果要建立新規則,請按一下 [新增]。
- 如要編輯現有規則,請選取規則。
- 在下拉功能表中按一下元素類型或屬性,以供資源分類之用。
- 在下拉功能表中按一下比對測試。
可用的比對測試有:是、包含、開始於、結束於或常規表示式。
- 定義比對用的文字字串。
- 如比對結果為真,按一下要進行資源分類的種類。
- 按一下 [儲存]。