Sun Java System Portal Server 7.2 管理指南

篩選支援功能

支援功能用於在篩選期間操控或產生資源的資訊。網頁抓取程式之後可以藉由篩選功能處理資源。這些功能可以用於 filter.conf 檔案的列舉篩選器與產生篩選器。

assign-source

assign-source 功能會指派一個新值給指定的資訊來源。這個功能允許篩選程序期間的編輯作業。這個功能可以指派明確的新值,或複製其他資訊來源的值。

特性

dst

希望變更其值的來源名稱。

value

指定一個明確的值

src

要複製到 dst 的資訊來源

您必須指定 value 特性或 src 特性,但只能擇一指定。

範例

Data fn=assign-source dst=type src=content-type

assign-type-by-extension

assign-type-by-extension 功能使用資源的檔案名稱來決定其類型,並指派此類型給該資源做進一步處理。

設定期間必須先呼叫 setup-type-by-extension 功能,才能使用 assign-type-by-extension

特性

src

要比較的檔案名稱來源。若您沒有指定來源,則預設值是資源的路徑。

範例

MetaData fn=assign-type-by-extension

clear-source

clear-source 功能會刪除指定的資料來源。一般您並不需要執行這個功能。您可以使用 assign-source 功能建立或取代來源。

特性

src

要刪除之來源的名稱

範例

下列範例會刪除路徑來源:

MetaData fn=clear-source src=path

convert-to-html

如果目前資源的類型符合指定的 MIME 類型,convert-to-html 功能會將目前資源轉換為 HTML 檔案以進一步處理。轉換篩選器會自動偵測其正在轉換的檔案類型。

特性

type

轉換的來源 MIME 類型

範例

以下的功能呼叫順序會造成篩選器將所有的 Adobe Acrobat PDF 檔案、Microsoft RTF 檔案和 FrameMaker MIF 檔案以及任何其類型未由提供該檔案之伺服器指定的檔案都轉換成 HTML。

Data fn=convert-to-html type=application/pdf

Data fn=convert-to-html type=application/rtf

Data fn=convert-to-html type=application/x-mif

Data fn=convert-to-html type=unknown

copy-attribute

copy-attribute 功能會將值從資源描述欄位複製到另一個欄位。

特性

src

要複製的資源描述欄位

dst

資源描述中的項目,來源被複製到該項目中

truncate

要複製的最大來源長度

clean

布林特性,可指定是否修正截斷的文字,以免文字不完整。此特性預設為 false

範例

Generate fn=copy-attribute \\

src=partial-text dst=description truncate=200 clean=true

generate-by-exact

只有在現有來源完全符合其他值時,generate-by-exact 功能才會使用指定的值產生來源。

特性

dst

要產生之來源的名稱

value

要指定給 dst 的值

src

相符的來源

範例

若主機為 www.siroe.com,則下列範例會將分類設定為 siroe

Generate fn="generate-by-exact" match="www.siroe.com:80" src="host" value="Siroe" dst="classification"

generate-by-prefix

如果現有來源的前綴完全符合其他值,此 generate-by-prefix 功能會使用指定的值產生來源。

特性

dst

要產生之來源的名稱

value

要指定給 dst 的值

src

相符的來源

match

src 比較的值

範例

如果通訊協定前綴為 HTTP,以下範例會將分類設定為 Compass:

Generate fn="generate-by-prefix" match="http" src="protocol" value="World Wide Web" dst="classification"

generate-by-regex

如果現有來源完全符合常規表示式,generate-by-regex 功能會使用指定的值產生來源。

特性

dst

要產生之來源的名稱

value

要指定給 dst 的值

src

相符的來源

match

src 比較的常規表示式

範例

若主機名稱符合常規表示式 *.siroe.com,則下列範例會將分類設定為 siroe。例如,位於 developer.siroe.comhome.siroe.com 中的資源均分類為 Siroe

Generate fn="generate-by-regex" match="\\\\*.siroe.com" src="host" value="Siroe" dst="classification"

generate-md5

generate-md5 功能會產生 MD5 總合檢查並將其新增至資源。然後,您可以使用 filter-by-md5 功能拒絕含有相同 MD5 總合檢查的資源。

特性

範例

Data fn=generate-md5

generate-rd-expires

generate-rd-expires 功能會產生到期日期並將其新增至指定來源。此功能會使用例如 HTTP 標頭與 HTML <META> 標記的中介資料取得資源的任何到期資料。若沒有,則該功能會產生距目前日期三個月後的的日期作為到期日期。

特性

dst

來源名稱。如果您省略它,則來源會預設為 rd-expires

範例

Generate fn=generate-rd-expires

generate-rd-last-modified

generate-rd-last-modified 功能會新增目前時間至指定來源。

特性

dst

來源名稱。如果您省略它,則來源會預設為 rd-last-modified

範例

Generate fn=generate-last-modified

rename-attribute

rename-attribute 功能會變更資源描述欄的名稱。舉例來說,此功能最實用的狀況是,當 extract-html-meta 功能將 <META> 標記的資訊複製到欄位,且您要變更此欄位的名稱時。

特性

src

包含從一個名稱到另一個名稱對映的字串。

範例

以下範例會將某個屬性從 author 重新命名為 author-name:

Generate fn=rename-attribute src="author->author-name"