Sun Java System Portal Server 7.2 管理指南

產生功能

產生功能用於篩選的「產生」階段。產生功能可以建立用於資源描述的資訊。一般而言,會擷取資源本身主體的資訊或從資源中介資料複製資訊。

extract-full-text

extract-full-text 功能會從資源擷取完整文字,並將其新增至資源描述中。


備註 –

小心使用 extract-full-text 功能。它會明顯增加資源描述的大小,因此導致資料庫膨脹,對網路整體頻寬造成負面影響。


範例

Generate fn=extract-full-text

特性

truncate

從資源擷取的最大字元數。

dst

接收完整文字的模式項目的名稱

extract-html-meta

extract-html-meta 功能會從 HTML 檔案擷取任何 <META><TITLE> 資訊,並將其新增至資源描述。可指定 content-type 以限制產生的 URL 類型。

特性

truncate

要擷取的最大位元數

type

選擇性特性。如果省略,則產生所有 URL

範例

Generate fn=extract-html-meta truncate=255 type=text/html

extract-html-text

extract-html-text 功能會從 HTML 檔案擷取開頭幾個字元 (不包括 HTML 標記),並將此文字新增至資源描述。此功能允許在 RD 中包括文件開頭部分的文字。可指定 content-type 以限制產生的 URL 類型。

特性

truncate

要擷取的最大位元數

skip-headings

設定 true 以忽略在文件中出現的任何 HTML 標頭。

type

選擇性特性。如果省略,則產生所有 URL

範例

Generate fn=extract-html-text truncate=255 type=text/html skip-headings=true

extract-html-toc

extract-html-toc 功能會從 HTML 標頭擷取目錄,並將其新增至資源描述。

特性

truncate

要擷取的最大位元數

level

要擷取的最大 HTML 標頭層級。這個特性會控制目錄深度。

範例

Generate fn=extract-html-toc truncate=255 level=3

extract-source

extract-source 功能會從指定的來源擷取指定的值,並將其新增至資源描述。

特性

src

列出來源名稱。您可以使用 -> 運算子為 RD 屬性定義新名稱。例如, type->content-type 會取得名為 type 的來源值,並將其儲存至 RD 中名為 content-type 的屬性下。

範例

Generate fn=extract-source src="md5,depth,rd-expires,rd-last-modified"

harvest-summarizer

harvest-summarizer 功能會在資源上執行 Harvest 摘要器,並將結果新增至資源描述中。

要執行 Harvest 摘要器,在執行網頁抓取程式之前,您的 path 中必須具備 $HARVEST_HOME/lib/gatherer

特性

summarizer

摘要器程式名稱

範例

Generate fn-harvest-summarizer summarizer=HTML.sum