Sun Java System Portal Server 7.1 管理指南

生成函数

“生成”函数用于过滤的“生成”阶段。生成函数可以创建加入到资源描述中的信息。通常,它们会从资源本身的正文中提取信息,或者从资源的元数据中复制信息。

extract-full-text

extract-full-text 函数可提取资源的全部文本,并将其添加到资源描述中。


注 –

应谨慎使用 extract-full-text 函数。它可以显著增加资源描述的大小,从而导致数据库膨胀,并对网络带宽带来整体的负面影响。


示例

Generate fn=extract-full-text

属性

truncate

要从资源中提取的最大字符数

dst

接收全部文本的模式项目的名称

extract-html-meta

extract-html-meta 函数可从 HTML 文件提取任意 <META><TITLE> 信息,并将其添加到资源描述中。可指定 content-type 以限制生成的 URL 种类。

属性

truncate

要提取的最大字节数

type

可选属性。如果忽略,则生成所有 URL

示例

Generate fn=extract-html-meta truncate=255 type=text/html

extract-html-text

extract-html-text 函数可从 HTML 文件提取文本开头的少量字符(不包括 HTML 标记),并将文本添加到资源描述中。此函数允许在 RD 中包含文档开头部分的文字。可指定 content-type 以限制生成的 URL 类型。

属性

truncate

要提取的最大字节数

skip-headings

设置为 true 可忽略文档中的全部 HTML 标头

type

可选属性。如果忽略,则生成所有 URL

示例

Generate fn=extract-html-text truncate=255 type=text/html skip-headings=true

extract-html-toc

extract-html-toc 函数可从 HTML 标头提取目录,并将其添加到资源描述中。

属性

truncate

要提取的最大字节数

level

要提取的最大 HTML 标头级别。此属性可控制目录的深度

示例

Generate fn=extract-html-toc truncate=255 level=3

extract-source

extract-source 函数可从给定源中提取指定值,并将它们添加到资源描述中。

属性

src

列出源名称。您可以使用 -> 运算符定义 RD 属性的新名称。例如,type->content-type 会采用名为 type 的源的值,将其保存在 RD 中名为 content-type 的属性下。

示例

Generate fn=extract-source src="md5,depth,rd-expires,rd-last-modified"

harvest-summarizer

harvest-summarizer 函数可在资源上运行 Harvest 摘要器,并将结果添加到资源描述中。

要运行 Harvest 摘要器,在运行 robot 之前,path 中必须有 $HARVEST_HOME/lib/gatherer

属性

summarizer

摘要器程序的名称

示例

Generate fn-harvest-summarizer summarizer=HTML.sum