Sun Java System Portal Server 7.1 管理指南

生成函数

“生成”函数用于过滤的“生成”阶段。生成函数可以创建加入到资源描述中的信息。通常，它们会从资源本身的正文中提取信息，或者从资源的元数据中复制信息。

`extract-full-text`

extract-full-text 函数可提取资源的全部文本，并将其添加到资源描述中。

注 –

应谨慎使用 extract-full-text 函数。它可以显著增加资源描述的大小，从而导致数据库膨胀，并对网络带宽带来整体的负面影响。

Generate fn=extract-full-text

extract-html-meta 函数可从 HTML 文件提取任意 <META> 或 <TITLE> 信息，并将其添加到资源描述中。可指定 content-type 以限制生成的 URL 种类。

Generate fn=extract-html-meta truncate=255 type=text/html

extract-html-text 函数可从 HTML 文件提取文本开头的少量字符（不包括 HTML 标记），并将文本添加到资源描述中。此函数允许在 RD 中包含文档开头部分的文字。可指定 content-type 以限制生成的 URL 类型。

Generate fn=extract-html-text truncate=255 type=text/html skip-headings=true

extract-html-toc 函数可从 HTML 标头提取目录，并将其添加到资源描述中。

Generate fn=extract-html-toc truncate=255 level=3

extract-source 函数可从给定源中提取指定值，并将它们添加到资源描述中。

src: 列出源名称。您可以使用 -> 运算符定义 RD 属性的新名称。例如，type->content-type 会采用名为 type 的源的值，将其保存在 RD 中名为 content-type 的属性下。

Generate fn=extract-source src="md5,depth,rd-expires,rd-last-modified"

harvest-summarizer 函数可在资源上运行 Harvest 摘要器，并将结果添加到资源描述中。

要运行 Harvest 摘要器，在运行 robot 之前，path 中必须有 $HARVEST_HOME/lib/gatherer 。

Generate fn-harvest-summarizer summarizer=HTML.sum