“生成”函数用于过滤的“生成”阶段。生成函数可以创建加入到资源描述中的信息。通常,它们会从资源本身的正文中提取信息,或者从资源的元数据中复制信息。
extract-full-text 函数可提取资源的全部文本,并将其添加到资源描述中。
应谨慎使用 extract-full-text 函数。它可以显著增加资源描述的大小,从而导致数据库膨胀,并对网络带宽带来整体的负面影响。
Generate fn=extract-full-text
要从资源中提取的最大字符数
接收全部文本的模式项目的名称
extract-html-meta 函数可从 HTML 文件提取任意 <META> 或 <TITLE> 信息,并将其添加到资源描述中。可指定 content-type 以限制生成的 URL 种类。
要提取的最大字节数
可选属性。如果忽略,则生成所有 URL
Generate fn=extract-html-meta truncate=255 type=text/html
extract-html-text 函数可从 HTML 文件提取文本开头的少量字符(不包括 HTML 标记),并将文本添加到资源描述中。此函数允许在 RD 中包含文档开头部分的文字。可指定 content-type 以限制生成的 URL 类型。
要提取的最大字节数
设置为 true 可忽略文档中的全部 HTML 标头
可选属性。如果忽略,则生成所有 URL
Generate fn=extract-html-text truncate=255 type=text/html skip-headings=true
extract-html-toc 函数可从 HTML 标头提取目录,并将其添加到资源描述中。
要提取的最大字节数
要提取的最大 HTML 标头级别。此属性可控制目录的深度
Generate fn=extract-html-toc truncate=255 level=3
extract-source 函数可从给定源中提取指定值,并将它们添加到资源描述中。
列出源名称。您可以使用 -> 运算符定义 RD 属性的新名称。例如,type->content-type 会采用名为 type 的源的值,将其保存在 RD 中名为 content-type 的属性下。
Generate fn=extract-source src="md5,depth,rd-expires,rd-last-modified"
harvest-summarizer 函数可在资源上运行 Harvest 摘要器,并将结果添加到资源描述中。
要运行 Harvest 摘要器,在运行 robot 之前,path 中必须有 $HARVEST_HOME/lib/gatherer 。
摘要器程序的名称
Generate fn-harvest-summarizer summarizer=HTML.sum