Sun Java System Portal Server 7.2 管理指南

了解搜索服务器 Robot

搜索服务器 robot 是一个识别和报告其域中资源的代理。它使用以下两种过滤器来完成这项工作:枚举过滤器和生成过滤器。

枚举过滤器使用网络协议来定位资源。该过滤器会对每个资源进行测试,如果资源符合适当的条件,则枚举资源。例如,枚举过滤器可以从 HTML 文件中提取超文本链接,然后使用这些链接来查找附加的资源。

生成过滤器会对每个资源进行测试,确定是否应为其创建资源描述 (Resource Description, RD)。如果资源通过了测试,生成器便会为其创建 RD,该 RD 存储在搜索服务器数据库中。

以下各节说明管理 robot 所需的配置和维护任务:

Robot 的工作机理

图 19–1 展示 robot 如何检查 URL 及其相关的网络资源。枚举器和生成器对每个资源进行测试。如果资源通过了枚举器测试,则 robot 检查它以获取附加 URL。如果资源通过了生成器测试,robot 会为其生成资源描述,该资源描述存储在搜索服务器数据库中。

图 19–1 Robot 的工作机理

本图说明 robot 的工作机理。

Robot 配置文件

Robot 配置文件定义 robot 的行为。这些文件位于 /var/opt/SUNWportal/searchservers/searchserverid/config 目录。以下列表提供了每个 robot 配置文件的说明。

classification.conf

包含用于对 robot 生成的 RD 进行分类的规则。

filter.conf

定义 robot 使用的枚举和生成过滤器。

filterrules.conf

包含 robot 的站点定义、起点 URL、基于 mime 类型的过滤规则以及 URL 模式。

robot.conf

定义 robot 的大部分操作属性。

由于可以使用“搜索服务器管理”界面来设置大部分属性,因此通常不需要对 robot.conf 文件进行编辑。不过,高级用户可能需要手动编辑此文件,以设置那些无法通过界面来设置的属性。

定义站点

Robot 查找资源并决定是否将这些资源的描述添加到数据库中。决定要访问哪些服务器以及要为这些服务器的哪些部分创建索引的过程称为站点定义

为 robot 定义站点是服务器管理员最重要的工作之一。您需要确保将 robot 发送到所有其需要索引的服务器,但您也需要排除无关的站点,因为这些站点会填充数据库并使查找正确信息变得更加困难。

控制 Robot 搜寻

robot 提取并跟随指向各选定站点的链接以创建索引。作为系统管理员,您可以通过若干设置控制这些过程,包括:

有关 robot 搜寻属性的说明,参见《Sun Java System Portal Server 7.2 Technical Reference》

过滤 Robot 数据

过滤器能够识别资源,因此可以通过将资源的属性与过滤器定义进行比较来排除或包括该资源。robot 提供若干预定义的过滤器,其中一些默认为启用。以下过滤器是预定义的。标有星号的过滤器默认为启用。

您可以创建新的过滤器定义、修改过滤器定义或者启用或禁用过滤器。有关详细信息,参见资源过滤流程

使用 Robot 实用程序

Robot 包含两个调试工具或实用程序:

制定 Robot 进度表

为了保持搜索数据的及时性,robot 应定期搜索站点并创建站点索引。因为 robot 搜寻和创建索引可能消耗处理资源和网络带宽,应将 robot 安排在非使用高峰期运行。管理控制台允许管理员设置运行 robot 的进度表。