Sun Java System Portal Server 7.1 管理指南

第 11 章 管理搜索服务器

本章说明如何配置和管理 Sun JavaTM System Portal Server 搜索服务器。

本章包含以下部分:

了解搜索服务器

Portal Server 搜索服务器是一种分类法和数据库服务,设计用于支持类似流行的 Internet 搜索服务器(例如 Google 和 Alta Vista)的搜索和浏览界面。搜索服务器包括一个 robot,用以搜索、转换和汇总文档资源。Portal Server 桌面包含一个基于 JavaServer PagesTM (JSPTM) 的搜索用户界面。搜索服务器包括用于配置编辑的管理工具和用于系统管理的命令行工具。可通过 Portal Server 管理控制台定义和存储配置设置。


注 –

管理控制台允许管理员配置大多数的搜索服务器选项,但它不会执行所有通过命令行界面执行的管理功能。


搜索数据库

用户查询搜索服务器的数据库以查找资源。每个数据库中的各个条目称为资源描述 (Resource Description, RD)。资源描述提供关于单个资源的摘要信息。每个资源描述的字段由数据库模式决定。

搜索服务器基于开放的 Internet 标准(例如,资源描述消息 (Resource Description Messages, RDM) 和摘要对象交换格式 (Summary Object Interchange Format, SOIF))以确保搜索服务器可以在跨平台的企业环境中运作。

数据库分类法类别

用户以两种方式与搜索系统进行交互。可以键入直接查询来搜索数据库,也可使用一组您设计的类别来浏览整个数据库内容。类别的层次结构有时也称为分类法。对资源进行分类如同为数据库创建一个目录一样。

在搜索系统中,浏览是一个可选功能。也就是说,一个非常有用的搜索系统可以不包括按类别浏览功能。您需要决定添加用户可浏览的类别是否对索引的用户有用;如果有用,需要决定您要创建何种类别。

“搜索”数据库中的资源被指定给各个类别,以简化其复杂程度。如果数据库中有大量的项目,将相关的项目分组集合非常有帮助。这样做使用户能够快速找到特定类型的项目、对类似的项目进行比较从而选择所需的项目。

这种分类方法在产品和服务索引中较为常用。服装目录可分为男装、女装和童装,每一类又可进一步分为外套、衬衫、鞋以及其他项。办公产品目录可分为办公用家具、文具、计算机、软件。广告目录按照产品和服务的类别进行编排。

指南中索引的分类原则也适用于联机索引。这种方法使用户能够很容易地找到某类资源,从而可以选择所需的资源。无论您设计的索引的范围如何,在类别的设置中主要都应考虑可用性。您需要了解用户如何使用这些类别。例如,如果您为某公司设计索引,而该公司有三个位于不同地点的办事处,则可将顶级类别与这三个办事处中的每一个相对应。如果用户对超越地理界限的职能部门更感兴趣,则按照公司部门对资源进行分类也许更有意义。

一旦定义了类别,就必须制定出将资源分配给各个类别的相应规则。这些规则称为分类规则。如果没有正确定义分类规则,则用户不能通过在类别中浏览来找到资源。必须避免对资源进行错误的分类,但也不应该不对文档进行分类。

管理搜索服务器

Sun Java System Portal Server 可支持一个或多个搜索服务器。

Procedure创建搜索服务器

在 Portal Server 的安装过程中,会创建一个默认的搜索服务器 (search1)。也可以使用“创建搜索服务器”向导创建一个新的搜索服务器。

开始之前

需要了解特定于所用的 Web 容器实例的配置信息:

  1. 登录到 Portal Server 管理控制台

  2. 从菜单栏选择“搜索服务器”,然后单击“新建”。

    将显示“新建搜索服务器”向导。

  3. 按照说明执行操作,然后单击“完成”以创建指定的搜索服务器。

等同的 psadmin 命令

psadmin create-search-server

Procedure删除搜索服务器

  1. 登录到 Portal Server 管理控制台

  2. 从菜单栏选择“搜索服务器”。

  3. 选择一个搜索服务器,然后单击“删除”。

等同的 psadmin 命令

psadmin delete-search-server

数据库概述

搜索服务器在数据库中存储资源的描述。搜索数据库是一个文档集合索引。由索引器(rdmgr 命令或搜索服务器本身)创建。例如,默认情况下,robot 可以设置为搜索 Web 站点,并将其找到的内容在“默认”搜索数据库(用户可在其中搜索数据)中建立索引。数据和索引也可存储到其他数据库。

以下是管理数据库时可能需要执行的一些配置和维护任务:

导入数据库

通常情况下,搜索数据库中的项目来自 robot。也可以从其他 Portal Server 搜索服务器、iPlanet Web Server 或 NetscapeTM Enterprise Server 或者由其他源生成的数据库导入现有项目数据库。导入现有数据库的 RD 而非发送 robot 来重新创建,这将有助于减少网络通信流量。这种做法还可将工作量分成多个较小的部分,从而能够更迅速地完成大量的索引创建工作。如果中央数据库与建立索引的服务器物理距离较远,那么在本地生成 RD 并定期将远程数据库导入中央数据库是很有帮助的。

搜索服务器使用导入代理从其他服务器或从数据库导入 RD。导入代理是一个进程,它从外部源中检索若干 RD,并将这些信息合并到本地数据库中。

在导入数据库前,必须先创建导入代理。创建代理后,可以立即启动导入进程或者安排定期运行导入进程的时间。

编辑数据库模式

模式决定搜索服务器保持每一资源的何种信息以及保持信息的形式。模式的设计决定影响索引可用性的两个因素:

对于数据库中的“资源描述”,这种模式是一种主数据结构。根据使用这种数据结构定义字段和为字段创建索引的方式,用户将具有不同的资源访问级别。

模式与搜索服务器及其 robot 使用的文件的结构紧密联系。应只使用管理控制台中的模式工具更改此数据结构。一定不要直接编辑模式文件。

您可以编辑搜索服务器的数据库模式,来添加新模式属性、修改模式属性或删除这些属性。

此模式包括下列属性:

定义模式别名

您可能会发现数据库模式中使用的字段名称之间存在差异。当您将“资源描述”从一个服务器导入另一个服务器时,您无法始终保证这两个服务器对各自模式中的项目使用相同的名称。同样,当 robot 将某个文档中的 HTML <meta> 标记转换成模式字段时,该文档对这些名称进行控制。

搜索服务器允许您为模式属性定义模式别名,以便将这些外部模式名映射到数据库中的有效字段名。

查看数据库分析

搜索服务器会提供报告,报告包含有关已建立索引的站点数量以及数据库中每个站点的资源数量的信息。

重建数据库索引

如果您已经编辑了模式来添加或删除已建立索引的字段,或由于磁盘错误破坏了索引文件,则可能需要为搜索服务器重新建立“资源描述”数据库索引。如果由于任何其他原因导致数据库内容及其索引之间出现不一致,也可能需要重建索引。例如,在建立索引时发生系统故障。

重建大型数据库的索引可能需要几个小时。重建数据库索引所需的时间与数据库中的记录数有关。如果是大型数据库,应在服务器处于非需求高峰时重建索引。

终止数据库

删除过时的“资源描述”即为终止数据库。当运行到期程序时,才删除“资源描述”。到期的“资源描述”将被删除,但数据库大小不会减少。

“资源描述”的属性之一是到期日期。Robot 可以通过 HTML <meta> 标记或通过资源服务器提供的信息来设置到期日期。除非资源指定了不同的到期日期,否则“资源描述”的到期日期默认为自创建之日起三个月后。搜索服务器应从数据库中定期清除到期的“资源描述”。

清除数据库

清除操作允许您删除数据库的内容。索引使用的磁盘空间将被恢复,但主数据库使用的磁盘空间不会被恢复。而是在将新数据添加到数据库中时重新使用。

将数据库分区

搜索服务器允许您将组成每个搜索数据库的物理文件放到多个磁盘、文件系统、目录或分区中。通过将数据库分布到不同的物理或逻辑设备上,就可以创建一个比能在单个设备上创建的数据库更大的数据库。

默认情况下,搜索服务器将数据库设置为仅使用一个目录。命令行界面允许您对数据库分区执行两种操作:

搜索服务器不执行任何检查操作来确保单个分区有剩余空间。而是由您负责为数据库保持足够的可用空间。

添加新数据库分区的最大总数为 15 个。


注 –

增加分区数后,如果以后想减少此数目,则必须删除整个数据库。

不过,只要您有足够的磁盘空间,我们就不推荐使用分区。


要更改任意数据库分区的物理位置,可指定新位置的名称。同样,可以重新命名现有分区。使用 rdmgr 命令来处理分区。有关 psadmin 命令的信息,参见《Sun Java System Portal Server 7.1 Command Line Reference》

管理数据库

使用以下说明来管理数据库:

Procedure创建数据库

  1. 登录到 Portal Server 管理控制台

  2. 选择“搜索服务器”选项卡,然后选择一个搜索服务器。

  3. 从菜单栏单击“数据库”,然后单击“管理”。

  4. 单击“新建”。

    将显示“新建数据库”页面。

  5. 键入新数据库的名称,然后单击“确定”。

等同的 psadmin 命令

psadmin create-search-database

Procedure创建导入代理

  1. 登录到 Portal Server 管理控制台

  2. 选择“搜索服务器”选项卡,然后选择一个搜索服务器。

  3. 从菜单栏单击“数据库”,然后单击“导入代理”。

  4. 单击“新建”以启动向导。

  5. 指定“导入代理”属性。

    有关这些属性的更多信息,参见《Sun Java System Portal Server 7.1 Technical Reference》中的 "Import Agents"

  6. 单击“完成”。

等同的 psadmin 命令

psadmin create-search-importagent

Procedure创建资源描述

  1. 登录到 Portal Server 管理控制台

  2. 选择“搜索服务器”选项卡,然后选择一个搜索服务器。

  3. 从菜单栏单击“数据库”,然后单击“管理”。

  4. 选择一个数据库,然后单击“管理资源描述”。

  5. 单击“新建”并指定属性。

    有关这些属性的更多信息,参见《Sun Java System Portal Server 7.1 Technical Reference》中的 "Schema"

  6. 单击“确定”。

Procedure管理资源描述

  1. 登录到 Portal Server 管理控制台

  2. 选择“搜索服务器”选项卡,然后选择一个搜索服务器。

  3. 从菜单栏单击“数据库”,然后单击“管理”。

  4. 选择一个数据库,然后单击“管理资源描述”。

  5. 选择一个“资源描述”,执行以下操作之一:

    • 编辑

    • 编辑全部

    • 删除

    有关这些属性的更多信息,参见《Sun Java System Portal Server 7.1 Technical Reference》中的 "Schema"

  6. 单击“保存”。

等同的 psadmin 命令

psadmin modify-search-resourcedescription

管理报告

搜索服务器提供了大量的报告,可用来监视搜索活动。

Procedure查看报告

  1. 登录到 Portal Server 管理控制台

  2. 选择“搜索服务器”选项卡,然后选择一个搜索服务器。

  3. 从菜单栏单击“报告”。

  4. 单击菜单栏中的某个链接,以查看某个特定报告。

    可用的选项如下:

    • 日志

    • 高级 Robot 报告

    • 流行的搜索

    • 已排除的 URL

管理类别

可执行以下任务来管理类别:

Procedure创建类别

  1. 登录到 Portal Server 管理控制台

  2. 从选项卡选择“搜索服务器”,然后从中选择一个搜索服务器。

  3. 从菜单栏选择“类别”,然后选择“浏览/搜索”。

  4. 单击“新建”。

    出现“新建搜索类别”对话框。

  5. 根据需要指定属性。

    有关这些属性的更多信息,参见《Sun Java System Portal Server 7.1 Technical Reference》中的 "Manage Categories"

  6. 单击“确定”。

Procedure编辑类别

  1. 登录到 Portal Server 管理控制台

  2. 选择“搜索服务器”选项卡,然后选择一个搜索服务器。

  3. 从菜单栏单击“类别”,然后单击“浏览/搜索”。

  4. 选择一个类别并单击“编辑”以显示“编辑类别”页面。

    有关这些属性的更多信息,参见《Sun Java System Portal Server 7.1 Technical Reference》中的 "Manage Categories"

Procedure运行自动分类

  1. 登录到 Portal Server 管理控制台

  2. 选择“搜索服务器”选项卡,然后选择一个搜索服务器。

  3. 从菜单栏单击“类别”,然后单击“Autoclassify”。

  4. 单击“运行自动分类”。

Procedure编辑自动分类属性

  1. 登录到 Portal Server 管理控制台

  2. 单击“搜索服务器”选项卡,然后选择一个搜索服务器。

  3. 从菜单栏单击“类别”,然后单击“Autoclassify”。

  4. 根据需要修改属性。

    有关这些属性的更多信息,参见《Sun Java System Portal Server 7.1 Technical Reference》

  5. 单击“保存”。