![]() | |
Sun Java System Portal Server 6 2005Q4 管理指南 |
第 13 章
管理搜索引擎服务本章介绍如何配置和管理 Sun Java System Portal Server 搜索引擎服务。
本章包含以下部分:
搜索引擎服务概述Portal Server 搜索引擎是一种分类法和数据库服务,旨在支持搜索和浏览与流行的 Internet 搜索引擎(如 Google、Alta Vista 等)类似的界面。搜索引擎包括一个 robot,用以发现、转换和汇总文档资源。该界面是由桌面使用 JSP 提供者专门提供的。搜索引擎包括用于编辑配置的管理工具和用于管理系统的命令行工具。可以通过 Sun Java System Access Manager 管理控制台,定义配置设置并将其存储为 Sun Java System Access Manager 服务属性值。
搜索数据库
搜索用户在数据库中搜索,以查找特殊资源或资源种类。数据库中的各个条目称为资源描述 (RD)。资源描述是关于单个资源的特定信息集。每个“资源描述”的字段由数据库模式决定。
要将 RD 输入数据库中,可以使用两种方法:
“Portal Server 搜索引擎”中的 RD 基于开放式 Internet 标准,如“摘要对象交换格式”(SOIF) 和资源描述消息 (RDM)。它确保了搜索引擎可以在跨平台企业环境中运行。
搜索 Robot
填写数据库的方法之一是使用 robot,“搜索引擎”使用 robot 对所属域中的资源进行查找并报告。robot 是一个小程序,它可以完成以下两个任务:
系统管理员应通过多种方法对这些进程的各个方面进行控制,包括以下方面:
搜索引擎还提供了实用程序,以确保 robot 完成所需任务。
数据库分类法类别
用户以两种方式与搜索系统进行交互:可以键入直接查询来搜索数据库,也可使用一组您设计的类别来浏览整个数据库内容。类别的分层结构有时也称为分类法。对资源进行分类如同为数据库创建一个目录一样。
在搜索系统中,浏览是一个可选功能。也就是说,一个非常有用的搜索系统可以不包括按类别浏览功能。您需要决定添加可浏览的类别是否对您的索引的用户有用,然后决定您要创建何种类别。
“搜索”数据库中的资源被分配给各个类别,以简化其复杂程度。如果数据库中存在大量项目,则最好将相关项目组合在一起。这样使用户能够快速找到特定类型的项目、对类似的项目进行比较,以及选择所需的项目。
这是在产品和服务索引中是常用的分类方法。服装目录可分为男装、女装和童装,每一类又可进一步分为外套、衬衫、鞋等等。办公产品目录可分为办公用家具、文具、计算机、软件。广告目录按照产品和服务的类别进行安排。
指南中索引的分类原则也适用于联机索引。这种方法使用户能够很容易地找到某类资源,从而可以选择所需的资源。无论您设计的索引的范围如何,在类别的设置中主要都应考虑可用性。也就是说,您需要了解用户如何使用这些类别。例如,如果您为某公司设计索引,而该公司有三个不同地点的办事处,则可将顶级类别与这三个办事处中的每一个相对应。但是假如用户对超越地理界限的职能部门更感兴趣,则按照公司部门对资源进行分类也许更有意义。
一旦定义了类别,就必须制定出将资源分配给各个类别的相应规则。这些规则被称为分类规则。如果没有正确定义分类规则,则用户不能通过在类别中浏览来找到资源。必须避免对资源进行错误的分类,但也不应该不对文档进行分类。
可以将这些文档分配给多个类别,最多可达到设置中定义的最大值。分类规则比过滤器规则简单,因为它们不涉及任何流程控制决策。在这些分类规则中,您必须决定使用什么样的标准将特定的类别分配给资源,作为其“资源描述”的一部分。分类规则是一个简单的条件语句,采用“如果 <某条件> 为真,则将资源分配给 <类别>”的格式。
配置搜索频道本部分介绍如何对搜索引擎服务进行初始配置。可以通过 Sun Java System Access Manager 管理控制台,定义配置设置并将其存储为 Sun Java System Access Manager 服务属性值。
“搜索”服务会在全局范围内进行添加,其配置适用于整个 Portal Server。默认情况下,在 Portal Server 安装期间指定的组织将会添加搜索服务。如果安装了样例门户,样例门户桌面上的“搜索”选项卡包含搜索频道。在 Portal Server 安装期间,会配置此项。但是,对于新组织和新实例,必须定义“搜索 URL”。
针对搜索提供者用户的默认行为是,当用户输入一条查询时,将显示“未找到匹配文档”。
这时,需要配置搜索服务器并创建文档数据库,以获得搜索结果。
初始配置搜索服务器
使用以下步骤配置搜索提供者。这是填写数据库的样例方法。也可以使用导入功能。
- 以管理员身份登录到 Sun Java System Access Manager 管理控制台。
默认情况下,位置窗格中的“身份管理”处于选中状态,导航窗格中会显示所有已创建的组织。
- 在位置窗格中选择“服务配置”。
- 在导航窗格中单击搜索旁的属性箭头。
- 创建一个新站点。
- 创建分类法。
可以使用“类别”下的“类别编辑器”,或者通过将样例分类法 SOIF 文件复制到 config/taxonomy.rdm 下,来创建一个分类法。
- 禁用所有不需要使用的默认过滤器。
单击 Robot,再单击“过滤器”。关闭“过滤器规则”列表中的所有不想使用的过滤器。
- (可选项)如果需要在类别下得到文档结果,则创建 robot 分类规则。
可使用“类别”下方的“分类规则编辑器”来创建 robot 分类规则。
- 启动 robot。
单击 Robot、“概述”,然后单击“启动”,启动 robot。
- 重建类别索引
单击“类别”,然后单击“重建索引”来重新创建索引。
定义搜索 URL
searchServer 属性定义搜索 URL。此项会自动为默认组织配置,但是,当创建了新组织、新 SearchProvider 实例,或者手动加载了样例 dp-org.xml 时,不会定义此值。如果用户在未定义此值时进行搜索,则用户的桌面上会显示以下错误消息:
您收到 com.sun.portal.search.providers.taglib.SearchTaglibException: SearchRequest 错误:未定义搜索服务器。
- 以管理员身份登录到 Sun Java System Access Manager 管理控制台。
默认情况下,位置窗格中的“身份管理”处于选中状态,导航窗格中会显示所有已创建的组织。
- 选择要定义搜索 URL 的组织。
- 在“查看”菜单中选择“服务”
使用导航窗格中的“显示”菜单和位置窗格中的“位置”路径。
- 在导航窗格中单击“桌面”旁的属性箭头。
桌面属性页出现在数据窗格中。
- 在桌面页中,单击“频道和容器管理”链接。
显示“频道”页面。容器路径位于顶部。已定义的频道出现在列表中。
- 单击要修改的“搜索”频道旁的“编辑属性”链接。
显示“属性”页面。
- 在“搜索服务器”属性中按以下格式指定搜索 URL:
http://portal_server_name:port/portal/search
- 单击“保存”。
- 要验证“搜索 URL”,请执行下列操作:
管理搜索引擎一旦已初始配置了“搜索引擎”并生成了数据库,便可从 Sun Java System Access Manager 管理控制台查看和管理“搜索引擎”。
查看、管理及监视搜索引擎操作
搜索引擎操作属性有两个级别:基本和高级。当从管理控制台中选择“搜索”服务后,默认情况下会显示基本设置页面。显示出的基本设置包括服务器根目录、临时文件的位置以及文档级安全。高级设置包括各种搜索引擎组件的日志位置和配置的日志级别。
此外,管理控制台允许管理员查看日志文件或从日志文件中提取的特定信息。
查看或管理基本设置
查看或管理高级设置
监视搜索引擎活动
“搜索引擎”提供了大量的报告,允许您监视搜索活动。
要查看各种报告:
管理 Robot以下是一些管理 robot 可能需要执行的配置和维护任务:
定义站点
Robot 查找资源并决定是否(及如何)将这些资源的描述添加到数据库中。决定要访问哪个服务器以及要为这些服务器的哪些部分创建索引的过程称为站点定义。
为搜索引擎定义站点是服务器管理员的最重要的工作之一。必须确保将 robot 发送给所有需要创建索引的服务器,但也需要排除那些能够填写数据库的无关站点,这些站点增加了查找正确信息的难度。
定义 Robot 要创建索引的站点
控制 Robot 搜寻
Robot 对所选要创建索引的各个站点进行提取并跟踪其链接。管理员可以控制 robot 搜索站点的方式,方法是定义搜寻操作参数。搜寻参数允许您定义速度、完成操作、日志记录级别、遵从的标准、验证参数、代理设置、要跟随的最大链接数以及其他设置。有关 robot 搜寻属性的说明,参见《Sun Java System Portal Server 6 2005Q4 Technical Reference Guide》。
控制 Robot 搜寻
- 以管理员身份登录到 Sun Java System Access Manager 管理控制台。
默认情况下,位置窗格中的“身份管理”处于选中状态,导航窗格中会显示所有已创建的组织。
- 在位置窗格中选择“服务配置”。
- 在导航窗格中单击搜索旁的属性箭头。
- 在菜单栏中单击 Robot,然后单击“搜寻”。
此操作会显示一个窗体,其中包含定义“Robot 搜寻”操作参数及其设置的属性。有关“Robot 搜寻”属性的信息,参见《Sun Java System Portal Server 6 2005Q4 Technical Reference Guide》。
- 根据需要修改“Robot 搜寻”属性。
- 单击“保存”。
过滤 Robot 数据
过滤器允许对照过滤器定义比较某个资源属性,以此方式确定某个资源,使之可以通过“站点”定义被排除或包括。Robot 提供许多预定义的过滤器,在默认情况下会启用其中的某些过滤器。下列过滤器是预定义的;默认情况下会启用带星号的文件:
要管理过滤流程,可以创建新过滤器定义、修改某个过滤器定义,或者启用或禁用过滤器。
创建新过滤器定义
- 以管理员身份登录到 Sun Java System Access Manager 管理控制台。
默认情况下,位置窗格中的“身份管理”处于选中状态,导航窗格中会显示所有已创建的组织。
- 在位置窗格中选择“服务配置”。
- 在导航窗格中单击搜索旁的属性箭头。
- 在菜单栏中,选择 Robot,然后选择“过滤器”。
- 单击“新建”,并为新过滤器指定一个“昵称”。
- “过滤器定义”中,选中复选框并指定“过滤源”、“过滤条件”和“过滤字符串”值。可根据需要指定“过滤器定义”的数量。
- 输入过滤器说明。
- 如果要在创建新站点时使用此过滤器,请选中“新站点”。
- 单击相应按钮,以指明是要包括还是要排除与此过滤器相匹配的资源。
- 单击“保存”。
修改现有过滤器定义
启用或禁用过滤器
定义索引属性
对于通过 robot 过滤器的每种资源,robot 均会生成一个放置在数据库中的 RD。设置 RD 的生成时所做的选择决定了用户搜索数据库时看到的内容。例如,可以选择为每个文档的全部文本创建索引,或者仅为文档开头的某些固定部分创建索引。
定义索引属性
使用 Robot 实用程序
Robot 包含两个调试工具或实用程序:
运行站点探测器实用程序
运行模拟器
制定 Robot 进度表
为确保及时搜索数据,robot 应定期搜索站点并为站点创建索引。因为 robot 搜寻和创建索引可能消耗处理资源和网络带宽,应将 robot 安排在非使用高峰期运行。管理控制台允许管理员设置一个 cron 作业,它带有运行 robot 的日期和时间。
制定 Robot 进度表
管理数据库“搜索引擎”将其资源描述存储在一个数据库中。以下是管理数据库时可能需要执行的一些配置和维护任务:
导入数据库
通常,“搜索”数据库中的项目来自 robot。告知 robot 要访问哪个站点,然后 robot 会查找并描述在此站点找到的所有资源。也可以从其他 Portal Server“搜索引擎”、iPlanet Web Server 或 Netscape Enterprise Server 或者由其他资源生成的数据库中导入现有项目数据库。导入现有数据库的 RD 而非发送 robot 来重新创建,这将有助于减少网络通信流量。这种做法还可将工作量分成多个较小的部分,从而能够更迅速地完成大量的索引创建工作。如果中央数据库距离要被索引的服务器很远,则最好在本地生成 RD,然后在中央数据库中定期导入各种远程数据库。
搜索引擎使用导入代理从其他服务器或数据库导入 RD。导入代理是一个进程,它从外部资源中检索若干 RD,并将这些信息合并到本地数据库中。其中包含一些参数,指示此代理导入 RD 的位置,到达此位置后的请求目标,以及调整作业处理方式的一些其他信息。
在导入数据库前,必须先创建导入代理。创建代理后,可以立即启动导入进程或者安排运行导入进程的时间。
创建导入代理
编辑现有的导入代理
编辑资源描述
有时,您会发现必须更改一个或多个“资源描述”的内容。例如,可能需要对从原始文档复制到“资源描述”中的排版错误进行更正。
编辑资源描述
- 以管理员身份登录到 Sun Java System Access Manager 管理控制台。
默认情况下,位置窗格中的“身份管理”处于选中状态,导航窗格中会显示所有已创建的组织。
- 在位置窗格中选择“服务配置”。
- 在导航窗格中单击搜索旁的属性箭头。
- 在菜单栏中,选择“数据库”,然后选择“资源描述”。
- 选择要搜索进行编辑的“资源描述”的类型。
可使用以下类型:所有 RD、未分类的 RD、分类的 RD、按类别划分的 RD、按 URL 指定的 RD、包含的 RD。
- 对于包含的“资源描述”,在“资源描述”中指定要搜索的文本串。
- 单击搜索。
- 从查找到的“资源描述”列表中,选择要编辑的“资源描述”。
- 编辑相应的“资源描述”属性。
- 单击“保存”。
编辑数据库模式
模式决定“搜索引擎”保持每一资源的何种信息以及保持信息的形式。模式的设计决定影响索引可用性的两个因素:
对于数据库中的“资源描述”,这种模式是一种主数据结构。根据使用这种数据结构定义字段和为字段创建索引的方式,用户将具有不同的资源访问级别。
这种模式与搜索引擎及其 robot 所用的文件结构密切相关。应只使用管理控制台中的模式工具更改此数据结构。始终不能直接编辑模式文件。
您可以编辑搜索引擎的数据库模式,来添加新模式属性、编辑模式属性或删除这些属性。
此模式包括下列属性:
- 可编辑 — 如果选中此项,表示属性会出现在“资源描述编辑器”中,使您能更改它的值。“资源描述编辑器”在编辑资源描述中进行说明。
- 可建索引 — 此属性表示相应字段会出现在“高级搜索”屏幕的弹出式菜单中。它允许用户搜索此特定字段中的值。
- 描述 — 这是一个用来描述模式的文本串。可以将其用于注释或评注。
- 别名 — 此属性允许您定义别名,用以将已导入的数据库模式名称转换成您自己的模式。
编辑数据库模式
定义模式别名
您可能会发现数据库模式中使用的字段名称之间存在差异。当您将“资源描述”从一个服务器导入另一个服务器时,您无法始终保证这两个服务器对各自模式中的项目使用相同的名称。同样,当 robot 将某个文档中的 HTML <meta> 标记转换成模式字段时,该文档对这些名称进行控制。
搜索引擎允许您为模式属性定义模式别名,以便将这些外部模式名映射到数据库中的有效字段名。
定义模式别名
查看数据库分析
“搜索引擎”会提供报告,报告包含有关已创建索引的站点数量以及来自数据库中每个站点的资源数量的信息。
查看数据库分析信息
重建数据库索引
如果您已经编辑了模式来添加或删除已建立索引的字段或硬盘错误破坏了索引文件,可能需要为“搜索引擎”重新建立“资源描述”数据库索引。在添加了大量新的“资源描述”后,最好也要重建索引。
重建数据库索引可能需要几个小时。
重建数据库索引所需的时间与数据库中的记录数有关。如果是大型数据库,应在服务器处于非需求高峰时重建索引。
重建数据库索引
终止数据库
终止数据库会删除被认为到期的“资源描述”。仅当运行终止程序时,“资源描述”才到期。到期的“资源描述”将被删除,但数据库大小不会减少。
终止数据库
清除数据库
“资源描述”的属性之一是其到期日期。Robot 可以通过 HTML <meta> 标记或通过资源服务器提供的信息来设置到期日期。除非资源指定了不同的到期日期,否则“资源描述”的到期日期默认为自创建之日起三个月后。搜索引擎会从其数据库中定期清除到期的“资源描述”。
清除操作允许您删除数据库的内容。索引使用的磁盘空间将被恢复,但主数据库使用的磁盘空间不会被恢复。而是在将新数据添加到数据库中时重新使用。
清除服务器中到期的资源描述
将数据库分区
搜索引擎允许您将包含搜索数据库的物理文件划分到多个磁盘、文件系统、目录或分区中。通过将数据库分布到不同的物理或逻辑设备上,就可以创建一个比能在单个设备上创建的数据库更大的数据库。
默认情况下,搜索引擎将数据库设置为仅使用一个目录。命令行界面允许您对数据库分区执行两种操作:
搜索引擎不执行任何检查操作来确保单个分区有剩余空间。而是由您负责为数据库保持足够的可用空间。
添加新数据库分区的最大总数为 15 个。
要更改任意数据库分区的物理位置,可指定新位置的名称。同样,可以重新命名现有分区。使用 rdmgr 命令来处理分区。有关 rdmgr 命令的信息,参见《Sun Java System Portal Server 6 2005Q4 Technical Reference Guide》。
管理数据库分类法以下是管理数据库分类法可能需要执行的一些配置和维护任务:
配置类别
使用 Sun Java System Access Manager 管理控制台,可以执行以下过程来配置数据库分类法:
创建子类别
更新类别
删除类别
定义分类规则
分类规则是简单的条件语句。其形式为“如果 <某条件> 为真,则将资源分配给 <类别>”。
定义分类规则
- 以管理员身份登录到 Sun Java System Access Manager 管理控制台。
默认情况下,位置窗格中的“身份管理”处于选中状态,导航窗格中会显示所有已创建的组织。
- 在位置窗格中选择“服务配置”。
- 在导航窗格中单击搜索旁的属性箭头。
- 在菜单栏中选择“类别”,然后选择“分类规则编辑器”。
- 如果要创建新规则,请单击“新建”。
- 如果要编辑现有规则,请选择此规则。
- 在下拉菜单中,单击要用来将资源分类的元素类型或属性。
- 单击下拉菜单中的“比较测试”。
可用的对照测试有:是、包含、起始字符、结束字符或正则表达式。
- 定义要比较的文本字符串。
- 如果比较结果为真,则单击要在其中对资源分类的类别。
- 单击“保存”。