附录 F
搜索属性
本附录对一些属性进行描述,它们是可以通过 Sun ONE Identity Server 管理控制台为搜索引擎配置的一些属性。
在“服务管理视图”中选择“搜索属性”时,会显示一个双色标签式菜单栏。本附录的结构是按照菜单栏上部的主题或标签来组织的。
其中一个标签被选中时,下方的菜单栏便会列出与该主题相关的子主题。默认搜索页会选择“服务器/设置”。每个子主题会使用一个或多个表来解释该子主题的属性。这些表分为以下三列:“属性”、“默认值”和“说明”。“属性”给出页中的描述性文本;“默认值”给出“属性”的默认值;“说明”对“属性”及其格式予以说明。
每个“搜索属性”页都会显示“选择服务器”属性,表 F-1 中有对该属性的说明。
表 F-1 搜索选择服务器属性
属性
|
默认值
|
说明
|
选择服务器
|
http://servername:80/portal
|
搜索服务器的全限定服务器名。
|
服务器
“服务器”部分用于配置服务器的首选项。可选择存放临时文件的目录、要记录的信息类型及记录的详细程度。“服务器”属性显示在以下两页上:
设置
此页包含用于搜索服务器的管理和操作的基本设置。
表 F-2 服务器设置属性
属性
|
默认值
|
说明
|
服务器根
|
/var/opt/SUNWps/https-servernamefull/portal
|
存放配置文件、日志文件、数据库文件和 robot 信息文件。它也是执行搜索时生成和更新的所有搜索文件的根目录。该属性不可配置。
|
临时文件
|
/var/opt/SUNWps/https-servernamefull/portal/tmp
|
包含搜索期间用于对搜索进行管理的所有临时文件。它包括刚生成、尚未添加到主数据库中的资源描述。这些临时文件在搜索完成后会被删除。
|
文档级安全
|
关
|
控制哪些人可以访问文档。
更改此设置后,必须重新启动服务器。
值:
- 关(默认值)表示所有用户均可访问 RD。
- 开表示系统会检查 RD 中的 ReadACL 字段,通过验证请求访问 RD 的用户本人或其所属的组织或角色是否具有正当权限,来确定该用户是否具有访问权限。ReadACL 字段在“数据库/资源描述符”页中设置。
|
Robot
此页包含搜索服务器管理和操作的高级设置。它用于针对用户查询、索引维护、资源描述管理及调试而对日志文件进行配置。
表 F-3 服务器高级设置属性
属性
|
默认值
|
说明
|
搜索 (rdm)
|
/var/opt/SUNWps/https-servername/portal/logs/rdm.log
|
记录最终用户对数据库的查询。可以选中“禁用搜索日志”复选框来禁止此记录功能。
如果选中该复选框,便无法查看“用户查询”(rdm) 报告。
|
禁用搜索日志
|
False(未选中)- 启用
|
控制是否使用查询日志。
可以在报告部分生成一个报告,以此日志为依据列出最常用的查询。
值:
- 选中 - 禁用
- 未选中 - 启用。每个用户查询都记录到此日志中。
|
索引维护
|
/var/opt/SUNWps/https-servername/portal/logs/searchengine.log
|
记录与搜索引擎有关的事务,资源描述的注册信息不再记录之列。
|
RD 管理器
|
/var/opt/SUNWps/https-servername/portal/logs/rdmgr.log
|
记录来自 robot 的资源描述的注册信息,或将代理导入到数据库中。可以将此日志按“RD 管理器”(rdmgr) 报告来查看。
|
RDM 服务器
|
/var/opt/SUNWps/https-servername/portal/logs/rdmserver.log
|
记录 RDM 事务的相关调试信息。详细程度由“日志级别”控制。可以将此日志按“RDM 服务器”(rdmsvr) 报告来查看。
|
日志级别
|
1
|
控制“RDM 服务器”日志文件所含信息的详细程度。
例如,2、10、20、50、100 和 999 便是一些有效的级别。
如果设置为 1(默认值),则只记录严重错误。数字越大,“RDM 服务器”日志文件所含信息便越详细。
|
Robot
Robot 的属性相当复杂。有的属性用于选择待搜索或搜寻的站点;有的用于检查站点的有效性;有的用于定义提取文档的类型;还有的用于制定搜索时间表。
本部分按以下主题来组织:
概述
通过“Robot 概述”面板可以查看 robot 正在执行的操作:其状态是“关”、“空闲”、“运行”还是“已暂停”;如果是“运行”,搜索进度如何(面板每隔大约 30 秒钟会刷新一次)。刷新率通过 search.conf 文件中的 robot-refresh 参数来定义。
右上方的两个按钮与其状态对应。如果 robot 的状态是“关”,则两个按钮为“启动”和“删除”。如果状态是“运行”或“空闲”,则两个按钮为“停止”和“暂停”。如果状态是“已暂停”,则两个按钮为“停止”和“恢复”。选择其中任一“属性”都会转到“报告”部分,在那里可以获得该“属性”的最新详细报告。
表 F-4 Robot 概述属性
属性
|
默认值
|
说明
|
Robot 是
|
目前活动
|
Robot 的状态。值可以为 空闲、运行、已暂停或关
|
更新日期
|
上次刷新的日期和时间。
|
系统会刷新此页,使您了解 robot 的工作进度。
|
启动点
|
定义的数量
|
选中要进行搜索的站点的数量。可在“Robot/站点”页中禁用(从搜索中排除)站点。
|
URL 池
|
等待中的 URL 数量
|
待调查的 URL 数量。开始搜索时,启动点 URL 会被输入到 URL 池中。搜索进行时,robot 会发现到其它 URL 的链接。Robot 会将这些 URL 也添加到池中。处理完池中的所有 URL 后,URL 池会变空,robot 便进入空闲状态。
|
正在提取
|
连接数/秒
|
一秒内查看的资源数量。
提取是指发现或查找将被包括到数据库中的资源、文档或超级链接及过滤掉不需要项的过程。
|
正在过滤
|
拒绝的 URL 数量
|
被排除的 URL 总数。
|
索引
|
URL 数/秒
|
一秒内转换为资源描述的资源或文档的数量。
索引是指这样一个阶段:在这个阶段中,将所收集的所有文档信息转变为资源描述,然后存放在搜索数据库中。
|
已排除的 URL
|
按过滤器排除的 URL 数量
|
未达到过滤标准的 URL 数量。
|
|
按错误排除的 URL 数量
|
Robot 因未找到文件而出错的 URL 数量。
|
资源描述
|
已运行的 RD 数量
|
添加到数据库中的资源描述的数量。
|
|
已运行的 RD 字节数
|
添加到数据库中的字节数。
|
一般状态
|
检索到的 URL 数量
|
运行期间检索到的 URL 数量。
|
|
RD 平均字节数
|
每个资源描述的平均字节数。
|
|
运行时间(以天、小时、分钟和秒表示)
|
Robot 已运行的时间。
|
站点
本部分的初始页显示可进行搜索的站点。
使用单选按钮可以启用(开)和禁用(关)站点。Robot 运行时不会搜索禁用的站点。“编辑”链接会显示一页,可在其中更改对搜索站点的定义。
要删除站点,请选中复选框,然后选择“删除”。
要添加新站点,请选择“新建”。在文本框中添加 URL 或“域”,然后选择搜索深度。选择“创建”来使用默认值。否则,请选择“创建”和“编辑”来选择非默认值,然后转到“编辑”页来定义搜索站点。
表 F-5 Robot 管理站点属性
属性
|
默认值
|
说明
|
锁或群集图
|
站点状态
|
锁打开表示 URL 可以访问。锁闭合表示该站点是一台加密Web 服务器,使用 SSL。群集表示该站点是一个域。
|
开/关
|
开
|
选择是否在 robot 运行时搜索此站点。
|
“新站点”页用于设置整个站点以进行索引。
表 F-6 Robot 新站点属性
属性
|
默认值
|
说明
|
新站点
|
URL
|
URL - 格式: http://www.sesta.com
域 - 格式: *.sesta.com
|
深度
|
10
|
如果只到此 URL 这一层,请使用 1;如果到 URL 及下一层链接,请使用 2;对于 robot,请选择 100;3 - 10 或不限。默认值在“Robot/搜寻”页中设置。
|
可在编辑页中更详细地定义搜索站点。可以指定服务器的类型,重新定义搜索深度,还可选择要添加到搜索数据库中的文件类型。URL 和“域”站点的属性大部分相同。表中的附加列显示了哪些是共享属性,哪些是唯一属性。
可在此页中执行许多操作。可以验证所输入的搜索站点的服务器名。在“服务器组”部分中选择“添加”,可以向服务器组中添加更多的服务器。在“启动点”部分中选择“添加”,可以添加更多的启动点。在“过滤器定义”部分,可以添加或删除、排除或包含某些文件类型,还可以更改对这些文件应用过滤器的顺序。
表 F-7 Robot 站点编辑属性
属性
|
URL/域
|
默认值
|
说明
|
站点昵称
|
URL/D
|
输入的站点 - www.sesta.com
|
在初始页中显示的名称。默认值为输入的 URL 或域。可在此处更改该名称。
|
复选框,用于选择要删除或验证的站点
|
URL/D
|
未选中
|
未选中 - 未选定
选中 - 选定
|
服务器组 - 名称
|
URL
|
URL - www.sesta.com
|
是单个服务器或单个服务器的一部分。输入内容必须包括完整主机名。如果只指定主机名,便是将站点定义为该主机。如果除提供主机名外还提供了目录信息,便是将站点定义为该目录及其所有子目录。
|
域后缀
|
D
|
输入的域 - *.sesta.com
|
包括域内的所有服务器,如 *.sesta.com。
|
端口
|
URL/D
|
80 代表 URL;空白代表“域”
|
如果搜索的站点使用另一端口,请在此输入。
|
类型
|
URL
|
Web 服务器
|
Web 服务器、文件服务器、FTP 服务器、安全Web 服务器
|
允许的协议
|
D
|
选中所有复选框
|
http、file、ftp、https 复选框
|
启动点 - 复选框,用于选择要删除的站点
|
URL/D
|
未选中
|
未选中 - 未选定
选中 - 选定
|
启动点 - URL
|
URL/D
|
http:// URL:80
|
URL 或域
|
启动点 深度
|
URL/D
|
10
|
1 - 仅限此 URL
2 - 此 URL 和下一层链接
3-10
未限定
|
过滤器定义 - 复选框,用于选择要删除的文件类型
|
URL/D
|
未选中
|
未选中 - 未选定
选中 - 选定
|
过滤器定义
|
URL/D
|
在此顺序中,默认值为归档文件、音频文件、备份文件、二进制文件、CGI 文件、映像文件、Java、Javascript、样式表文件、日志文件、修订控制文件、源代码文件、临时文件、视频文件。
|
有效选择为归档文件、音频文件、备份文件、二进制文件、CGI 文件、映像文件、Java、Javascript、样式表文件、日志文件、Power Point 文件、修订控制文件、源代码文件、临时文件、视频文件、电子表格文件、插件文件、Lotus Domino 文档、Lotus Domino OpenViews、系统目录 (UNIX)、系统目录 (NT)。
|
注释
|
URL/D
|
空白
|
描述站点的文本字段。Robot 不使用它。
|
DNS 转换
|
URL
|
空白
|
DNS 转换通过用 cname 替换域名或别名来修改 URL 及搜寻 URL 的方式。格式: alias1->cname1, alias2->cname1
|
过滤器
本部分的初始页显示所有已定义的过滤器规则及使用它们的站点定义。每个过滤器名称后都有一个复选框,用于选择相应的文档类型;还有两个单选按钮,用于打开和关闭“过滤器规则”。如果选中复选框,过滤器便被选定并且可以删除。选择“新建”可以添加新的过滤器。新过滤器页是一个精简的“编辑”页,只需要“昵称”和一条规则。另一个方法是选择“编辑”链接,系统会转到一页,可以在该页中定义该文件类型的规则或过滤器的操作。每条规则都由“过滤源”下拉列表、“过滤条件”下拉列表和一个用于输入过滤字符串具体信息的文本框组成。
表 F-8 Robot 过滤器编辑属性
属性
|
默认值
|
说明
|
过滤器名
|
如果是新名称,则为“提示”。选择进行编辑的文件类型的文件名。
|
反映过滤器应用到的文件类型的描述性名称。
|
“过滤源”下拉列表
|
如果是新过滤器,则为 URL。显示先前为该特定文件类型选择的信息。
|
URL、协议、主机、路径、MIME 类型
|
位置下拉列表
|
如果是新过滤器,则为是。显示先前为该特定文件类型选择的信息。例如,结束字符是 exe 的二进制文件。
|
是、包含、起始字符、结束字符、正则表达式
|
用来输入类型(目录、协议、文件扩展名)具体信息的文本框
|
如果是新过滤器,则为空白。显示先前为该特定文件类型输入的信息。例如,包含 /tmp/ 的“临时文件”。
|
在此文本框中列出想匹配的内容。本例中想匹配的内容 - http://docs.sesta.com/manual.html
协议为 http;主机包含 sesta;文件结束字符为 html。
|
说明
|
如果是新描述,则为“提示”。显示先前为该特定文件类型输入的描述。
|
用自己的语言描述过滤器规则。Robot 不使用它。
|
新站点
|
如果是新过滤器,则为 True(选中)。显示先前为该特定文件类型选择的值。
|
创建新站点时,请使用它作为其中一个默认过滤器。如果未选中,还可以通过在“Robot/站点”页上编辑站点来将此过滤器添加到新站点中。
|
默认情况下
|
如果是新过滤器,则不会选择任何内容。先前为已定义的文件类型选择的默认值。
|
排除与此过滤器匹配的文档。
包括与此过滤器匹配的文档。
为新过滤器进行的选择不会影响现有站点定义。要对现有站点使用新过滤器,就必须通过在“Robot/站点”页上编辑站点来添加它。
|
部署
|
列出使用此过滤器的站点。
|
|
搜寻
本页中的设置控制 robot 的操作参数和默认值。这些设置分为以下部分:“速度”、“完成操作”、“日志文件设置”、“符合的标准”、“验证参数”、“代理高级设置”和“链接提取”。
表 F-9 Robot 搜寻属性
属性
|
默认值
|
说明
|
服务器延时
|
无延时
|
无延时(默认)、1 秒、2 秒、5 秒、10 秒、30 秒、1 分钟、5 分钟。
|
最多连接 最多并发检索 URL
|
8
|
1、2、4、8(默认值)、10、12、16、20。
|
每个站点最多连接
|
2
|
(无限制)、1、2、4、8、10、12、16、20。
|
将 RD 发送到索引的频率
|
30 分钟
|
3 分钟、5 分钟、10 分钟、15 分钟、30 分钟(默认值)、1 小时、2 小时、4 小时、8 小时。
|
要启动的脚本
|
无(默认)
|
无(默认)。要查看示例文件,请参阅 /opt/SUNWps/samples/robot 目录中的 cmdHook 文件(对于默认安装)。
|
处理所有 URL 后
|
进入空闲状态(默认)
|
进入空闲状态(默认)、关机、启动结束。
|
联系人电子邮件
|
user@domain
|
输入自己的电子邮件地址。
|
日志级别
|
1 - 生成
|
0 仅限错误;1 生成(默认);2 枚举、转换;3 过滤;4 派生;5 检索
|
用户代理
|
SunONERobot/6.0
|
搜索服务器的版本。
|
忽略 robots.txt 协议
|
False(未选中)
|
某些服务器有一个 robot.txt 文件,它会请 robot 不要访问它。如果搜索 robot 在站点上遇到该文件,且 robot 的这个属性设置为 false,便不会搜索该站点。如果 robot 的这个属性设置为 true,便会忽略该文件而搜索该站点。
|
执行验证
|
是
|
是
否
|
Robot 用户名
|
匿名
|
Robot 使用匿名的用户名访问站点。
|
口令
|
user@domain
|
允许匿名用户的站点往往要求将电子邮件地址作为口令。此地址为纯文本格式。
|
代理用户名
|
匿名
|
Robot 使用匿名的用户名访问站点。
|
口令
|
user@domain
|
允许匿名用户的站点往往要求将电子邮件地址作为口令。此地址为纯文本格式。
|
代理连接类型
|
直接 Internet 连接
|
直接 Internet 连接、代理 - 自动配置、代理 - 手动配置
|
自动代理配置类型
|
本地代理文件
|
本地代理文件、远程代理文件
|
自动代理配置位置
|
空白
|
自动代理有一个文件,其中列出了所需的所有代理信息。
本地代理文件的示例为 robot.pac。远程代理文件的示例为 http://proxy.sesta.com:8080/proxy.pac
|
手动配置 HTTP 代理
|
空白
|
格式:server1.sesta.com:8080,这三个手动配置值被置于 /var/opt/SUNWps/https-servername/portal/config 目录的 robot.pac 文件中。
|
手动配置 HTTPS 代理
|
空白
|
此手动配置值被置于 robot.pac 文件中。
格式:server1.sesta.com:8080
|
手动配置 FTP 代理
|
空白
|
此手动配置值被置于 robot.pac 文件中。
格式:server1.sesta.com:8080
|
遵循 HTML 中的链接
|
True(选中)
|
从 HTML 提取超级链接
|
最多链接数
|
1024
|
限制 robot 可从任一 HTML 资源中提取的链接数。Robot 会搜索站点并发现到其它资源的链接,如果对此过程不加限制,可以想见的是:robot 最终会追随大量链接,到达与其启动点相距甚远的地方。
|
遵循纯文本中的链接
|
False(未选中)
|
从纯文本提取超级链接。
|
最多链接数
|
1024
|
限制 robot 可从任一文本资源中提取的链接数。
|
使用 Cookie
|
False(未选中)
|
如果选中,则 robot 在搜寻时将使用 cookie。有些站点需要使用 cookie 才能正确浏览。Robot 将其 cookie 保存在 robot 状态目录中名为 cookies.txt 的文件中。cookies.txt 的格式与 Netscape Communicator 浏览器所使用的格式相同。
|
使用 IP 作为源
|
True(选中)
|
在大多数情况下,robot 只在资源域名中运行。在某些情况下,您可能希望通过“Internet 协议”(IP) 地址,按子网来过滤或分类资源。这时,就必须显式允许 robot 除了能够检索域名外,还要能够检索 IP 地址。检索 IP 地址需要额外的 DNS 查寻,这可能会减慢 robot 的运行。如果不需要此选项,可将其关闭以提高性能。
|
Smart Host Heuristics
|
False(未选中)
|
如果选中,robot 会将服务器使用的公共替代主机名转换为单一名称。如果站点有许多台服务器,且其所有别名都指向同一地址,则此选项用处最大。如 www.sesta.com 往往有 www1.sesta.com、www2.sesta.com 等别名。
选择此选项时,robot 将在内部将所有以 wwwn 开头的主机名转换为 www,其中 n 为任意整数。此属性只适用于以 wwwn 开头的主机名。
CNAME 解析处于关 (false) 状态时,此属性不可用。
|
将主机名解析到 CNAME
|
False(未选中)
|
如果选中,robot 将对遇到的所有主机名进行验证并将其解析为规范的主机名。这样 robot 便可准确地跟踪唯一 RD。如果未选中,robot 会验证主机名,但不会将其转换为规范形式。所以您可能会得到重复的 RD 列表以及 robot 所找到的不同主机名。
例如,devedge.sesta.com 是 developer.sesta.com 的别名。CNAME 解析功能开启时,系统会列出以 devedge.sesta.com 形式加以引用的 URL,位置为 developer.sesta.com。CNAME 解析功能关闭时,RD 会保留到 devedge.sesta.com 的原始引用。
CNAME 解析功能处于关 (false) 状态时,无法启用 Smart Host Heuristics。
|
从任一主机接受命令
|
False(未选中)
|
大多数 robot 控制操作程序都通过 TCP/IP 端口运行。此属性控制向 robot 发出的命令必须来自本地主机系统 (false),还是可以来自网络上的任意位置 (true)。
建议限制直接 robot 控制只能由本地主机实施 (false)。但您仍可通过“管理控制台”对 robot 进行远程管理。
|
默认启始点深度
|
10
|
1- 仅限起始点,2- 书签样式,3-10,未限定。
Robot 从任一起始点遍历的超级链接层数的默认值。可以通过在“Robot/站点”页上编辑站点来设置任意给定起始点的深度。
|
工作目录
|
/var/opt/SUNWps/https-servernamefull/portal/tmp
|
Robot 可用于存储数据的临时工作目录的完整路径名。Robot 会将文档的整个内容检索到此目录中(往往一次检索很多内容),因此此空间应足够大,以便能够同时处理所有内容。
|
状态目录
|
/var/opt/SUNWps/https-servernamefull/portal/robot
|
Robot 用于存储其状态信息的临时目录的完整路径名,包括其访问过的 URL 列表、URL 池等。此数据库的体积可能相当大,因此应将其置于与“工作目录”不同的分区中。
|
索引
Robot 会搜索站点并根据所选过滤器来收集文档。收集的文档具有多种不同的格式。要使它们变得格式一致并易读,需让它们使用同一种格式,即 HTML。此页控制写入每一资源描述的某些部分。
表 F-10 Robot 索引属性
属性
|
默认值
|
说明
|
全部或部分文本
|
部分文本
|
全部文本使用资源描述中的完整文档。部分文本仅使用资源描述中特定字节数的文本。
|
提取前 # 字节
|
4096
|
输入字节数
|
提取目录
|
True(选中)
|
True 在资源描述中包括“目录”。
|
从 META 标记中提取数据
|
True(选中)
|
True 在资源描述中包括 META 标记。
|
文档转换器
|
全部选中 (true);如果为 false,则不能索引该文档类型。
|
Adobe PDF
Corel Presentations
Corel Quattro Pro
FrameMaker
Lotus Ami Pro
Lotus Freelance
Lotus Word Pro
Lotus 1-2-3
Microsoft Excel
Microsoft Powerpoint
Microsoft RTF
Microsoft Word
Microsoft Works
Microsoft Write
WordPerfect
StarOffice Calc
StarOffice Impress
StarOffice Writer
XyWrite
|
转换器超时
|
600
|
将一个文档转换为 HTML 的允许时间(秒)。如果超过此时间,URL 将被排除。
|
模拟器
此页是一个调试工具,用于执行 robot 对 URL 过滤的局部模拟。可以键入一个新的 URL 进行检查。它将检查 URL、DNS 转换(包括 Smart Host Heuristics)和站点重定向。它不会检查由 URL 指定的文档内容,因此不会检测重复、MIME 类型、网络错误、权限等。模拟器会指示 robot 是会接受列出的站点(接受)还是不会接受(警告)。
表 F-11 Robot 模拟器属性
属性
|
默认值
|
说明
|
URL
|
已定义的 URL 和一个空白文本框。
|
可以通过在空白文本框中键入新站点的 URL 来检查是否可以访问它。此操作会检查新站点是否接受搜寻。
格式为 http://www.sesta.com:80/
|
检查 DNS 别名
|
True(选中)
|
True(选中)检查别名指向同一地址的服务器数量。
|
检查服务器重定向 (302)
|
True(选中)
|
True(选中)检查所有服务器重定向。
|
站点探测器
此页是一个调试工具,用于检查 DNS 别名、服务器重定向和虚拟服务器。此工具会返回有关站点的信息,但不会测试其是否接受搜寻。
表 F-12 Robot 站点探测器属性
属性
|
默认值
|
说明
|
站点
|
空白
|
以格式 http://www.sesta.com:80 键入 URL
|
显示高级 DNS 信息
|
False(未选中)
|
True(选中)显示有关站点的更多信息,包括 IP 地址。
|
进度表
此页用于为 robot 设置自动搜索进度表。
表 F-13 Robot 进度表属性
属性
|
默认值
|
说明
|
Robot 启动时间(小时:分钟)
|
00:00
|
这是 robot 开始搜索的时间。
|
天
|
均未选中
|
星期日、星期一、星期二、星期三、星期四、星期五或星期六
至少选中一天。
|
Robot 停止时间(小时:分钟)
|
00:00
|
如果计划不间断运行 robot,建议每天至少停止并重新启动一次。这样可以使 robot 有机会释放资源并重新初始化。
|
天
|
均未选中
|
星期日、星期一、星期二、星期三、星期四、星期五或星期六
|
数据库
“数据库”属性分为以下几类:
- 进度表
|
注意
|
要对数据库分区,就必须使用命令行功能,因为需要停止搜索服务器。
|
|
管理
初始“管理”页列出了可用的数据库。可以创建新数据库,也可重索引、清除或终止现有数据库。使用复选框来选择要对其执行操作的数据库。使用复选框上方的小图标来选择或取消选择所有数据库。选择“重索引”、“清除”或“终止”时,系统会显示一条提示,让您确认是否要对所显示的一列数据库名称执行该操作。要执行该操作,请选择“确定”。
如果您对模式进行了编辑以添加或删除某个索引字段(如作者),或因磁盘错误而损坏了索引,便应为数据库重新建立索引。更改模式后,需重新启动服务器。
由于为数据库重新建立索引所需的时间与数据库中 RD 的数量成正比,因此为大型数据库重新建立索引应在服务器未处于高峰需求时进行。
清除数据库内容时,系统将恢复索引所使用的磁盘空间,但不会恢复主数据库所使用的磁盘空间,而是会在将新数据添加到数据库中时再次使用该磁盘空间。
终止数据库操作会删除所有被视为过期的 RD。它并不会减小数据库的大小。默认情况下,RD 从创建之日起 90 天后到期。
另一种编辑数据库的方法是:选择“编辑”链接,转到某一页,在该页上定义数据库属性。
表 F-14 数据库管理属性
属性
|
默认值
|
说明
|
名称
|
默认值
|
搜索所使用的数据库的名称。
|
标题
|
空白
|
数据库的标题。
|
说明
|
空白
|
用自己的语言描述数据库。
|
导入代理
导入代理是一些进程,它们从其它服务器或数据库获得资源描述,然后将其合并到搜索数据库中。
初始“导入”页会列出可用的导入代理。可以创建新代理,也可运行、编辑或删除现有代理。使用复选框来选择要删除的代理。使用复选框上方的小图标来选择或取消选择所有导入代理。使用单选按钮来打开或关闭“代理操作”。要为导入代理制定时间表,请选择下部菜单栏中的“进度表”。
如果选择编辑或修改现有导入代理或创建新导入代理,将会显示下列属性。
表 F-15 数据库导入代理属性
属性
|
默认值
|
说明
|
字符集
|
如果是新属性,则为空白
|
指定输入 SOIF 流的字符集。例如,ISO8859-1、UTF-8、UTF-16。系统支持字符集 ISO8859-1 到 ISO8859-15。
|
从下列位置导入
|
本地文件
|
选择“本地文件”或“搜索服务器”(如果某一个被启用)。
|
本地文件路径
|
如果是新属性,则为空白
|
给出包含 SOIF(摘要对象交换格式)格式的有效资源描述的本地文件的完整路径名。它可以是另一台服务器中的文件,只要其路径可寻址,就好像是本地安装的一样即可。
|
数据库名称
|
默认值
|
目的数据库的名称。
|
远程服务器
|
如果是新属性,则为空白
|
给出检索资源描述的源搜索服务器的 URL,格式为 http://www.sesta.com:80
|
实例名
|
如果是新属性,则为空白
|
搜索服务器所使用的服务器实例名。可以在导入源服务器的“服务器首选项”中找到此实例名。值必须为 3.01C 或 3.01C SP1。
|
搜索 URI
|
如果是新属性,则为空白
|
输入完整的路径和文件名。使用 /portal/search。
|
是 Compass Server 3.01X 吗?
|
False(未选中)
|
是从 Compass Server 3.01X 导入的服务器吗?
|
启用 SSL
|
False(未选中)
|
如果它是服务器间事务,请选择服务器是否应使用 SSL(加密套接字层)协议。
|
验证
|
无(默认)
|
无(默认)或使用用户/口令
它指定导入代理应如何向导入源系统表明自己的身份。默认情况下,不使用验证。如果导入源服务器需要验证,可以指定供导入代理使用的用户名和口令。从 3.01C 导入不需要验证。从 3.01C SP1 导入数据需要验证。
|
用户
|
如果是新属性和无此属性,则为空白
|
如果选中“使用用户/口令”,请输入用户。
|
口令
|
如果是新属性和无此属性,则为空白
|
如果选中“使用用户/口令”,请输入口令(以 * 形式显示)。
|
内容传送
|
使用全部内容的渐增收集(默认)
|
选择“使用全部内容的渐增收集”(默认),或选择“使用搜索查询”
它们指定要从源导入哪些资源描述。
默认情况下,导入代理会请求获得自上次从同一源导入后添加或更改的所有资源描述。
搜索查询指定导入代理应只从源处请求获得某些资源描述。这与用户从搜索数据库请求获得资源列表的方式几乎相同。
使用“范围”、“查看 - 属性”和“查看 - 命中”字段来指定查询。
|
范围
|
如果是新属性,则为空白
|
查询的文本。查询语法与最终用户从服务器查询所使用的语法完全相同。
|
查看 - 属性
|
如果是新属性,则为空白
|
列出要在每个资源描述中导入的字段(不区分大小写)。例如,标题和作者。默认值为全部。
|
查看 - 命中
|
如果是新属性,则为空白
|
最大匹配资源描述导入数量。如果未指定命中,则默认值为 20。
|
代理描述
|
如果是新属性,则为空白
|
出现在初始“导入”页的可用导入代理列表中。程序会忽略该描述。如果此字段为空白,则“资源描述源”文件名或服务器名会被用来标识导入代理。如果需要用户名和口令,请在此注明。
|
最新资源描述
|
如果是新属性,则为空白
|
此导入代理先前导入的最新资源描述的创建日期。“使用全部内容的渐增收集”选项使用此日期来确定哪些资源是新资源,而应被导入。
|
网络超时(秒)
|
如果是新属性,则为空白
|
指定导入代理所允许的网络连接超时秒数。可考虑不同的网络流量和质量来对此值进行调整。
|
资源描述
初始“资源描述”页用于搜索数据库中的“资源描述”。例如,可以更正 RD 中的拼写错误,或手动将 robot 发现的 RD 分配给各个类别。
表 F-16 资源描述属性
属性
|
默认值
|
说明
|
搜索
|
所有 RD
|
所有 RD、未分类的 RD、分类的 RD、按类别划分的 RD、按 URL 指定的 RD、包含以下内容的 RD
|
文本框
|
空白
|
输入唯一的文本字符串来标识搜索的 RD。用于按类别划分的 RD、按 URL 指定的 RD 和包含属性值的 RD。
|
数据库
|
默认值
|
要搜索的数据库的名称。
|
选择类别
|
|
在类别树上浏览并从中选择一个类别。
|
删除
|
|
删除一个或多个 RD 搜索所返回的选定 RD。
|
下一组
|
|
显示 RD 搜索所返回的下一组 RD
|
上一组
|
|
显示 RD 搜索所返回的上一组 RD
|
编辑选定的
|
|
编辑 RD 搜索所返回的一个或多个 RD 的属性。
|
编辑全部
|
|
编辑 RD 搜索所返回的目前一组 RD 的属性。
|
要按限制搜索,请选择“选择目录”。“类别编辑器”页显示的内容用于在分类法中指定搜索类别。可以在“选定的目录”文本框中指定类别,也可浏览分类法来选择类别。指定类别后,请选择“确定”返回 RD 搜索页。
表 F-17 类别编辑器属性
属性
|
默认值
|
说明
|
选定的目录
|
空白
|
用于显示选定的目录的文本字段
|
全部展开
|
|
展开分类法,以在浏览时显示层次结构中的所有条目。
|
全部折叠
|
空白
|
折叠分类法,以在浏览时只显示层次结构前两级中的类别。
|
类别/页
|
25
|
每页类别数的下拉列表。有效值为 25、50、100、250、500 及全部。
|
如果搜索成功,系统会显示找到的 RD 数,并在列表框中列出找到的 RD。如果单击某个 RD 的“编辑”链接,系统会显示以下属性(可编辑)及 RD 的部分文字。除“分类”外的所有属性在“数据库/模式”页中均被设置为可编辑。
表 F-18 数据库 RD 可编辑属性
属性
|
默认值
|
说明
|
作者
|
空白
|
文档作者。
|
作者电子邮件
|
空白
|
用于联络文档作者的电子邮件地址。
|
分类
|
选定 RD 的类别名称。
|
如果有分类,则为类别名称;如果无分类,则为“无分类”。
|
ReadACL
|
空白
|
与文档级安全相关。
|
内容字符集
|
|
来自 HTTP 服务器的内容字符集信息。
|
内容编码
|
空白
|
来自 HTTP 服务器的内容编码信息。
|
内容语言
|
空白
|
来自 HTTP 服务器的内容语言信息。
|
内容长度
|
空白
|
来自 HTTP 服务器的内容长度信息。
|
内容类型
|
空白
|
来自 HTTP 服务器的内容类型信息。
|
说明
|
选定 RD 的描述。
|
RD 的描述。
|
到期时间
|
有效日期。
|
资源描述的失效日期。
|
全部文本
|
空白
|
文档的完整内容。
|
关键字
|
选定 RD 的关键字(如果有)。
|
取自 meta- 标记的关键字。
|
最近修改日期
|
上次修改日期
|
文档最近修改的日期。
|
部分文本
|
文档的部分文本
|
选择的部分文档文本
|
电话
|
空白
|
用于联络作者的电话号码
|
标题
|
选定 RD 的标题。
|
RD 的标题
|
URL
|
空白
|
文档的“统一资源定位符”
|
模式
模式可确定资源描述中的信息类型及该信息的格式。可以将新属性或字段添加到 RD 中,并设置可以对哪些属性或字段进行编辑和索引。导入新 RD 时,可以将嵌入在新 RD 中的模式转换为自己的模式。
表 F-19 数据库模式编辑属性
属性
|
说明
|
作者
|
文档作者。
|
作者电子邮件
|
用于联络文档作者的电子邮件地址。
|
内容字符集
|
来自 HTTP 服务器的内容字符集信息。
|
内容编码
|
来自 HTTP 服务器的内容编码信息。
|
内容语言
|
来自 HTTP 服务器的内容语言信息。
|
内容长度
|
来自 HTTP 服务器的内容长度信息。
|
内容类型
|
来自 HTTP 服务器的内容类型信息。
|
说明
|
对文档的单行摘要描述。
|
到期时间
|
资源描述的失效日期。
|
全部文本
|
文档的完整内容。
|
关键字
|
可以最恰当地描述文档的关键字。
|
最近修改日期
|
文档最近修改的日期。
|
部分文本
|
选择的部分文档文本。
|
电话
|
用于联络作者的电话号码。
|
ReadACL
|
由搜索服务器用于强化安全性。
|
标题
|
文档的标题。
|
URL
|
文档的“统一资源定位符”
|
别名
名称
说明
|
导入新的 RD 时,可以将嵌入在新 RD 中的模式转换为自己的模式。导入数据库模式中字段的名称与您的数据库中 RD 的模式间存在差异时,便须使用此转换。例如,如果导入的 RD 使用“作家”作为作者字段,而您在自己的 RD 中使用“作者”作为作者字段,便须使用此转换。所要进行的转换便是将“作家”转换为“作者”,因此,应在此文本框中输入“作家”。
|
数据类型
|
定义数据类型。
|
可编辑
|
如果为 true(选中),则选定的属性(字段)将出现在“数据库 RD 编辑器”中,以便对其值进行更改。
描述、关键字、标题和 ReadACL 是可编辑的。
|
可索引的
|
如果为 true(选中),则选定的属性(字段)可以用作索引基础。
“作者”、“标题”和 URL 将出现在最终用户的“高级搜索”屏幕的菜单中。这样,最终用户便可在这些特定字段中搜索值。
作者、到期时间、关键字、最近修改日期、标题、URL 和 ReadACL 可用作索引的基础。
|
计分乘法器
|
用于为特定元素计分的加权字段。有效值为任意正值。
|
分析
“分析”页显示排序过的所有站点的列表及搜索数据库中目前所拥有的该站点的资源数量。选择“更新分析”来更新存档的分析数据。
表 F-20 数据库分析属性
属性
|
默认值
|
说明
|
RD 总数
|
数据库中 RD 的目前数量。
|
列出数据库中目前的资源描述总数。
|
服务器数量
|
数据库分区存放于的服务器的目前数量。
|
可将数据库分区存放到许多台服务器上。
|
站点
|
robot 成功搜索的 URL 或域。
|
已将资源描述添加到数据库中的 URL 或域。
|
RD 的数量
|
该站点中 RD 的目前数量。
|
列出该站点中 RD 的目前数量。
|
类型
|
RD 的类型
|
资源描述可以有多种不同的类型,例如 http。
|
百分比
|
RD 的类型/RD 的总数
|
此类型的文档占资源描述总数的百分比。
|
进度表
此页用于设置进度表,以安排导入代理的运行。
表 F-21 数据库导入进度属性
属性
|
默认值
|
说明
|
启动导入时间(小时:分钟)
|
00:00
|
导入代理开始导入的时间。
|
天
|
均未选中
|
星期日 - 星期六
至少选中一天。
|
类别
最终用户可以两种完全不同的方式与搜索数据库进行交互:可以直接键入查询来搜索数据库,也可使用一组自己设计的类别来浏览整个数据库内容。将搜索数据库中的资源分配给各个类别来简化其复杂程度。如果数据库中存在大量项目,将相关项目组合在一起会很有帮助。设置类别时应将关注的重点放在可用性上,以便最终用户可以更快地找到特定类型的项目。
搜索服务器使用一种名为分类法的类别层次结构。“分类法”这一术语通常用于描述任何分类系统。在网络资源数据库(如搜索服务器数据库)环境中,它描述被选中用来对网络资源进行分类以便检索的任何方法。
“类别”主题分为下列子主题:
类别编辑器
“类别编辑器”页显示分类法中的类别列表,从而可以浏览这些类别。浏览到所需类别后,可以选择类别链接来调出“分类规则编辑器”,以在特定类别下设置 Robot 集合。
表 F-22 类别编辑器属性
属性
|
默认值
|
说明
|
全部展开
|
|
展开分类法,以在浏览时显示层次结构中的所有条目。
|
全部折叠
|
|
折叠分类法,以在浏览时只显示层次结构前两级中的类别。
|
重索引
|
|
重新建立数据库的索引。如果刚创建了分类法,则还需要建立数据库索引,以使最终用户可以进行类别搜索。如果更改了类别,则需要重新建立数据库索引,以使其保持在最新状态。重新建立数据库索引前,请保存类别树。载入新分类法。
|
类别/页
|
25
|
每页类别数的下拉列表。有效值为 25、50、100、250、500 及全部。
|
名称
|
选定的目录
|
显示要编辑的选定类别的名称
|
说明
|
空白
|
显示选定类别的描述。
|
匹配规则
|
空白
|
显示用于选定类别的匹配规则。
|
更新
|
|
更新类别定义。
|
作为子项添加
|
|
将类别作为子项添加。
|
作为同级项添加
|
|
将类别作为同级项添加。
|
分类规则编辑器
设置数据库类别后,请单击“新建”来设置或更改 robot 为选定类别提供的、用于向类别分配资源的规则。
表 F-23 类别分类规则编辑器属性
属性
|
默认值
|
说明
|
源
|
Author
|
有效属性包括:
- Author
- Author-EMail
- Content-Charset
- Content-Encoding
- Content-Language
- Content-Length
- Content-Type
- Description
- Expires
- Full-Text
- Keywords
- Last-modified
- Partial-Text
- Phone
- ReadACL
- Title
- URL
- Host
- Protocol
- IP
- Path
- Type
|
方法
|
is
|
is、contains、begins with、ends with、 regular expression
|
条件
|
空白
|
指定规则条件。
|
分类
|
空白
|
如果满足规则条件,用来对 RD 进行分类的类别。键入类别或使用“选择类别编辑”页来浏览到该类别。
|
报告
“报告”部分用于监控搜索服务器。可以查看其活动的摘要,内容包括:搜索的站点、排除的 URL 及排除理由、robot 访问过的 URL 的详细信息及最终用户所感兴趣的内容。
“报告”主题分为下列各子主题:
启动点
Robot 每次启动时,都会访问所有启用的站点。
表 F-24 报告启动点属性
属性
|
默认值
|
说明
|
启用
|
站点的目前值。
|
“Yes”或“No”。
它在“Robot/站点”页中设置。
|
启动点
|
所选 URL:80
|
链接会调出所选 URL。
|
在站点定义中
|
所选 URL
|
到“Robot/站点”编辑页的链接。
|
深度
|
列出选定的搜索层数。
|
1-n 在“Robot/站点”编辑页中设置。
|
已排除的 URL
此页显示 robot 运行的列表。要显示 URL 被排除原因列表,请选择一个要检查的 robot 运行,选择“查看选择内容”,然后选择其中一项“排除原因”。显示的内容是由于该原因而被排除的 URL 的列表。重复的或警告的排除已被删除。
表 F-25 报告已排除的 URL 属性
属性
|
默认值
|
说明
|
日志
|
列出最近运行的日志。
|
列出所有可用的运行日志。
|
记数
|
数量
|
有排除原因的数量列表。
|
排除原因
|
站点未被允许的原因列表。每个原因都被链接到因该原因而被排除的所有 URL 的列表。
|
过滤器规则、找不到文件、不允许的站点、不允许的协议、错误、重复是其中一些 URL 被排除的原因。
|
Robot 高级报告
此页用于访问 robot 提供的许多不同种类的报告。从下拉列表中进行选择以获取有关选定报告的信息并将其显示出来。按“刷新”按钮可获取目前信息。
表 F-26 报告 Robot 进展报告属性
属性
|
默认值
|
说明
|
高级 Robot 报告
|
版本
|
版本、DNS 高速缓存转储、性能、找到的服务器 - 全部、找到的服务器 - RDM、状态 - 目前配置、状态 - 数据库(内部)、状态 - Libnet、状态 - 模块、状态 - 概述、URL - 做好提取的准备、URL - 做好索引的准备、URL - 正在等待过滤(URL 池)、URL - 正在等待索引、全部报告。
|
日志文件
此页用于查看日志文件中的条目或特定行。日志文件下拉列表。选择“查看”按钮后,输入希望显示的行数。
表 F-27 报告查看日志文件属性
属性
|
默认值
|
说明
|
查看该日志文件
|
已排除的 URL(过滤器)
|
已排除的 URL(过滤器)、RD 管理器 (rdmgr)、RDM 服务器 (rdmsvr)、Robot 操作 (robot)、搜索引擎 (searchengine)、用户查询 (rdm)。
|
行数
|
25
|
可输入此数值以显示日志文件中时间最近的条目。
|
流行的搜索
此页用于查看用户搜索的内容。频率最高的搜索在报告中排在前面。
表 F-28 报告流行搜索属性
属性
|
默认值
|
说明
|
排除浏览
|
False(未选中)
|
False(未选中)包括用户浏览的类别。True(选中)排除浏览统计资料。
|