附录 F
搜索属性
本附录对一些属性进行描述,它们是可以通过 Sun Java System Identity Server 管理控制台为搜索引擎配置的一些属性。
在“服务管理视图”中选择“搜索特性”时,会显示一个双色标签式菜单栏。本附录的结构是按照菜单栏上部的主题或选项卡来组织的。
其中一个选项卡被选中时,下方的菜单栏便会列出与该主题相关的子主题。默认“搜索”页选择服务器/设置。每个子主题使用一个或多个表来解释该子主题的属性。这些表被分为三列:“属性”、“默认值”和“描述”。“属性”给出在页面中找到的描述性文本;“默认值”为“属性”提供默认值;“描述”对“属性”及其格式进行说明。
每个“搜索特性”页都给出如表 F-1 中所述的“选择服务器”属性。
表 F-1 搜索选择服务器属性
属性
|
默认值
|
描述
|
选择服务器
|
http://servername:80/portal
|
搜索服务器的全限定服务器名。
|
服务器
通过“服务器”部分可对服务器首选项进行配置。在其中可选择临时文件使用的目录、记录哪些信息以及在日志中应记录的详细程度。“服务器”属性显示在两页上:
设置
此页包含用于搜索服务器管理和操作的基本设置。
表 F-2 服务器设置属性
属性
|
默认值
|
描述
|
服务器根
|
/var/opt/SUNWps/https-servernamefull/portal
|
放置配置、日志、数据库和 robot 信息文件。它也是在进行搜索时生成和更新的所有搜索文件的根目录。它是不可配置的。
|
临时文件
|
/var/opt/SUNWps/https-servernamefull/portal/tmp
|
包含在搜索期间用于对搜索进行管理的所有临时文件。它包括最近生成的、且尚未添加到主数据库中的资源描述。搜索完成后它们将被删除。
|
文档级安全
|
关
|
控制可以访问文档的人员。
更改此设置后,必须重新启动服务器。
值:
|
Robot
此页包含用于搜索服务器管理和操作的高级设置。在此可为用户查询、索引维护、资源描述管理以及调试来配置日志文件。
表 F-3 服务器高级设置属性
属性
|
默认值
|
描述
|
搜索 (rdm)
|
/var/opt/SUNWps/https-servername/portal/logs/rdm.log
|
记录最终用户对数据库的查询。可以选中“禁用搜索日志”复选框来禁止此记录功能。
如果选中,则不能查看“用户查询”(rdm) 报告。
|
禁用搜索日志
|
False(未选中)- 启用
|
控制查询日志的使用。
在报告部分,可生成一个报告,它将根据此日志列出最常用的查询。
值:
|
索引维护
|
/var/opt/SUNWps/https-servername/portal/logs/searchengine.log
|
记录涉及搜索引擎的事务,资源描述的非注册信息除外。
|
RD 管理器
|
/var/opt/SUNWps/https-servername/portal/logs/rdmgr.log
|
记录来自 robot 的资源描述的注册信息,或将代理导入到数据库中。可以按“RD 管理器”(rdmgr) 报告来查看此日志。
|
RDM 服务器
|
/var/opt/SUNWps/https-servername/portal/logs/rdmserver.log
|
记录 RDM 事务的调试信息。细节程度由“日志级别”控制。可以按“RDM 服务器”(rdmsvr) 报告来查看此日志。
|
日志级别
|
1
|
控制“RDM 服务器”日志文件所包含的详细信息的数量。
可能的级别为 2、10、20、50、100 和 999。
如果设置为 1(默认)则只记录严重错误。数字越大,“RDM 服务器”日志文件所包含的信息越详细。
|
Robot
robot 的特性十分复杂。可以选择要搜索或搜寻的站点、检查某一站点是否有效、定义要选取的文档类型以及安排开始搜索的时间。
本部分的组织方式如下:
概述
通过“Robot 概述”面板可以查看 robot 正在执行的操作:它的状态是“关”、“空闲”、“运行”还是“已暂停”,如果是“运行”,它在搜索中的进展如何(面板每隔大约 30 秒钟就会刷新一次)。刷新率是通过 search.conf 文件中的 robot-refresh 参数定义的。
右上方的两个按钮与其状态相对应。如果 robot 的状态是“关”,则两个按钮为“启动”和“删除”。如果是“运行”或“空闲”,则两个按钮为“停止”和“暂停”。如果是“已暂停”,则两个按钮为“停止”和“恢复”。选择其中任一个属性,都可以转到“报告”部分,在那里可获得该“属性”的最新详细报告。
表 F-4 Robot 概述属性
属性
|
默认值
|
描述
|
Robot 是
|
当前活动
|
Robot 的状态。值可以为 空闲、运行、暂停或关
|
更新日期
|
上次刷新的日期和时间。
|
将刷新此页,以使您了解 robot 的进展情况。
|
启动点
|
定义的数量
|
被选中要进行搜索的站点的数量。在“Robot/站点”页中站点被禁用(未包括在搜索中)。
|
URL 池
|
正在等待的 URL 数量
|
等待调查的 URL 数量。开始搜索时,启动点 URL 被输入到 URL 池中。搜索进行时,robot 发现与其他 URL 的链接。这些 URL 被添加到池中。处理完池中的所有 URL 后,URL 池被清空,robot 开始空闲。
|
正在提取
|
连接数量/秒
|
一秒内查看的资源数量。
提取是指发现或查找将被包括到数据库中的资源、文档或超级链接以及过滤出不需要项目的过程。
|
正在过滤
|
拒绝的 URL 数量
|
被排除的 URL 总数。
|
索引
|
URL 数量/秒
|
一秒内转换为资源描述的资源或文档的数量。
索引是指文档中聚集的所有信息都转换为资源描述以包含在搜索数据库中这一阶段。
|
已排除的 URL
|
按过滤器排除的 URL 数量
|
不满足过滤标准的 URL 数量。
|
|
按错误排除的 URL 数量
|
由于找不到文件 robot 出错的 URL 数量。
|
资源描述
|
已运行的 RD 数量
|
添加到数据库中的资源描述的数量。
|
|
已运行的 RD 字节数
|
添加到数据库中的字节数。
|
一般状态
|
检索到的 URL 数量
|
运行期间检索到的 URL 数量。
|
|
RD 平均字节数
|
每个资源描述的平均字节数。
|
|
运行时间(天、小时、分钟和秒)
|
robot 已运行的时间。
|
站点
本部分的初始页显示可进行搜索的站点。
使用单选按钮可以启用(开)和禁用(关)站点。robot 运行时不搜索禁用的站点。“编辑”链接将显示可以更改搜索站点定义方式的页面。
要删除站点,可选中复选框并选择“删除”。
要添加新站点,可选择“新建”。在文本框中添加 URL 或“域”,然后选择搜索深度。选择“创建”以使用默认值。否则,选择“创建”和“编辑”来选择非默认值,然后转到“编辑”页定义搜索站点。
表 F-5 Robot 管理站点属性
属性
|
默认值
|
描述
|
锁或群集图
|
站点状态
|
锁打开表示 URL 可访问。关闭的锁表示该站点是安全 web 服务器,使用 SSL。群集表示该站点是一个域。
|
开/关
|
开
|
选择是否在 robot 运行时搜索此站点。
|
利用“新站点”页可以设置整个站点进行索引。
表 F-6 Robot 新站点属性
属性
|
默认值
|
描述
|
新站点
|
URL
|
URL - 格式:http://www.sesta.com
域 - 格式:*.sesta.com
|
深度
|
10
|
如果只到此 URL 这一层,请使用 1;如果到 URL 及下一层链接,请使用 2;对于 robot,请选择 100;3-10 或不限。默认值是在“Robot/搜寻”页中设置的。
|
在编辑页中可更详细地定义搜索站点。可以指定服务器的类型,重新定义搜索深度,还可选择要添加到搜索数据库中的文件类型。URL 和“域”站点的属性大部分都是相同的。表中的附加列显示了哪些属性是共享的,哪些属性是唯一的。
许多操作都在此页中执行。可以验证所输入的搜索站点的服务器名。通过在“服务器组”部分选择“添加”,可以向服务器组中添加更多的服务器。通过在“启动点”部分选择“添加”,可以添加更多的启动点。在“过滤器定义”部分,可以添加或删除、排除或包括某些文件类型,也可以更改这些文件所应用的过滤器顺序。
表 F-7 Robot 站点编辑属性
属性
|
URL/域
|
默认值
|
描述
|
站点昵称
|
URL/D
|
输入的站点 - www.sesta.com
|
在初始页中显示的名称。默认值为输入的 URL 或域。可以在此更改此名称。
|
选择要删除或验证的站点的复选框
|
URL/D
|
未选中
|
未选中 — 不选择
选中 — 选择
|
服务器组 - 名称
|
URL
|
URL - www.sesta.com
|
是单个服务器或是单个服务器的一部分。条目必须包括完整主机名。如果只指定一个主机名,则站点将被限定到该主机。如果除提供主机名外还提供目录信息,则站点只被定义为该目录及其任意子目录。
|
域后缀
|
D
|
输入的域 - *.sesta.com
|
包括域内的所有服务器,如 *.sesta.com。
|
端口
|
URL/D
|
URL 为 80,域为空白
|
如果搜索的站点使用不同的端口,则在此输入。
|
类型
|
URL
|
Web 服务器
|
Web Server、File Server、FTP Server、Secure Web Server
|
允许的协议
|
D
|
选中所有复选框
|
http、file、ftp、https 复选框
|
启动点 - 选择要删除的站点的复选框
|
URL/D
|
未选中
|
未选中 — 不选择
选中 — 选择
|
启动点 - URL
|
URL/D
|
http:// URL:80
|
URL 或域
|
启动点 - 深度
|
URL/D
|
10
|
1 - 仅限此 URL
2 - 此 URL 和第一个链接
3-10
未限定
|
过滤器定义 - 选择要删除的文件类型的复选框
|
URL/D
|
未选中
|
未选中 — 不选择
选中 — 选择
|
过滤器定义
|
URL/D
|
在此顺序中,默认为归档文件、音频文件、备件文件、二进制文件、CGI 文件、映像文件、Java、Javascript、式样表文件、日志文件、修订控制文件、源代码文件、临时文件、视频文件。
|
可能的选择为归档文件、音频文件、备件文件、二进制文件、CGI 文件、映像文件、Java、Javascript、式样表文件、日志文件、Power Point 文件、修订控制文件、源代码文件、临时文件、视频文件、电子表格文件、Plug-in 文件、Lotus Domino 文档、Lotus Domino OpenViews、System Directories (UNIX)、System Directories (NT)。
|
注释
|
URL/D
|
空白
|
描述站点的文本字段。robot 不使用它。
|
DNS 转换
|
URL
|
空白
|
DNS 转换通过用 cname 替换域名或别名来修改 URL 及其搜寻方式。格式: alias1->cname1,alias2->cname1
|
过滤器
本部分的初始页显示所有已定义的过滤器规则及使用它们的站点定义。每个过滤器名称后都有一个复选框,可选择文档类型,还有两个单选按钮,可开启和关闭“过滤器规则”。如果选中复选框,则过滤器被选定并且可以删除。选择“新建”可以添加新的过滤器。新过滤器页是一个简洁的“编辑”页,只需要一个“昵称”和一条规则。另一选项是选择“编辑”链接,可转到某一页面,在该页面可以定义该文件类型的规则或过滤器执行的操作。每条规则都由“过滤源”下拉列表、“过滤条件”下拉列表和一个用于输入过滤字符串具体信息的文本框组成。
表 F-8 Robot 过滤器编辑属性
属性
|
默认值
|
描述
|
过滤器名
|
提示新名称。选择要进行编辑的文件类型的文件名。
|
反映过滤器所应用的文件类型的描述性名称。
|
“过滤源”的下拉列表
|
新过滤器的 URL。显示先前为该特定文件类型选定的信息。
|
URL、协议、主机、路径、MIME 类型
|
位置的下拉列表
|
是用于新过滤器。显示先前为该特定文件类型选定的信息。例如,结束字符是 exe 的二进制文件。
|
是、包含、起始字符、结束字符、正则表达式
|
用来输入具体内容的文本框(目录、协议、文件扩展名)
|
新过滤器为空白。显示先前为该特定文件类型输入的信息。例如,包含 /tmp/ 的“临时文件”。
|
在此文本框中列出了要匹配的内容。在本例中将匹配的内容 - http://docs.sesta.com/manual.html
协议为 http;主机包含 sesta;文件结束字符为 html。
|
描述
|
提示新描述。显示先前为该特定文件类型输入的描述。
|
描述自己的过滤器规则。robot 不使用它。
|
新站点
|
True(选中),对于新过滤器。显示先前为该特定文件类型选定的值。
|
在创建新站点时用它作为一个默认的过滤器。如果未选中,还可以通过在 Robot 站点页编辑站点将此过滤器添加到新站点中。
|
默认情况下
|
不为新过滤器选择任何内容。对于定义的文件类型,默认值为先前选定的值。
|
排除与此过滤器匹配的文档。
包括与此过滤器匹配的文档。
对新过滤器的选择不影响现有的站点定义。如果要对现有站点使用新过滤器,必须通过在 Robot 站点页编辑站点来添加它。
|
部署
|
列出使用此过滤器的站点。
|
|
搜寻
本页中的设置控制 robot 的操作参数和默认值。它分为下列部分:“速度”、“完成操作”、“日志文件设置”、“符合的标准”、“验证参数”、“代理高级设置”和“链接提取”。
表 F-9 Robot 搜寻属性
属性
|
默认值
|
描述
|
服务器延时
|
无延时
|
无延时(默认)、1 秒、2 秒、5 秒、10 秒、30 秒、1 分钟、5 分钟。
|
最多连接 最多并发检索 URL
|
8
|
1、2、4、8(默认)、10、12、16、20。
|
每个站点最多连接
|
2
|
(无限制)、1、2、4、8、10、12、16、20。
|
将 RD 发送到索引的频率
|
30 分钟
|
3 分钟、5 分钟、10 分钟、15 分钟、30 分钟(默认)、1 小时、2 小时、4 小时、8 小时。
|
要启动的脚本
|
无(默认)
|
无(默认)。对于示例文件,参见 /opt/SUNWps/samples/robot 目录中的 cmdHook 文件(对于默认安装)。
|
处理所有 URL 后
|
进入空闲状态(默认)
|
进入空闲状态(默认)、关机、启动结束。
|
联系人电子邮件
|
用户@域
|
输入自己的地址。
|
日志级别
|
1 - 生成
|
0 仅限错误;1 生成(默认);2 枚举、转换;3 过滤;4 派生;5 检索
|
用户代理
|
SunJavaSystemRobot/6.0
|
搜索服务器的版本。
|
忽略 robots.txt 协议
|
False(未选中)
|
某些服务器有一个 robot.txt 文件,表明 robot 不存在。如果搜索 robot 在站点遇到此文件,且其属性为 false,则不搜索此站点。如果其属性为 true,则 robot 将忽略该文件而搜索此站点。
|
执行验证
|
是
|
是
否
|
Robot 用户名
|
匿名
|
Robot 使用匿名的用户名访问站点。
|
口令
|
用户@域
|
通常允许匿名用户的站点都需要电子邮件地址作为口令。此地址为纯文本格式。
|
代理用户名
|
匿名
|
Robot 使用匿名的用户名访问站点。
|
口令
|
用户@域
|
通常允许匿名用户的站点都需要电子邮件地址作为口令。此地址为纯文本格式。
|
代理连接类型
|
直接 Internet 连接
|
直接 Internet 连接、代理 — 自动配置、代理 — 手动配置
|
自动代理配置类型
|
本地代理文件
|
本地代理文件、远程代理文件
|
自动代理配置位置
|
空白
|
自动代理有一个列出了所需的所有代理信息的文件。
本地代理文件的示例为 robot.pac。远程代理文件的示例为 http://proxy.sesta.com:8080/proxy.pac
|
手动配置 HTTP 代理
|
空白
|
格式:server1.sesta.com:8080,这三个手动配置值放在 /var/opt/SUNWps/https-servername/portal/config 目录的 robot.pac 文件中。
|
手动配置 HTTPS 代理
|
空白
|
此手动配置值放在 robot.pac 文件中。
格式:server1.sesta.com:8080
|
手动配置 FTP 代理
|
空白
|
此手动配置值放在 robot.pac 文件中。
格式:server1.sesta.com:8080
|
遵循 HTML 中的链接
|
True(选中)
|
从 HTML 提取超级链接
|
最多链接数
|
1024
|
限制 robot 可从任一 HTML 资源中提取的链接数。在 robot 搜索站点并发现与其他资源的链接时,它可以结束后面与原始启动点相距遥远的大量链接。
|
遵循纯文本中的链接
|
False(未选中)
|
从纯文本提取超级链接。
|
最多链接数
|
1024
|
限制 robot 可从任一文本资源中提取的链接数。
|
使用 Cookie
|
False(未选中)
|
如果选中,则 robot 在搜寻时将使用 cookie。有些站点需要使用 cookie 才能正确浏览。robot 将其 cookie 保存在 robot 状态目录中名为 cookies.txt 的文件中。cookies.txt 的格式与 Netscape Communicator 浏览器使用的格式相同。
|
使用 IP 作为源
|
True(选中)
|
多数情况下,robot 只在资源域名中运行。某些情况下,可能希望“Internet 协议”(IP) 地址能够根据子网来过滤或分类资源。这时,必须显式允许 robot 除了能够检索域名外,还要能够检索 IP 地址。检索 IP 地址需要额外的 DNS 查寻,这可能会减慢 robot 的操作。如果不需要此选项,可将其关闭以提高性能。
|
Smart Host Heuristics
|
False(未选中)
|
如果选中,robot 将把服务器使用的公共替代主机名转换为单一名称。在站点有许多服务器、所有别名都指向同一地址的情况下这将非常有用,例如 www.sesta.com,通常具有名称 www1.sesta.com、www2.sesta.com 等。
选择此选项时,robot 将在内部将所有以 wwwn 开头的主机名转换为 www,其中 n 是任意整数。此属性只适用于以 wwwn 开头的主机名。
在 CNAME 解析处于OFF (false) 状态时此属性不可用。
|
将主机名解析到 CNAME
|
False(未选中)
|
如果选中,robot 将对遇到的所有主机名进行验证并将其解析为规范的主机名。这将允许 robot 精确跟踪唯一 RD。如果未选中,robot 将验证主机名,但不会将其转换为规范形式。所以您可能会得到重复的 RD,同时列出 robot 找到的不同主机名。
例如,devedge.sesta.com 是 developer.sesta.com 的别名。CNAME 解析功能开启时,将列出作为 devedge.sesta.com 引用的 URL,它是在 developer.sesta.com 中找到的。CNAME 解析功能关闭时,RD 将保留到 devedge.sesta.com 的原引用。
在 CNAME 解析处于关 (false) 状态时不能启用 Smart Host Heuristics。
|
从任一主机接受命令
|
False(未选中)
|
多数 robot 控制功能都通过 TCP/IP 端口进行操作。此属性控制 robot 的命令是必须来自本地主机系统 (false),还是可以来自网络的任意位置 (true)。
建议将直接 robot 控制限制到本地主机 (false)。但您仍可通过“管理控制台”对 robot 进行远程管理。
|
默认启始点深度
|
10
|
1- 仅限起始点,2- 书签样式,3-10,未限定。
robot 从任何启始点通过的超级链接级别的默认值。您可以通过在 Robot 站点页编辑该站点来设置任意给定启始点的深度。
|
工作目录
|
/var/opt/SUNWps/https-servernamefull/portal/tmp
|
robot 可用于存储数据的临时工作目录的路径全名。robot 将文档的全部内容检索到此目录中(通常一次检索很多),所以此空间应足够大,以便能够同时处理所有内容。
|
状态目录
|
/var/opt/SUNWps/https-servernamefull/portal/robot
|
robot 用于存储其状态信息的临时目录的路径全名,包括访问过的 URL 列表、URL 池等。此数据库可能非常大,所以应将其放在与“工作目录”不同的分区中。
|
索引
robot 搜索站点并根据选定的过滤器来收集文档。收集的文档具有多种不同的格式。为使它们变得一致并且易读,可将其转换为一种格式,即 HTML。此页控制编入每一资源描述的某些部分。
表 F-10 Robot 索引属性
属性
|
默认值
|
描述
|
全部或部分文本
|
部分文本
|
全部文本使用资源描述中的全部文档。部分文本仅使用资源描述中特定的字节数。
|
提取前 # 字节
|
4096
|
输入字节数。
|
提取目录
|
True(选中)
|
True 在资源描述中包括“目录”。
|
从 META 标记中提取数据
|
True(选中)
|
True 在资源描述中包括 META 标记。
|
文档转换器
|
全部选中 (true);如果 false,则不能索引该文档类型。
|
Adobe PDF,
Corel Presentations
Corel Quattro Pro
FrameMaker
Lotus Ami Pro
Lotus Freelance
Lotus Word Pro
Lotus 1-2-3
Microsoft Excel
Microsoft Powerpoint
Microsoft RTF
Microsoft Word
Microsoft Works
Microsoft Write
WordPerfect
StarOffice Calc
StarOffice Impress
StarOffice Writer
XyWrite
|
转换器超时
|
600
|
将文档转换为 HTML 的允许时间(秒)。如果超过此时间,URL 将被排除。
|
模拟器
此页是执行 robot 过滤 URL 的局部实体模拟的调试工具。可以键入一个新的 URL 进行检查。它将检查 URL、DNS 转换(包括 Smart Host Heuristics)和站点重定向。它不检查由 URL 指定的文档内容,因此不能检测重复、MIME 类型、网络错误、权限等。模拟器表明 robot 是接受列出的站点(接受)还是不接受(警告)。
表 F-11 Robot 模拟器特性
属性
|
默认值
|
描述
|
URL
|
已定义的 URL 和一个空白文本框。
|
可以通过在空白文本框中键入其 URL 来检查是否可以访问新站点。这将检查新站点是否接受搜寻。
格式为 http://www.sesta.com:80/
|
检查 DNS 别名
|
True(选中)
|
True(选中)检查同一地址的服务器别名数量。
|
检查服务器重定向 (302)
|
True(选中)
|
True(选中)检查所有服务器重定向。
|
站点探测器
此页是检查 DNS 别名、服务器重定向、虚拟服务器等的调试工具。此工具将返回有关站点的信息,但并不测试是否接受搜寻。
表 F-12 Robot 站点探测器属性
属性
|
默认值
|
描述
|
站点
|
空白
|
以格式 http://www.sesta.com:80 键入 URL
|
显示高级 DNS 信息
|
False(未选中)
|
True(选中)显示有关站点的更多信息,包括 IP 地址。
|
进度表
此页用于为 robot 设置自动搜索进度表。
表 F-13 Robot 进度表属性
属性
|
默认值
|
描述
|
Robot 启动时间(小时:分钟)
|
00:00
|
这是 robot 开始搜索的时间。
|
天
|
均未选中
|
星期日、星期一、星期二、星期三、星期四、星期五或星期六
至少选中一天。
|
Robot 停止时间(小时:分钟)
|
00:00
|
如果计划不间断运行 robot,建议每天至少停止并重新启动一次。这样可以使 robot 有机会释放资源并进行重新初始化。
|
天
|
均未选中
|
星期日、星期一、星期二、星期三、星期四、星期五或星期六
|
数据库
“数据库”属性分为:
- 进度表
|
注
|
要对数据库分区,必须使用命令行功能,因为需要停止搜索服务器。
|
|
管理
初始“管理”页列出了可用的数据库。可以创建新数据库,也可重索引、清除或终止现有数据库。使用复选框来选择要对其执行操作的数据库。使用复选框上方的小图标来选择或取消选择所有数据库。选择“重索引”、“清除”或“终止”时,系统会显示一条提示,让您确认是否要对所显示的一列数据库名称执行该操作。要执行该操作,请选择“确定”。
如果您对模式进行了编辑以添加或删除某个索引字段(如作者),或因磁盘错误而损坏了索引,便应为数据库重新建立索引。更改模式后,需重新启动服务器。
由于重新索引数据库所需的时间与数据库中 RD 的数量成正比,因此大型数据库重新索引时应在服务器处于非高需求时进行。
清除数据库内容时,系统将恢复索引所使用的磁盘空间,但不会恢复主数据库所使用的磁盘空间,而是会在将新数据添加到数据库中时再次使用该磁盘空间。
终止数据库操作会删除所有被视为过期的 RD。它并不会减小数据库的大小。默认情况下,RD 从创建之日起 90 天后到期。
另一种编辑数据库的方法是:选择“编辑”链接,转到某一页,在该页上定义数据库属性。
表 F-14 数据库管理属性
属性
|
默认值
|
描述
|
名称
|
默认值
|
“搜索”所使用的数据库的名称。
|
标题
|
空白
|
数据库的标题。
|
描述
|
空白
|
用自己的语言描述数据库。
|
导入代理
导入代理是从其他服务器或数据库引入资源描述并将其合并到搜索数据库的进程。
初始“导入”页将列出可用的导入代理。您可以创建新代理,也可运行、编辑或删除已有的代理。使用复选框选择要删除的代理。使用复选框上方的小图标选择或取消选择所有导入代理。使用单选按钮打开或关闭“代理操作”。要安排导入代理的进度,可选择下部菜单栏中的“进度表”。
如果选择编辑或修改现有的导入代理或创建新的导入代理,将会显示下列属性。
表 F-15 数据库导入代理属性
属性
|
默认值
|
描述
|
字符集
|
新属性为空白
|
指定输入 SOIF 流的字符集。例如,ISO8859-1、UTF-8、UTF-16。字符集 ISO8859-1 到 ISO8859-15 都被支持。
|
从下列位置导入
|
本地文件
|
选择“本地文件”或“搜索服务器”(如果某一个被启用)。
|
本地文件路径
|
新属性为空白
|
给出包含有效资源描述的本地文件的路径全名,格式为 SOIF(摘要对象交换格式)。它可以是其他服务器中的文件,只要其路径可寻址,好像是本地安装的一样即可。
|
数据库名称
|
默认值
|
目的数据库的名称。
|
远程服务器
|
新属性为空白
|
给出从中检索资源描述的搜索服务器的 URL,格式为 http://www.sesta.com:80
|
实例名
|
新属性为空白
|
搜索服务器所使用的服务器实例名。可以在导入服务器的“服务器首选项”中找到此实例名。值必须为 3.01C 或 3.01C SP1。
|
搜索 URI
|
新属性为空白
|
输入完整的路径和文件名。使用 /portal/search。
|
是 Compass Server 3.01X 吗?
|
False(未选中)
|
是从 Compass Server 3.01X 服务器导入吗?
|
启用 SSL
|
False(未选中)
|
如果它是服务器到服务器的事务,请选择服务器是否应使用 SSL(安全套接字协议层)协议。
|
验证
|
无(默认)
|
无(默认)或使用用户/口令
它指定导入代理应如何在导入系统中标识自己。默认情况下,不使用验证。如果要从中导入的服务器需要验证,可以对要使用的导入代理指定用户名和口令。从 3.01C 导入不需要验证。从 3.01C SP1 导入数据需要验证。
|
用户
|
新口令为空白或无
|
如果选中“使用用户/口令”,则输入一个用户。
|
口令
|
新口令为空白或无
|
如果选中“使用用户/口令”,则输入一个口令(显示为 *)。
|
内容传送
|
使用全部内容的渐增收集(默认)
|
选择“使用全部内容的渐增收集”(默认),或选择“使用搜索查询”
它们指定从源导入的资源描述。
默认情况下,导入代理需要自上次从同一源导入后添加或更改的所有资源描述。
搜索查询指定导入代理应只请求源的某些资源描述。它与用户从搜索数据库请求资源列表的方式非常类似。
使用“范围”、“查看-属性”和“查看-命中”字段指定查询。
|
范围
|
新属性为空白
|
查询的文本。查询语法与最终用户从服务器查询所使用的语法相同。
|
查看-属性
|
新属性为空白
|
列出在每个资源描述中要导入的字段(不区分大小写)。例如,标题和作者。默认值为全部。
|
查看-命中
|
新属性为空白
|
与要导入的资源描述匹配的最大数量。如果未指定命中,则它默认为 20。
|
代理描述
|
新属性为空白
|
出现在初始“导入”页的可用导入代理列表中。它将被程序忽略。如果此字段为空白,则“资源描述源”文件名或服务器名将被用来标识导入代理。如果需要用户名和口令,则请加以注意。
|
最新资源描述
|
新属性为空白
|
此导入代理先前导入的最新资源描述的创建日期。“使用全部内容的渐增收集”选项使用此日期来确定哪些资源是新资源,应被导入。
|
网络超时(秒)
|
新属性为空白
|
指定在超时前导入代理与网络连接所允许的秒数。可根据不同的网络流量和质量对此值进行调整。
|
资源描述
初始“资源描述”页用于搜索数据库中的“资源描述”。例如,可以更正 RD 中的排字错误,或手动将 robot 发现的 RD 赋给各个类别。
表 F-16 资源描述属性
属性
|
默认值
|
描述
|
搜索
|
所有 RD
|
所有 RD、未分类的 RD、分类的 RD、按类别划分的 RD、按 URL 指定的 RD、包含以下内容的 RD
|
文本框
|
空白
|
输入唯一的文本字符串来标识搜索的 RD。使用按类别划分的 RD、按 URL 指定的 RD 和包含属性值的 RD。
|
数据库
|
默认值
|
要搜索的数据库的名称。
|
选择类别
|
|
在类别树上浏览并从中选择一个类别。
|
删除
|
|
删除一个或多个 RD 搜索所返回的选定 RD。
|
下一个
|
|
显示 RD 搜索所返回的下一组 RD
|
上一个
|
|
显示 RD 搜索所返回的上一组 RD
|
编辑选定的
|
|
编辑 RD 搜索所返回的一个或多个 RD 的属性。
|
编辑全部
|
|
编辑 RD 搜索所返回的当前一组 RD 的属性。
|
要按限制搜索,请选择“选择目录”。“类别编辑器”页显示的内容用于在分类法中指定搜索类别。可以在“选定的目录”文本框中指定类别,也可浏览分类法来选择类别。指定类别后,请选择“确定”返回 RD 搜索页。
表 F-17 类别编辑器属性
属性
|
默认值
|
描述
|
选定的目录
|
空白
|
用于显示选定的目录的文本字段
|
全部展开
|
|
展开分类法,以在浏览时显示层次结构中的所有条目。
|
全部折叠
|
空白
|
折叠分类法,以在浏览时只显示层次结构前两级中的类别。
|
类别/页
|
25
|
每页类别数的下拉列表。有效值为 25、50、100、250、500 及全部。
|
如果搜索成功,系统会显示找到的 RD 数,并在列表框中列出找到的 RD。如果单击某个 RD 的“编辑”链接,系统会显示以下属性(可编辑)及 RD 的部分文字。除“分类”外的所有属性都在“数据库/模式”页中设置为可编辑。
表 F-18 数据库 RD 可编辑属性
属性
|
默认值
|
描述
|
作者
|
空白
|
文档作者。
|
作者电子邮件
|
空白
|
与文档作者联络的电子邮件地址。
|
分类
|
选定 RD 的类别名称。
|
如果分类,则为类别名称;如果不分类,则为“无分类”。
|
ReadACL
|
空白
|
与文档级安全相关。
|
内容字符集
|
|
来自 HTTP 服务器的内容字符集信息。
|
内容编码
|
空白
|
来自 HTTP 服务器的内容编码信息。
|
内容语言
|
空白
|
来自 HTTP 服务器的内容语言信息。
|
内容长度
|
空白
|
来自 HTTP 服务器的内容长度信息。
|
内容类型
|
空白
|
来自 HTTP 服务器的内容类型信息。
|
描述
|
选定 RD 的描述。
|
RD 的描述。
|
到期时间
|
有效日期。
|
资源描述的失效日期。
|
全部文本
|
空白
|
文档的完整内容。
|
关键字
|
选定 RD 的关键字(如果有)。
|
关键字取自 meta- 标记。
|
最近修改日期
|
上次修改日期
|
文档最近修改的日期。
|
部分文本
|
文档的部分文本
|
选择的部分文档文本
|
电话
|
空白
|
用于联络作者的电话号码
|
标题
|
选定 RD 的标题。
|
RD 的标题
|
URL
|
空白
|
文档的“统一资源定位符”
|
模式
模式可确定资源描述中的信息以及该信息的格式。可以将新属性或字段添加到 RD 中,并设置可以编辑和索引的属性或字段。导入新的 RD 时,可以将嵌入在新 RD 中的模式转换为自己的模式。
表 F-19 数据库模式编辑属性
属性
|
描述
|
作者
|
文档作者。
|
作者电子邮件
|
与文档作者联络的电子邮件地址。
|
内容字符集
|
来自 HTTP 服务器的内容字符集信息。
|
内容编码
|
来自 HTTP 服务器的内容编码信息。
|
内容语言
|
来自 HTTP 服务器的内容语言信息。
|
内容长度
|
来自 HTTP 服务器的内容长度信息。
|
内容类型
|
来自 HTTP 服务器的内容类型信息。
|
描述
|
对文档的单行摘要描述。
|
到期时间
|
资源描述的失效日期。
|
全部文本
|
文档的完整内容。
|
关键字
|
可以最恰当地描述文档的关键字。
|
最近修改日期
|
文档最近修改的日期。
|
部分文本
|
文档文本的部分选择。
|
电话
|
与作者联络的电话号码。
|
ReadACL
|
由搜索服务器使用以确保安全。
|
标题
|
文档的标题。
|
URL
|
文档的“统一资源定位符”
|
别名
名称
描述
|
导入新的 RD 时,可以将嵌入在新 RD 中的模式转换为自己的模式。如果导入数据库模式中字段的名称与自己数据库中 RD 的名称之间存在差异,可使用此转换。例如,如果在导入的 RD 中使用“作家”作为作者字段,而在自己的 RD 中使用“作者”作为作者字段,则应使用此转换。所要进行的转换便是将“作家”转换为“作者”,因此,应在此文本框中输入“作家”。
|
数据类型
|
定义数据类型。
|
可编辑
|
如果为 true(选中),则选定的属性(字段)将出现在“数据库 RD 编辑器”中,以便对其值进行更改。
描述、关键字、标题和 ReadACL 是可编辑的。
|
可索引的
|
如果为 true(选中),则选定的属性(字段)可以作为索引基础。
“作者”、“标题”和 URL 将出现在最终用户的“高级搜索”屏幕的菜单中。它允许最终用户在这些特定字段中搜索值。
作者、到期时间、关键字、最近修改日期、标题、URL 和 ReadACL 可作为索引的基础。
|
计分乘法器
|
用于为特定元素计分的加权字段。有效值为任意正值。
|
分析
“分析”页显示排序过的所有站点的列表及搜索数据库中当前所拥有的该站点的资源数量。选择“更新分析”来更新存档的分析数据。
表 F-20 数据库分析属性
属性
|
默认值
|
描述
|
RD 的总数
|
数据库中 RD 的当前数量。
|
列出数据库中当前的资源描述总数。
|
服务器数量
|
数据库被分区存放到其中的服务器的当前数量。
|
数据库可以被分割存放到许多服务器中。
|
站点
|
robot 成功搜索的 URL 或域。
|
已将资源描述添加到数据库中的 URL 或域。
|
RD 的数量
|
该站点中 RD 的当前数量。
|
列出该站点中 RD 的当前数量。
|
类型
|
RD 的类型
|
资源描述可以有多种不同的类型,例如 http。
|
百分比
|
RD 的类型/RD 的总数
|
此类型的文档占资源描述总数的百分比。
|
进度表
此页用于设置进度表,以安排导入代理的运行。
表 F-21 数据库导入进度属性
属性
|
默认值
|
描述
|
启动导入的时间(小时:分钟)
|
00:00
|
导入代理开始导入的时间。
|
天
|
均未选中
|
星期日 - 星期六
至少选中一天。
|
类别
最终用户以两种完全不同的方式与搜索数据库进行交互:可以直接键入查询搜索数据库,也可使用一组自己设计的类别来浏览整个数据库内容。将搜索数据库中的资源分配给各个类别以简化其复杂程度。如果数据库中存在大量项目,将相关项目组合在一起会很有帮助。设置类别时应将关注的重点放在可用性上,以便最终用户可以更快地查找到特定类型的项目。
搜索服务器使用一种名为分类法的类别层次结构。“分类法”这一术语常用来描述所有系统的类别。在网络资源数据库(如搜索服务器数据库环境)中,它描述那些选中被用来对网络资源进行分类以便于检索的所有方法。
“类别”主题分为下列各子主题:
类别编辑器
“类别编辑器”页显示分类法中的类别列表,从而可以浏览这些类别。浏览到所需类别后,可以选择类别链接来调出“分类规则编辑器”,以在特定类别下设置 Robot 集合。
表 F-22 类别编辑器属性
属性
|
默认值
|
描述
|
全部展开
|
|
展开分类法,以在浏览时显示层次结构中的所有条目。
|
全部折叠
|
|
折叠分类法,以在浏览时只显示层次结构前两级中的类别。
|
重索引
|
|
重新建立数据库的索引。在创建了自己的分类法后,还需要建立数据库索引,以使最终用户可以进行类别搜索。如果更改了类别,则需重新建立数据库索引以使其保持最新。在重新建立数据库索引前请保存类别树。载入新分类法。
|
类别/页
|
25
|
每页类别数的下拉列表。有效值为 25、50、100、250、500 及全部。
|
名称
|
选定的目录
|
显示要编辑的选定类别的名称。
|
描述
|
空白
|
显示选定类别的描述。
|
匹配规则
|
空白
|
显示用于选定类别的匹配规则。
|
更新
|
|
更新类别定义。
|
作为子项添加
|
|
将类别作为子项添加。
|
作为同级项添加
|
|
将类别作为同级项添加。
|
分类规则编辑器
设置数据库类别后,请单击“新建”来设置或更改 robot 为选定类别提供的、用于向类别分配资源的规则。
表 F-23 类别分类规则编辑器属性
属性
|
默认值
|
描述
|
源
|
作者
|
有效属性包括:
- 作者
- 作者电子邮件
- 内容字符集
- 内容编码
- 内容语言
- 内容长度
- 内容类型
- 描述
- 到期时间
- 全部文本
- 关键字
- 最近修改日期
- 部分文本
- 电话
- ReadACL
- 标题
- URL
- 主机
- 协议
- IP
- 路径
- 类型
|
方法
|
是
|
是、包含、起始字符、结束字符、正则表达式
|
条件
|
空白
|
指定规则条件。
|
分类
|
空白
|
如果满足规则条件,用来对 RD 进行分类的类别。键入类别或使用“选择类别编辑”页来浏览到该类别。
|
报告
利用“报告”部分可以监视搜索服务器。可以查看其活动摘要:搜索的站点、排除的 URL 及排除理由、有关 robot 访问过的 URL 的详细信息以及最终用户所感兴趣的内容等。
“报告”主题分为下列各子主题:
启动点
每次启动 robot 时,它将访问所有启用的站点。
表 F-24 报告启动点属性
属性
|
默认值
|
描述
|
启用
|
站点的当前值。
|
“是”或“否”
它在“Robot/站点”页中设置。
|
启动点
|
选择 URL:80
|
引出所选 URL 的链接。
|
在站点定义中
|
选择 URL
|
到“Robot/站点”编辑页的链接。
|
深度
|
列出选定的搜索级别。
|
1-n 在“Robot/站点”编辑页中设置。
|
已排除的 URL
此页显示 robot 运行列表。要显示 URL 被排除的原因列表,可选择一个要检查的 robot 运行,选择“查看选择内容”,然后选择其中一项“排除原因”。显示的内容是由于该原因而被排除的 URL 的列表。重复的或警告的排除已被删除。
表 F-25 报告已排除的 URL 属性
属性
|
默认值
|
描述
|
日志
|
列出最近运行的日志。
|
列出所有可用的运行日志。
|
记数
|
数量
|
包含排除原因的数量列表。
|
排除原因
|
站点未被允许的原因列表。每个原因都被链接到因该原因而排除的所有 URL 的列表。
|
过滤器规则、找不到文件、不允许的站点、不允许的协议、错误、重复等都是 URL 被排除的一些原因。
|
Robot 高级报告
此页使您有权访问来自 robot 的许多不同报告。从下拉列表中进行选择以获取有关选定报告的信息并将其显示出来。按“刷新”按钮可获取当前信息。
表 F-26 报告 Robot 进展报告属性
属性
|
默认值
|
描述
|
高级 Robot 报告
|
版本
|
版本、DNS 高速缓存转储、性能、找到的服务器 - 全部、找到的服务器 RDM、状态 - 当前配置、状态 - 数据库(内部)、状态 Libnet、状态 - 模块、状态 - 概述、URL - 做好提取的准备、URL - 做好索引的准备、URL - 正在等待过滤(URL 池)、URL - 正在等待索引、全部报告。
|
日志文件
此页用于查看日志文件中的条目或特定行。日志文件的下拉列表。选择“查看”按钮时,输入要显示的行数。
表 F-27 报告查看日志文件属性
属性
|
默认值
|
描述
|
查看该日志文件
|
已排除的 URL(过滤器)
|
已排除的 URL(过滤器)、RD 管理器 (rdmgr)、RDM 服务器 (rdmsvr)、Robot 活动 (robot)、搜索引擎 (searchengine)、用户查询 (rdm)。
|
行数
|
25
|
可输入此数值以显示日志文件中时间最近的条目。
|
流行的搜索
此页允许查看用户搜索的内容。频率最高的搜索在报告中排在前面。
表 F-28 报告流行搜索属性
属性
|
默认值
|
描述
|
排除浏览
|
False(未选中)
|
False(未选中)包括用户浏览的类别。True(选中)排除浏览统计资料。
|