Sun Java System Portal Server 7.2 管理指南

可修改的属性

robot.conf 文件为 robot 定义了许多选项,其中包括将 robot 指向 filter.conf 中的适当过滤器的选项。为向后兼容较早的版本,robot.conf 也可以包含起点 URL。

由于可以使用管理控制台来设置大部分属性,因此通常不需要对 robot.conf 文件进行编辑。不过,高级用户可能需要手动编辑此文件,以设置那些无法通过管理控制台来设置的属性。参见robot.conf 文件范例以获得此文件的示例。

表 19–4 列出了 robot.conf 文件中您可以更改的属性。

表 19–4 用户可修改的属性

属性 

描述 

示例 

auto-proxy

指定 robot 的代理设置。它可以是代理服务器或是用于自动配置代理的 JavaScript 文件。 

auto-proxy="http://proxy_server/proxy.pac"

bindir

指定 robot 是否将 bin 目录添加到 PATH 环境中。这是一个附加 PATH,供用户在 robot 中运行外部程序,如 cmd-hook 属性所指定的程序。

bindir=path

cmd-hook

指定一个外部完成脚本,在 robot 完成一次运行后运行。其值必须是命令名的完整路径。robot 从 /var/opt/SUNWportal/ 目录执行此脚本。

没有默认设置。 

至少要注册一个 RD 才能运行该命令。 

 

cmd-hook=”command-string”

command-port

指定 robot 用来侦听以接受来自其他程序(如管理界面或 robot 控制面板)的命令的端口号。 

出于安全原因,如果不将 remote-access 设置为 yes,robot 便只接受来自本地主机的命令。

command-port=port_number

connect-timeout

指定网络对连接请求的最长响应时间。 

默认值为 120 秒。

command-timeout=seconds

convert-timeout

指定最长文档转换时间。 

默认值为 600 秒。

convert-timeout=seconds

depth

指定 robot 从起点 URL 开始检查的链接数。此属性会为所有未指定深度的起点 URL 设置默认值。 

默认值为 10

负 1 (depth=-1) 表示链接深度为无限。

depth=integer

email

指定运行 robot 的人员的电子邮件地址。 

电子邮件地址会连同 HTTP 请求标头中的 user-agent 一起发送,以便 Web 管理员可以联系在其站点运行 robot 的人员。 

默认值为 user@domain

email=user@hostname

enable-ip

为每个所创建 RD 的 URL 生成一个 IP 地址。 

默认值为 true

enable-ip=[true | yes | false | no]

enable-rdm-probe

确定服务器是否支持 RDM。robot 根据此属性确定是否查询它遇到的每个服务器。如果服务器支持 RDM,则 robot 不会尝试枚举服务器资源,服务器可以充当自己的资源描述服务器。 

默认值为 false

enable-rdm-probe=[true | false | yes | no]

enable-robots-txt

确定 robot 是否应在它所访问的每个站点检查 robots.txt 文件(如果存在该文件)。

默认值为 yes

enable-robots-txt=[true | false | yes | no]

engine-concurrent

指定供 robot 使用的预先创建的线程数。 

默认值为 10

您不能使用管理控制台以交互方式设置此属性。 

engine-concurrent=[1..100]

enumeration-filter

指定 robot 用来确定是否应枚举资源的枚举过滤器。该值必须是 filter.conf 文件中所定义的过滤器的名称。

默认值为 enumeration-default

您不能使用管理控制台以交互方式设置此属性。 

enumeration-filter=enumfiltername

generation-filter

指定 robot 用来确定是否应为资源生成资源描述的生成过滤器。该值必须是 filter.conf 文件中所定义的过滤器的名称。

默认值为 generation-default

您不能使用管理控制台以交互方式设置此属性。 

generation-filter=genfiltername

index-after-ngenerated

指定在为搜索服务器批处理 RD 前,robot 收集 RD 所应花费的分钟数。 

默认值为 30 分钟。 


index-after-ngenerated=30

loglevel

指定日志级别。loglevel 值如下:

  • 级别 0:只记录严重错误

  • 级别 1:还记录 RD 生成(默认值)

  • 级别 2:还记录检索活动

  • 级别 3:还记录过滤活动

  • 级别 4:还记录产生活动

  • 级别 5:还记录检索进度

    默认值为 1


loglevel=[0...100]

max-connections

指定 robot 可以进行的并发检索的最大数目。 

默认值为 8


max-connections=[1..100]

max-filesize-kb

指定 robot 检索的最大文件大小(以千字节为单位)。 


max-filesize-kb=1024

max-memory-per-url / max-memory

指定每个 URL 使用的最大内存(以字节为单位)。如果 URL 需要更多内存,则 RD 将保存到磁盘上。 

默认值为 64k

您不能使用管理控制台以交互方式设置此属性。 


max-memory-per-url=n_bytes

max-working

指定 robot 工作集的大小,即 robot 可以同时处理的 URL 的最大数目。 

您不能使用管理控制台以交互方式设置此属性。 


max-working=1024

onCompletion

确定 robot 完成一次运行后执行什么操作。robot 可以转为闲置模式、回送并再次启动或退出。 

默认值为 idle

此属性与 cmd-hook 属性一起使用。Robot 运行完成后,将执行 onCompletion 操作,然后运行 cmd-hook 程序。


OnCompletion=[idle | loop | quit]

password

指定 httpd 验证和 ftp 连接所用的 password


password=string

referer

如果被设为在访问 Web 页时将 robot 标识为引用,则指定 HTTP 请求中发送的属性 


referer=string

register-user

指定用于将 RD 注册到搜索服务器数据库的用户名。 

此属性不能通过搜索服务器管理界面以交互方式进行设置。 


register-user=string

register-password

指定用于将 RD 注册到搜索服务器数据库的密码。 

此属性无法通过管理控制台以交互方式进行设置。 


register-password=string

remote-access

此属性确定 robot 是否可从远程主机接受命令。 

默认值为 false


remote-access=[true | false | yes | no]

robot-state-dir

指定 robot 保存其状态的目录。在此工作目录中,robot 可以记录收集的 RD 数等。 


robot-state-dir="/var/opt/SUNWportal/
searchservers/<searchserverid>/config/robot"

server-delay

指定两次访问同一 Web 站点之间的时间段,以防止 robot 过于频繁地访问同一站点。默认值为 0 秒。 


server-delay=delay_in_seconds

site-max-connections

表示 robot 对任一站点的并发连接的最大数目。 

默认值为 2


site-max-connections=[1..100]

smart-host-heuristics

使 robot 能更改轮转其 DNS 规范主机名的站点。例如,www123.siroe.com 更改为 www.siroe.com

默认值为 false


smart-host-heuristics=[true | false]

tmpdir

指定 robot 创建临时文件的位置。 

使用该值来设置环境变量 TMPDIR


tmpdir=path

user-agent

指定随 http-request 中的电子邮件地址一并发送给服务器的属性。


user-agent=SunONERobot/6.2

username

指定运行 robot 的用户名,该名称用于进行 httpd 验证和 ftp 连接。

默认值为 anonymous


username=string