Sun Java System Messaging Server 6 2005Q4 管理指南

使用 msprobe 和 watcher 功能进行监视

Messaging Server 提供了 watchermsprobe 两个进程来监视各种系统服务。watcher 监视服务器崩溃并根据需要重新启动服务器。msprobe 监视服务器挂起(不响应)。具体来讲,msprobe 可以监视以下内容:

watchermsprobeconfigutil 选项(如表 23–5 所示)控制。有关详细信息,请参见失败的服务或未响应服务的自动重新启动

表 23–5 msprobewatcher configutil 选项

选项 

说明 

local.autorestart

启用服务器自动重新启动。自动重新启动失败或挂起服务。默认值:否 

local.autorestart.timeout

失败重试超时。如果服务器在此指定时间内失败超过两次,则系统将停止尝试重新启动服务器。应当将该值(以秒为单位设置)设置为比 msprobe 间隔 (local.schedule.msprobe) 更长的时间段值。默认值:600 秒

local.probe.service.timeout

特定服务器在重新启动之前的超时。service 可以是 imap、pop、http、cert、job_controller、smtp、lmtp、mmp 或 ens。

默认值:使用 service.readtimeout

local.probe.service.warningthreshold

警告消息被记录到 default 日志文件之前的特定服务器无响应秒数。service 可以是 imap、pop、http、cert、job_controller、smtp、lmtp、mmp 或 ens。

默认值:使用 local.probe.warningthreshold 

local.probe.warningthreshold

警告消息被记录到 default 日志文件之前的服务器无响应秒数。

默认值:5 秒 

local.queuedir

用于检查队列大小是否超过由 alarm.diskavail.msgalarmthreshold 定义的阈值的 MTA 队列目录。 

默认值:无 

service.readtimeout

重新启动该服务器之前的服务器非响应时段。请参见 local.schedule.msprobe。 

默认值:10 秒 

local.schedule.msprobe

msprobe 运行计划。crontab 样式的时间安排字符串(请参见表 18–10

local.watcher.启用

启用 watcher,用于监视服务失败。IMAP、POP、HTTP、作业控制器、分发程序、邮件存储 (stored)、imsched 和 MMP。(LMTP/SMTP 服务器由分发程序监视,LMTP/SMTP 客户机由 job_controller 监视。)对于特定失败,会将错误消息记录到默认日志文件中。默认值:启用

警报邮件

msprobe 可以通过电子邮件向邮寄主管发出报警(请参见监视 imapd、popd 和 httpd),针对指定的情况发出警告。下面显示了当超出特定阈值时发送的一个电子邮件警报样例:


Subject:    ALARM: server response time in seconds of “ldap_siroe.com_389” is 10
Date:    Tue, 17 Jul 2001 16:37:08 -0700 (PDT) 
From:    postmaster@siroe.com 
To:     postmaster@siroe.com 

Server instance: /opt/SUNWmsgsr
Alarmid: serverresponse 
Instance: ldap_siroe_europa.com_389 
Description: server response time in seconds 
Current measured value (17/Jul/2001:16:37:08 -0700): 10 
Lowest recorded value: 0 
Highest recorded value: 10 
Monitoring interval: 600 seconds 
Alarm condition is when over threshold of 10 
Number of times over threshold: 1

            

您可以指定 msprobe 监视磁盘和服务器性能的频率,以及在什么情况下发送警报。可以通过使用 configutil 命令设置报警参数完成此操作。表 23–6 显示了有用的报警参数及其默认设置。请参见《Sun Java System Messaging Server 6 2005Q4 Administration Reference》中的“configutil Parameters”

表 23–6 有用的报警邮件 configutil 参数

参数 

说明(括号中为默认设置) 

alarm.msgalarmnoticehost

(localhost) 向其发送警告邮件的计算机。 

alarm.msgalarmnoticeport

(25) 发送警报邮件时要连接的 SMTP 端口。 

alarm.msgalarmnoticercpt

(Postmaster@localhost) 向其发送警报通知的用户。 

alarm.msgalarmnoticesender

(Postmaster@localhost) 警报发件人的地址。 

alarm.diskavail.msgalarmdescription

(可用邮件分区磁盘空间的百分比。)磁盘可用性警报的说明字段的文本。 

alarm.diskavail.msgalarmstatinterval

(3600) 磁盘可用性检查之间的时间间隔(秒)。设置为 0 将禁用磁盘使用情况的检查。 

alarm.diskavail.msgalarmthreshold

(10) 当磁盘空间的可用性低于此百分比时将发送警报。 

alarm.diskavail.msgalarmthresholddirection

(-1) 指定当磁盘空间的可用性低于阈值 (-1) 或高于阈值 (1) 时是否发出警报。 

alarm.diskavail.msgalarmwarninginterval

(24)后续重复的磁盘可用性警报之间的时间间隔(小时)。 

alarm.serverresponse.msgalarmdescription

(以秒为单位的服务器响应时间。)服务器响应警报的说明字段的文本。 

alarm.serverresponse.msgalarmstatinterval

(600) 服务器响应检查之间的时间间隔(秒)。设置为 0 将禁用服务器响应的检查。 

alarm.serverresponse.msgalarmthreshold

(10) 如果服务器响应时间超过此值(秒),则发出警报。 

alarm.serverresponse.msgalarmthresholddirection

(1) 指定当服务器响应时间大于 (1) 或小于 (-1) 阈值时是否发出警报。 

alarm.serverresponse.msgalarmwarninginterval

(24) 后续重复的服务器响应警报之间的时间间隔(小时)。