Sun Java System Messaging Server 6 2005Q4 管理ガイド

msprobe および watcher 関数を使用した監視

Messaging Server には、各種のシステムサービスを監視するために、watchermsprobe という 2 つのプロセスが用意されています。watcher は、サーバーのクラッシュを監視し、必要に応じて再起動を行います。msprobe は、サーバーのハングアップ (応答なし) を監視します。特に、msprobe は次の状態を監視します。

watchermsprobe は、表 23–5 に示す configutil オプションによって制御されます。詳細は、「障害が発生したサービスや応答がないサービスの自動再起動」を参照してください。

表 23–5 msprobe および watcher の configutil オプション

オプション 

説明 

local.autorestart

サーバーの自動再起動を有効にします。障害の発生したサービスまたはハングアップしたサービスを自動的に再起動します。デフォルト: いいえ 

local.autorestart.timeout

再試行失敗のタイムアウトです。ここに指定した時間内でサーバーに 3 回以上障害が発生すると、システムはサーバーの再起動を試行しなくなります。値 (秒単位で指定) は、msprobe の間隔 (local.schedule.msprobe) よりも長い時間に設定する必要があります。デフォルト: 600 秒

local.probe.service.timeout

特定のサーバーが再起動されるまでのタイムアウトです。service は、imap、pop、http、cert、job_controller、smtp、lmtp、mmp、または ens のいずれかになります。

デフォルト: service.readtimeout の値を使用する

local.probe.service.warningthreshold

警告メッセージが default ログファイルに記録されるまでの特定のサーバーの無応答時間 (秒) です。service は、imap、pop、http、cert、job_controller、smtp、lmtp、mmp、または ens のいずれかになります。

デフォルト: local.probe.warningthreshold 

local.probe.warningthreshold

警告メッセージが default ログファイルに記録されるまでのサーバーの無応答時間 (秒) です。

デフォルト: 5 秒 

local.queuedir

キューサイズが alarm.diskavail.msgalarmthreshold によって定義されたしきい値を超えているかどうかを確認するための MTA キューディレクトリです。 

デフォルト: なし 

service.readtimeout

サーバーを再起動するまでのサーバーの無応答時間です。local.schedule.msprobe を参照してください。 

デフォルト: 10 秒 

local.schedule.msprobe

msprobe の実行スケジュールです。この値は、crontab 形式でスケジュールを示す文字列です (表 18–10 を参照)。

local.watcher.enable

サービスの障害を監視する watcher を有効にします。対象となるサービスは、IMAP、POP、HTTP、ジョブコントローラ、ディスパッチャー、メッセージストア (stored)、imsched、および MMP です。(LMTP/SMTP サーバーはディスパッチャーによって監視され、LMTP/SMTP クライアントは job_controller によって監視される。)それぞれの障害について、エラーメッセージをデフォルトのログファイルに記録します。デフォルト: on

警告メッセージ

msprobe は、電子メールメッセージの形式で警告をポストマスター (「imapd、popd、および httpd を監視するには」を参照) に送信して、指定された状態を警告します。一定のしきい値を超えたときに送信される電子メール警告のサンプルを以下に示します。


Subject:    ALARM: server response time in seconds of “ldap_siroe.com_389” is 10
Date:    Tue, 17 Jul 2001 16:37:08 -0700 (PDT) 
From:    postmaster@siroe.com 
To:     postmaster@siroe.com 

Server instance: /opt/SUNWmsgsr
Alarmid: serverresponse 
Instance: ldap_siroe_europa.com_389 
Description: server response time in seconds 
Current measured value (17/Jul/2001:16:37:08 -0700): 10 
Lowest recorded value: 0 
Highest recorded value: 10 
Monitoring interval: 600 seconds 
Alarm condition is when over threshold of 10 
Number of times over threshold: 1

            

msprobe でディスクおよびサーバーのパフォーマンスを監視する頻度と、どのような状況下で警告を送るかを指定することができます。このためには、configutil コマンドを使用して警告パラメータを設定します。表 23–6 に、有用な警告パラメータとそのデフォルト設定を示します。『Sun Java System Messaging Server 6 2005Q4 Administration Reference』「configutil Parameters」を参照してください。

表 23–6 有用な警告メッセージの configutil パラメータ

パラメータ 

説明 (括弧内はデフォルト) 

alarm.msgalarmnoticehost

(localhost) 警告メッセージの送信先のマシンです。 

alarm.msgalarmnoticeport

(25) 警告メッセージの送信時に接続する SMTP ポートです。 

alarm.msgalarmnoticercpt

(Postmaster@localhost) 警告通知の送信先です。 

alarm.msgalarmnoticesender

(Postmaster@localhost) 警告の差出人のアドレスです。 

alarm.diskavail.msgalarmdescription

(利用可能なメールパーティションのディスク容量のパーセンテージ) ディスク利用度の警告についての説明フィールドのテキストです。 

alarm.diskavail.msgalarmstatinterval

(3600) ディスク利用度のチェック間隔 (秒) です。ディスク使用状況をチェックしない場合は、0 に設定します。 

alarm.diskavail.msgalarmthreshold

(10) 利用可能なディスク容量の割合です。この値を下回ると警告が送信されます。 

alarm.diskavail.msgalarmthresholddirection

(-1) 利用可能なディスク容量がしきい値 (-1) より低いか、しきい値 (1) より高いときに警告を発行するかどうかを指定します。 

alarm.diskavail.msgalarmwarninginterval

(24) ディスク利用度の警告が繰り返される間隔 (時) です。 

alarm.serverresponse.msgalarmdescription

(サーバーの応答時間を表す秒数)。サーバーの応答警告についての説明フィールドのテキストです。 

alarm.serverresponse.msgalarmstatinterval

(600) サーバー応答のチェックの間隔 (秒) です。サーバーの応答を確認しない場合は、0 に設定します。 

alarm.serverresponse.msgalarmthreshold

(10) サーバー応答時間 (秒) がこの値を超えると、警告が発行されます。 

alarm.serverresponse.msgalarmthresholddirection

(1) サーバー応答時間がしきい値より大きい (1) か、しきい値より小さい (-1) ときに、警告を発行するかどうかを指定します。 

alarm.serverresponse.msgalarmwarninginterval

(24) サーバー応答警告が繰り返される間隔 (時) です。