msprobe および watcher 関数を使用した監視 (Sun Java System Messaging Server 6 2005Q4 管理ガイド)

Sun Java System Messaging Server 6 2005Q4 管理ガイド

msprobe および watcher 関数を使用した監視

Messaging Server には、各種のシステムサービスを監視するために、watcher と msprobe という 2 つのプロセスが用意されています。watcher は、サーバーのクラッシュを監視し、必要に応じて再起動を行います。msprobe は、サーバーのハングアップ (応答なし) を監視します。特に、msprobe は次の状態を監視します。

サーバー応答時間: msprobe は有効になっているサーバーにそのプロトコルコマンドを使って接続し、応答時間を測定します。応答時間が警告のしきい値を超えると、警告メッセージがサーバーに送信されます (「警告メッセージ」を参照)。また、サーバーの応答時間が指定のタイムアウト期間を超えると、サーバーは再起動されます。サーバーの応答時間はカウンタデータベースに記録され、デフォルトのログファイルに記録されます。サーバーの応答時間の統計を表示するには、counterutil を使用します (「counterutil」を参照)。

msprobe によって監視されるサーバーは、imap、pop、http、cert、job_controller、smtp、lmtp、mmp、および ens です。smtp または lmtp が応答しないときは、ディスパッチャーが再起動されます。ens は自動的に再起動できません。
ディスク使用量: msprobe はメッセージストアパーティションごとのディスクの利用度と使用量をチェックします。特に、メッセージストアの mboxlist データベースディレクトリと MTA キューディレクトリをチェックします。ディスク使用量が設定したしきい値を超えると、警告メッセージが送信されます。ディスクのサイズと使用量はカウンタデータベースに記録され、デフォルトのログファイルに記録されます。管理者は、counterutil ユーティリティー (「counterutil」を参照) を使用してディスク使用量の統計を表示できます。
メッセージストアの mboxlist データベースログファイルの累積: ログファイルの累積は、mboxlist データベースのエラーを示しています。msprobe はアクティブなログファイルの数をカウントし、その数がしきい値よりも大きい場合は、重大エラーメッセージを default ログファイルに記録して、管理者にサーバーを再起動することを通知します。autorestart が有効になっている (local.autorestart が yes に設定されている) 場合は、ストアデーモンが再起動されます。

watcher と msprobe は、表 23–5 に示す configutil オプションによって制御されます。詳細は、「障害が発生したサービスや応答がないサービスの自動再起動」を参照してください。

表 23–5 msprobe および watcher の configutil オプション


オプション	説明
local.autorestart	サーバーの自動再起動を有効にします。障害の発生したサービスまたはハングアップしたサービスを自動的に再起動します。デフォルト: いいえ
local.autorestart.timeout	再試行失敗のタイムアウトです。ここに指定した時間内でサーバーに 3 回以上障害が発生すると、システムはサーバーの再起動を試行しなくなります。値 (秒単位で指定) は、`msprobe` の間隔 (`local.schedule.msprobe`) よりも長い時間に設定する必要があります。デフォルト: 600 秒
local.probe.service.timeout	特定のサーバーが再起動されるまでのタイムアウトです。`service` は、imap、pop、http、cert、job_controller、smtp、lmtp、mmp、または ens のいずれかになります。デフォルト: `service.readtimeout` の値を使用する
local.probe.service.warningthreshold	警告メッセージが `default` ログファイルに記録されるまでの特定のサーバーの無応答時間 (秒) です。`service` は、imap、pop、http、cert、job_controller、smtp、lmtp、mmp、または ens のいずれかになります。デフォルト: local.probe.warningthreshold
local.probe.warningthreshold	警告メッセージが `default` ログファイルに記録されるまでのサーバーの無応答時間 (秒) です。デフォルト: 5 秒
local.queuedir	キューサイズが alarm.diskavail.msgalarmthreshold によって定義されたしきい値を超えているかどうかを確認するための MTA キューディレクトリです。デフォルト: なし
service.readtimeout	サーバーを再起動するまでのサーバーの無応答時間です。local.schedule.msprobe を参照してください。デフォルト: 10 秒
local.schedule.msprobe	`msprobe` の実行スケジュールです。この値は、crontab 形式でスケジュールを示す文字列です (表 18–10 を参照)。
local.watcher.enable	サービスの障害を監視する watcher を有効にします。対象となるサービスは、IMAP、POP、HTTP、ジョブコントローラ、ディスパッチャー、メッセージストア (`stored`)、`imsched`、および MMP です。(LMTP/SMTP サーバーはディスパッチャーによって監視され、LMTP/SMTP クライアントは job_controller によって監視される。)それぞれの障害について、エラーメッセージをデフォルトのログファイルに記録します。デフォルト: on

警告メッセージ

msprobe は、電子メールメッセージの形式で警告をポストマスター (「imapd、popd、および httpd を監視するには」を参照) に送信して、指定された状態を警告します。一定のしきい値を超えたときに送信される電子メール警告のサンプルを以下に示します。

Subject:    ALARM: server response time in seconds of “ldap_siroe.com_389” is 10
Date:    Tue, 17 Jul 2001 16:37:08 -0700 (PDT) 
From:    postmaster@siroe.com 
To:     postmaster@siroe.com 

Server instance: /opt/SUNWmsgsr
Alarmid: serverresponse 
Instance: ldap_siroe_europa.com_389 
Description: server response time in seconds 
Current measured value (17/Jul/2001:16:37:08 -0700): 10 
Lowest recorded value: 0 
Highest recorded value: 10 
Monitoring interval: 600 seconds 
Alarm condition is when over threshold of 10 
Number of times over threshold: 1

msprobe でディスクおよびサーバーのパフォーマンスを監視する頻度と、どのような状況下で警告を送るかを指定することができます。このためには、configutil コマンドを使用して警告パラメータを設定します。表 23–6 に、有用な警告パラメータとそのデフォルト設定を示します。『Sun Java System Messaging Server 6 2005Q4 Administration Reference』の「configutil Parameters」を参照してください。

表 23–6 有用な警告メッセージの configutil パラメータ


パラメータ	説明 (括弧内はデフォルト)
alarm.msgalarmnoticehost	(localhost) 警告メッセージの送信先のマシンです。
alarm.msgalarmnoticeport	(25) 警告メッセージの送信時に接続する SMTP ポートです。
alarm.msgalarmnoticercpt	(Postmaster@localhost) 警告通知の送信先です。
alarm.msgalarmnoticesender	(Postmaster@localhost) 警告の差出人のアドレスです。
alarm.diskavail.msgalarmdescription	(利用可能なメールパーティションのディスク容量のパーセンテージ) ディスク利用度の警告についての説明フィールドのテキストです。
alarm.diskavail.msgalarmstatinterval	(3600) ディスク利用度のチェック間隔 (秒) です。ディスク使用状況をチェックしない場合は、0 に設定します。
alarm.diskavail.msgalarmthreshold	(10) 利用可能なディスク容量の割合です。この値を下回ると警告が送信されます。
alarm.diskavail.msgalarmthresholddirection	(-1) 利用可能なディスク容量がしきい値 (-1) より低いか、しきい値 (1) より高いときに警告を発行するかどうかを指定します。
alarm.diskavail.msgalarmwarninginterval	(24) ディスク利用度の警告が繰り返される間隔 (時) です。
alarm.serverresponse.msgalarmdescription	(サーバーの応答時間を表す秒数)。サーバーの応答警告についての説明フィールドのテキストです。
alarm.serverresponse.msgalarmstatinterval	(600) サーバー応答のチェックの間隔 (秒) です。サーバーの応答を確認しない場合は、0 に設定します。
alarm.serverresponse.msgalarmthreshold	(10) サーバー応答時間 (秒) がこの値を超えると、警告が発行されます。
alarm.serverresponse.msgalarmthresholddirection	(1) サーバー応答時間がしきい値より大きい (1) か、しきい値より小さい (-1) ときに、警告を発行するかどうかを指定します。
alarm.serverresponse.msgalarmwarninginterval	(24) サーバー応答警告が繰り返される間隔 (時) です。