Messaging Server 提供兩個程序 watcher 和 msprobe,以監視多種系統服務。watcher 監視伺服器當機並在需要時重新啟動伺服器。msprobe 監視伺服器當機 (未回應)。具體來說,msprobe 監視以下內容︰
伺服器回應時間。msprobe 使用協定指令連線啟用的伺服器,並測量其回應時間。如果回應時間超出警示警告臨界值,則會傳送警示郵件 (請參閱27.8.9.1 警報郵件 至伺服器,或伺服器回應時間超出指定的逾時時間,則會重新啟動伺服器。 伺服器回應時間記錄在計數器資料庫中,並被記錄至預設記錄檔中。counterutil 可用於顯示伺服器回應時間統計資料 (27.8.3 counterutil)。
以下伺服器由 msprobe 監視︰imap、pop、http、cert、job_controller、smtp、lmtp、mmp 以及 ens。smtp 或 lmtp 不回應時,派送程式會重新啟動。ens 無法自動重新啟動。
磁碟使用率。msprobe 檢查每個郵件儲存分割區的磁碟可用性和使用率。具體來說,它檢查郵件儲存 mboxlist 資料庫目錄和 MTA 佇列目錄。如果磁碟使用率超過配置的臨界值,則將傳送警報郵件。磁碟大小和使用率將記錄在計數器資料庫中並被記錄到預設記錄檔中。管理員可以使用 counterutil 公用程式 (請參閱 27.8.3 counterutil) 以顯示磁碟使用率統計資料。
郵件儲存 mboxlist 資料庫記錄檔累積。記錄檔累積表明出現 mboxlist 資料庫錯誤。msprobe 計算使用中記錄檔數,並且如果使用中記錄檔數大於臨界值,msprobe 會將嚴重錯誤訊息記錄至 default 記錄檔,以告知管理員重新啟動伺服器。如果已啟用 autorestart (local.autorestart 設定為 yes),則儲存常駐程式會重新啟動。
watcher 和 msprobe 由 configutil 選項控制 (顯示在表 27–5 中)。詳細資訊可以在4.5 自動重新啟動失敗或無回應的服務中找到
表 27–5 msprobe 和 watcher configutil 選項
選項 |
說明 |
---|---|
啟用伺服器自動重新啟動。自動重新啟動失敗當機的服務。預設值:no |
|
失敗重新嘗試逾時。如果伺服器在指定時間內失敗兩次以上,系統將停止重新啟動伺服器的嘗試。該值 (設定為秒) 應設定為長於 msprobe 間隔 (local.schedule.msprobe) 的時間段。預設值:600 秒 |
|
特定伺服器重新啟動之前的逾時。service 可以為 imap、pop、http、cert、job_controller、smtp、lmtp、mmp 或 ens。 預設值:使用 service.readtimeout |
|
警告訊息記錄至 default 記錄檔之前特定伺服器無回應的秒數。service 可以為 imap、pop、http、cert、job_controller、smtp、lmtp、mmp 或 ens。 預設值:使用 local.probe.warningthreshold |
|
警告訊息記錄到 default 記錄檔之前伺服器無回應的秒數。 預設值:5 秒 |
|
MTA 佇列目錄,用於檢查佇列大小是否超出 alarm.diskavail.msgalarmthreshold 定義的臨界值。 預設值:無 |
|
重新啟動伺服器前伺服器無回應的時間。請參閱 local.schedule.msprobe。 預設值:10 秒 |
|
msprobe 執行排程。crontab 樣式排程字串 (請參閱表 20–10) 請注意,預設會自動設定此字串。請參閱4.6.2 預先定義的自動作業。 若要停用:請將 local.schedule.msprobe.enable 設定為 NO。 |
|
啟用監視服務失敗的 watcher。(IMAP、POP、HTTP、工作控制器、派送程式、郵件儲存 (stored)、imsched 和 MMP。(LMTP/SMTP 伺服器由派送程式監視,LMTP/SMTP 用戶端由 job_controller 監視。)將指示特定失敗的錯誤訊息記錄到預設記錄檔中。預設值:開啟 |
msprobe 可以採用電子郵件形式向 Postmaster (請參閱27.6.1.2 監視 imapd、popd 和 httpd) 發出警示,以警告指定狀況。以下是超出特定臨界值時傳送的電子郵件警報之範例:
Subject: ALARM: server response time in seconds of “ldap_siroe.com_389” is 10 Date: Tue, 17 Jul 2001 16:37:08 -0700 (PDT) From: postmaster@siroe.com To: postmaster@siroe.com Server instance: /opt/SUNWmsgsr Alarmid: serverresponse Instance: ldap_siroe_europa.com_389 Description: server response time in seconds Current measured value (17/Jul/2001:16:37:08 -0700): 10 Lowest recorded value: 0 Highest recorded value: 10 Monitoring interval: 600 seconds Alarm condition is when over threshold of 10 Number of times over threshold: 1 |
可以指定 msprobe 監視磁碟和伺服器效能的頻率,以及在何種情況下傳送警報。此作業可透過使用 configutil 指令設定警報參數來完成。表 27–6 顯示有用的警報參數以及其預設設定。請參閱「Sun Java System Messaging Server 6.3 Administration Reference」中的「configutil Parameters」。
表 27–6 有用的警報郵件 configutil 參數
參數 |
說明 (括號中為預設值) |
---|---|
(localhost) 您向其傳送警告郵件的機器。 |
|
(25) 傳送警報郵件時要連線至的 SMTP 連接埠。 |
|
(Postmaster@localhost) 傳送警報通知的對象。 |
|
(Postmaster@localhost) 警報寄件者的位址。 |
|
(郵件分割區磁碟可用空間百分比。)磁碟可用性警報描述欄位的文字。 |
|
(3600) 磁碟可用性檢查之間的間隔時間 (以秒為單位)。設定為 0 可停用對磁碟使用率的檢查。 |
|
(10) 可用磁碟空間的百分比,低於該值時將傳送警報。 |
|
(-1) 指定當可用磁碟空間低於臨界值 (-1) 或高於臨界值 (1) 時是否發出警報。 |
|
(24)後來重複發出磁碟可用性警報的間隔時間 (以小時為單位)。 |
|
(伺服器回應時間 [以秒為單位]。)伺服器回應警報描述欄位的文字。 |
|
(600) 伺服器回應檢查之間的間隔時間 (以秒為單位)。設定為 0 可停用對伺服器回應的檢查。 |
|
(10) 如果伺服器回應時間 (以秒為單位) 超出該值,則發出警報。 |
|
(1) 指定當伺服器回應時間大於 (1) 臨界值或小於 (-1) 臨界值時是否發出警報。 |
|
(24) 後來重複發出伺服器回應警報的間隔時間 (以小時為單位)。 |