msprobe 및 watcher 기능을 사용하여 모니터링 (Sun Java System Messaging Server 6 2005Q4 관리 설명서)

Sun Java System Messaging Server 6 2005Q4 관리 설명서

msprobe 및 watcher 기능을 사용하여 모니터링

Messaging Server는 여러 시스템 서비스를 모니터하기 위해 watcher 및 msprobe라는 두 가지 프로세스를 제공합니다. watcher는 서버 충돌을 관찰하고 필요에 따라 다시 시작하며 msprobe는 서버 중지(응답하지 않음)를 모니터합니다. 특히 msprobe는 다음을 모니터합니다.

서버 응답 시간.msprobe는 프로토콜 명령을 사용하여 활성화된 서버에 연결하고 응답 시간을 측정합니다. 응답 시간이 경고 알림 임계값을 초과하는 경우 경고 메시지가 서버로 전송되고( 경보 메시지 참조), 서버 응답 시간이 지정한 시간 초과 기간을 넘은 경우에는 서버가 다시 시작됩니다. 서버 응답 시간은 카운터 데이터베이스에 표시되고 기본 로그 파일에 기록됩니다. counterutil은 서버 응답 시간 통계를 표시하는 데 사용됩니다( counterutil).

msprobe는 imap, pop, http, cert, job_controller , smtp, lmtp, mmp 및 ens 서버를 모니터합니다. smtp 또는 lmtp가 응답하지 않을 때는 디스패처가 다시 시작됩니다. ens는 자동으로 다시 시작되지 않습니다.
디스크 사용.msprobe는 모든 메시지 저장소 분할 영역의 디스크 사용을 확인합니다. 특히 메일 저장소 mboxlist 데이터베이스 디렉토리와 MTA 대기열 디렉토리를 검사합니다. 디스크 사용이 구성된 임계값을 초과할 때는 경고 메시지가 전송됩니다. 디스크 크기와 사용은 카운터 데이터베이스에 표시되고 기본 로그 파일에 기록됩니다. 관리자는 counterutil 유틸리티( counterutil 참조)를 사용하여 디스크 사용 통계를 표시할 수 있습니다.
메시지 저장소 mboxlist 데이터베이스 로그 파일 누적.로그 파일 누적은 mboxlist 데이터베이스 오류를 나타냅니다. msprobe는 활성 로그 파일의 개수를 세고 그 수가 임계값보다 클 경우 msprobe에서 default 로그 파일에 중요 오류 메시지를 기록하여 관리자에게 서버를 다시 시작하도록 알립니다. autorestart가 활성화되어 있으면(local.autorestart를 yes로 설정) 저장소 데몬이 다시 시작됩니다.

watcher 및 msprobe는 표 23–5에 있는 configutil 옵션으로 제어됩니다. 자세한 내용은 실패했거나 응답이 없는 서비스의 자동 재시작을 참조하십시오.

표 23–5 msprobe 및 watcher configutil 옵션


옵션	설명
local.autorestart	서버 자동 재시작 활성화. 실패하거나 중지된 서비스를 자동으로 다시 시작합니다. 기본값: 아니요
local.autorestart.timeout	재시도 시간 초과 오류. 지정된 시간 내에 서버가 세 번 이상 실패하면 시스템은 서버 재시작 시도를 중지합니다. 이 값(초)은 `msprobe` 간격(`local.schedule.msprobe`)보다 길게 설정해야 합니다. 기본값: 600초
local.probe.service.timeout	다시 시작하기 전 특정 서버에 대한 시간 초과. `service`는 imap, pop, http, cert, job_controller, smtp, lmtp, mmp 또는 ens가 될 수 있습니다. 기본값: `service.readtimeout` 사용
local.probe.service.warningthreshold	경고 메시지가 `default` 로그 파일에 기록되기 전 특정 서버가 응답하지 않는 시간(초). `service`는 imap, pop, http, cert, job_controller, smtp, lmtp, mmp 또는 ens가 될 수 있습니다. 기본값: local.probe.warningthreshold
local.probe.warningthreshold	경고 메시지가 `default` 로그 파일에 기록되기 전 서버가 응답하지 않는 시간(초). 기본값: 5초
local.queuedir	대기열 크기가 alarm.diskavail.msgalarmthreshold에서 정의한 임계값을 초과하는 경우 검사할 MTA 대기열 디렉토리. 기본값: 없음
service.readtimeout	서버를 다시 시작하기 전 해당 서버가 응답하지 않는 시간. local.schedule.msprobe를 참조하십시오. 기본값: 10초
local.schedule.msprobe	`msprobe`에서 일정을 실행합니다. 값은 crontab 스타일의 일정 문자열입니다(표 18–10 참조).
local.watcher.enable	서비스 실패를 모니터하는 watcher를 활성화합니다. IMAP, POP, HTTP, Job Controller, 디스패처, 메시지 저장소(`stored`), `imsched` 및 MMP. LMTP/SMTP 서버는 디스패처가 모니터하며 LMTP/SMTP 클라이언트는 job_controller가 모니터합니다. 특정 실패에 대해 오류 메시지를 기본 로그 파일에 기록합니다. 기본값: on

경보 메시지

msprobe는 지정된 조건을 경고하도록 포스트마스터에게 전자 메일 형식으로 경보를 보낼 수 있습니다( imapd, popd 및 httpd 모니터 참조). 다음은 일정한 임계값을 초과할 때 보내지는 샘플 전자 메일 경보입니다.

Subject:    ALARM: server response time in seconds of “ldap_siroe.com_389” is 10
Date:    Tue, 17 Jul 2001 16:37:08 -0700 (PDT) 
From:    postmaster@siroe.com 
To:     postmaster@siroe.com 

Server instance: /opt/SUNWmsgsr
Alarmid: serverresponse 
Instance: ldap_siroe_europa.com_389 
Description: server response time in seconds 
Current measured value (17/Jul/2001:16:37:08 -0700): 10 
Lowest recorded value: 0 
Highest recorded value: 10 
Monitoring interval: 600 seconds 
Alarm condition is when over threshold of 10 
Number of times over threshold: 1

msprobe가 디스크 및 서버 성능을 모니터하는 빈도와 경보를 보내는 상황을 지정할 수 있습니다. 이렇게 하려면 configutil 명령을 사용하여 경보 매개 변수를 설정합니다. 표 23–6은 기본 설정과 함께 유용한 경보 매개 변수를 보여 줍니다. Sun Java System Messaging Server 6 2005Q4 Administration Reference의 configutil Parameters를 참조하십시오.

표 23–6 유용한 경보 메시지 configutil 매개 변수


매개 변수	설명(괄호 안의 값이 기본값임)
alarm.msgalarmnoticehost	(localhost) 경고 메일을 보낼 시스템입니다.
alarm.msgalarmnoticeport	(25) 경보 메일을 보낼 때 연결할 SMTP 포트입니다.
alarm.msgalarmnoticercpt	(Postmaster@localhost) 경보 알림을 받는 사람입니다.
alarm.msgalarmnoticesender	(Postmaster@localhost) 경보를 보낸 사람의 주소입니다.
alarm.diskavail.msgalarmdescription	(percentage mail partition diskspace available.)디스크 사용 경보의 설명 필드에 사용되는 문자열.
alarm.diskavail.msgalarmstatinterval	(3600) 디스크 가용성 검사의 간격(초)입니다. 디스크 사용 검사를 사용하지 않으려면 0으로 설정합니다.
alarm.diskavail.msgalarmthreshold	(10) 디스크 공간 가용성 비율로서 이 비율 아래로 내려가면 경보가 보내집니다.
alarm.diskavail.msgalarmthresholddirection	(-1) 경보가 디스크 공간 가용성이 임계값보다 작을 때 발생하는지(-1) 아니면 임계값보다 클 때 발생하는지(1) 여부를 지정합니다.
alarm.diskavail.msgalarmwarninginterval	(24). 디스크 가용성 경보가 반복되는 간격(시간)입니다.
alarm.serverresponse.msgalarmdescription	(server response time in seconds.)서버 응답 경보의 설명 필드에 사용되는 문자열.
alarm.serverresponse.msgalarmstatinterval	(600) 서버 응답 검사의 간격(초)입니다. 서버 응답 검사를 사용하지 않으려면 0으로 설정합니다.
alarm.serverresponse.msgalarmthreshold	(10) 서버 응답 시간(초)이 이 값을 초과할 경우 경보가 발생합니다.
alarm.serverresponse.msgalarmthresholddirection	(1) 경보가 서버 응답 시간이 임계값보다 클 때 발생하는지(1) 아니면 임계값보다 작을 때 발생하는지(-1) 여부를 지정합니다.
alarm.serverresponse.msgalarmwarninginterval	(24) 서버 응답 경보가 반복되는 간격(시간)입니다.