Sun Java System Messaging Server 6 2005Q4 관리 설명서

실패했거나 응답이 없는 서비스의 자동 재시작

Messaging Server는 서비스를 투명하게 모니터하고 서비스가 실패하거나 응답하지 않을 경우 즉, 서비스가 중지된 경우 서비스를 자동으로 다시 시작하는 watchermsprobe라는 두 개의 프로세스를 제공합니다. watcher는 서버 실패를 모니터하고 msprobe는 서버 응답 시간을 검사하여 서버 중단을 모니터합니다. 서버가 실패하거나 요청에 대한 응답이 중지되면 자동으로 다시 시작됩니다. 표 4–4를 참조하십시오.

표 4–4 watcher 및 msprobe에서 모니터하는 서비스

watcher(크래시) 

msprobe(응답하지 않은 보류) 

IMAP, POP, HTTP, Job Controller, 디스패처, 메시지 저장소(stored), imsched, MMP. LMTP/SMTP 서버는 디스패처가 모니터하며 LMTP/SMTP 클라이언트는 job_controller가 모니터합니다.

IMAP, POP, HTTP, Job Controller, 메시지 저장소(stored), imsched, ENS, LMTP, SMTP

local.watcher.enable=on(기본값)으로 설정하면 프로세스 실패와 응답하지 않는 서비스를 모니터하여 특정 실패를 나타내는 default 로그 파일에 오류 메시지를 기록합니다. 자동 서버 재시작을 활성화하려면 configutil 매개 변수 local.autorestartyes로 설정합니다. 기본적으로 이 매개 변수는 no로 설정됩니다.

메시지 저장소 서비스 중 하나가 실패하거나 중지되면 시작 시 활성화된 모든 메시지 저장소 서비스가 다시 시작됩니다. 예를 들어 imapd가 실패하면 적어도 storedimapd가 다시 시작됩니다. POP 또는 HTTP 서버 등의 다른 메일 저장소 서비스가 실행 중인 경우 해당 서비스는 그 실패 여부와 관계 없이 다시 시작됩니다.

메일 저장소 유틸리티가 실패하거나 중지되어도 자동 재시작이 작동합니다. 예를 들어 mboxutil이 실패하거나 중지되면 시스템은 모든 메시지 저장소 서버를 자동으로 다시 시작합니다. 하지만 유틸리티는 다시 시작하지 않습니다. msprobe는 10분마다 실행됩니다. 서비스 및 프로세스 재시작은 10분 내에 최대 두 번 수행됩니다(local.autorestart.timeout을 사용하여 구성 가능).

local.autorestartyes 설정 여부에 관계 없이 시스템은 서비스를 모니터하여 실패 또는 무응답 오류 메시지를 해당 콘솔로 전송하고 msg_svr_base/data/log/ watcher는 기본 포트 49994를 통해 수신하지만 local.watcher.port를 사용하여 구성할 수도 있습니다.

watcher 로그 파일은 msg_svr_base/data/log/watcher에 생성됩니다. 이 로그 파일은 로깅 시스템(롤오버 또는 제거)에서 관리하는 것이 아니며 모든 서버의 시작과 중지를 기록합니다. 로그 예는 다음과 같습니다.


watcher process 13425 started at Tue Oct 21 15:29:44 2003

Watched ’imapd’ process 13428 exited abnormally
Received request to restart:  store imap pop http
Connecting to watcher ...
Stopping http server 13440 .... done
Stopping pop server 13431 ... done
Stopping pop server 13434 ... done
Stopping pop server 13435 ... done
Stopping pop server 13433 ... done
imap server is not running
Stopping store server 13426 .... done
Starting store server .... 13457
checking store server status ...... ready
Starting imap server ..... 13459
Starting pop server ....... 13462
Starting http server ...... 13471

      

이 기능을 구성하는 방법에 대한 자세한 내용은 msprobe 및 watcher 기능을 사용하여 모니터링을 참조하십시오.

msprobeimsched로 제어됩니다. imsched가 충돌하면 watcher에서 이 이벤트를 검색하여 다시 시작(autorestart이 사용 가능한 경우)을 트리거합니다. 드물기는 하지만 imsched가 보류되는 경우 watcher에서 다시 시작하도록 하는 kill imsched_pid를 사용하여 imsched를 중지해야 할 수 있습니다.

고가용성 배포 시 자동 재시작

고가용성 배포 시 자동 재시작 기능을 사용하려면 다음 configutil 매개 변수를 설정해야 합니다.

표 4–5 HA 자동 재시작 매개 변수

매개 변수 

설명/HA 값 

local.watcher.enable

watcher를 활성화합니다. 기본값은 On입니다. 

local.autorestart

autorestart를 활성화합니다. (On) 

local.autorestart.timeout

재시도 시간 초과 오류. 지정된 시간 내에 서버가 세 번 이상 실패하면 시스템은 서버 재시작 시도를 중지합니다. HA 시스템에서 이런 상황이 발생하면 Messaging Server가 종료되고 다른 시스템으로 페일오버됩니다. 이 값(초)은 msprobe 간격(local.schedule.msprobe)보다 길게 설정해야 합니다.

local.schedule.msprobe

msprobe에서 일정을 실행합니다. crontab 스타일 일정 문자열(표 18–10 참조)로 기본값은 600초입니다.