Sun StorEdge Availability Suite용 Sun Cluster Geographic Edition 데이터 복제 설명서

Sun StorEdge Availability Suite 3.2.1 데이터 복제를 사용하는 시스템의 클러스터 실패 검출

이 절에서는 기본 또는 보조 클러스터에서 실패가 감지될 때 발생하는 내부 프로세스에 대해 설명합니다.

기본 클러스터 실패 감지

주어진 보호 그룹에 대한 기본 클러스터가 실패하면 파트너쉽의 보조 클러스터가 실패를 감지합니다. 실패하는 클러스터가 둘 이상의 파트너쉽의 구성원일 수 있으며, 이 경우 복수 실패 감지가 발생합니다.

보호 그룹의 전체 상태가 Unknown 상태로 변경될 때 다음 작업이 나타납니다.

하트비트 실패가 파트너 클러스터에 의해 감지됩니다.
하트비트가 비상 모드로 활성화되어 하트비트 손실이 일시적 현상이 아니며 기본 클러스터가 실패했음을 확인합니다. 하트비트 메커니즘이 기본 클러스터를 계속 재시도하는 동안 하트비트는 이 기본 시간초과 간격 중에 OK 상태를 유지합니다. 하트비트 플러그인만이 Error 상태에 표시됩니다.

하트비트의 Query_interval 등록 정보를 사용하여 쿼리 간격을 설정합니다. 사용자가 구성한 네 번의 Query_interval (세 번의 재시도와 한번의 비상 모드 검사) 후에 하트비트가 계속 실패하는 경우 하트비트 손실 이벤트가 생성되고 시스템 로그에 기록됩니다. 기본 간격을 사용할 때 비상 모드 재시도 작동이 약 9분 동안 하트비트 손실 통지를 지연시킬 수 있습니다. 그래픽 사용자 인터페이스(GUI)와 geoadm status 명령 출력에 메시지가 표시됩니다.

로깅에 대한 자세한 내용은 Sun Cluster Geographic Edition 시스템 관리 설명서의 Sun Cluster Geographic Edition 로그 메시지 보기를 참조하십시오.

주어진 보호 그룹에 대한 보조 클러스터가 실패하면 동일한 파트너쉽의 클러스터가 실패를 감지합니다. 실패한 클러스터가 둘 이상의 파트너쉽의 구성원일 수 있으며, 이 경우 복수 실패 감지가 발생합니다.

실패 감지 중에 다음 조치가 발생합니다.

하트비트 실패가 파트너 클러스터에 의해 감지됩니다.
보조 클러스터가 중지되었는지 확인하기 위해 하트비트가 비상 모드로 활성화됩니다.
클러스터가 관리자에게 통지합니다. 시스템이 실패한 클러스터가 보조로서 작용 중이었던 모든 보호 그룹을 감지합니다. 이들 보호 그룹의 상태가 Unknown이 됩니다.