Oracle Solaris Cluster 데이터 서비스에 대한 결함 모니터 조정

언어:

Oracle Solaris Cluster 제품과 함께 제공된 각 데이터 서비스에는 내장 결함 모니터가 있습니다. 결함 모니터는 다음 기능을 수행합니다.

데이터 서비스 서버에 대한 예기치 못한 프로세스 종료 감지
데이터 서비스 건전성 확인

결함 모니터는 데이터 서비스가 기록된 응용 프로그램을 나타내는 리소스에 포함됩니다. 데이터 서비스를 등록 및 구성할 때 이 리소스를 만듭니다. 자세한 내용은 데이터 서비스 설명서를 참조하십시오.

이 리소스의 표준 등록 정보 및 확장 등록 정보가 결함 모니터의 동작을 제어합니다. 해당 등록 정보의 기본값은 결함 모니터의 사전 설정된 동작을 결정합니다. 미리 설정된 동작은 대부분의 Oracle Solaris Cluster 설치에 적합해야 합니다. 따라서 이 사전 설정된 동작을 수정해야 하는 경우에만 결함 모니터를 조정해야 합니다.

결함 모니터를 조정할 때는 다음 작업을 수행합니다.

데이터 서비스를 등록 및 구성할 때 이러한 작업을 수행합니다. 자세한 내용은 데이터 서비스 설명서를 참조하십시오.

주 - 리소스를 포함하는 리소스 그룹을 온라인으로 전환할 때 리소스의 결함 모니터가 시작됩니다. 결함 모니터를 명시적으로 시작하지 않아도 됩니다.

결함 모니터 프로브 간격 설정

리소스가 올바르게 작동 중인지 여부를 확인하기 위해 결함 모니터는 주기적으로 이 리소스를 프로브합니다. 결함 모니터 프로브 간격은 다음과 같이 리소스 가용성 및 시스템 성능에 영향을 끼칩니다.

결함 모니터 프로브 간격은 결함을 감지하고 결함에 응답하는 데 필요한 시간에 영향을 끼칩니다. 따라서 결함 모니터 프로브 간격을 줄이면 결함을 감지하고 결함에 응답하는 데 필요한 시간도 줄어듭니다. 따라서 리소스 가용성이 향상됩니다.
각 결함 모니터 프로브는 시스템 리소스(예: 프로세서 주기 및 메모리)를 소비합니다. 따라서 결함 모니터 프로브 간격을 줄이면 시스템 성능이 저하됩니다.

또한 최적의 결함 모니터 프로브 간격은 리소스에서 결함에 응답하는 데 필요한 시간에 따라 달라집니다. 이 시간은 리소스의 복잡성으로 인해 리소스 다시 시작 등의 작업에 필요한 시간이 어떤 방식으로 영향을 받는지에 따라 달라집니다.

결함 모니터 프로브 간 간격을 설정하려면 리소스의 Thorough_probe_interval 표준 등록 정보를 필요한 간격(초)으로 설정합니다.

결함 모니터 프로브 시간 초과 설정

결함 모니터 프로브 시간 초과는 결함 모니터가 프로브에 대한 리소스의 응답을 대기하는 시간을 지정합니다. 결함 모니터가 이 시간 초과 이내에 응답을 수신하지 않을 경우 결함 모니터는 리소스를 결함이 있는 것으로 처리합니다. 리소스가 결함 모니터 프로브에 응답하는 데 필요한 시간은 결함 모니터가 리소스를 프로브하기 위해 수행하는 작업에 따라 달라집니다. 데이터 서비스의 결함 모니터가 리소스를 프로브하기 위해 수행하는 작업에 대한 자세한 내용은 데이터 서비스 설명서를 참조하십시오.

리소스가 응답하는 데 필요한 시간은 결함 모니터 또는 응용 프로그램과 관련되지 않은 다음 인자 등에 따라서도 달라집니다.

시스템 구성
클러스터 구성
시스템 로드
네트워크 트래픽 양

결함 모니터 프로브 시간 초과를 설정하려면 리소스의 Probe_timeout 확장 등록 정보를 필요한 시간 초과(초)로 설정합니다.

대부분의 리소스 유형의 결함 모니터 프로브에 대해 프로브 실행 시간이 시간 초과 제한에 가까워지면 통지를 보내도록 Timeout_threshold 등록 정보를 구성할 수도 있습니다. 이러한 통지를 통해 너무 낮게 설정되어 잘못된 페일오버를 발생시킬 수 있는 프로브 시간 초과를 식별할 수 있습니다. Timeout_threshold 등록 정보에 대한 자세한 내용은 r_properties(5) 매뉴얼 페이지를 참조하십시오.

지속적 결함에 대한 기준 정의

리소스의 일시적 결함이 원인인 중단을 최소화하기 위해 결함 모니터는 해당 결함에 대한 응답으로 리소스를 다시 시작합니다. 지속적 결함의 경우 리소스 다시 시작 작업보다 번거로운 작업이 필요합니다.

페일오버 리소스의 경우 결함 모니터는 리소스를 다른 노드로 페일오버합니다.
확장 가능 리소스의 경우 결함 모니터는 리소스를 오프라인으로 전환합니다.

리소스의 전체 실패 수가 Retry_count 표준 등록 정보에 지정된 재시도 횟수를 초과하는 경우 결함 모니터는 결함을 지속적인 것으로 처리합니다. 지속적 결함 기준을 정의하면 클러스터의 성능 특성 및 가용성 요구 사항을 수용하도록 재시도 횟수 및 재시도 간격을 설정할 수 있습니다.

이 절에서는 다음 항목에 대해 설명합니다.

리소스의 전체 실패 및 부분 실패

결함 모니터는 일부 결함을 리소스의 전체 실패로 처리합니다. 일반적으로 전체 실패는 전체 서비스 손실을 일으킵니다. 다음 실패는 전체 실패의 예입니다.

데이터 서비스 서버에 대한 예기치 못한 프로세스 종료
결함 모니터가 데이터 서비스 서버에 연결할 수 없음

전체 실패로 인해 결함 모니터는 재시도 간격 내에서 전체 실패 수를 1씩 늘립니다.

결함 모니터는 기타 결함을 리소스의 부분 실패로 처리합니다. 부분 실패는 전체 실패보다 심각하지 않으며 일반적으로 전체 서비스 손실이 아닌 서비스 성능 저하를 일으킵니다. 예를 들어, 결함 모니터 프로브가 시간 초과되기 전 데이터 서비스 서버로부터 응답이 완료되지 않을 경우 부분 실패입니다.

부분 실패로 인해 결함 모니터는 재시도 간격 내에서 전체 실패 수를 소량씩 늘립니다. 부분 실패는 재시도 간격 동안 계속 누적됩니다.

다음과 같은 부분 실패 특성은 데이터 서비스에 따라 달라집니다.

결함 모니터가 부분 실패로 처리하는 결함의 유형
각 부분 실패가 전체 실패 수에 추가하는 소량

데이터 서비스의 결함 모니터가 감지하는 결함에 대한 자세한 내용은 데이터 서비스 설명서를 참조하십시오.

다른 등록 정보에 대한 재시도 횟수 및 재시도 간격의 종속성

결함이 있는 리소스의 단일 다시 시작에 대해 필요한 최대 시간은 다음 등록 정보 값의 합계입니다.

Thorough_probe_interval 시스템 등록 정보
Probe_timeout 확장 등록 정보

재시도 간격 내에서 재시도 횟수에 도달할 수 있을 만큼 충분한 시간이 허용되도록 하려면 다음 표현식을 사용하여 재시도 간격 및 재시도 횟수에 대한 값을 계산합니다.

retry_interval >= 2 x retry_count × (thorough_probe_interval + probe_timeout)

인자 2는 리소스가 즉시 페일오버되거나 온라인으로 전환되지 않도록 하는 부분 프로브 실패를 나타냅니다.

재시도 횟수 및 재시도 간격 설정을 위한 표준 등록 정보

재시도 횟수 및 재시도 간격을 설정하려면 다음과 같은 리소스 표준 등록 정보를 설정합니다.

재시도 횟수를 설정하려면 Retry_count 표준 등록 정보를 허용되는 최대 전체 실패 수로 설정합니다.
재시도 간격을 설정하려면 Retry_interval 표준 등록 정보를 필요한 간격(초)으로 설정합니다.

리소스의 페일오버 동작 지정

리소스의 페일오버 동작은 RGM이 다음 결함에 응답하는 방법을 결정합니다.

리소스 시작 실패
리소스 중지 실패
리소스 결함 모니터 중지 실패

리소스의 페일오버 동작을 지정하려면 리소스의 Failover_mode 표준 등록 정보를 설정합니다. 이 등록 정보의 가능한 값에 대한 자세한 내용은 r_properties(5) 매뉴얼 페이지의 Failover_mode 표준 등록 정보에 대한 설명을 참조하십시오.