지속적 결함에 대한 기준 정의

언어:

리소스의 일시적 결함이 원인인 중단을 최소화하기 위해 결함 모니터는 해당 결함에 대한 응답으로 리소스를 다시 시작합니다. 지속적 결함의 경우 리소스 다시 시작 작업보다 번거로운 작업이 필요합니다.

페일오버 리소스의 경우 결함 모니터는 리소스를 다른 노드로 페일오버합니다.
확장 가능 리소스의 경우 결함 모니터는 리소스를 오프라인으로 전환합니다.

리소스의 전체 실패 수가 지정된 재시도 간격 내에서 지정된 임계값을 초과하는 경우 결함 모니터는 결함을 일시적인 것으로 처리합니다. 일시적 결함 기준을 정의하면 클러스터의 성능 특성 및 가용성 요구 사항을 수용하도록 임계값 및 재시도 간격을 설정할 수 있습니다.

리소스의 전체 실패 및 부분 실패

결함 모니터는 일부 결함을 리소스의 전체 실패로 처리합니다. 일반적으로 전체 실패는 전체 서비스 손실을 일으킵니다. 다음 실패는 전체 실패의 예입니다.

데이터 서비스 서버에 대한 예기치 못한 프로세스 종료
결함 모니터가 데이터 서비스 서버에 연결할 수 없음

전체 실패로 인해 결함 모니터는 재시도 간격 내에서 전체 실패 수를 1씩 늘립니다.

결함 모니터는 기타 결함을 리소스의 부분 실패로 처리합니다. 부분 실패는 전체 실패보다 심각하지 않으며 일반적으로 전체 서비스 손실이 아닌 서비스 성능 저하를 일으킵니다. 예를 들어, 결함 모니터 프로브가 시간 초과되기 전 데이터 서비스 서버로부터 응답이 완료되지 않을 경우 부분 실패입니다.

부분 실패로 인해 결함 모니터는 재시도 간격 내에서 전체 실패 수를 소량씩 늘립니다. 부분 실패는 재시도 간격 동안 계속 누적됩니다.

다음과 같은 부분 실패 특성은 데이터 서비스에 따라 달라집니다.

결함 모니터가 부분 실패로 처리하는 결함의 유형
각 부분 실패가 전체 실패 수에 추가하는 소량

데이터 서비스의 결함 모니터가 감지하는 결함에 대한 자세한 내용은 데이터 서비스 설명서를 참조하십시오.

다른 등록 정보에 대한 임계값 및 재시도 간격의 종속성

결함이 있는 리소스의 단일 다시 시작에 대해 필요한 최대 시간은 다음 등록 정보 값의 합계입니다.

Thorough_probe_interval 시스템 등록 정보
Probe_timeout 확장 등록 정보

재시도 간격 내에서 임계값에 도달할 수 있을 만큼 충분한 시간이 허용되도록 하려면 다음 표현식을 사용하여 재시도 간격 및 임계값에 대한 값을 계산합니다.

retry_interval >= 2 x 임계값 × (thorough_probe_interval + probe_timeout)

인자 2는 리소스가 즉시 페일오버되거나 온라인으로 전환되지 않도록 하는 부분 프로브 실패를 나타냅니다.

임계값 및 재시도 간격 설정을 위한 시스템 등록 정보

임계값 및 재시도 간격을 설정하려면 다음과 같은 리소스 시스템 등록 정보를 설정합니다.

임계값을 설정하려면 Retry_count 시스템 등록 정보를 허용되는 최대 전체 실패 수로 설정합니다.
재시도 간격을 설정하려면 Retry_interval 시스템 등록 정보를 필요한 간격(초)으로 설정합니다.