Oracle® Solaris 11.2에서 결함 관리

인쇄 보기 종료

업데이트 날짜: 2014년 7월
 
 

결함 관리 개요

Oracle Solaris 결함 관리 기능에는 다음과 같은 구성 요소가 포함됩니다.

  • 복원력이 뛰어난 오류 처리기를 구축하기 위한 구조

  • 구조화된 오류 원격 측정

  • 자동화된 진단 소프트웨어

  • 응답 에이전트

  • 구조화된 메시징

CPU, 메모리 및 I/O 부속 시스템, Oracle Solaris ZFS 및 여러 장치 드라이버 등 소프트웨어 스택의 많은 부분이 결함 관리에 참여합니다.

FMA는 고장 및 결함에 모두 도움이 될 수 있습니다.

  • 고장 – 고장이 발생한 구성 요소는 이전까지 작동했지만 더 이상 작동하지 않는 구성 요소입니다.

  • 결함 - 결함이 있는 구성 요소는 처음부터 올바르게 작동하지 못한 구성 요소입니다.

하드웨어에는 고장 및 결함이 모두 발생할 수 있습니다. 대부분의 소프트웨어 문제는 자체 결함 문제이거나 구성 문제로 인해 비롯됩니다. 결함 관리 및 시스템 서비스는 상호 작용하는 경우가 많습니다. 예를 들어, 하드웨어 문제로 인해 서비스가 중지되거나 다시 시작될 수 있습니다. SMF 서비스 오류가 발생하면 FMA가 결함을 보고할 수 있습니다.

결함 관리 스택에는 오류 감지기, 진단 엔진 및 응답 에이전트가 포함됩니다.

오류 감지기

오류 감지기는 시스템의 오류를 감지하고 즉각적으로 필요한 처리를 수행합니다. 오류 감지기는 적절하게 정의된 보고서인 ereports를 진단 엔진에 발행합니다.

진단 엔진

진단 엔진은 ereports를 해석하여 고장 또는 결함이 시스템에 있는지 여부를 확인합니다. 확인이 끝나면 진단 엔진은 문제의 원인일 수 있는 리소스 또는 리소스 세트를 설명하는 의심 목록을 발행합니다. 리소스에는 연관된 FRU(현장 대체 가능 장치), 레이블 또는 ASRU(자동 시스템 재구성 장치)가 포함될 수 있습니다. FRU가 교체될 때까지 문제를 완화하기 위해 ASRU를 서비스에서 즉시 제거할 수 있습니다.

의심 목록에 여러 의심 항목이 포함된 경우(예를 들어, 진단 엔진이 단일 의심 항목을 격리시킬 수 없는 경우)에는 각 의심 항목에 주요 의심 항목이 될 수 있는 가능성 점수가 지정됩니다. 이 목록의 가능성 점수를 모두 더하면 100%가 됩니다. 의심 목록은 응답 에이전트가 해석합니다.

응답 에이전트

응답 에이전트는 의심 목록을 기준으로 작업을 시도합니다. 메시지 기록, CPU 스트랜드를 오프라인으로 전환, 메모리 페이지 사용 중단, I/O 장치 사용 중단 등이 응답에 해당합니다.

각 감지기, 진단 엔진 및 응답 에이전트는 Fault Manager 데몬 fmd에 의해 연결됩니다. 이 데몬은 다음 그림과 같이 다양한 구성 요소 간의 멀티플렉서로 작동합니다.

그림 1-1  Fault Management Architecture 구성 요소

image:결함 관리자 데몬, 오류 감지기, 진단 엔진 및 응답 에이전트 간의 관계를 보여줍니다.

결함 관리자에서 관리되는 문제의 수명 주기에는 다음과 같은 단계가 포함될 수 있습니다.

진단

결함 관리자에서 새로운 문제가 진단되었습니다. 진단에는 하나 이상의 의심 항목에 대한 목록이 포함됩니다. 의심 항목은 다른 추가 오류가 발생하지 않도록 방지하기 위해 자동으로 격리되었을 수 있습니다. 문제는 이벤트 페이로드에서 UUID로 식별되고 이 문제의 해결 수명 주기를 기술하는 추가 이벤트에서 해당 UUID가 표시됩니다.

업데이트

문제 진단에서 하나 이상의 의심되는 리소스가 복구, 교체 또는 결함 해지되었거나 리소스에 다시 결함이 발생했습니다. 의심 목록에는 여전히 하나 이상의 결함이 있는 리소스가 포함됩니다. fmadm 명령을 실행하여 복구를 수행했거나 시스템에서 부품의 일련 번호 변경과 같은 복구 상태가 감지되었을 수도 있습니다. fmadm 명령은 Chapter 3, 결함 복구에 설명되어 있습니다.

복구

문제 진단의 모든 의심되는 리소스가 복구, 해결 또는 결함 해지되었습니다. 일부 또는 모든 리소스가 아직 격리된 상태일 수 있습니다.

해결

문제 진단의 모든 의심되는 리소스가 복구, 해결 또는 결함 해지되었고 더 이상 격리된 상태가 아닙니다. 예를 들어, 의심 항목이었고 오프라인으로 전환되었던 CPU는 이제 다시 온라인 상태로 전환됩니다. 리소스의 오프라인 및 온라인 전환은 일반적으로 자동으로 수행됩니다.

결함 관리자 데몬은 SMF(서비스 관리 기능) 서비스입니다. svc:/system/fmd 서비스는 기본적으로 사용으로 설정됩니다. SMF 서비스에 대한 자세한 내용은 Oracle Solaris 11.2의 시스템 서비스 관리 를 참조하십시오. 결함 관리자 데몬에 대한 자세한 내용은 fmd(1M) 매뉴얼 페이지를 참조하십시오.

fmadm config 명령은 결함 관리자에서 각 모듈의 이름, 설명 및 상태를 보여줍니다. 이러한 모듈은 시스템의 문제를 진단 및 복구합니다. fmstat 명령은 결함 통계에 표시된 것처럼 이러한 모듈에 대한 추가 정보를 보여줍니다.