Go to main content
Oracle® Linux Fault Management Architecture 소프트웨어 사용 설명서

인쇄 보기 종료

업데이트 날짜: 2015년 10월
 
 

Fault Management Architecture 개요

Oracle Linux FMA(Fault Management Architecture)는 시스템 관리자가 호스트에서 Linux 커널을 통해 감지된 결함을 확인하고 조치를 취하여 해결할 수 있도록 기존의 Linux 오류 감지 및 복구 방식을 보완한 구성 요소로서, 서비스 프로세서의 Oracle ILOM Fault Manager를 사용하여 호스트에서 캡처된 CPU 및 메모리 오류를 진단하며 표준 결함 형식으로 출력하여 결함 관리 데이터베이스에 저장합니다.

이 데이터베이스는 모든 감지된 결함(Oracle Linux FMA와 Oracle ILOM FMA에서 캡처한 것)의 수퍼 세트를 포함하며 호스트와 서비스 프로세서 양쪽에서 유지 관리됩니다.

Oracle Linux 운영체제에서 CPU 및 메모리 오류는 커널 레벨에서 기계 검사 이벤트로 생성됩니다. 이 이벤트는 Linux mcelog 데이터베이스에 저장됩니다. Linux mcelog 데몬 mcelogd는 데이터베이스에 저장된 오류를 검색하여 사람이 읽을 수 있는 메시지로 변환하고, 이는 콘솔, mcelog 파일(/var/log/mcelog), Linux 시스템 로그에 출력됩니다. mcelog 데몬은 또한 구성 파일에 저장된 규칙 세트를 기준으로 조치를 수행합니다. 예를 들어 이러한 조치에는 서비스에서 수정할 수 없는 오류가 포함된 메모리 페이지를 처분하는 조치가 포함됩니다.

mcelog에 의해 기록된 정보만으로 잘못된 구성 요소(예: 메모리 DIMM)를 식별하기에 충분하지 않을 수 있습니다. Oracle Linux FMA Fault Manager 데몬 fmd는 mcelog 파일에 저장된 오류를 스캔/검색하고 Oracle ILOM에서 지원되는 ereport 형식으로 오류를 변환합니다. 그런 다음 내부 호스트-ILOM 상호 연결 포트를 사용하여 서비스 프로세서에 ereport를 전달합니다. Oracle ILOM Fault Manager는 ereport를 사용하여 결함을 진단합니다. Oracle ILOM은 고유의 결함 관리 데이터베이스에 결함을 기록하고 Linux 호스트에 상주하는 결함 관리 데이터베이스로 복사본을 보냅니다.

이 방법에 따라 호스트 OS나 Oracle ILOM 어느 쪽에서든 비슷한 세트의 결함 관리 명령을 사용하여 데이터베이스의 모든 시스템 하드웨어 결함을 확인하고 조치를 취할 수 있습니다.

image:Linux FMA 작동 방식을 보여주는 그림입니다.

Oracle Linux를 실행하는 Oracle 서버 플랫폼에는 오류 감지기, 진단 엔진, 응답 에이전트가 포함되어 있습니다. 오류 감지기 및 응답 에이전트는 Oracle Linux 호스트에 있습니다. 진단 엔진은 서버의 서비스 프로세서에 상주합니다.

  • 오류 감지기는 시스템의 오류를 감지하고 즉각적으로 필요한 처리를 수행합니다. 또한 적절하게 정의된 오류 보고서인 ereport를 진단 엔진에 생성합니다. Linux에서 mcelog 데몬은 오류를 감지하며, Oracle Linux Fault Management 소프트웨어는 오류를 수집하고 ereport 형식으로 재지정하여 결함 진단을 위해 서비스 프로세서로 전달합니다.

  • 서비스 프로세서에 위치한 진단 엔진은 보고서를 해석하여 고장 또는 결함이 있는지 여부를 확인합니다. 확인이 끝나면 진단 엔진은 문제의 원인일 수 있는 리소스 또는 리소스 세트를 설명하는 의심 목록을 만듭니다. 리소스에는 연관된 FRU(현장 교체 가능 장치) 또는 레이블이 있을 수도 있고 그렇지 않을 수도 있습니다.

    의심 목록에 여러 의심 항목이 포함된 경우, 예를 들면 진단 엔진이 단일 의심 항목을 격리시킬 수 없는 경우에는 각 의심 항목이 핵심 의심 항목이 될 가능성에 대한 점수가 의심 항목에 지정됩니다. 이 목록의 가능성 점수를 모두 더하면 100%가 됩니다.

    오류 감지기와 진단 엔진은 서비스 프로세서의 Fault Manager 데몬에 의해 연결됩니다. 이 데몬은 다음 그림과 같이 다양한 구성 요소 간의 멀티플렉서로 작동합니다.

    image:이 그림은 결함 관리 데몬, 오류 감지기, 진단 엔진 간의 상호 관계를 보여줍니다.
  • 응답 에이전트는 오류 유형을 기준으로 조치를 수행하려고 시도합니다. 호스트 측에서 mcelog 데몬은 응답 에이전트로 작동합니다. 메시지 기록과 메모리 페이지 폐기가 응답에 해당합니다.

Oracle Linux Fault Manager 데몬 fmd(1M)는 그 자체로 서비스입니다. 서비스를 사용으로 설정하고 스크립트 없이 데몬으로 제어하거나 관리성 향상을 위해 init.d 스크립트로 제어할 수 있습니다. 이 버전의 Oracle Linux FMA에서 지원되는 결함 관리 명령은 다음과 같습니다.

  • fmadm(1M) - 관리자와 서비스 담당자가 Oracle Linux Fault Manager, fmd(1M)로 유지 관리되는 결함을 확인하고 해결하는 데 사용됩니다.

  • fmdump(1M) - Oracle Linux Fault Manager, fmd(1M)와 연관된 로그 파일의 내용을 표시하는 데 사용됩니다.