Fault Management Architecture 용어
다음 표는 이 문서에서 사용된 Fault Management Architecture 용어에 대한 설명을 제공합니다.
|
|
CRU
|
CRU는 메모리 DIMM과 같은 자가 교체 가능 장치입니다.
|
진단 엔진
|
Oracle Linux FMA는 서비스 프로세서에 있는 진단 엔진을 활용하여 mcelog에서 생성된 오류를 포함한 하드웨어 이벤트 ereport를 처리합니다. Oracle ILOM Fault Management Architecture에서 지원되는 진단 엔진 목록은 Oracle ILOM 설명서를 참조하십시오.
|
오류 보고서(Ereport)
|
오류 보고서는 오류 이벤트를 설명하며, 원시 장치 및 오류 유형 정보가 있어서 Fault Manager가 오류를 진단하고 적절한 결함 진단 메시지를 만들 수 있습니다.
|
결함
|
결함은 하드웨어 구성 요소가 있지만 Fault Manager를 통해 하나 이상의 문제가 진단되어 사용할 수 없거나 성능이 저하된 상태임을 나타냅니다. 시스템이 추가적으로 손상되지 않도록 구성 요소가 사용 안함으로 설정되었습니다.
|
결함 사례
|
문제를 진단할 때 Fault Manager는 문제를 참조할 수 있도록 사례 ID(UUID로 표현됨)를 포함한 결함 진단 메시지를 기록합니다.
|
FRU
|
FRU는 프로세서와 같은 현장 교체 가능 장치입니다.
|
레이블
|
위치 문자열(FRU 레이블이라고도 함). 예를 들어 "/SYS/MB/P1"은 시스템의 마더보드에 위치한 프로세서 #1을 나타냅니다. 따옴표로 묶인 값은 Oracle ILOM에서 봤을 때 물리적 하드웨어의 레이블과 일치합니다.
|
기계 검사 이벤트
|
하드웨어에서 감지하여 OS로 보고한 플랫폼 오류입니다. 보고된 오류는 수정 가능/수정 불가능, 복구 가능, 치명적 유형일 수 있습니다. Linux에서 mcelog는 이 오류를 캡처합니다.
|
mcelog
|
x86 Linux 시스템에서 mcelog는 오류 처리 및 예측적 실패 분석을 제공합니다. mcelog 데몬은 CPU 및 메모리 기계 검사 이벤트를 처리하고 구성 가능한 오류 임계값에 준하여 작업을 실행합니다. 잘못된 메모리 페이지 폐기, CPU 코어 오프라인 전환, 자동 캐시 오류 처리 등 작업 범위를 구성할 수 있습니다. 사용자 정의 작업도 구성할 수 있습니다.
Oracle Linux FMA는 mcelog에서 처리하여 mcelog 로그 파일에 저장한 오류를 캡처하고, 표준 Oracle 결함 형식으로 변환하고, 호스트와 Oracle ILOM 양쪽에서 동기화된 결함 관리 데이터베이스에 오류를 추가합니다.
|
페이지 폐기
|
최신 Linux OS의 커널 기능으로, 결함이 있는 물리적 메모리 위치에 해당하는 OS 메모리 페이지를 서비스에서 제거하는 것입니다. 이 기능은 시스템 가용성 향상에 도움이 됩니다.
|
사전 예방적 자가 치유
|
사전 예방적 자가 치유는 소프트웨어 및 하드웨어 결함 상태를 자동으로 진단하고 보고하며 처리하기 위한 Fault Management Architecture이자 방법론입니다. 사전 예방적 자가 치유는 하드웨어 또는 소프트웨어 문제를 디버깅하는 데 필요한 시간을 단축시켜 주며 관리자 또는 Oracle Services 담당자에게 각 결함에 대한 자세한 데이터를 제공합니다. 이 구조는 Linux mcelog 이벤트 관리 프로토콜, Fault Manager, 호스트 OS에서 수신된 오류를 표준 FMA 결함 사례로 처리하는 서비스 프로세서 기반의 진단 엔진으로 구성됩니다.
|
SP(서비스 프로세서)
|
대부분의 Oracle 서버에는 전원 배정/제어, 시스템 건전성 모니터링, 오류 보고 및 결함 진단을 비롯한 FMA 활동 등 섀시 기능을 제어하는 서비스 프로세서가 제공됩니다.
|
UUID(범용 고유 식별자)
|
UUID는 시스템 세트에서 문제를 고유하게 식별하는 데 사용됩니다.
|
|