Go to main content
Oracle® Linux 故障管理体系结构软件用户指南

退出打印视图

更新时间: 2015 年 10 月
 
 

故障管理体系结构术语

下表包含本文档中使用的故障管理体系结构术语的说明。

术语
说明
CRU
CRU 是客户可更换单元(如内存 DIMM)。
诊断引擎
Oracle Linux FMA 利用驻留在服务处理器上的诊断引擎处理硬件事件 ereport(包括 mcelog 生成的 ereport)。有关 Oracle ILOM 故障管理体系结构中支持的诊断引擎的列表,请参见 Oracle ILOM 文档。
错误报告 (Error report, Ereport)
错误报告描述了错误事件。其中包含原始设备和错误类型信息,以便 Fault Manager 可以诊断错误并创建相应的故障诊断消息。
故障
故障表示硬件组件存在但无法使用或已降级,因为 Fault Manager 已诊断出一个或多个问题。该组件已被禁用,以防止对系统造成进一步的损坏。
故障案例
诊断出问题后,Fault Manager 会记录一条故障诊断消息,其中包含用于引用此问题的案例 ID(由 UUID 表示)。
FRU
FRU 是现场可更换单元(如处理器)。
标签
一个位置字符串(也称为 FRU 标签),如 "/SYS/MB/P1",表示位于系统主板上的处理器 #1。引号中的值用于与物理硬件上的标签(或在 Oracle ILOM 中查看时)进行匹配。
计算机检查事件
由硬件检测到并报告给 OS 的平台错误。报告的错误可能是可更正的或不可更正的、可恢复的或致命的。在 Linux 中,mcelog 捕获这些错误。
mcelog
在 x86 Linux 系统中,mcelog 提供错误处理和故障预警分析。mcelog 守护进程处理 CPU 和内存计算机检查事件并根据可配置的错误阈值执行操作。可以配置一系列操作,包括错误内存页面回收、CPU 核心脱机和自动高速缓存错误处理。也可以配置用户定义的操作。
Oracle Linux FMA 捕获由 mcelog 处理并存储在 mcelog 日志文件中的错误,将其转换为标准 Oracle 故障格式,并将其添加到主机和 Oracle ILOM 上提供的同步故障管理数据库中。
页面回收
较新的 Linux OS 中的一个内核工具,在该工具中,将从服务中删除与有缺陷的物理内存位置对应的 OS 内存页面(如有可能)。该功能有助于提高系统可用性。
主动自我修复
主动自我修复是一种自动诊断、报告和处理软件和硬件故障状况的故障管理体系结构和方法。主动自我修复可减少调试硬件或软件问题所需的时间,并为系统管理员或 Oracle 服务人员提供有关每种故障的详细数据。该体系结构包括 Linux mcelog 事件管理协议、Fault Manager 和基于服务处理器的诊断引擎,将从主机 OS 接收的错误处理成标准 FMA 故障案例。
服务处理器 (Service processor, SP)
大多数 Oracle 服务器提供服务处理器,用于控制电源预算和控制、系统运行状况监视和 FMA 活动(包括错误报告和故障诊断)等机箱功能。
通用唯一标识符 (Universal unique identifier, UUID)
UUID 用于在任何一组系统中唯一标识某个问题。