故障管理体系结构术语
下表包含本文档中使用的故障管理体系结构术语的说明。
|
|
CRU
|
CRU 是客户可更换单元(如内存 DIMM)。
|
诊断引擎
|
Oracle Linux FMA 利用驻留在服务处理器上的诊断引擎处理硬件事件 ereport(包括 mcelog 生成的 ereport)。有关 Oracle ILOM 故障管理体系结构中支持的诊断引擎的列表,请参见 Oracle ILOM 文档。
|
错误报告 (Error report, Ereport)
|
错误报告描述了错误事件。其中包含原始设备和错误类型信息,以便 Fault Manager 可以诊断错误并创建相应的故障诊断消息。
|
故障
|
故障表示硬件组件存在但无法使用或已降级,因为 Fault Manager 已诊断出一个或多个问题。该组件已被禁用,以防止对系统造成进一步的损坏。
|
故障案例
|
诊断出问题后,Fault Manager 会记录一条故障诊断消息,其中包含用于引用此问题的案例 ID(由 UUID 表示)。
|
FRU
|
FRU 是现场可更换单元(如处理器)。
|
标签
|
一个位置字符串(也称为 FRU 标签),如 "/SYS/MB/P1",表示位于系统主板上的处理器 #1。引号中的值用于与物理硬件上的标签(或在 Oracle ILOM 中查看时)进行匹配。
|
计算机检查事件
|
由硬件检测到并报告给 OS 的平台错误。报告的错误可能是可更正的或不可更正的、可恢复的或致命的。在 Linux 中,mcelog 捕获这些错误。
|
mcelog
|
在 x86 Linux 系统中,mcelog 提供错误处理和故障预警分析。mcelog 守护进程处理 CPU 和内存计算机检查事件并根据可配置的错误阈值执行操作。可以配置一系列操作,包括错误内存页面回收、CPU 核心脱机和自动高速缓存错误处理。也可以配置用户定义的操作。
Oracle Linux FMA 捕获由 mcelog 处理并存储在 mcelog 日志文件中的错误,将其转换为标准 Oracle 故障格式,并将其添加到主机和 Oracle ILOM 上提供的同步故障管理数据库中。
|
页面回收
|
较新的 Linux OS 中的一个内核工具,在该工具中,将从服务中删除与有缺陷的物理内存位置对应的 OS 内存页面(如有可能)。该功能有助于提高系统可用性。
|
主动自我修复
|
主动自我修复是一种自动诊断、报告和处理软件和硬件故障状况的故障管理体系结构和方法。主动自我修复可减少调试硬件或软件问题所需的时间,并为系统管理员或 Oracle 服务人员提供有关每种故障的详细数据。该体系结构包括 Linux mcelog 事件管理协议、Fault Manager 和基于服务处理器的诊断引擎,将从主机 OS 接收的错误处理成标准 FMA 故障案例。
|
服务处理器 (Service processor, SP)
|
大多数 Oracle 服务器提供服务处理器,用于控制电源预算和控制、系统运行状况监视和 FMA 活动(包括错误报告和故障诊断)等机箱功能。
|
通用唯一标识符 (Universal unique identifier, UUID)
|
UUID 用于在任何一组系统中唯一标识某个问题。
|
|