Oracle® ILOM 系统监视和诊断用户指南(固件发行版 3.2.x)

退出打印视图

更新时间: 2015 年 10 月
 
 

故障管理术语

术语
说明
主动自我修复
主动自我修复是一种自动诊断、报告和处理软件和硬件故障状况的故障管理体系结构和方法。主动自我修复可减少调试硬件或软件问题所需的时间,并为系统管理员或 Oracle 服务人员提供有关每种故障的详细数据。该体系结构包括事件管理协议、Fault Manager 以及故障处理代理和诊断引擎。
诊断引擎
Oracle ILOM 中的故障管理体系结构包括诊断引擎,诊断引擎会广播已检测到的系统错误的故障事件。有关 Oracle ILOM 故障管理体系结构中支持的诊断引擎的列表,请参见fmstat Report Example and Description
运行状态
Oracle ILOM 将以下运行状态与收到了其遥测信息的每个资源进行关联。Oracle ILOM 界面中显示的可能状态包括:
  • ok-硬件资源位于机箱中且正在使用中。未检测到任何已知问题。

  • unknown-硬件资源不存在或无法使用,但未检测到任何已知问题。此管理状态可能表示可疑的资源已被系统管理员禁用。

  • faulted-硬件资源位于机箱中,但无法使用,因为已检测到一个或多个问题。硬件资源已被禁用(脱机),以防止对系统造成进一步的损坏。

  • degraded-硬件资源存在且可以使用,但已检测到一个或多个问题。如果所有受影响的硬件资源都处于同一状态,那么该列表末尾的事件消息中会反映这一状况。否则,会为每个受影响的资源提供单独的运行状态。

故障
故障表示硬件组件已存在但无法使用或已降级,因为 Oracle ILOM Fault Manager 已诊断出一个或多个问题。该组件已被禁用,以防止对系统造成进一步的损坏。
受管理设备
受管理设备可以是 Oracle 机架装配服务器、刀片服务器或刀片机箱。
FRU
FRU 是指现场可更换单元(例如驱动器、内存 DIMM 或印刷电路板)。
CRU
CRU 是指客户可更换单元(例如 Oracle 刀片机箱中的 NEM)。
通用唯一标识符 (Universal unique identifier, UUID)
UUID 用于在任何一组系统中唯一标识某个问题。