监视故障

关于监视故障

当系统中某处发生故障时,有三种方式可以告知:

  • 故障组件和系统机箱的琥珀色“需要维修操作”LED 指示灯亮起(请参见监视“需要维修操作”LED 指示灯)。

  • 通过 ILOM Web 界面和 CLI 获得的组件状态信息显示组件处于故障状态(请参见通过管理界面监视故障)。

  • 将发生的故障记录到系统事件日志中(请参见监视事件日志)。

监视“需要维修操作”LED 指示灯

当组件发生硬件故障(进入故障状态)时,故障管理功能会使该组件的“需要维修操作”(琥珀色)LED 指示灯亮起。此外,当任何系统组件处于故障状态时,故障管理功能还会使系统机箱(前部和后部)的“需要维修操作”LED 指示灯亮起。

“需要维修操作”LED 指示灯熄灭时

由于“需要维修操作”LED 指示灯指示硬件故障,因此该指示灯只有在故障管理功能检测到故障硬件已更换或修复后才会熄灭。只要任何系统组件处于故障状态,机箱的“需要维修操作”LED 指示灯(充当所有组件故障的综合指示灯)就保持亮起状态。

机箱 LED 指示灯亮起时

如果机箱的“需要维修操作”LED 指示灯亮起,但其他系统组件的“需要维修操作”LED 指示灯没有亮起,则说明故障管理功能已诊断出外部故障:即总体上可能会影响系统的系统外部问题。例如,如果外部环境空气温度超过 43oC (109.4oF),尽管任何系统硬件都没有出现物理故障,系统也会声明故障并执行关闭操作。

有关可能会导致这些机箱故障的外部状况的信息,请参阅机箱故障

关于电源故障

电源装置 (power supply unit, PSU) 是个特例:它们监视自己的故障状态并控制自己的“需要维修操作”LED 指示灯。故障管理软件无法使 PSU LED 指示灯亮起或熄灭。但是,由于故障管理功能一直监视 PSU 的传感器,所以它会在 PSU 出现故障时得到通知。然后,故障管理功能会使机箱的“需要维修操作”LED 指示灯亮起,并在 ILOM 管理界面和事件日志中列出发生的故障。

请注意可能会出现以下情况:PSU 的“需要维修操作”LED 指示灯已熄灭(表明故障已清除),但故障管理功能却继续显示 PSU 仍处于故障状态。如果发生这种情况,ILOM 管理界面、机箱“需要维修操作”LED 指示灯和事件日志会反映出其仍处于故障状态。

有关更多信息,请参阅电源故障

通过管理界面监视故障

通过 Web 界面监视组件状态

要从 Web 界面检查系统组件的故障状态,请执行以下步骤:

  1. 登录到 ILOM Web 界面。

  2. 选择 "System Information" 选项卡。

  3. 选择 "Components" 选项卡。

    此时会显示 "Components" 页面。此页面显示了 "Component Management Status" 表,该表列出了系统组件并显示了其故障状态

  4. 查明故障组件。

    查找故障状态列为 Faulted 的组件。请注意,如果任何组件发生故障,则系统机箱本身 (/CH) 也列为 Faulted

通过 CLI 监视组件状态

Note

有关对象名称空间以及如何识别可能与故障有关的目标和属性的信息,请参阅关于 ILOM 命令行界面

  1. 打开 ILOM CLI 窗口。

  2. 执行相应的 show 命令,以显示系统组件的相关信息。

    例如,当处于机箱级别 (/CH) 而且某一组件处于故障状态时,机箱的 fault_state 列为 Faulted,如下所示。

    -> show
    /CH
    Targets:
    	.
    	.
    	.
    
    
    Properties:
    	type = Chassis
    	fault_state = Faulted
    	clear_fault_action = (none)
    ->
  3. 深入测试出现故障的组件,再次执行 show 命令以确认组件的 fault_stateFaulted

    以下示例显示了后部风扇模块 0 (/CH/RFM0) 的 fault_stateFaulted

    -> cd /CH/RFM0
    /CH/RFM0
    
    
    -> show
    /CH/RFM0
    Targets:
    	SERVICE
    	ACT
    	FAN1_OK
    	FAN2_OK
    	FAN1_SPEED
    	FAN2_SPEED
    
    
    Properties:
    	type = Rear Fan FRU
    	fault_state = Faulted 
    	clear_fault_action = (none)
    	prepare_to_remove_status = NotReady
    	prepare_to_remove_action = (none)
    	return_to_service_action = (none)
    ->

监视事件日志

故障会记录到系统事件日志中,从 ILOM Web 界面和 CLI 都可以查看此日志。

通过 Web 界面查看事件日志

  1. 登录到 ILOM Web 界面。

  2. 选择 "System Monitoring" 选项卡。

  3. 选择 "Event Logs" 选项卡。

    对于每个故障,会列出 Fault 等级、表示出现故障的时间的时间戳以及故障描述。请注意,如果您要查找最近出现的故障,它可能位于日志结尾附近。故障条目大概如下例所示,该示例列出了电源 3 (/CH/PS3) 出现的故障。

    4      Mon May  1 13:17:22 2006  FMA       Fault     critical
           Fault detected at time = Mon May  1 13:17:22 2006. The suspect component:
           /CH/PS3 has FAULT:powersupply_temperature_ps with probability=100

    有关查找和解释事件日志内容的说明,请参见查看事件日志

通过 CLI 窗口查看事件日志

  1. 打开 ILOM CLI 窗口。

  2. 执行以下命令以查看事件日志:

    show /CMM/logs/event list

    您可以滚动日志输出来查看其内容。故障条目大概如下例所示,该示例列出了电源 3 (/CH/PS3) 出现的故障。

    4      Mon May  1 13:17:22 2006  FMA       Fault     critical
           Fault detected at time = Mon May  1 13:17:22 2006. The suspect component:
           /CH/PS3 has FAULT:powersupply_temperature_ps with probability=100

    有关查找和解释事件日志内容的说明,请参见查看事件日志