关于故障管理

Sun Blade 8000 Series的故障管理软件可以监视硬件的运行状况,诊断并报告系统组件的硬件故障。故障管理软件还可以监视环境状况,并在系统环境超出可接受的参数范围时进行报告。将会连续监视位于系统机箱、电源装置 (power supply unit, PSU)、服务器模块(刀片)和风扇上的各个传感器。当某个传感器检测到问题时,便会通知机箱监视模块 (Chassis Monitoring Module, CMM) 上运行的故障管理软件。

然后,故障管理软件对问题进行诊断。如果它确定发生了硬件故障或环境故障,故障管理功能会使受影响组件的“需要维修操作”LED 指示灯亮起。还会更新 ILOM 管理界面以反映该故障(错误),并且将其作为错误记录到事件日志中。

Note

Sun Blade 8000 Series的故障管理软件与 Solaris 的故障管理体系结构 (Fault Management Architecture, FMA) 毫不相干。故障管理是系统管理软件的一部分,它并不与刀片主机或其操作系统交互。

外部故障与内部故障

如果系统组件发生硬件故障,则称之为内部故障;也就是说,故障是由 Sun Blade 8000 Series本身的硬件问题造成的。执行修复操作(最可能的操作是更换故障组件)后,即可清除内部故障。

不过,还有一些故障属于外部故障。这种情况下,系统硬件没有故障,而是系统之外的状况导致潜在的问题。例如,如果环境空气温度(机箱外部)超过特定阈值,若不纠正,就会对系统操作造成负面影响,因而出现故障。外部故障是自动清除的:当外部状况不再存在时即清除了外部故障。不过,如果不加以注意,外部故障会导致组件或整个系统关闭。

由故障管理软件监视的组件

故障管理软件可监视以下系统组件。

系统组件

请参阅该主题

系统机箱

机箱故障

电源装置 (Power Supply Unit, PSU)

电源故障

服务器模块(刀片)

服务器模块(刀片)故障

风扇

风扇故障