此问题同时影响两个服务器。
SPARC M7 系列服务器具有冗余 SP,每个 SP 具有一些 PCIe 设备,Oracle Solaris 访问这些设备以便与 SP 通信。存在 SP 故障转移事件时,表示一个 SP 已经取代另一 SP 成为系统的活动 SP,先前的活动 SP 上的 PCIe 设备将从 Oracle Solaris 可以访问的设备列表中删除。
与此并行的是,在 Oracle Solaris 中有一个进程,该进程监视硬件配置,并在检测到从系统中移除了 FRU 时生成警报通知。问题在于,此监视进程会错误地将在 SP FRU 上移除 PCIe 设备解释为已移除 SP 的指示,从而导致在不必有通知时生成 FRU 移除通知。在 Oracle Solaris 中运行 fmadm faulty 命令时会显示此 FRU 删除通知。输出类似于以下内容:
--------------- ------------------------------------ -------------- --------- TIME EVENT-ID MSG-ID SEVERITY --------------- ------------------------------------ -------------- --------- Sep 10 14:17:06 e136d52b-6077-48ee-8e76-9655725c9738 FMD-8000-CV Minor Problem Status : open Diag Engine : software-diagnosis / 0.1 System Manufacturer : Oracle Corporation Name : SPARC M7-8 Part_Number : 32973358+1+12 Serial_Number : AK00257107 Host_ID : host-ID ---------------------------------------- Suspect 1 of 1 : Problem class : alert.oracle.solaris.fmd.fru-monitor.fru-remove Certainty : 100% Affects : dev:////pci@309/pci@1 Status : faulted but still in service FRU Status : Active Location : "/SYS/SP1/SPM0" Manufacturer : unknown Name : unknown Part_Number : unknown Revision : unknown Serial_Number : unknown Chassis Manufacturer : Oracle-Corporation Name : SPARC-M7-8 Part_Number : 32973358+1+12 Serial_Number : AK00257107 Description : FRU '/SYS/SP1/SPM0' has been removed from the system. Response : FMD topology will be updated. Impact : System impact depends on the type of FRU. Action : Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/FMD-8000-CV for the latest service procedures and policies regarding this diagnosis.
解决方法:无。请在 My Oracle Support (https://myoraclesupport.com) 上查找修复此问题的修补程序。
可以在故障管理 Shell 中使用此命令清除警报:
-> start /SP/faultmgmt/shell Are you sure you want to start /SP/faultmgmt/shell (y/n)? y faultmgmtsp> fmadm acquit UUID faultmgmtsp> exit
其中,UUID 是故障报告中的 UUID。在本例中,UUID 是 e136d52b-6077-48ee-8e76-9655725c9738。