此问题同时影响两个服务器。
SPARC M7 系列服务器具有冗余 SP,每个 SP 具有一些 PCIe 设备,Oracle Solaris 访问这些设备以便与 SP 通信。存在 SP 故障转移事件时,表示一个 SP 已经取代另一 SP 成为系统的活动 SP,先前的活动 SP 上的 PCIe 设备将从 Oracle Solaris 可以访问的设备列表中删除。
与此并行的是,在 Oracle Solaris 中有一个进程,该进程监视硬件配置,并在检测到从系统中移除了 FRU 时生成警报通知。问题在于,此监视进程会错误地将在 SP FRU 上移除 PCIe 设备解释为已移除 SP 的指示,从而导致在不必有通知时生成 FRU 移除通知。在 Oracle Solaris 中运行 fmadm faulty 命令时会显示此 FRU 删除通知。输出类似于以下内容:
--------------- ------------------------------------ -------------- ---------
TIME EVENT-ID MSG-ID SEVERITY
--------------- ------------------------------------ -------------- ---------
Sep 10 14:17:06 e136d52b-6077-48ee-8e76-9655725c9738 FMD-8000-CV Minor
Problem Status : open
Diag Engine : software-diagnosis / 0.1
System
Manufacturer : Oracle Corporation
Name : SPARC M7-8
Part_Number : 32973358+1+12
Serial_Number : AK00257107
Host_ID : host-ID
----------------------------------------
Suspect 1 of 1 :
Problem class : alert.oracle.solaris.fmd.fru-monitor.fru-remove
Certainty : 100%
Affects : dev:////pci@309/pci@1
Status : faulted but still in service
FRU
Status : Active
Location : "/SYS/SP1/SPM0"
Manufacturer : unknown
Name : unknown
Part_Number : unknown
Revision : unknown
Serial_Number : unknown
Chassis
Manufacturer : Oracle-Corporation
Name : SPARC-M7-8
Part_Number : 32973358+1+12
Serial_Number : AK00257107
Description : FRU '/SYS/SP1/SPM0' has been removed from the system.
Response : FMD topology will be updated.
Impact : System impact depends on the type of FRU.
Action : Use 'fmadm faulty' to provide a more detailed view of this event.
Please refer to the associated reference document at
http://support.oracle.com/msg/FMD-8000-CV for the latest service
procedures and policies regarding this diagnosis.
解决方法:无。请在 My Oracle Support (https://myoraclesupport.com) 上查找修复此问题的修补程序。
可以在故障管理 Shell 中使用此命令清除警报:
-> start /SP/faultmgmt/shell Are you sure you want to start /SP/faultmgmt/shell (y/n)? y faultmgmtsp> fmadm acquit UUID faultmgmtsp> exit
其中,UUID 是故障报告中的 UUID。在本例中,UUID 是 e136d52b-6077-48ee-8e76-9655725c9738。