この問題は、両方のサーバーに影響を及ぼします。
SPARC M7 シリーズサーバーには冗長 SP があり、それぞれには SP と通信するために Oracle Solaris によってアクセスされるいくつかの PCIe デバイスがあります。1 つの SP がほかの SP からシステムについてのアクティブな責任を引き継ぐことを示す SP のフェイルオーバーイベントがある場合、以前のアクティブな SP 上の PCIe デバイスは、Oracle Solaris にアクセス可能なデバイスのリストから削除されます。
これと並行して、Oracle Solaris には、ハードウェアの構成をモニターし、FRU がシステムから取り外されていることを検出したときにアラート通知を生成するプロセスがあります。問題は、このモニタリングプロセスが SP FRU の PCIe デバイスの取り外しを SP が取り外されたことを示すものとして誤って解釈し、通知が正当でない場合に FRU の取り外し通知を生成することです。この FRU の削除通知は Oracle Solaris の fmadm faulty コマンドに応答して表示されます。出力表示は次のようになります。
--------------- ------------------------------------ -------------- --------- TIME EVENT-ID MSG-ID SEVERITY --------------- ------------------------------------ -------------- --------- Sep 10 14:17:06 e136d52b-6077-48ee-8e76-9655725c9738 FMD-8000-CV Minor Problem Status : open Diag Engine : software-diagnosis / 0.1 System Manufacturer : Oracle Corporation Name : SPARC M7-8 Part_Number : 32973358+1+12 Serial_Number : AK00257107 Host_ID : host-ID ---------------------------------------- Suspect 1 of 1 : Problem class : alert.oracle.solaris.fmd.fru-monitor.fru-remove Certainty : 100% Affects : dev:////pci@309/pci@1 Status : faulted but still in service FRU Status : Active Location : "/SYS/SP1/SPM0" Manufacturer : unknown Name : unknown Part_Number : unknown Revision : unknown Serial_Number : unknown Chassis Manufacturer : Oracle-Corporation Name : SPARC-M7-8 Part_Number : 32973358+1+12 Serial_Number : AK00257107 Description : FRU '/SYS/SP1/SPM0' has been removed from the system. Response : FMD topology will be updated. Impact : System impact depends on the type of FRU. Action : Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/FMD-8000-CV for the latest service procedures and policies regarding this diagnosis.
回避方法: ありません。My Oracle Support (https://myoraclesupport.com) を確認して、この問題を修正するためのパッチがないか調べます。
障害管理シェルで次のコマンドを使用してアラートをクリアできます。
-> start /SP/faultmgmt/shell Are you sure you want to start /SP/faultmgmt/shell (y/n)? y faultmgmtsp> fmadm acquit UUID faultmgmtsp> exit
ここで、UUID は障害レポート内の UUID です。この例では、UUID は e136d52b-6077-48ee-8e76-9655725c9738 です。