この問題は、両方のサーバーに影響を及ぼします。
SPARC M7 シリーズサーバーには冗長 SP があり、それぞれには SP と通信するために Oracle Solaris によってアクセスされるいくつかの PCIe デバイスがあります。1 つの SP がほかの SP からシステムについてのアクティブな責任を引き継ぐことを示す SP のフェイルオーバーイベントがある場合、以前のアクティブな SP 上の PCIe デバイスは、Oracle Solaris にアクセス可能なデバイスのリストから削除されます。
これと並行して、Oracle Solaris には、ハードウェアの構成をモニターし、FRU がシステムから取り外されていることを検出したときにアラート通知を生成するプロセスがあります。問題は、このモニタリングプロセスが SP FRU の PCIe デバイスの取り外しを SP が取り外されたことを示すものとして誤って解釈し、通知が正当でない場合に FRU の取り外し通知を生成することです。この FRU の削除通知は Oracle Solaris の fmadm faulty コマンドに応答して表示されます。出力表示は次のようになります。
--------------- ------------------------------------ -------------- ---------
TIME EVENT-ID MSG-ID SEVERITY
--------------- ------------------------------------ -------------- ---------
Sep 10 14:17:06 e136d52b-6077-48ee-8e76-9655725c9738 FMD-8000-CV Minor
Problem Status : open
Diag Engine : software-diagnosis / 0.1
System
Manufacturer : Oracle Corporation
Name : SPARC M7-8
Part_Number : 32973358+1+12
Serial_Number : AK00257107
Host_ID : host-ID
----------------------------------------
Suspect 1 of 1 :
Problem class : alert.oracle.solaris.fmd.fru-monitor.fru-remove
Certainty : 100%
Affects : dev:////pci@309/pci@1
Status : faulted but still in service
FRU
Status : Active
Location : "/SYS/SP1/SPM0"
Manufacturer : unknown
Name : unknown
Part_Number : unknown
Revision : unknown
Serial_Number : unknown
Chassis
Manufacturer : Oracle-Corporation
Name : SPARC-M7-8
Part_Number : 32973358+1+12
Serial_Number : AK00257107
Description : FRU '/SYS/SP1/SPM0' has been removed from the system.
Response : FMD topology will be updated.
Impact : System impact depends on the type of FRU.
Action : Use 'fmadm faulty' to provide a more detailed view of this event.
Please refer to the associated reference document at
http://support.oracle.com/msg/FMD-8000-CV for the latest service
procedures and policies regarding this diagnosis.
回避方法: ありません。My Oracle Support (https://myoraclesupport.com) を確認して、この問題を修正するためのパッチがないか調べます。
障害管理シェルで次のコマンドを使用してアラートをクリアできます。
-> start /SP/faultmgmt/shell Are you sure you want to start /SP/faultmgmt/shell (y/n)? y faultmgmtsp> fmadm acquit UUID faultmgmtsp> exit
ここで、UUID は障害レポート内の UUID です。この例では、UUID は e136d52b-6077-48ee-8e76-9655725c9738 です。