この問題は、両方のサーバーに影響を及ぼします。
SPARC プロセッサキューアレイのパリティーエラーが発生すると、Oracle Solaris が安全な運用を続行できないため、パニック状態になります。まれに、Oracle Solaris がパニック後に正常なリブートに失敗することがあります。
この問題が発生していることを確認するには、障害管理シェルで fmdump -eV コマンドを実行し、error-condition フィールドが QRAP に設定された mreg-uc ereport を識別します。次に例を示します。
faultmgmtsp> fmdump -eV 2015-10-14/09:11:42 ereport.cpu.generic-sparc.mreg-uc@/SYS/CMIOU15/CM/CMP/SCC7/CORE3 __tod-0 = 0x561e7ead __tod-1 = 0x1cee5cc0 tstate = 0x4400000402 htstate = 0x4 ehdl = 0x1fdc100000000007 tpc = 0x60000f022fac tl = 0x1 tt = 0x29 diagnose = 0x1 error-condition = QRAP reported-by = Hypervisor ps-pesr = 0x600 ps-res-err-qhead = 0x0 ps-res-err-qtail = 0x0 ps-nres-err-qhead = 0x0 ps-nres-err-qtail = 0x0 ps-cpu-mondo-qhead = 0x0 ps-cpu-mondo-qtail = 0x800000000011b340 ps-dev-mondo-qhead = 0x0 ps-dev-mondo-qtail = 0x0
fmadm faulty コマンドを実行すると、障害管理ソフトウェアによってコアが無効にされていることが示されます。
faultmgmtsp> fmadm faulty
------------------- ------------------------------------ --------------- --------
Time UUID msgid Severity
------------------- ------------------------------------ --------------- --------
2015-11-13/05:59:06 ad7bc3bf-c0d7-657b-89e2-cc68f888c312 SPSUN4V-8000-AC Critical
Problem Status : open
Diag Engine : fdd 1.0
System
Manufacturer : Oracle Corporation
Name : SPARC M7-16
Part_Number : 32863269+3+1
Serial_Number : AK00247538
----------------------------------------
Suspect 1 of 1
Fault class : fault.cpu.generic-sparc.core-uc
Certainty : 100%
Affects : /SYS/CMIOU15/CM/CMP/SCC7/CORE3
Status : faulted
FRU
Status : faulty
Location : /SYS/CMIOU15
Manufacturer : Oracle Corporation
Name : CMIOU Module
Part_Number : 7090830
Revision : 04
Serial_Number : 465769T+14426C01MU
Chassis
Manufacturer : Oracle Corporation
Name : SPARC M7-16
Part_Number : 32863269+3+1
Serial_Number : AK00247538
Description : This core has encountered an uncorrectable error.
Response : The fault manager will attempt to remove all strands
associated with this resource from service.
Impact : System performance may be affected.
Action : Use 'fmadm faulty' to provide a more detailed view of this
event. Please refer to the associated reference document at
http://support.oracle.com/msg/SPSUN4V-8000-AC for the latest
service procedures and policies regarding this diagnosis.
回避方法: この問題の修正について、My Oracle Support (https://myoraclesupport.com) を確認します。
回復方法: Oracle ILOM プロンプトで、影響を受けるホストを停止してから起動します。
-> stop /Servers/PDomains/PDomain_n/HOST Are you sure you want to stop /Servers/PDomains/PDomain_n/HOST (y/n)? y -> start /Servers/PDomains/PDomain_n/HOST Are you sure you want to start /Servers/PDomains/PDomain_n/HOST (y/n)? y