この問題は Sun システムファームウェア 9.5.2 で修正されました。
プライマリドメインが十分なリソースなし (2 つ以下の SCC) で構成されており、訂正可能なエラーによって、これらの両方の SCC に影響する FMA リタイアアクションがトリガーされると、ドメインがリブート時にハングアップします。ほかのドメインは影響を受けず、独自のネットワークカードとドライブが引き続き使用できるかぎり、通常どおりに実行し続けます。エラーによって、ドメインのリタイアがトリガーされた場合、fmadm faulty コマンドを使用して障害を表示できます。
SUNW-MSG-ID: SPSUN4V-8001-YA, TYPE: Problem, VER: 1, SEVERITY: Major
EVENT-TIME: Tue Oct 6 18:50:50 EDT 2015
PLATFORM: SPARC T7-2, CSN: 12345678, HOSTNAME: bur-t72-303-sp
SOURCE: fdd, REV: 1.0
EVENT-ID: f78853a2-87cf-e147-efb3-ecc370ef147e
DESC: An event was received indicating a fault was diagnosed by another fault manager.
AUTO-RESPONSE: Refer to the document at http://support.oracle.com/msg/SPSUN4V-8001-YA.
IMPACT: Refer to the document at http://support.oracle.com/msg/SPSUN4V-8001-YA.
REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/SPSUN4V-8001-YA for the latest service procedures and policies regarding this diagnosis.
-> fmadm faulty
Time UUID msgid Severity
------------------- ------------------------------------ -------------- --------
2015-10-06/22:51:00 abea80bd-6d18-46a4-e9cc-fda7df765748 SPSUN4V-8001-YA Major
Problem Status : open [injected]
Diag Engine : fdd 1.0
System
Manufacturer : Oracle Corporation
Name : SPARC T7-2
Part_Number : 87654321
Serial_Number : 12345678
----------------------------------------
Suspect 1 of 1
Fault class : fault.cpu.generic-sparc.l2d-uc
Certainty : 100%
Affects : /SYS/MB/CM0/CMP/SCC3/L2D1
Status : faulted
FRU
Status : faulty
Location : /SYS/MB
Manufacturer : Oracle Corporation
Name : ASY,MB,T7-2
Part_Number : 7093274
Revision : 02
Serial_Number : 465769T+1434NH00JJ
Chassis
Manufacturer : Oracle Corporation
Name : SPARC T7-2
Part_Number : 87654321
Serial_Number : 12345678
Description : A cpu has experienced an uncorrectable level 2 data cache
error (UE).
Response : Cpu cores associated with the cache will be deconfigured.
Impact : Some services may be lost and performance may be impacted.
Action : Use 'fmadm faulty' to provide a more detailed view of this
event. Please refer to the associated reference document at
http://support.oracle.com/msg/SPSUN4V-8001-YA for the latest
service procedures and policies regarding this diagnosis.
------------------- ------------------------------------ -------------- --------
Time UUID msgid Severity
------------------- ------------------------------------ -------------- --------
2015-10-06/22:50:50 f78853a2-87cf-e147-efb3-ecc370ef147e SPSUN4V-8001-YA Major
Problem Status : open [injected]
Diag Engine : fdd 1.0
System
Manufacturer : Oracle Corporation
Name : SPARC T7-2
Part_Number : 87654321
Serial_Number : 12345678
----------------------------------------
Suspect 1 of 1
Fault class : fault.cpu.generic-sparc.l2d-uc
Certainty : 100%
Affects : /SYS/MB/CM0/CMP/SCC3/L2D0
Status : faulted
FRU
Status : faulty
Location : /SYS/MB
Manufacturer : Oracle Corporation
Name : ASY,MB,T7-2
Part_Number : 7093274
Revision : 02
Serial_Number : 465769T+1434NH00JJ
Chassis
Manufacturer : Oracle Corporation
Name : SPARC T7-2
Part_Number : 87654321
Serial_Number : 12345678
Description : A cpu has experienced an uncorrectable level 2 data cache
error (UE).
Response : Cpu cores associated with the cache will be deconfigured.
Impact : Some services may be lost and performance may be impacted.
Action : Use 'fmadm faulty' to provide a more detailed view of this
event. Please refer to the associated reference document at
http://support.oracle.com/msg/SPSUN4V-8001-YA for the latest
service procedures and policies regarding this diagnosis. プライマリドメインを実行している同じコアで障害が報告された場合、この問題はドメインのリタイアの根本原因であり、プライマリドメインはリブート時にハングアップします。
回避方法: プライマリゲストドメインの同じノード上に 2 つ以上の SCC (つまり、最低 2 つの SCC といくつかの追加のコア) が割り当てられていることを確認します。
回復方法: 強制的にドメインをリセットして (reset -f /HOST)、アクセスを回復します。リブート時に、サーバーが最近保存された SPM 構成にアクセスできず、代わりに出荷時のデフォルト構成に戻ります。