この問題は Sun システムファームウェア 9.5.2 で修正されました。
プライマリドメインが十分なリソースなし (2 つ以下の SCC) で構成されており、訂正可能なエラーによって、これらの両方の SCC に影響する FMA リタイアアクションがトリガーされると、ドメインがリブート時にハングアップします。ほかのドメインは影響を受けず、独自のネットワークカードとドライブが引き続き使用できるかぎり、通常どおりに実行し続けます。エラーによって、ドメインのリタイアがトリガーされた場合、fmadm faulty コマンドを使用して障害を表示できます。
SUNW-MSG-ID: SPSUN4V-8001-YA, TYPE: Problem, VER: 1, SEVERITY: Major EVENT-TIME: Tue Oct 6 18:50:50 EDT 2015 PLATFORM: SPARC T7-2, CSN: 12345678, HOSTNAME: bur-t72-303-sp SOURCE: fdd, REV: 1.0 EVENT-ID: f78853a2-87cf-e147-efb3-ecc370ef147e DESC: An event was received indicating a fault was diagnosed by another fault manager. AUTO-RESPONSE: Refer to the document at http://support.oracle.com/msg/SPSUN4V-8001-YA. IMPACT: Refer to the document at http://support.oracle.com/msg/SPSUN4V-8001-YA. REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/SPSUN4V-8001-YA for the latest service procedures and policies regarding this diagnosis. -> fmadm faulty Time UUID msgid Severity ------------------- ------------------------------------ -------------- -------- 2015-10-06/22:51:00 abea80bd-6d18-46a4-e9cc-fda7df765748 SPSUN4V-8001-YA Major Problem Status : open [injected] Diag Engine : fdd 1.0 System Manufacturer : Oracle Corporation Name : SPARC T7-2 Part_Number : 87654321 Serial_Number : 12345678 ---------------------------------------- Suspect 1 of 1 Fault class : fault.cpu.generic-sparc.l2d-uc Certainty : 100% Affects : /SYS/MB/CM0/CMP/SCC3/L2D1 Status : faulted FRU Status : faulty Location : /SYS/MB Manufacturer : Oracle Corporation Name : ASY,MB,T7-2 Part_Number : 7093274 Revision : 02 Serial_Number : 465769T+1434NH00JJ Chassis Manufacturer : Oracle Corporation Name : SPARC T7-2 Part_Number : 87654321 Serial_Number : 12345678 Description : A cpu has experienced an uncorrectable level 2 data cache error (UE). Response : Cpu cores associated with the cache will be deconfigured. Impact : Some services may be lost and performance may be impacted. Action : Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/SPSUN4V-8001-YA for the latest service procedures and policies regarding this diagnosis. ------------------- ------------------------------------ -------------- -------- Time UUID msgid Severity ------------------- ------------------------------------ -------------- -------- 2015-10-06/22:50:50 f78853a2-87cf-e147-efb3-ecc370ef147e SPSUN4V-8001-YA Major Problem Status : open [injected] Diag Engine : fdd 1.0 System Manufacturer : Oracle Corporation Name : SPARC T7-2 Part_Number : 87654321 Serial_Number : 12345678 ---------------------------------------- Suspect 1 of 1 Fault class : fault.cpu.generic-sparc.l2d-uc Certainty : 100% Affects : /SYS/MB/CM0/CMP/SCC3/L2D0 Status : faulted FRU Status : faulty Location : /SYS/MB Manufacturer : Oracle Corporation Name : ASY,MB,T7-2 Part_Number : 7093274 Revision : 02 Serial_Number : 465769T+1434NH00JJ Chassis Manufacturer : Oracle Corporation Name : SPARC T7-2 Part_Number : 87654321 Serial_Number : 12345678 Description : A cpu has experienced an uncorrectable level 2 data cache error (UE). Response : Cpu cores associated with the cache will be deconfigured. Impact : Some services may be lost and performance may be impacted. Action : Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/SPSUN4V-8001-YA for the latest service procedures and policies regarding this diagnosis.
プライマリドメインを実行している同じコアで障害が報告された場合、この問題はドメインのリタイアの根本原因であり、プライマリドメインはリブート時にハングアップします。
回避方法: プライマリゲストドメインの同じノード上に 2 つ以上の SCC (つまり、最低 2 つの SCC といくつかの追加のコア) が割り当てられていることを確認します。
回復方法: 強制的にドメインをリセットして (reset -f /HOST)、アクセスを回復します。リブート時に、サーバーが最近保存された SPM 構成にアクセスできず、代わりに出荷時のデフォルト構成に戻ります。