障害の情報を表示したり、関係する FRU を特定したりする場合は、fmadm list-fault コマンドを使用します。fmadm list-fault コマンドは、アクティブな障害診断を表示します。fmdump コマンドは Fault Manager デーモンに関連するログファイルの内容を表示し、システム上のエラー、監視、および診断の履歴ログとしてより有用です。
fmadm list-fault コマンドは、Fault Manager が障害があるとみなすリソースのステータス情報を表示します。fmadm list-fault コマンドには、さまざまな情報を表示したり、さまざまな形式で情報を表示したりするための多数のオプションがあります。fmadm list-fault のすべてのオプションについては、fmadm(1M) のマニュアルページを参照してください。
使用例 1 障害のあるディスクを示す fmadm list-fault の出力次の出力例では、FRU というラベルが付いたセクションは障害が発生したコンポーネントを示しています。引用符で囲まれた「Location」の文字列である "/SUN-Storage-J4410.1051QCQ08A/HDD23" は、障害のあるディスクが格納されているシャーシのシャーシタイプとシリアル番号、およびそのシャーシ内のディスクベイのラベルと一致するべきです。メインシステムのシャーシ内の位置の場合、「Location」文字列は "/SYS/HDD3" のようになります。位置が使用可能ではない場合、FRU の障害管理リソース識別子 (FMRI) が表示されます。シャーシと FMRI の定義については、障害管理の用語集を参照してください。
出力の FRU セクションの「Status」行には、状態が faulty として表示されます。
FRU セクションの上にある「Affects」というラベルが付いた行には、障害の影響を受けるコンポーネントとその関連する状態が示されます。この例では、1 つのディスクが影響を受けます。ディスクは障害が発生していますが、まだ稼働中です。
この出力でもっとも有益な情報はおそらく MSG-ID です。DISK-8000-0X に関する詳細情報にアクセスするには、レポートの最後にある「Action」セクションの手順に従います。「Action」セクションには、サポートサイトにあるドキュメントへの参照のほかに、固有のアクションも含まれている場合があります。
すべての診断を特定の MSG-ID に対応付けることができます。診断には 1 つまたは複数の疑いが存在する場合があります。示されている疑いが 1 つだけの場合、MSG-ID は単一の障害クラスまたは診断クラスに対応付けることができます。複数の疑いが示されている場合、MSG-ID は複数の診断クラスに対応づけられます。診断クラスの定義については、障害管理の用語集を参照してください。
# fmadm list-fault --------------- ------------------------------------ -------------- --------- TIME EVENT-ID MSG-ID SEVERITY --------------- ------------------------------------ -------------- --------- Apr 08 08:36:50 91cfc113-eacc-44d0-8236-9e2ed3926fd3 DISK-8000-0X Major Problem Status : open Diag Engine : eft / 1.16 System Manufacturer : Oracle Corporation Name : Sun Netra X4270 M3 Part_Number : NILE-P1LRQT-8 Serial_Number : 1211FM200D System Component Manufacturer : Oracle Name : Sun Netra X4270 M3 Part_Number : NILE-P1LRQT-8 Serial_Number : 1211FM200D Host_ID : 008167b1 ---------------------------------------- Suspect 1 of 1 : Problem class : fault.io.disk.predictive-failure Certainty : 100% Affects : dev:///:devid=id1,sd@n5000a7203002c0f2//scsi_vhci/disk@g5000a7203002c0f2 Status : faulted but still in service FRU Status : faulty Location : "/SUN-Storage-J4410.1051QCQ08A/HDD23" Manufacturer : STEC Name : ZeusIOPs Part_Number : STEC-ZeusIOPs Revision : 9007 Serial_Number : STM00011EDCA Chassis Manufacturer : SUN Name : SUN-Storage J4410 Part_Number : 3753659 Serial_Number : 1051QCQ08A Description : SMART health-monitoring firmware reported that a disk failure is imminent. Response : A hot-spare disk may have been activated. Impact : It is likely that the continued operation of this disk will result in data loss. Action : Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/DISK-8000-0X for the latest service procedures and policies regarding this diagnosis.
次の出力例では、1 つの CPU ストランドが影響を受けます。その CPU ストランドは、障害が発生したために Fault Manager によって使用不可になっています。
# fmadm list-fault --------------- ------------------------------------ -------------- --------- TIME EVENT-ID MSG-ID SEVERITY --------------- ------------------------------------ -------------- --------- Apr 24 10:41:32 662ec53e-3aff-41d1-a836-ad7d1795705a SUN4V-8002-6E Major Problem Status : isolated Diag Engine : eft / 1.16 System Manufacturer : Oracle Corporation Name : ORCL,SPARC-T4-1 Part_Number : 602-4918-02 Serial_Number : 1315BDY5D8 Host_ID : 862e0f5e ---------------------------------------- Suspect 1 of 1 : Problem class : fault.cpu.generic-sparc.strand Certainty : 100% Affects : cpu:///cpuid=0/serial=15a02807e0b026b Status : faulted and taken out of service FRU Status : faulty Location : "/SYS/MB" Manufacturer : Oracle Corporation Name : PCA,MB,SPARC_T4-1 Part_Number : 7047134 Revision : 02 Serial_Number : 465769T+1309BW0V8E Chassis Manufacturer : Oracle Corporation Name : ORCL,SPARC-T4-1 Part_Number : 31538783+1+1 Serial_Number : 1315BDY5D8 Description : The number of correctable errors associated with this strand has exceeded acceptable levels. Response : The fault manager will attempt to remove the affected strand from service. Impact : System performance may be affected. Action : Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/SUN4V-8002-6E for the latest service procedures and policies regarding this diagnosis.使用例 2 複数の障害を示す fmadm list-fault の出力
次の出力では、3 つすべての疑わしい PCI デバイスが「faulted but still in service」と説明されています。unknown 値は、これらのデバイスでは利用できる識別情報がないことを示しています。
# fmadm list-fault --------------- ------------------------------------ -------------- --------- TIME EVENT-ID MSG-ID SEVERITY --------------- ------------------------------------ -------------- --------- Apr 23 02:48:15 a9445995-0eee-460b-82ba-d8ddb29cda71 PCIEX-8000-3S Critical Problem Status : open Diag Engine : eft / 1.16 System Manufacturer : Oracle Corporation Name : Sun Netra X4270 M3 Part_Number : NILE-P1LRQT-8 Serial_Number : 1211FM200D System Component Manufacturer : Oracle Name : Sun Netra X4270 M3 Part_Number : NILE-P1LRQT-8 Serial_Number : 1211FM200D Host_ID : 008167b1 ---------------------------------------- Suspect 1 of 3 : Problem class : fault.io.pciex.device-interr Certainty : 50% Affects : dev:////pci@0,0/pci8086,3c04@2/pci1000,3050@0 Status : faulted but still in service FRU Status : faulty Location : "/SYS/MB/PCIE1" Manufacturer : unknown Name : pciex8086,1522.108e.7b19.1 Part_Number : 7014747-Rev.01 Revision : G29837-009 Serial_Number : 159048B+1206A0369F048B54 Chassis Manufacturer : Oracle Name : Sun Netra X4270 M3 Part_Number : NILE-P1LRQT-8 Serial_Number : 1211FM200D ---------------------------------------- Suspect 2 of 3 : Problem class : fault.io.pciex.bus-linkerr Certainty : 25% Affects : dev:////pci@0,0/pci8086,3c04@2/pci1000,3050@0 Status : faulted but still in service FRU Status : faulty Location : "/SYS/MB/PCIE1" Manufacturer : unknown Name : pciex8086,1522.108e.7b19.1 Part_Number : 7014747-Rev.01 Revision : G29837-009 Serial_Number : 159048B+1206A0369F048B54 Chassis Manufacturer : Oracle Name : Sun Netra X4270 M3 Part_Number : NILE-P1LRQT-8 Serial_Number : 1211FM200D ---------------------------------------- Suspect 3 of 3 : Problem class : fault.io.pciex.device-interr Certainty : 25% FRU Status : faulty Location : "/SYS/MB" Manufacturer : Oracle Name : unknown Part_Number : 7016786 Revision : Rev-03 Serial_Number : 489089M+1208UU003X Chassis Manufacturer : Oracle Name : Sun Netra X4270 M3 Part_Number : NILE-P1LRQT-8 Serial_Number : 1211FM200D Resource Location : "/SYS/MB/PCIE1" Status : faulted but still in service Description : A problem has been detected on one of the specified devices or on one of the specified connecting buses. Response : One or more device instances may be disabled Impact : Loss of services provided by the device instances associated with this fault Action : Use 'fmadm faulty' to provide a more detailed view of this event. If a plug-in card is involved check for badly-seated cards or bent pins. Please refer to the associated reference document at http://support.oracle.com/msg/PCIEX-8000-3S for the latest service procedures and policies regarding this diagnosis.
次の例では、2 つの CPU ストランドで障害が発生しており、Fault Manager によって使用不可にされています。
# fmadm list-fault --------------- ------------------------------------ -------------- --------- TIME EVENT-ID MSG-ID SEVERITY --------------- ------------------------------------ -------------- --------- Apr 24 10:49:18 1479f457-d99a-4c55-9373-b33621d3aaee SUN4V-8002-6E Major Problem Status : isolated Diag Engine : eft / 1.16 System Manufacturer : Oracle Corporation Name : ORCL,SPARC-T4-1 Part_Number : 602-4918-02 Serial_Number : 1315BDY5D8 Host_ID : 862e0f5e ---------------------------------------- Suspect 1 of 2 : Problem class : fault.cpu.generic-sparc.strand Certainty : 50% Affects : cpu:///cpuid=0/serial=SERIAL1 Status : faulted and taken out of service FRU Status : faulty Location : "/SYS/MB" Manufacturer : Oracle Corporation Name : PCA,MB,SPARC_T4-1 Part_Number : 7047134 Revision : 02 Serial_Number : 465769T+1309BW0V8E Chassis Manufacturer : Oracle Corporation Name : ORCL,SPARC-T4-1 Part_Number : 31538783+1+1 Serial_Number : 1315BDY5D8 ---------------------------------------- Suspect 2 of 2 : Problem class : fault.cpu.generic-sparc.strand Certainty : 50% Affects : cpu:///cpuid=1/serial=SERIAL2 Status : faulted and taken out of service FRU Status : faulty Location : "/SYS/MB" Manufacturer : Oracle Corporation Name : PCA,MB,SPARC_T4-1 Part_Number : 7047134 Revision : 02 Serial_Number : 465769T+1309BW0V8E Chassis Manufacturer : Oracle Corporation Name : ORCL,SPARC-T4-1 Part_Number : 31538783+1+1 Serial_Number : 1315BDY5D8 Description : The number of correctable errors associated with this strand has exceeded acceptable levels. Response : The fault manager will attempt to remove the affected strand from service. Impact : System performance may be affected. Action : Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/SUN4V-8002-6E for the latest service procedures and policies regarding this diagnosis.使用例 3 fmdump 障害レポート
コンソールメッセージやナレッジ記事の中には、次の例に示すように、fmdump コマンドを使用して障害情報を表示するよう指示するものがあります。影響を受けるコンポーネントに関する情報は「Affects」行にあります。「FRU Location」値は、人間が読める FRU 文字列を表します。「FRU」行と「Problem in」行は FMRI を示しています。この例の出力行は読みやすいように意図的に分割されています。
# fmdump -vu 91cfc113-eacc-44d0-8236-9e2ed3926fd3 TIME UUID SUNW-MSG-ID EVENT Apr 08 08:36:50.1418 91cfc113-eacc-44d0-8236-9e2ed3926fd3 DISK-8000-0X Diagnosed 100% fault.io.disk.predictive-failure Problem in: hc://:chassis-mfg=SUN:chassis-name=SUN-Storage-J4410 :chassis-part=3753659:chassis-serial=1051QCQ08A:fru-mfg=STEC :fru-name=ZeusIOPs:fru-serial=STM00011EDCA:fru-part=STEC-ZeusIOPs :fru-revision=9007:devid=id1,sd@n5000a7203002c0f2/ses-enclosure= 0/bay=23/disk=0 Affects: dev:///:devid=id1,sd@n5000a7203002c0f2//scsi_vhci/disk@g5000a7203002c0f2 FRU: hc://:chassis-mfg=SUN:chassis-name=SUN-Storage-J4410 :chassis-part=3753659:chassis-serial=1051QCQ08A:fru-mfg=STEC :fru-name=ZeusIOPs:fru-serial=STM00011EDCA:fru-part=STEC-ZeusIOPs :fru-revision=9007:devid=id1,sd@n5000a7203002c0f2/ses-enclosure= 0/bay=23/disk=0 FRU Location: /SUN-Storage-J4410.1051QCQ08A/HDD23
fmdump の出力で重要度、説明テキスト、およびアクションを表示するには、-m オプションを使用します。詳細は、fmdump(1M) のマニュアルページを参照してください。
次に、2 つの CPU デバイスの fmdump の出力を示します。
# fmdump -vu 662ec53e-3aff-41d1-a836-ad7d1795705a TIME UUID SUNW-MSG-ID EVENT Apr 24 10:41:32.7511 662ec53e-3aff-41d1-a836-ad7d1795705a SUN4V-8002-6E Diagnosed 100% fault.cpu.generic-sparc.strand Problem in: hc://:chassis-mfg=Oracle-Corporation:chassis-name=ORCL,SPARC-T4-1 :chassis-part=31538783+1+1:chassis-serial=1315BDY5D8/chassis=0 /motherboard=0/chip=0/core=0/strand=0 Affects: cpu:///cpuid=0/serial=15a02807e0b026b FRU: hc://:chassis-mfg=Oracle-Corporation:chassis-name=ORCL,SPARC-T4-1 :chassis-part=31538783+1+1:chassis-serial=1315BDY5D8 :fru-serial=465769T+1309BW0V8E:fru-part=7047134 :fru-revision=02/chassis=0/motherboard=0 FRU Location: /SYS/MB Apr 24 10:41:32.7732 662ec53e-3aff-41d1-a836-ad7d1795705a FMD-8000-9L Isolated 100% fault.cpu.generic-sparc.strand Problem in: hc://:chassis-mfg=Oracle-Corporation:chassis-name=ORCL,SPARC-T4-1 :chassis-part=31538783+1+1:chassis-serial=1315BDY5D8/chassis=0 /motherboard=0/chip=0/core=0/strand=0 Affects: cpu:///cpuid=0/serial=15a02807e0b026b FRU: hc://:chassis-mfg=Oracle-Corporation:chassis-name=ORCL,SPARC-T4-1 :chassis-part=31538783+1+1:chassis-serial=1315BDY5D8 :fru-serial=465769T+1309BW0V8E:fru-part=7047134 :fru-revision=02/chassis=0/motherboard=0 FRU Location: /SYS/MB使用例 4 オフラインになっている CPU の特定
CPU に関する情報を表示するには、psrinfo コマンドを使用します。
$ psrinfo 0 faulted since 04/24/2015 10:41:32 1 on-line since 04/23/2015 14:52:03
この例の faulted 状態は、Fault Manager の応答エージェントによってその CPU がオフラインにされたことを示しています。