Go to main content
Oracle® Solaris 11.3 での障害、欠陥、およびアラートの管理

印刷ビューの終了

更新: 2015 年 10 月
 
 

障害が発生したハードウェアに関する情報の表示

障害の情報を表示したり、関係する FRU を特定したりする場合は、fmadm list-fault コマンドを使用します。fmadm list-fault コマンドは、アクティブな障害診断を表示します。fmdump コマンドは Fault Manager デーモンに関連するログファイルの内容を表示し、システム上のエラー、監視、および診断の履歴ログとしてより有用です。


ヒント  -  管理アクションは、fmadm list-fault コマンドの出力に基づいて決定してください。fmdump コマンドによって出力されるログファイルは、イベントの履歴レコードを含んでおり、必ずしもアクティブまたはオープンな診断を表しているとはかぎりません。fmdump -e によって出力されるログファイルは、エラー遠隔測定の履歴レコードであり、障害と診断されていないことがあります。

fmadm list-fault コマンドは、Fault Manager が障害があるとみなすリソースのステータス情報を表示します。fmadm list-fault コマンドには、さまざまな情報を表示したり、さまざまな形式で情報を表示したりするための多数のオプションがあります。fmadm list-fault のすべてのオプションについては、fmadm(1M) のマニュアルページを参照してください。

使用例 1  障害のあるディスクを示す fmadm list-fault の出力

次の出力例では、FRU というラベルが付いたセクションは障害が発生したコンポーネントを示しています。引用符で囲まれた「Location」の文字列である "/SUN-Storage-J4410.1051QCQ08A/HDD23" は、障害のあるディスクが格納されているシャーシのシャーシタイプとシリアル番号、およびそのシャーシ内のディスクベイのラベルと一致するべきです。メインシステムのシャーシ内の位置の場合、「Location」文字列は "/SYS/HDD3" のようになります。位置が使用可能ではない場合、FRU の障害管理リソース識別子 (FMRI) が表示されます。シャーシと FMRI の定義については、障害管理の用語集を参照してください。

出力の FRU セクションの「Status」行には、状態が faulty として表示されます。

FRU セクションの上にある「Affects」というラベルが付いた行には、障害の影響を受けるコンポーネントとその関連する状態が示されます。この例では、1 つのディスクが影響を受けます。ディスクは障害が発生していますが、まだ稼働中です。

この出力でもっとも有益な情報はおそらく MSG-ID です。DISK-8000-0X に関する詳細情報にアクセスするには、レポートの最後にある「Action」セクションの手順に従います。「Action」セクションには、サポートサイトにあるドキュメントへの参照のほかに、固有のアクションも含まれている場合があります。

すべての診断を特定の MSG-ID に対応付けることができます。診断には 1 つまたは複数の疑いが存在する場合があります。示されている疑いが 1 つだけの場合、MSG-ID は単一の障害クラスまたは診断クラスに対応付けることができます。複数の疑いが示されている場合、MSG-ID は複数の診断クラスに対応づけられます。診断クラスの定義については、障害管理の用語集を参照してください。

# fmadm list-fault
--------------- ------------------------------------  -------------- ---------
TIME            EVENT-ID                              MSG-ID         SEVERITY
--------------- ------------------------------------  -------------- ---------
Apr 08 08:36:50 91cfc113-eacc-44d0-8236-9e2ed3926fd3  DISK-8000-0X   Major

Problem Status    : open
Diag Engine       : eft / 1.16
System
    Manufacturer  : Oracle Corporation
    Name          : Sun Netra X4270 M3
    Part_Number   : NILE-P1LRQT-8
    Serial_Number : 1211FM200D

System Component
    Manufacturer  : Oracle
    Name          : Sun Netra X4270 M3
    Part_Number   : NILE-P1LRQT-8
    Serial_Number : 1211FM200D
    Host_ID       : 008167b1

----------------------------------------
Suspect 1 of 1 :
   Problem class : fault.io.disk.predictive-failure
   Certainty   : 100%
   Affects     : dev:///:devid=id1,sd@n5000a7203002c0f2//scsi_vhci/disk@g5000a7203002c0f2
   Status      : faulted but still in service

   FRU
     Status           : faulty
     Location         : "/SUN-Storage-J4410.1051QCQ08A/HDD23"
     Manufacturer     : STEC
     Name             : ZeusIOPs
     Part_Number      : STEC-ZeusIOPs
     Revision         : 9007
     Serial_Number    : STM00011EDCA
     Chassis
        Manufacturer  : SUN
        Name          : SUN-Storage J4410
        Part_Number   : 3753659
        Serial_Number : 1051QCQ08A

Description : SMART health-monitoring firmware reported that a disk failure is
              imminent.

Response    : A hot-spare disk may have been activated.

Impact      : It is likely that the continued operation of this disk will
              result in data loss.

Action      : Use 'fmadm faulty' to provide a more detailed view of this event.
              Please refer to the associated reference document at
              http://support.oracle.com/msg/DISK-8000-0X for the latest service
              procedures and policies regarding this diagnosis.

次の出力例では、1 つの CPU ストランドが影響を受けます。その CPU ストランドは、障害が発生したために Fault Manager によって使用不可になっています。

# fmadm list-fault
--------------- ------------------------------------  -------------- ---------
TIME            EVENT-ID                              MSG-ID         SEVERITY
--------------- ------------------------------------  -------------- ---------
Apr 24 10:41:32 662ec53e-3aff-41d1-a836-ad7d1795705a  SUN4V-8002-6E  Major

Problem Status    : isolated
Diag Engine       : eft / 1.16
System
    Manufacturer  : Oracle Corporation
    Name          : ORCL,SPARC-T4-1
    Part_Number   : 602-4918-02
    Serial_Number : 1315BDY5D8
    Host_ID       : 862e0f5e

----------------------------------------
Suspect 1 of 1 :
   Problem class : fault.cpu.generic-sparc.strand
   Certainty   : 100%
   Affects     : cpu:///cpuid=0/serial=15a02807e0b026b
   Status      : faulted and taken out of service

   FRU
     Status           : faulty
     Location         : "/SYS/MB"
     Manufacturer     : Oracle Corporation
     Name             : PCA,MB,SPARC_T4-1
     Part_Number      : 7047134
     Revision         : 02
     Serial_Number    : 465769T+1309BW0V8E
     Chassis
        Manufacturer  : Oracle Corporation
        Name          : ORCL,SPARC-T4-1
        Part_Number   : 31538783+1+1
        Serial_Number : 1315BDY5D8

Description : The number of correctable errors associated with this strand has
              exceeded acceptable levels.

Response    : The fault manager will attempt to remove the affected strand from
              service.

Impact      : System performance may be affected.

Action      : Use 'fmadm faulty' to provide a more detailed view of this event.
              Please refer to the associated reference document at
              http://support.oracle.com/msg/SUN4V-8002-6E for the latest
              service procedures and policies regarding this diagnosis.
使用例 2  複数の障害を示す fmadm list-fault の出力

次の出力では、3 つすべての疑わしい PCI デバイスが「faulted but still in service」と説明されています。unknown 値は、これらのデバイスでは利用できる識別情報がないことを示しています。

# fmadm list-fault
--------------- ------------------------------------  -------------- ---------
TIME            EVENT-ID                              MSG-ID         SEVERITY
--------------- ------------------------------------  -------------- ---------
Apr 23 02:48:15 a9445995-0eee-460b-82ba-d8ddb29cda71  PCIEX-8000-3S  Critical

Problem Status    : open
Diag Engine       : eft / 1.16
System
    Manufacturer  : Oracle Corporation
    Name          : Sun Netra X4270 M3
    Part_Number   : NILE-P1LRQT-8
    Serial_Number : 1211FM200D

System Component
    Manufacturer  : Oracle
    Name          : Sun Netra X4270 M3
    Part_Number   : NILE-P1LRQT-8
    Serial_Number : 1211FM200D
    Host_ID       : 008167b1

----------------------------------------
Suspect 1 of 3 :
   Problem class : fault.io.pciex.device-interr
   Certainty   : 50%
   Affects     : dev:////pci@0,0/pci8086,3c04@2/pci1000,3050@0
   Status      : faulted but still in service

   FRU
     Status           : faulty
     Location         : "/SYS/MB/PCIE1"
     Manufacturer     : unknown
     Name             : pciex8086,1522.108e.7b19.1
     Part_Number      : 7014747-Rev.01
     Revision         : G29837-009
     Serial_Number    : 159048B+1206A0369F048B54
     Chassis
        Manufacturer  : Oracle
        Name          : Sun Netra X4270 M3
        Part_Number   : NILE-P1LRQT-8
        Serial_Number : 1211FM200D
----------------------------------------
Suspect 2 of 3 :
   Problem class : fault.io.pciex.bus-linkerr
   Certainty   : 25%
   Affects     : dev:////pci@0,0/pci8086,3c04@2/pci1000,3050@0
   Status      : faulted but still in service

   FRU
     Status           : faulty
     Location         : "/SYS/MB/PCIE1"
     Manufacturer     : unknown
     Name             : pciex8086,1522.108e.7b19.1
     Part_Number      : 7014747-Rev.01
     Revision         : G29837-009
     Serial_Number    : 159048B+1206A0369F048B54
     Chassis
        Manufacturer  : Oracle
        Name          : Sun Netra X4270 M3
        Part_Number   : NILE-P1LRQT-8
        Serial_Number : 1211FM200D
----------------------------------------
Suspect 3 of 3 :
   Problem class : fault.io.pciex.device-interr
   Certainty   : 25%

   FRU
     Status           : faulty
     Location         : "/SYS/MB"
     Manufacturer     : Oracle
     Name             : unknown
     Part_Number      : 7016786
     Revision         : Rev-03
     Serial_Number    : 489089M+1208UU003X
     Chassis
        Manufacturer  : Oracle
        Name          : Sun Netra X4270 M3
        Part_Number   : NILE-P1LRQT-8
        Serial_Number : 1211FM200D
   Resource
     Location         : "/SYS/MB/PCIE1"
     Status           : faulted but still in service

Description : A problem has been detected on one of the specified devices or on
              one of the specified connecting buses.

Response    : One or more device instances may be disabled

Impact      : Loss of services provided by the device instances associated with
              this fault

Action      : Use 'fmadm faulty' to provide a more detailed view of this event.
              If a plug-in card is involved check for badly-seated cards or
              bent pins. Please refer to the associated reference document at
              http://support.oracle.com/msg/PCIEX-8000-3S for the latest
              service procedures and policies regarding this diagnosis.

次の例では、2 つの CPU ストランドで障害が発生しており、Fault Manager によって使用不可にされています。

# fmadm list-fault
--------------- ------------------------------------  -------------- ---------
TIME            EVENT-ID                              MSG-ID         SEVERITY
--------------- ------------------------------------  -------------- ---------
Apr 24 10:49:18 1479f457-d99a-4c55-9373-b33621d3aaee  SUN4V-8002-6E  Major

Problem Status    : isolated
Diag Engine       : eft / 1.16
System
    Manufacturer  : Oracle Corporation
    Name          : ORCL,SPARC-T4-1
    Part_Number   : 602-4918-02
    Serial_Number : 1315BDY5D8
    Host_ID       : 862e0f5e

----------------------------------------
Suspect 1 of 2 :
   Problem class : fault.cpu.generic-sparc.strand
   Certainty   : 50%
   Affects     : cpu:///cpuid=0/serial=SERIAL1
   Status      : faulted and taken out of service

   FRU
     Status           : faulty
     Location         : "/SYS/MB"
     Manufacturer     : Oracle Corporation
     Name             : PCA,MB,SPARC_T4-1
     Part_Number      : 7047134
     Revision         : 02
     Serial_Number    : 465769T+1309BW0V8E
     Chassis
        Manufacturer  : Oracle Corporation
        Name          : ORCL,SPARC-T4-1
        Part_Number   : 31538783+1+1
        Serial_Number : 1315BDY5D8
----------------------------------------
Suspect 2 of 2 :
   Problem class : fault.cpu.generic-sparc.strand
   Certainty   : 50%
   Affects     : cpu:///cpuid=1/serial=SERIAL2
   Status      : faulted and taken out of service

   FRU
     Status           : faulty
     Location         : "/SYS/MB"
     Manufacturer     : Oracle Corporation
     Name             : PCA,MB,SPARC_T4-1
     Part_Number      : 7047134
     Revision         : 02
     Serial_Number    : 465769T+1309BW0V8E
     Chassis
        Manufacturer  : Oracle Corporation
        Name          : ORCL,SPARC-T4-1
        Part_Number   : 31538783+1+1
        Serial_Number : 1315BDY5D8

Description : The number of correctable errors associated with this strand has
              exceeded acceptable levels.

Response    : The fault manager will attempt to remove the affected strand from
              service.

Impact      : System performance may be affected.

Action      : Use 'fmadm faulty' to provide a more detailed view of this event.
              Please refer to the associated reference document at
              http://support.oracle.com/msg/SUN4V-8002-6E for the latest
              service procedures and policies regarding this diagnosis.
使用例 3  fmdump 障害レポート

コンソールメッセージやナレッジ記事の中には、次の例に示すように、fmdump コマンドを使用して障害情報を表示するよう指示するものがあります。影響を受けるコンポーネントに関する情報は「Affects」行にあります。「FRU Location」値は、人間が読める FRU 文字列を表します。「FRU」行と「Problem in」行は FMRI を示しています。この例の出力行は読みやすいように意図的に分割されています。

# fmdump -vu 91cfc113-eacc-44d0-8236-9e2ed3926fd3
TIME                 UUID                                 SUNW-MSG-ID  EVENT
Apr 08 08:36:50.1418 91cfc113-eacc-44d0-8236-9e2ed3926fd3 DISK-8000-0X Diagnosed
  100%  fault.io.disk.predictive-failure

        Problem in: hc://:chassis-mfg=SUN:chassis-name=SUN-Storage-J4410
                    :chassis-part=3753659:chassis-serial=1051QCQ08A:fru-mfg=STEC
                    :fru-name=ZeusIOPs:fru-serial=STM00011EDCA:fru-part=STEC-ZeusIOPs
                    :fru-revision=9007:devid=id1,sd@n5000a7203002c0f2/ses-enclosure=
                    0/bay=23/disk=0
           Affects: dev:///:devid=id1,sd@n5000a7203002c0f2//scsi_vhci/disk@g5000a7203002c0f2
               FRU: hc://:chassis-mfg=SUN:chassis-name=SUN-Storage-J4410
                    :chassis-part=3753659:chassis-serial=1051QCQ08A:fru-mfg=STEC
                    :fru-name=ZeusIOPs:fru-serial=STM00011EDCA:fru-part=STEC-ZeusIOPs
                    :fru-revision=9007:devid=id1,sd@n5000a7203002c0f2/ses-enclosure=
                    0/bay=23/disk=0
      FRU Location: /SUN-Storage-J4410.1051QCQ08A/HDD23

fmdump の出力で重要度、説明テキスト、およびアクションを表示するには、-m オプションを使用します。詳細は、fmdump(1M) のマニュアルページを参照してください。

次に、2 つの CPU デバイスの fmdump の出力を示します。

# fmdump -vu 662ec53e-3aff-41d1-a836-ad7d1795705a
TIME                 UUID                                 SUNW-MSG-ID   EVENT
Apr 24 10:41:32.7511 662ec53e-3aff-41d1-a836-ad7d1795705a SUN4V-8002-6E Diagnosed

  100%  fault.cpu.generic-sparc.strand

        Problem in: hc://:chassis-mfg=Oracle-Corporation:chassis-name=ORCL,SPARC-T4-1
                    :chassis-part=31538783+1+1:chassis-serial=1315BDY5D8/chassis=0
                    /motherboard=0/chip=0/core=0/strand=0
           Affects: cpu:///cpuid=0/serial=15a02807e0b026b
               FRU: hc://:chassis-mfg=Oracle-Corporation:chassis-name=ORCL,SPARC-T4-1
                    :chassis-part=31538783+1+1:chassis-serial=1315BDY5D8
                    :fru-serial=465769T+1309BW0V8E:fru-part=7047134
                    :fru-revision=02/chassis=0/motherboard=0
      FRU Location: /SYS/MB

Apr 24 10:41:32.7732 662ec53e-3aff-41d1-a836-ad7d1795705a FMD-8000-9L   Isolated
  100%  fault.cpu.generic-sparc.strand

        Problem in: hc://:chassis-mfg=Oracle-Corporation:chassis-name=ORCL,SPARC-T4-1
                    :chassis-part=31538783+1+1:chassis-serial=1315BDY5D8/chassis=0
                    /motherboard=0/chip=0/core=0/strand=0
           Affects: cpu:///cpuid=0/serial=15a02807e0b026b
               FRU: hc://:chassis-mfg=Oracle-Corporation:chassis-name=ORCL,SPARC-T4-1
                    :chassis-part=31538783+1+1:chassis-serial=1315BDY5D8
                    :fru-serial=465769T+1309BW0V8E:fru-part=7047134
                    :fru-revision=02/chassis=0/motherboard=0
      FRU Location: /SYS/MB
使用例 4  オフラインになっている CPU の特定

CPU に関する情報を表示するには、psrinfo コマンドを使用します。

$ psrinfo 
0       faulted   since 04/24/2015 10:41:32
1       on-line   since 04/23/2015 14:52:03  

この例の faulted 状態は、Fault Manager の応答エージェントによってその CPU がオフラインにされたことを示しています。