Oracle® Solaris 11.2 での障害の管理

印刷ビューの終了

更新: 2014 年 7 月
 
 

障害または欠陥に関する情報の表示

障害または欠陥の情報を表示したり、関係する FRU を特定したりする場合は、fmadm faulty コマンドを使用します。fmadm faulty コマンドはアクティブな問題を表示します。fmdump コマンドは Fault Manager デーモンに関連するログファイルの内容を表示し、システム上の問題の履歴ログとしてより有用です。


ヒント  -  管理アクションは、fmadm faulty コマンドの出力に基づいて決定してください。fmdump コマンドによって出力されるログファイルには、障害や欠陥ではないエラー文が含まれていることがあります。

fmadm faulty コマンドは、Fault Manager が障害があると見なすリソースのステータス情報を表示します。fmadm faulty コマンドには、さまざまな情報を表示したり、さまざまな形式で情報を表示したりするための多数のオプションがあります。fmadm faulty のすべてのオプションについては、fmadm(1M) のマニュアルページを参照してください。

使用例 2-1  障害のある CPU を 1 つ示す fmadm faulty の出力
1    # fmadm faulty
2    --------------- ------------------------------------  -------------- ---------
3    TIME            EVENT-ID                              MSG-ID         SEVERITY
4    --------------- ------------------------------------  -------------- ---------
5    Aug 24 17:56:03 7b83c87c-78f6-6a8e-fa2b-d0cf16834049  SUN4V-8001-8H  Minor
6    
7    Host        : bur419-61
8    Platform    : SUNW,T5440        Chassis_id  : BEL07524BN
9    Product_sn  : BEL07524BN
10
11   Fault class : fault.cpu.ultraSPARC-T2plus.ireg
12   Affects     : cpu:///cpuid=0/serial=1F95806CD1421929
13                     faulted and taken out of service
14   FRU         : "MB/CPU0" (hc://:product-id=SUNW,T5440:server-id=bur419-61:\
15                 serial=3529:part=541255304/motherboard=0/cpuboard=0)
16                     faulty
17   Serial ID.  : 3529
18                 1F95806CD1421929
19   
20   Description : The number of integer register errors associated with this thread
21                 has exceeded acceptable levels.
22   
23   Response    : The fault manager will attempt to remove the affected thread from
24                 service.
25   
26   Impact      : System performance may be affected.
27   
28   Action      : Use 'fmadm faulty' to provide a more detailed view of this event.
29                 Please refer to the associated reference document at
30                 http://support.oracle.com/msg/SUN4V-8001-8H for the latest service
31                 procedures and policies regarding this diagnosis.

14 行目では影響を受けた FRU を特定しています。引用符で囲んで示されている文字列 “MB/CPU0” は、物理ハードウェアに付けられたラベルと一致するはずです。括弧内に示されている文字列は、FRU の障害管理リソース識別子 (FMRI) です。FMRI には、ホスト名やシャーシのシリアル番号など、障害を含むシステムに関する記述プロパティーが含まれています。一部のプラットフォームでは、FRU の FMRI に FRU のパート番号とシリアル番号も含まれています。

「Affects」行 (12 - 13 行目) には、障害または欠陥とその関連する状態の影響を受けるコンポーネントが示されます。この例では、1 つの CPU ストランドが影響を受けています。その CPU ストランドは、障害が発生したために Fault Manager によって使用不可になっています。

この fmadm faulty コマンドの出力では、FRU の説明に続いて、16 行目に状態が「faulty」として表示されています。「Action」セクションには、サポートサイトにあるドキュメントへの参照のほかに、固有のアクションも含まれている場合があります。

使用例 2-2  複数の障害を示す fmadm faulty の出力
1    # fmadm faulty
2    --------------- ------------------------------------  -------------- -------
3    TIME            EVENT-ID                              MSG-ID         SEVERITY
4    --------------- ------------------------------------  -------------- -------
5    Sep 21 10:01:36 d482f935-5c8f-e9ab-9f25-d0aaafec1e6c  PCIEX-8000-5Y  Major
6    
7    Fault class  : fault.io.pci.device-invreq
8    Affects      : dev:///pci@0,0/pci1022,7458@11/pci1000,3060@0
9                   dev:///pci@0,0/pci1022,7458@11/pci1000,3060@1
10                   ok and in service
11                  dev:///pci@0,0/pci1022,7458@11/pci1000,3060@2
12                  dev:///pci@0,0/pci1022,7458@11/pci1000,3060@3
13                    faulty and taken out of service
14   FRU          : "SLOT 2" (hc://.../pciexrc=3/pciexbus=4/pciexdev=0)
15                    repair attempted
16                  "SLOT 3" (hc://.../pciexrc=3/pciexbus=4/pciexdev=1)
17                    acquitted
18                  "SLOT 4" (hc://.../pciexrc=3/pciexbus=4/pciexdev=2)
19                    not present
20                  "SLOT 5" (hc://.../pciexrc=3/pciexbus=4/pciexdev=3)
21                    faulty
22   
23    Description  : The transmitting device sent an invalid request.
24   
25    Response     : One or more device instances may be disabled
26   
27    Impact       : Possible loss of services provided by the device instances
28                   associated with this fault
29   
30    Action       : Use 'fmadm faulty' to provide a more detailed view of this event.
31                   Please refer to the associated reference document at
32                   http://support.oracle.com/msg/PCIEX-8000-5Y for the latest service
33                   procedures and policies regarding this diagnosis.

この出力では、10 行目でスロット 3 のデバイス 1 が「ok and in service」と記述され、17 行目でその状態が「acquitted」と表示されています。スロット 5 のデバイス 3 は「faulty and taken out of service」と記述されており、その状態は「faulty」です。ほかの 2 台のデバイスに表示された状態は、「repair attempted」および「not present」です。

使用例 2-3  fmdump コマンドによる障害の表示

コンソールメッセージやナレッジ記事の中には、次の例に示すように、fmdump -v -u UUID コマンドを使用して障害情報を表示するよう指示するものがあります。

1    # fmdump -v -u 7b83c87c-78f6-6a8e-fa2b-d0cf16834049
2    TIME                 UUID                                 SUNW-MSG-ID EVENT
3    Aug 24 17:56:03.4596 7b83c87c-78f6-6a8e-fa2b-d0cf16834049 SUN4V-8001-8H Diagnosed
4      100%  fault.cpu.ultraSPARC-T2plus.ireg
5
6            Problem in: -
7               Affects: cpu:///cpuid=0/serial=1F95806CD1421929
8                   FRU: hc://:product-id=SUNW,T5440:server-id=bur419-61:\
9                   serial=9999:part=541255304/motherboard=0/cpuboard=0
10              Location: MB/CPU0

影響を受けた FRU に関する情報は 8 - 10 行目にあります。10 行目の「Location」文字列には、人間が読める FRU 文字列が表示されています。8 行目には FRU の FMRI が表示されています。fmdump の出力で重要度、説明テキスト、およびアクションを表示するには、-m オプションを使用します。詳細は、fmdump(1M) のマニュアルページを参照してください。

使用例 2-4  オフラインになっている CPU の特定

CPU に関する情報を表示するには、psrinfo コマンドを使用します。

$ psrinfo 
0       faulted   since 05/13/2013 12:55:26 
1       on-line   since 05/12/2013 11:47:26 

この例の faulted 状態は、Fault Manager の応答エージェントによってその CPU がオフラインにされたことを示しています。