JavaScript is required to for searching.
ナビゲーションリンクをスキップ
印刷ビューの終了
Oracle Solaris 11.1 でのサービスと障害の管理     Oracle Solaris 11.1 Information Library (日本語)
search filter icon
search icon

ドキュメントの情報

はじめに

1.  サービスの管理 (概要)

2.  サービスの管理 (タスク)

3.  障害管理の使用

障害管理の概要

障害および欠陥の通知

障害または欠陥に関する情報の表示

障害の発生したコンポーネントに関する情報を表示する方法

CPU がオフラインかどうかを特定する方法

欠陥のあるサービスに関する情報を表示する方法

障害または欠陥の修復

fmadm replaced コマンド

fmadm repaired コマンド

fmadm acquit コマンド

障害管理のログファイル

障害の統計情報

索引

障害または欠陥に関する情報の表示

障害や欠陥の情報を表示したり、関係する FRU を特定したりするための方法としては、fmadm faulty コマンドを推奨します。ただし、fmdump コマンドもサポートされています。fmdump はシステム上の問題の履歴ログを表示するために使用されることが多く、fmadm faulty はアクティブな問題を表示するために使用されます。


注意

注意 - 管理アクションは、fmdump コマンドの出力ではなく fmadm faulty の出力に基づいて決定してください。ログファイルには、障害や欠陥と見なすべきでないエラー文が含まれていることがあります。


障害の発生したコンポーネントに関する情報を表示する方法

  1. 管理者になります。

    詳細は、『Oracle Solaris 11.1 の管理: セキュリティーサービス』の「割り当てられている管理権限を使用する方法」を参照してください。

  2. コンポーネントに関する情報を表示します。
    # fmadm faulty

    生成されるテキストの説明については、次の例を参照してください。

例 3-1 障害の発生した CPU が 1 つある場合の fmadm の出力

1    # fmadm faulty
2    --------------- ------------------------------------  -------------- ---------
3    TIME            EVENT-ID                              MSG-ID         SEVERITY
4    --------------- ------------------------------------  -------------- ---------
5    Aug 24 17:56:03 7b83c87c-78f6-6a8e-fa2b-d0cf16834049  SUN4V-8001-8H  Minor
6    
7    Host        : bur419-61
8    Platform    : SUNW,T5440        Chassis_id  : BEL07524BN
9    Product_sn  : BEL07524BN
10
11   Fault class : fault.cpu.ultraSPARC-T2plus.ireg
12   Affects     : cpu:///cpuid=0/serial=1F95806CD1421929
13                     faulted and taken out of service
14   FRU         : "MB/CPU0" (hc://:product-id=SUNW,T5440:server-id=bur419-61:\
15                 serial=3529:part=541255304/motherboard=0/cpuboard=0)
16                     faulty
17   Serial ID.  : 3529
18                 1F95806CD1421929
19   
20   Description : The number of integer register errors associated with this thread
21                 has exceeded acceptable levels.
22   
23   Response    : The fault manager will attempt to remove the affected thread from
24                 service.
25   
26   Impact      : System performance may be affected.
27   
28   Action      : Use 'fmadm faulty' to provide a more detailed view of this event.
29                 Please refer to the associated reference document at
30                 http://support.oracle.com/msg/SUN4V-8001-8H for the latest service
31                 procedures and policies regarding this diagnosis.
 

もっとも重要なのは、影響を受ける FRU に関するデータが表示された 14 行目です。可読形式の場所の文字列が引用符で囲んで表示されています ("MB/CPU0")。引用符で囲まれた値は、物理ハードウェアに付けられたラベルと一致させるためのものです。FRU は、障害管理リソース識別子 (FMRI) 形式でも表示されます。FMRI には、ホスト名やシャーシのシリアル番号など、障害を含むシステムに関する記述プロパティーが含まれています。FRU をサポートするプラットフォームでは、FRU の FMRI に FRU のパート番号とシリアル番号も含まれています。

「Affects」行 (12 - 13 行目) には、障害または欠陥とその関連する状態の影響を受けるコンポーネントが示されます。この例では、1 つの CPU ストランドが影響を受け、「faulted and taken out of service (障害が発生して使用不可)」となっています。

この fmadm faulty コマンドの出力では、FRU の説明に続いて、16 行目に状態が「faulty」として表示されています。「Action」セクションには、通常の fmadm コマンドの参照に代わって (または追加して) ほかのアクションが含まれる場合もあります。

例 3-2 複数の障害がある場合の fmadm の出力

1    # fmadm faulty
2    --------------- ------------------------------------  -------------- -------
3    TIME            EVENT-ID                              MSG-ID         SEVERITY
4    --------------- ------------------------------------  -------------- -------
5    Sep 21 10:01:36 d482f935-5c8f-e9ab-9f25-d0aaafec1e6c  PCIEX-8000-5Y  Major
6    
7    Fault class  : fault.io.pci.device-invreq
8    Affects      : dev:///pci@0,0/pci1022,7458@11/pci1000,3060@0
9                   dev:///pci@0,0/pci1022,7458@11/pci1000,3060@1
10                   ok and in service
11                  dev:///pci@0,0/pci1022,7458@11/pci1000,3060@2
12                  dev:///pci@0,0/pci1022,7458@11/pci1000,3060@3
13                    faulty and taken out of service
14   FRU          : "SLOT 2" (hc://.../pciexrc=3/pciexbus=4/pciexdev=0)
15                    repair attempted
16                  "SLOT 3" (hc://.../pciexrc=3/pciexbus=4/pciexdev=1)
17                    acquitted
18                  "SLOT 4" (hc://.../pciexrc=3/pciexbus=4/pciexdev=2)
19                    not present
20                  "SLOT 5" (hc://.../pciexrc=3/pciexbus=4/pciexdev=3)
21                    faulty
22   
23    Description  : The transmitting device sent an invalid request.
24   
25    Response     : One or more device instances may be disabled
26   
27    Impact       : Possible loss of services provided by the device instances
28                   associated with this fault
29   
30    Action       : Use 'fmadm faulty' to provide a more detailed view of this event.
31                   Please refer to the associated reference document at
32                   http://support.oracle.com/msg/PCIEX-8000-5Y for the latest service
33                   procedures and policies regarding this diagnosis.

この fmadm faulty コマンドの出力では、FRU の説明に続いて、21 行目に状態が「faulty」として表示されています。ほかの状況で表示される可能性がある状態値として、15 行目の SLOT 2 に対する「acquitted」や 17 行目の SLOT 3 に対する「repair attempted」があります。

例 3-3 fmdump コマンドを使用して障害を表示する

コンソールメッセージやナレッジ記事の中には、古い fmdump -v -u UUID コマンドを使用して障害情報を表示するように指示するものがあります。fmadm faulty コマンドが推奨されますが、次の例に示すように fmdump コマンドも動作します。

1    % fmdump -v -u 7b83c87c-78f6-6a8e-fa2b-d0cf16834049
2    TIME                 UUID                                 SUNW-MSG-ID EVENT
3    Aug 24 17:56:03.4596 7b83c87c-78f6-6a8e-fa2b-d0cf16834049 SUN4V-8001-8H Diagnosed
4      100%  fault.cpu.ultraSPARC-T2plus.ireg
5
6            Problem in: -
7               Affects: cpu:///cpuid=0/serial=1F95806CD1421929
8                   FRU: hc://:product-id=SUNW,T5440:server-id=bur419-61:\
9                   serial=9999:part=541255304/motherboard=0/cpuboard=0
10              Location: MB/CPU0

影響を受けた FRU に関する情報も表示されますが、3 行 (8 - 10 行目) に分かれています。「Location」の文字列には、可読形式の FRU の文字列が表示されます。「FRU」の行には、正式な FMRI が表示されます。fmdump コマンドでは、-m オプションを指定しないかぎり、重要度、説明テキスト、およびアクションが表示されません。詳細は、fmdump(1M) のマニュアルページを参照してください。

CPU がオフラインかどうかを特定する方法

欠陥のあるサービスに関する情報を表示する方法

  1. 管理者になります。

    詳細は、『Oracle Solaris 11.1 の管理: セキュリティーサービス』の「割り当てられている管理権限を使用する方法」を参照してください。

  2. 欠陥に関する情報を表示します。
    # fmadm faulty
    --------------- ------------------------------------  -------------- ---------
    TIME            EVENT-ID                              MSG-ID         SEVERITY
    --------------- ------------------------------------  -------------- ---------
    May 12 22:52:47 915cb64b-e16b-4f49-efe6-de81ff96fce7  SMF-8000-YX    major
    
    Host        : parity
    Platform    : Sun-Fire-V40z     Chassis_id  : XG051535088
    Product_sn  : XG051535088
    
    Fault class : defect.sunos.smf.svc.maintenance
    Affects     : svc:///system/intrd:default
                      faulted and taken out of service
    Problem in  : svc:///system/intrd:default
                      faulted and taken out of service
    
    Description : A service failed - it is restarting too quickly.
    
    Response    : The service has been placed into the maintenance state.
    
    Impact      : svc:/system/intrd:default is unavailable.
    
    Action      : Run 'svcs -xv svc:/system/intrd:default' to determine the
                  generic reason why the service failed, the location of any
                  logfiles, and a list of other services impacted. Please refer to
                  the associated reference document at
                  http://support.oracle.com/msg/SMF-8000-YX for the latest service procedures
                  and policies regarding this diagnosis.
  3. 欠陥のあるサービスに関する情報を表示します。

    fmadm の出力の「Action」セクションに示された指示に従います。

    # svcs -xv svc:/system/intrd:default
    svc:/system/intrd:default (interrupt balancer)
     State: maintenance since Wed May 12 22:52:47 2010
    Reason: Restarting too quickly.
       See: http://support.oracle.com/msg/SMF-8000-YX
       See: man -M /usr/share/man -s 1M intrd
       See: /var/svc/log/system-intrd:default.log
    Impact: This service is not running.

    この問題の詳しい修正手順については、ナレッジ記事 SMF-8000-YX を参照してください。