ナビゲーションリンクをスキップ | |
印刷ビューの終了 | |
Oracle Solaris 11.1 でのサービスと障害の管理 Oracle Solaris 11.1 Information Library (日本語) |
障害や欠陥の情報を表示したり、関係する FRU を特定したりするための方法としては、fmadm faulty コマンドを推奨します。ただし、fmdump コマンドもサポートされています。fmdump はシステム上の問題の履歴ログを表示するために使用されることが多く、fmadm faulty はアクティブな問題を表示するために使用されます。
注意 - 管理アクションは、fmdump コマンドの出力ではなく fmadm faulty の出力に基づいて決定してください。ログファイルには、障害や欠陥と見なすべきでないエラー文が含まれていることがあります。 |
詳細は、『Oracle Solaris 11.1 の管理: セキュリティーサービス』の「割り当てられている管理権限を使用する方法」を参照してください。
# fmadm faulty
生成されるテキストの説明については、次の例を参照してください。
例 3-1 障害の発生した CPU が 1 つある場合の fmadm の出力
1 # fmadm faulty 2 --------------- ------------------------------------ -------------- --------- 3 TIME EVENT-ID MSG-ID SEVERITY 4 --------------- ------------------------------------ -------------- --------- 5 Aug 24 17:56:03 7b83c87c-78f6-6a8e-fa2b-d0cf16834049 SUN4V-8001-8H Minor 6 7 Host : bur419-61 8 Platform : SUNW,T5440 Chassis_id : BEL07524BN 9 Product_sn : BEL07524BN 10 11 Fault class : fault.cpu.ultraSPARC-T2plus.ireg 12 Affects : cpu:///cpuid=0/serial=1F95806CD1421929 13 faulted and taken out of service 14 FRU : "MB/CPU0" (hc://:product-id=SUNW,T5440:server-id=bur419-61:\ 15 serial=3529:part=541255304/motherboard=0/cpuboard=0) 16 faulty 17 Serial ID. : 3529 18 1F95806CD1421929 19 20 Description : The number of integer register errors associated with this thread 21 has exceeded acceptable levels. 22 23 Response : The fault manager will attempt to remove the affected thread from 24 service. 25 26 Impact : System performance may be affected. 27 28 Action : Use 'fmadm faulty' to provide a more detailed view of this event. 29 Please refer to the associated reference document at 30 http://support.oracle.com/msg/SUN4V-8001-8H for the latest service 31 procedures and policies regarding this diagnosis.
もっとも重要なのは、影響を受ける FRU に関するデータが表示された 14 行目です。可読形式の場所の文字列が引用符で囲んで表示されています ("MB/CPU0")。引用符で囲まれた値は、物理ハードウェアに付けられたラベルと一致させるためのものです。FRU は、障害管理リソース識別子 (FMRI) 形式でも表示されます。FMRI には、ホスト名やシャーシのシリアル番号など、障害を含むシステムに関する記述プロパティーが含まれています。FRU をサポートするプラットフォームでは、FRU の FMRI に FRU のパート番号とシリアル番号も含まれています。
「Affects」行 (12 - 13 行目) には、障害または欠陥とその関連する状態の影響を受けるコンポーネントが示されます。この例では、1 つの CPU ストランドが影響を受け、「faulted and taken out of service (障害が発生して使用不可)」となっています。
この fmadm faulty コマンドの出力では、FRU の説明に続いて、16 行目に状態が「faulty」として表示されています。「Action」セクションには、通常の fmadm コマンドの参照に代わって (または追加して) ほかのアクションが含まれる場合もあります。
例 3-2 複数の障害がある場合の fmadm の出力
1 # fmadm faulty 2 --------------- ------------------------------------ -------------- ------- 3 TIME EVENT-ID MSG-ID SEVERITY 4 --------------- ------------------------------------ -------------- ------- 5 Sep 21 10:01:36 d482f935-5c8f-e9ab-9f25-d0aaafec1e6c PCIEX-8000-5Y Major 6 7 Fault class : fault.io.pci.device-invreq 8 Affects : dev:///pci@0,0/pci1022,7458@11/pci1000,3060@0 9 dev:///pci@0,0/pci1022,7458@11/pci1000,3060@1 10 ok and in service 11 dev:///pci@0,0/pci1022,7458@11/pci1000,3060@2 12 dev:///pci@0,0/pci1022,7458@11/pci1000,3060@3 13 faulty and taken out of service 14 FRU : "SLOT 2" (hc://.../pciexrc=3/pciexbus=4/pciexdev=0) 15 repair attempted 16 "SLOT 3" (hc://.../pciexrc=3/pciexbus=4/pciexdev=1) 17 acquitted 18 "SLOT 4" (hc://.../pciexrc=3/pciexbus=4/pciexdev=2) 19 not present 20 "SLOT 5" (hc://.../pciexrc=3/pciexbus=4/pciexdev=3) 21 faulty 22 23 Description : The transmitting device sent an invalid request. 24 25 Response : One or more device instances may be disabled 26 27 Impact : Possible loss of services provided by the device instances 28 associated with this fault 29 30 Action : Use 'fmadm faulty' to provide a more detailed view of this event. 31 Please refer to the associated reference document at 32 http://support.oracle.com/msg/PCIEX-8000-5Y for the latest service 33 procedures and policies regarding this diagnosis.
この fmadm faulty コマンドの出力では、FRU の説明に続いて、21 行目に状態が「faulty」として表示されています。ほかの状況で表示される可能性がある状態値として、15 行目の SLOT 2 に対する「acquitted」や 17 行目の SLOT 3 に対する「repair attempted」があります。
例 3-3 fmdump コマンドを使用して障害を表示する
コンソールメッセージやナレッジ記事の中には、古い fmdump -v -u UUID コマンドを使用して障害情報を表示するように指示するものがあります。fmadm faulty コマンドが推奨されますが、次の例に示すように fmdump コマンドも動作します。
1 % fmdump -v -u 7b83c87c-78f6-6a8e-fa2b-d0cf16834049 2 TIME UUID SUNW-MSG-ID EVENT 3 Aug 24 17:56:03.4596 7b83c87c-78f6-6a8e-fa2b-d0cf16834049 SUN4V-8001-8H Diagnosed 4 100% fault.cpu.ultraSPARC-T2plus.ireg 5 6 Problem in: - 7 Affects: cpu:///cpuid=0/serial=1F95806CD1421929 8 FRU: hc://:product-id=SUNW,T5440:server-id=bur419-61:\ 9 serial=9999:part=541255304/motherboard=0/cpuboard=0 10 Location: MB/CPU0
影響を受けた FRU に関する情報も表示されますが、3 行 (8 - 10 行目) に分かれています。「Location」の文字列には、可読形式の FRU の文字列が表示されます。「FRU」の行には、正式な FMRI が表示されます。fmdump コマンドでは、-m オプションを指定しないかぎり、重要度、説明テキスト、およびアクションが表示されません。詳細は、fmdump(1M) のマニュアルページを参照してください。
% /usr/sbin/psrinfo 0 faulted since 05/13/2011 12:55:26 1 on-line since 05/12/2011 11:47:26
faulted 状態は、障害管理の応答エージェントによって CPU がオフラインにされたことを示します。
詳細は、『Oracle Solaris 11.1 の管理: セキュリティーサービス』の「割り当てられている管理権限を使用する方法」を参照してください。
# fmadm faulty --------------- ------------------------------------ -------------- --------- TIME EVENT-ID MSG-ID SEVERITY --------------- ------------------------------------ -------------- --------- May 12 22:52:47 915cb64b-e16b-4f49-efe6-de81ff96fce7 SMF-8000-YX major Host : parity Platform : Sun-Fire-V40z Chassis_id : XG051535088 Product_sn : XG051535088 Fault class : defect.sunos.smf.svc.maintenance Affects : svc:///system/intrd:default faulted and taken out of service Problem in : svc:///system/intrd:default faulted and taken out of service Description : A service failed - it is restarting too quickly. Response : The service has been placed into the maintenance state. Impact : svc:/system/intrd:default is unavailable. Action : Run 'svcs -xv svc:/system/intrd:default' to determine the generic reason why the service failed, the location of any logfiles, and a list of other services impacted. Please refer to the associated reference document at http://support.oracle.com/msg/SMF-8000-YX for the latest service procedures and policies regarding this diagnosis.
fmadm の出力の「Action」セクションに示された指示に従います。
# svcs -xv svc:/system/intrd:default svc:/system/intrd:default (interrupt balancer) State: maintenance since Wed May 12 22:52:47 2010 Reason: Restarting too quickly. See: http://support.oracle.com/msg/SMF-8000-YX See: man -M /usr/share/man -s 1M intrd See: /var/svc/log/system-intrd:default.log Impact: This service is not running.
この問題の詳しい修正手順については、ナレッジ記事 SMF-8000-YX を参照してください。