在 Oracle® Solaris 11.2 中管理故障


更新时间: 2014 年 7 月


使用 fmadm faulty 命令可显示故障或缺陷信息并确定涉及的 FRU。fmadm faulty 命令可显示未解决的问题。fmdump 命令可显示与 Fault Manager 守护进程关联的日志文件的内容,作为系统上问题的历史记录有更大的作用。

提示  -  根据 fmadm faulty 命令的输出确定管理措施。fmdump 命令的日志文件输出可能包含对非故障或缺陷的错误的陈述。

fmadm faulty 命令可显示 Fault Manager 标识为有故障的资源的状态信息。fmadm faulty 命令有许多选项,可用于显示不同的信息或者以不同的格式显示信息。有关所有 fmadm faulty 选项的信息,请参阅 fmadm(1M) 手册页。

示例 2-1  显示一个故障 CPU 的 fmadm faulty 输出
1    # fmadm faulty
2    --------------- ------------------------------------  -------------- ---------
3    TIME            EVENT-ID                              MSG-ID         SEVERITY
4    --------------- ------------------------------------  -------------- ---------
5    Aug 24 17:56:03 7b83c87c-78f6-6a8e-fa2b-d0cf16834049  SUN4V-8001-8H  Minor
7    Host        : bur419-61
8    Platform    : SUNW,T5440        Chassis_id  : BEL07524BN
9    Product_sn  : BEL07524BN
11   Fault class : fault.cpu.ultraSPARC-T2plus.ireg
12   Affects     : cpu:///cpuid=0/serial=1F95806CD1421929
13                     faulted and taken out of service
14   FRU         : "MB/CPU0" (hc://:product-id=SUNW,T5440:server-id=bur419-61:\
15                 serial=3529:part=541255304/motherboard=0/cpuboard=0)
16                     faulty
17   Serial ID.  : 3529
18                 1F95806CD1421929
20   Description : The number of integer register errors associated with this thread
21                 has exceeded acceptable levels.
23   Response    : The fault manager will attempt to remove the affected thread from
24                 service.
26   Impact      : System performance may be affected.
28   Action      : Use 'fmadm faulty' to provide a more detailed view of this event.
29                 Please refer to the associated reference document at
30                 http://support.oracle.com/msg/SUN4V-8001-8H for the latest service
31                 procedures and policies regarding this diagnosis.

第 14 行标识受影响的 FRU。引号中显示的字符串 "MB/CPU0" 应与物理硬件上的标签匹配。括号中显示的字符串是 FRU 的故障管理资源标识符 (FMRI)。FMRI 包括有关包含故障的系统的描述性属性,例如其主机名和机箱序列号。在某些平台上,FRU 的 FMRI 中还会包括 FRU 的部件号和序列号。

Affects 行(第 12 和 13 行)指示受故障影响的组件及其相关状态。在此示例中,有一个 CPU 导线束受到影响。CPU 导线束有故障,并且被 Fault Manager 中止服务。

fmadm faulty 命令输出中,在 FRU 说明之后,第 16 行显示了状态,其状态为 faulty。"Action" 部分可能包括除了对支持站点上的文档引用以外的具体措施。

示例 2-2  显示多个故障的 fmadm faulty 输出
1    # fmadm faulty
2    --------------- ------------------------------------  -------------- -------
3    TIME            EVENT-ID                              MSG-ID         SEVERITY
4    --------------- ------------------------------------  -------------- -------
5    Sep 21 10:01:36 d482f935-5c8f-e9ab-9f25-d0aaafec1e6c  PCIEX-8000-5Y  Major
7    Fault class  : fault.io.pci.device-invreq
8    Affects      : dev:///pci@0,0/pci1022,7458@11/pci1000,3060@0
9                   dev:///pci@0,0/pci1022,7458@11/pci1000,3060@1
10                   ok and in service
11                  dev:///pci@0,0/pci1022,7458@11/pci1000,3060@2
12                  dev:///pci@0,0/pci1022,7458@11/pci1000,3060@3
13                    faulty and taken out of service
14   FRU          : "SLOT 2" (hc://.../pciexrc=3/pciexbus=4/pciexdev=0)
15                    repair attempted
16                  "SLOT 3" (hc://.../pciexrc=3/pciexbus=4/pciexdev=1)
17                    acquitted
18                  "SLOT 4" (hc://.../pciexrc=3/pciexbus=4/pciexdev=2)
19                    not present
20                  "SLOT 5" (hc://.../pciexrc=3/pciexbus=4/pciexdev=3)
21                    faulty
23    Description  : The transmitting device sent an invalid request.
25    Response     : One or more device instances may be disabled
27    Impact       : Possible loss of services provided by the device instances
28                   associated with this fault
30    Action       : Use 'fmadm faulty' to provide a more detailed view of this event.
31                   Please refer to the associated reference document at
32                   http://support.oracle.com/msg/PCIEX-8000-5Y for the latest service
33                   procedures and policies regarding this diagnosis.

在此输出中,插槽 3 中的设备 1 在第 10 行上被描述为 "ok and in service"(正常,正在服务),第 17 行显示其状态为 "acquitted"(已排除嫌疑)。插槽 5 中的设备 3 被描述为 "faulty and taken out of service"(有故障并已中止服务),其状态为 "faulty"(有故障)。另外两个设备显示的状态 "repair attempted"(已尝试修复)和 "not present"(不存在)。

示例 2-3  使用 fmdump 命令显示故障

某些控制台消息和知识库文章可能会指示您使用 fmdump -v -u UUID 命令来显示故障信息,如以下示例中所示:

1    # fmdump -v -u 7b83c87c-78f6-6a8e-fa2b-d0cf16834049
2    TIME                 UUID                                 SUNW-MSG-ID EVENT
3    Aug 24 17:56:03.4596 7b83c87c-78f6-6a8e-fa2b-d0cf16834049 SUN4V-8001-8H Diagnosed
4      100%  fault.cpu.ultraSPARC-T2plus.ireg
6            Problem in: -
7               Affects: cpu:///cpuid=0/serial=1F95806CD1421929
8                   FRU: hc://:product-id=SUNW,T5440:server-id=bur419-61:\
9                   serial=9999:part=541255304/motherboard=0/cpuboard=0
10              Location: MB/CPU0

有关受影响的 FRU 的信息位于第 8 行至第 10 行。第 10 行上的 "Location"(位置)字符串提供了人可阅读的 FRU 字符串。第 8 行显示了 FRU 的 FMRI。要查看 fmdump 输出中的严重性、描述文本以及措施,可使用 -m 选项。有关更多信息,请参见 fmdump(1M) 手册页。

示例 2-4  标识脱机的 CPU

使用 psrinfo 命令可显示有关 CPU 的信息:

$ psrinfo 
0       faulted   since 05/13/2013 12:55:26 
1       on-line   since 05/12/2013 11:47:26 

此示例中的 faulted 状态指示 CPU 已被 Fault Manager 响应代理置于脱机状态。