在 Oracle® Solaris 11.2 中管理故障

退出打印视图

更新时间: 2014 年 7 月
 
 

故障统计信息

Fault Manager 守护进程及其多个模块可收集统计信息。fmadm config 命令显示 Fault Manager 模块的状态。fmstat 命令报告这些模块收集的统计信息。

# fmadm config
MODULE                   VERSION STATUS  DESCRIPTION
cpumem-retire            1.1     active  CPU/Memory Retire Agent
disk-diagnosis           0.1     active  Disk Diagnosis engine
disk-transport           2.1     active  Disk Transport Agent
eft                      1.16    active  eft diagnosis engine
ext-event-transport      0.2     active  External FM event transport
fabric-xlate             1.0     active  Fabric Ereport Translater
fmd-self-diagnosis       1.0     active  Fault Manager Self-Diagnosis
fru-monitor              1.1     active  FRU Monitor
io-retire                2.0     active  I/O Retire Agent
network-monitor          1.0     active  Network monitor
sensor-transport         1.2     active  Sensor Transport Agent
ses-log-transport        1.0     active  SES Log Transport Agent
software-diagnosis       0.1     active  Software Diagnosis engine
software-response        0.1     active  Software Response Agent
sysevent-transport       1.0     active  SysEvent Transport Agent
syslog-msgs              1.1     active  Syslog Messaging Agent
zfs-diagnosis            1.0     active  ZFS Diagnosis Engine
zfs-retire               1.0     active  ZFS Retire Agent

当不使用任何选项时,fmstat 命令会高度概述事件、处理时间以及所装入模块的内存使用情况。

# fmstat
module             ev_recv ev_acpt wait  svc_t    %w  %b  open solve  memsz  bufsz
cpumem-retire            0       0  0.0 10010.0    0   0     0     0      0      0
disk-diagnosis           0       0  0.0 10007.7    0   0     0     0      0      0
disk-transport           0       0  0.9 1811945.5 92   0     0     0    52b      0
eft                      0       0  0.0 4278.0     0   0     3     0   1.6M    58b
ext-event-transport      6       0  0.0  860.8     0   0     0     0    46b   2.0K
fabric-xlate             0       0  0.0    4.8     0   0     0     0      0      0
fmd-self-diagnosis     393       0  0.0   25.5     0   0     0     0      0      0
fru-monitor              2       0  0.0   42.4     0   0     0     0   880b      0
io-retire                1       0  0.0 5003.8     0   0     0     0      0      0
network-monitor          0       0  0.0   13.2     0   0     0     0   664b      0
sensor-transport         0       0  0.0   38.3     0   0     0     0    40b      0
ses-log-transport        0       0  0.0   23.8     0   0     0     0    40b      0
software-diagnosis       0       0  0.0 10010.0    0   0     0     0   316b      0
software-response        0       0  0.0 10006.8    0   0     0     0    14K    14K
sysevent-transport       0       0  0.0 6125.0     0   0     0     0      0      0
syslog-msgs              2       0  0.0 3337.2     0   0     0     0      0      0
zfs-diagnosis            4       0  0.0 2002.0     0   0     0     0      0      0
zfs-retire               4       0  0.0 2715.1     0   0     0     0     4b      0
ev_recv

模块接收的遥测事件数。

ev_acpt

模块接受的与诊断相关的遥测事件数。

wait

等待模块检查的遥测事件平均数。

svc_t

模块接收的遥测事件平均服务时间(以毫秒为单位)。

%w

等待模块检查的遥测事件的时间的百分比。

%b

模块忙于处理遥测事件的时间的百分比。

open

模块拥有的活动事例数(打开问题调查)。open 列仅适用于故障管理个案,它们只能由诊断引擎创建和解决。此列不适用于其他模块(例如响应代理)。

solve

自从装入该模块后,它所解决的事例总数。solve 列仅适用于故障管理个案,它们只能由诊断引擎创建和解决。此列不适用于其他模块(例如响应代理)。

memsz

该模块当前所分配的动态内存量。

bufsz

该模块当前所分配的持久性缓冲区空间大小。

指定不同的选项时,会显示不同的统计信息和列。

要显示单个模块的统计信息,可使用 -m module 选项。-z 选项可抑制零值统计信息。以下示例表明,cpumem-retire 响应代理已成功处理了要求 CPU 脱机的请求。

# fmstat -z -m cpumem-retire
  NAME      VALUE        DESCRIPTION
  cpu_flts  1            cpu faults resolved

有关其他选项的信息,请参见 fmstat(1M) 手册页。