JavaScript is required to for searching.
跳过导航链接
退出打印视图
Oracle Solaris 管理:常见任务     Oracle Solaris 11 Information Library (简体中文)
search filter icon
search icon

文档信息

关于本书

1.  查找有关 Oracle Solaris 命令的信息

2.  管理用户帐户和组(概述)

3.  管理用户帐户和组(任务)

4.  引导和关闭 Oracle Solaris 系统

5.  使用 Oracle Configuration Manager

6.  管理服务(概述)

7.  管理服务(任务)

8.  使用 Fault Manager

故障管理概述

故障和缺陷通知

显示有关故障或缺陷的信息

如何显示关于故障组件的信息

如何识别哪些 CPU 处于脱机状态

如何显示关于有缺陷的服务的信息

修复故障或缺陷

fmadm replaced 命令

fmadm repaired 命令

fmadm acquit 命令

故障管理日志文件

故障统计信息

9.  管理系统信息(任务)

10.  管理系统进程(任务)

11.  监视系统性能(任务)

12.  管理软件包(任务)

13.  管理磁盘使用(任务)

14.  调度系统任务(任务)

15.  使用 CUPS 设置和管理打印机(任务)

16.  管理系统控制台、终端设备和电源服务(任务)

17.  管理系统故障转储信息(任务)

18.  管理核心文件(任务)

19.  系统和软件问题的故障排除(任务)

20.  其他系统和软件问题的故障排除(任务)

索引

故障管理概述

Oracle Solaris 故障管理功能提供的体系结构用于构建有复原能力的错误处理程序、结构化错误遥测工具、自动化诊断软件、响应代理以及结构化消息传送系统。软件栈的许多部分都参与故障管理,其中包括 CPU、内存和 I/O 子系统、Oracle Solaris ZFS、不断增加的一组设备驱动程序,以及其他管理栈。

FMA 用于帮助解决 Oracle Solaris 系统中可能会出现的问题。问题可能是一个故障,意思是说,某个功能过去正常工作但不再正常工作。问题可能是一个缺陷,意思是说,它从未正常工作。通常,硬件可能会出现故障,也可能会出现缺陷。但是,大多数软件问题是缺陷,或是由配置问题引起的。

在较高层面,故障管理栈包含错误检测器、诊断引擎和响应代理。错误检测器,顾名思义,它检测系统中的错误,然后立即执行所需的处理。错误检测器向诊断引擎发出定义明确的错误报告或 ereport诊断引擎对 ereport 进行解释并确定系统中是否存在故障或缺陷。进行此确定之后,诊断引擎会发出一个可疑对象列表,该列表描述了可能是问题起因的资源或资源集。资源可能有也可能没有相关的现场可更换单元 (field-replaceable unit, FRU)、标签或自动系统重新配置单元 (Automatic System Reconfiguration Unit, ASRU)。可以立即从服务中删除某个 ASRU 以减轻问题,直至更换完 FRU。

当可疑对象列表包含多个可疑对象时,例如,如果诊断引擎无法隔离单个可疑对象,将会为每个可疑对象分配一个概率,以指示它是关键可疑对象的可能性。该列表中的各个概率的总和为 100%。可疑对象列表由响应代理进行解释。响应代理会根据可疑对象列表尝试采取一些操作。响应包括记录一些消息、使 CPU 导线束脱机、回收内存页面以及回收 I/O 设备。

错误检测器、诊断引擎和响应代理由 Fault Manager 守护进程 fmd 连接起来,该守护进程充当各个组件之间的多路复用器,如下图所示。

image:此图显示了故障管理守护进程、错误检测器、响应代理和诊断引擎之间的相互关系。

Fault Manager 守护进程本身也是由 SMF 控制的一个服务。该服务是缺省启用的,对该服务的控制方式与对所有其他 SMF 服务一样。有关更多信息,请参见 smf(5) 手册页。

在适当的情况下,FMA 和 SMF 服务会相互交互。某些硬件问题可能会导致服务被 SMF 停止或重新启动。另外,某些 SMF 错误会导致 FMA 报告某个缺陷。