在 Oracle® Solaris 11.2 中管理故障

退出打印视图

更新时间: 2014 年 7 月
 
 

修复故障或缺陷

可以配置 Oracle 自动服务请求以便在出现特定硬件问题时自动请求 Oracle 服务。有关 ASR 的更多信息,请参见 http://www.oracle.com/asr

当系统中的某个组件发生故障时,Fault Manager 可以隐式修复该组件,您也可以显式修复该组件。

隐式修复

更换或删除故障组件时,如果该组件具有 Fault Manager 守护进程 (fmd) 可跟踪的序列号信息,则会发生隐式修复。在许多基于 SPARC 的系统上,FMRI 中包括了序列号信息,以便 fmd 可以确定何时已通过更换或其他方式(例如,列入黑名单 (blacklisting))从运行过程中删除了组件。当 fmd 确定已从运行过程中删除了某个组件时,Fault Manager 就不再将该组件显示在 fmadm faulty 输出中。该组件保留在 Fault Manager 内部资源高速缓存中,直到故障事件经过 30 天。

fmd 检测到有故障的 CPU 或内存资源时,会将这些资源放入黑名单。不能重新分配列入黑名单的有故障资源,除非 fmd 将其标记为已修复。

显式修复

有时,即使 FMRI 包括机箱标识符,也无法使用 FRU 序列号信息。在这种情况下,fmd 无法检测 FRU 更换,必须执行显式修复,即使用 fmadm 命令和 replacedrepairedacquit 子命令,如以下各节中所示。仅应在特定的和书面记载的修复过程的指引下执行显式修复。

这些 fmadm 命令采用以下操作数:

  • UUID(在 Fault Manager 中也显示为 EVENT-ID)标识故障事件。UUID 仅可与 fmadm acquit 命令一起使用。可以指定可以安全忽略整个事件,也可以指定某个特定资源在此事件中没有可疑对象。

  • FMRIlabel 标识可疑故障资源。Example 2–1 中显示资源的 FMRI 和标签的示例。通常,标签比 FMRI 更容易使用。

当故障事件 UUID 被视为无故障或者所有可疑资源都已修复、更换、删除或被视为无故障时,则认为已修复个案。已修复的个案状态将变为 FMD_CASE_REPAIRED,并且 Fault Manager 会生成一个 list.repaired 事件。