5

使用 Hardware Diagnostic Suite 处理 Sun Management Center 警报

本章介绍如何利用 Hardware Diagnostic Suite 查看和定制 Sun Management Center 警报:



注意 - 执行本章中的步骤时,假定 Hardware Diagnostic Suite 已经按第 3 章介绍的方式运行。



有关 Sun Management Center 警报的其它信息,请参见《Sun Management Center 3.5 用户指南 》。


Sun Management Center 警报概述

Sun Management Center 软件对您的系统进行监视,并在出现异常情况时发出警报来通知您。当情况超出预定的范围时即触发这些警报。

Hardware Diagnostic Suite 利用 Sun Management Center Hardware Diagnostic Suite 功能来触发和显示正在测试的主机的警报情况。缺省情况下,每个 Hardware Diagnostic Suite 测试会话错误消息都会触发一个 Sun Management Center 紧急警报。警报将显示在 Sun Management Center 控制台中。另外,您还可以定义哪些 Hardware Diagnostic 事件将触发 Sun Management Center 警报,以及警报发生时应该执行的操作。

可以将 Sun Management Center 配置为在触发某些特定的警报时发送电子邮件,并在系统上运行脚本来执行相应的操作。例如,如果 Hardware Diagnostic Suite 检测到多处理器系统中的某个 FPU 上有错,该事件会发出一条自动触发脚本运行的警报,以使发生故障的 CPU 脱机。同时,还会立即向系统管理员发送一条电子邮件通知。有关警报操作的流程图,请参见图 5-7

Sun Management Center 在出现警报情况时使用的警报指示符(表 5-1

表 5-1 警报指示符

指示符

严重程度

说明

 

黑色警报符号
 

1 关闭

 

 

出现了影响服务的情况,需要 立即 执行纠正操作。例如,某个 Sun Management Center 管理的对象资源不能使用,但该对象资源又是必需的。

 

红色警报符号
 

 

2 紧急

 

 

出现了影响服务的情况,需要执行纠正操作。Hardware Diagnostic Suite 测试会话检测到硬件故障时,通常会生成此类错误。

 

黄色警报符号
 

 

3 警告

 

 

出现了不影响服务的情况,但应采取纠正操作以避免发生更严重的故障。

 

 

蓝色警报符号
 

 

4 注意

 

 

 

检测到潜在的或即将发生的能够影响服务的故障,但尚未出现明显影响。

 

 

灰色警报符号
 

 

5 禁用

 

 

资源已被禁用。

表 5-2 介绍了显示警报指示符的 Sun Management Center 窗口。

表 5-2 警报指示符的位置

警报指示符的位置

说明

Sun Management Center 主窗口

在分层结构视图和拓扑视图中,彩色的警报指示符显示在主机旁边。

 

另外,在“域状态摘要”中还会显示不同种类警报的数目(窗口右上角的一组圆形彩色指示符)。请参见图 3-2

“细节”窗口

 

在“细节”窗口的最顶部,一个小的彩色警报指示符显示在主机名的旁边。

“细节”窗口
(“模块浏览器”选项卡)

彩色的警报指示符显示在生成该警报的 Sun Management Center 模块旁边。Hardware Diagnostic Suite 生成的警报显示在分层结构视图和拓扑视图的“本地应用程序”指示符的旁边。

“细节”窗口
(“警报”选项卡)

在表中列出所有的警报指示符(未确认的和已确认的)。

警报信息

“警报”选项卡显示主机警报以及以下信息:

表 5-3 警报表说明

种类

说明

严重程度

图形指示符的颜色表明警报的严重程度,如表 5-1 所述。

指示符旁边的绿色复选标记表明该警报已确认。如果没有复选标记,则说明该警报还未确认。

开始时间

表明警报首次出现的时间。

状态

“响铃”指示符表示导致警报的情况仍然存在。

“静音”指示符表示情况已不存在。

操作

表示为警报指定的操作。

消息

描述警报类型的简短消息。



过程图标 查看和确认警报

1. 在 Sun Management Center 主窗口的分层结构视图或拓扑视图中查找主机。

如果显示了警报指示符(表 5-1),则说明存在未确认的警报情况,需要进一步调查。

在给定的时间,一台主机只能显示一个警报指示符。如果主机出现两种类型以上的警报,那么将优先显示其中严重程度最高的未确认警报,并且这类警报也会显示在其所在的目录树上。所有警报都会在 Sun Management Center 警报窗口中列出。


注意 - Sun Management Center 可以显示多种事件的警报,但并非所有显示的警报均由 Hardware Diagnostic Suite 测试会话生成



注意 - Sun Management Center 代理已配置为只有一台服务器可以从其接收警报信息。


2. 如果出现警报,请按照以下步骤查看并确认警报情况:

a. 在 Sun Management Center 主窗口中双击主机,打开“细节”窗口。

b. 选择“警报”选项卡。

将显示“警报”窗口(图 5-1),其中显示了该主机的所有警报。

图 5-1 “警报”选项卡  
显示“警报”选项卡和警报数据的屏幕快照。

3. 要确认警报,请选择警报并单击复选标记按钮 复选标记按钮符号

在“警报”选项卡上的列表中,该警报将标记为 已确认 。已确认的警报将不会显示在其它 Sun Management Center 窗口中。

有关 Sun Management Center 警报的其它信息,请参见《Sun Management Center 3.5 用户指南》。

过程图标 编辑 Hardware Diagnostic Suite 的警报阈值

缺省情况下,Sun Management Center 会扫描 Hardware Diagnostic Suite 的错误和信息日志文件,以查看是否出现了 ERROR FATAL 文本模式。如果检测到这种文本模式,就生成警报。您可以修改这种错误条件标准,也可以创建自己的模式,从而在记录了符合此模式的文本时生成警报。

1. 在 Sun Management Center 主窗口中,打开要为其设置或修改警报情况的主机的“细节”窗口。(请参见图 3-3。)

2. 选择“细节”窗口的“模块浏览器”选项卡。

3. 在拓扑视图中双击“本地应用程序”图标。

4. 在拓扑视图中双击“Hardware Diagnostic Suite”图标。

5. 在拓扑视图中双击“Hardware Diagnostic Suite 代理”图标。

将显示 Hardware Diagnostic Suite 代理属性(图 5-2)。

图 5-2 Hardware Diagnostic Suite 代理属性

显示“Hardware Diag Agent”窗口的屏幕快照。一个表显示代理属性,另一个表显示错误模式名和说明。  

 

表 5-4 介绍了这些属性。

表 5-4 Hardware Diagnostic Suite 代理属性

表名

行/列

说明

Hardware Diagnostic Suite 代理

HWDS UDP 端口

用于在 Hardware Diagnostics 代理和服务器之间进行通信。

Hardware Diagnostic 错误

 

模式名

指定“模式名”属性。模式名是此表的索引关键字,必须唯一。缺省的 Hardware Diagnostic Suite 错误模式名为:

  • diag_error - 扫描 Hardware Diagnostic Suite 测试会话错误消息的模式。
  • diag_fatal - 扫描 Hardware Diagnostic Suite 测试会话致命错误消息的模式。

 

模式说明

指定 正则表达式 模式的说明。Hardware Diagnostic Suite 的说明为:

检测到硬件错误
硬件故障

 

正则表达式模式

定义生成警报的模式。

缺省的 Hardware Diagnostic Suite 模式为:

ERROR - 当 Hardware Diagnostic Suite 日志文件中出现此模式时,表明出现了需要用户干预的硬件错误。出现这种错误的原因可能是缺少介质、电缆松动或连接断开。

FATAL - 出现此模式时,表明出现的硬件故障是不可恢复的。Hardware Diagnostic Suite 测试可能已经检测到数据比较错误或硬件错误。

有关 Hardware Diagnostic Suite 错误类型的说明,请参见表 4-3

 

匹配项数

显示已出现的匹配模式的数目。当该值等于警报阈值时,会触发警报。此单元格也可用于定义警报阈值,具体步骤请参见步骤 6步骤 9


6. 单击“正则表达式模式”单元格选择“ERROR”或“FATAL”数据属性。(有关错误类型的说明,请参见表 4-1。)

7. 执行以下操作之一打开属性编辑器:

  • 在“匹配项数”单元格中右击,从弹出菜单中选择“属性编辑器”。
  • 单击“细节”窗口顶部的“属性”按钮:
  • “属性”按钮符号

最初的“属性编辑器”面板将显示有关属性的信息,但不能在此面板中编辑警报的特性。

8. 在“属性编辑器”中选择“警报”选项卡。

将显示警报面板(图 5-3)。您可以在此面板中设置警报阈值。

 
图 5-3 属性编辑器,警报面板

9. 在警报阈值字段中输入适当的值,定义所需的警报阈值。

警报阈值将根据匹配模式出现的次数来确定要生成哪种类型的警报(表 5-5)。

表 5-5 警报阈值

要输入新值的字段

说明

紧急阈值

指定整数值。如果匹配模式出现的次数大于此值,将生成紧急警报(红色)。

警告阈值

指定整数值。如果匹配模式出现的次数大于此值,将生成警告警报(黄色)。

信息阈值

指定整数值。如果匹配模式出现的次数大于此值,将生成注意警报(蓝色)。

警报窗口

警报只在此时间段内出现。例如,如果您键入 day_of_week=fri ,则只有警报情况出现在星期五时,才会发出警报。如果警报情况出现在星期二,则不会发出警报。

例如,您可以选择为“FATAL”模式正则表达式列打开属性编辑器,在紧急阀值、警告阀值和信息阀值中分别输入 3、2 和 1。

当 Hardware Diagnostic Suite 测试会话记录到致命错误时,可能显示的警报类型为:

  • 如果记录了一条致命错误,则生成蓝色的注意警报。
  • 如果记录了两条致命错误,则生成黄色的警告警报。
  • 如果记录的致命错误不少于三条,则生成红色的紧急警报。

diag_error diag_fatal 模式的缺省阈值为:

  • 信息阈值 0
  • 警告阈值 1
  • 紧急阈值 2

要将阈值复位为 Hardware Diagnostic Suite 的缺省值,请将这些字段置空。

 

 

过程图标 创建自己的警报触发器

Sun Management Center Hardware Diagnostic Suite 允许您创建自己的模式,当创建的模式出现在 Hardware Diagnostic Suite 错误日志文件中时,将触发相应的警报。

1. 打开 Hardware Diagnostic Suite 文件夹。

有关此操作的说明,请参见编辑 Hardware Diagnostic Suite 的警报阈值中的步骤 1步骤 5

2. 要添加新的 Hardware Diagnostic Suite 日志文件模式以生成警报情况,请执行以下步骤:

a. 在 Hardware Diagnostic 错误表中的任意位置右击,然后从弹出菜单中选择“新建行”。

将显示“添加行”对话框(图 5-4)。

图 5-4 Sun Management Center 的“添加行”对话框
“添加行”对话框的屏幕快照。字段包括“模式名”、“正则表达式模式”和“模式说明”。按钮包括“确定”、“应用”、“复位”和“取消”。  

b. 按照表 5-6 中的说明在字段中输入信息。

有关这些字段的详细说明,请参见表 5-4

表 5-6 “添加行”对话框字段说明

字段名称

说明

模式名

指定要创建的警报情况的名称。

正则表达式模式

指定生成警报情况的正则表达式(模式)。

模式说明

指定正则表达式模式的说明。

c. 完成以下操作之一:

    • 单击“确定”应用更改并关闭此窗口。
    • 单击“应用”应用更改但不关闭此窗口。
    • 单击“复位”清除所有字段项但不关闭此窗口。
    • 单击“关闭”清除所有字段项并关闭此窗口。

d. 创建警报阈值,定义触发的警报类型。

有关此操作的说明,请参见编辑 Hardware Diagnostic Suite 的警报阈值

应用更改之后,将在表中插入新的一行。如果 Hardware Diagnostic Suite 测试会话记录了一条包含所指定模式的消息,就会生成一条有关该主机的警报。

过程图标 创建警报操作

缺省情况下,Hardware Diagnostic Suite 在检测到“错误”或“致命”错误时,会向 root 用户发送电子邮件。但您可以定制警报操作,进行其它不同的操作,例如运行脚本。



注意 - 必须具有超级用户权限才能运行这些脚本。.


1. 打开 Hardware Diagnostic Suite 文件夹。

有关此操作的说明,请参见编辑 Hardware Diagnostic Suite 的警报阈值中的步骤 1步骤 5

2. 为 Hardware Diagnostic 错误表中的“正则表达式模式”单元格打开属性编辑器。

有关此操作的说明,请参见编辑 Hardware Diagnostic Suite 的警报阈值中的步骤 6步骤 7

3. 在属性编辑器中选择“操作”选项卡。

将显示“操作”按钮,如图 5-5 所示。表 5-7 介绍了其中的字段。

图 5-5 属性编辑器,“操作”选项卡

属性编辑器的“操作”面板的屏幕快照。 [ D ]  

 

表 5-7 “操作”选项卡字段说明

字段

说明

紧急操作

 

指定生成紧急警报(红色)时要执行的操作。

警告操作

 

指定生成警告警报(黄色)时要执行的操作。

注意操作

 

指定生成注意警报(蓝色)时要执行的操作。

不确定操作

指定出现“不确定”指示符时要执行的操作。处于不确定状态的对象旁边会显示黑色的星或“泼溅”符号。这时的情况并不严重,不致出现警报。

关闭操作

 

指定警报关闭时的操作。

更改操作

 

指定无论是否生成警报,在变量改变时都要执行的操作。

4. 向操作字段中添加操作。



注意 - 缺省配置是用电子邮件向 root 用户通知所有 Hardware Diagnostic Suite 紧急警报的操作。如果要修改或创建其它操作,只需将操作添加到操作字段中即可。



只能在每个操作字段中指定一个操作。要指定多个操作(例如,发送电子邮件 运行脚本),则必须在多个字段中分别指定这些操作。下例将介绍具体的操作步骤。

a. 单击所选级别(紧急、警告等)旁边的“操作”按钮。

将显示“操作选择”窗口(图 5-6)。

b. 指定电子邮件收件人。

图 5-6 用于指定电子邮件地址的操作字段
显示“操作选择”面板的屏幕快照。选项包括发送电子邮件或执行其它操作(例如,运行脚本或清除)。  
 

电子邮件收件人(本例中为 admin@shift1 )被添加到“警告操作”字段中。

在本例中,警告操作:向 root 发送电子邮件项是缺省操作。在后续步骤中,将重新定义紧急操作,以运行脚本。通过向“警告操作”字段添加电子邮件收件人,警报将会生成一封电子邮件并运行脚本。

缺省情况下,Hardware Diagnostic Suite 不会生成警告警报。为了实现本例,还必须设置警告条件的警报阈值。请参见编辑 Hardware Diagnostic Suite 的警报阈值

在本例中,当出现任何致命错误的警告警报时,都会将下面的电子邮件发送给指定的收件人:

Date:Tue, 12 Oct 1999 15:25:39 -0800

From:root@Payroll2 (0000-Admin(0000))

Mime-Version:1.0

 

Sun Management Center alarm action notification ...{Alert:

Payroll2 File Scanning Hardware Error Detected Matches > 1}

 

C. 要创建在出现紧急 Hardware Diagnostic Suite 警报时运行脚本的操作,请执行以下步骤:

i. 将脚本置于 /var/opt/SUNWsymon/bin 目录下,并设置其执行权限。



注意 - 要从“操作选择”下拉菜单中选择脚本,该脚本必须位于 /var/opt/SUNWsymon/bin 目录下。只有拥有超级用户权限才能运行脚本。


ii. 从“可用脚本”下拉菜单中选择脚本。

iii. 单击菜单中的“确定”。

在本例中,系统管理员编写的脚本 (/var/opt/SUNWsymon/bin/edproc.sh )将运行一个程序,使用 p_online() 系统调用在多处理器系统上禁用某个处理器。系统管理员还创建一个新的警报触发器,在 Hardware Diagnostic Suite 测试会话执行过程中检测到致命 FPU 错误时触发警报。

这些定制警报设置的结果如图 5-7 中的流程图所示:

图 5-7 警报操作流程图

显示定制警报过程的流程图。[ D ]  

5. 在属性编辑器中执行以下操作之一完成此过程:

  • 单击“确定”接受所做的更改并关闭此窗口。
  • 单击“应用”应用所做的更改但不关闭此窗口。
  • 单击“复位”将属性编辑器恢复为缺省参数。
  • 单击“取消”取消请求。