第 5 章 |
使用 Hardware Diagnostic Suite 处理 Sun Management Center 警报 |
注意 - 执行本章中的步骤时,假定 Hardware Diagnostic Suite 已经按第 3 章介绍的方式运行。 |
有关 Sun Management Center 警报的其它信息,请参见《Sun Management Center 3.5 用户指南 》。
Sun Management Center 软件对您的系统进行监视,并在出现异常情况时发出警报来通知您。当情况超出预定的范围时即触发这些警报。
Hardware Diagnostic Suite 利用 Sun Management Center Hardware Diagnostic Suite 功能来触发和显示正在测试的主机的警报情况。缺省情况下,每个 Hardware Diagnostic Suite 测试会话错误消息都会触发一个 Sun Management Center 紧急警报。警报将显示在 Sun Management Center 控制台中。另外,您还可以定义哪些 Hardware Diagnostic 事件将触发 Sun Management Center 警报,以及警报发生时应该执行的操作。
可以将 Sun Management Center 配置为在触发某些特定的警报时发送电子邮件,并在系统上运行脚本来执行相应的操作。例如,如果 Hardware Diagnostic Suite 检测到多处理器系统中的某个 FPU 上有错,该事件会发出一条自动触发脚本运行的警报,以使发生故障的 CPU 脱机。同时,还会立即向系统管理员发送一条电子邮件通知。有关警报操作的流程图,请参见图 5-7。
Sun Management Center 在出现警报情况时使用的警报指示符(表 5-1 )
![]() |
出现了影响服务的情况,需要 立即 执行纠正操作。例如,某个 Sun Management Center 管理的对象资源不能使用,但该对象资源又是必需的。 |
|
![]() |
出现了影响服务的情况,需要执行纠正操作。Hardware Diagnostic Suite 测试会话检测到硬件故障时,通常会生成此类错误。 |
|
![]() |
||
![]() |
||
![]() |
表 5-2 介绍了显示警报指示符的 Sun Management Center 窗口。
在分层结构视图和拓扑视图中,彩色的警报指示符显示在主机旁边。 另外,在“域状态摘要”中还会显示不同种类警报的数目(窗口右上角的一组圆形彩色指示符)。请参见图 3-2。 |
|
彩色的警报指示符显示在生成该警报的 Sun Management Center 模块旁边。Hardware Diagnostic Suite 生成的警报显示在分层结构视图和拓扑视图的“本地应用程序”指示符的旁边。 |
|
图形指示符的颜色表明警报的严重程度,如表 5-1 所述。 |
|
1. 在 Sun Management Center 主窗口的分层结构视图或拓扑视图中查找主机。
如果显示了警报指示符(表 5-1),则说明存在未确认的警报情况,需要进一步调查。
在给定的时间,一台主机只能显示一个警报指示符。如果主机出现两种类型以上的警报,那么将优先显示其中严重程度最高的未确认警报,并且这类警报也会显示在其所在的目录树上。所有警报都会在 Sun Management Center 警报窗口中列出。
注意 - Sun Management Center 可以显示多种事件的警报,但并非所有显示的警报均由 Hardware Diagnostic Suite 测试会话生成 |
编辑 Hardware Diagnostic Suite 的警报阈值
缺省情况下,Sun Management Center 会扫描 Hardware Diagnostic Suite 的错误和信息日志文件,以查看是否出现了 ERROR 或 FATAL 文本模式。如果检测到这种文本模式,就生成警报。您可以修改这种错误条件标准,也可以创建自己的模式,从而在记录了符合此模式的文本时生成警报。
1. 在 Sun Management Center 主窗口中,打开要为其设置或修改警报情况的主机的“细节”窗口。(请参见图 3-3。)
5. 在拓扑视图中双击“Hardware Diagnostic Suite 代理”图标。
将显示 Hardware Diagnostic Suite 代理属性(图 5-2)。
表 5-4 介绍了这些属性。
指定“模式名”属性。模式名是此表的索引关键字,必须唯一。缺省的 Hardware Diagnostic Suite 错误模式名为: |
||
缺省的 Hardware Diagnostic Suite 模式为: ERROR - 当 Hardware Diagnostic Suite 日志文件中出现此模式时,表明出现了需要用户干预的硬件错误。出现这种错误的原因可能是缺少介质、电缆松动或连接断开。 FATAL - 出现此模式时,表明出现的硬件故障是不可恢复的。Hardware Diagnostic Suite 测试可能已经检测到数据比较错误或硬件错误。 有关 Hardware Diagnostic Suite 错误类型的说明,请参见表 4-3。 |
||
显示已出现的匹配模式的数目。当该值等于警报阈值时,会触发警报。此单元格也可用于定义警报阈值,具体步骤请参见步骤 6 到步骤 9。 |
6. 单击“正则表达式模式”单元格选择“ERROR”或“FATAL”数据属性。(有关错误类型的说明,请参见表 4-1。)
警报阈值将根据匹配模式出现的次数来确定要生成哪种类型的警报(表 5-5)。
警报只在此时间段内出现。例如,如果您键入 day_of_week=fri ,则只有警报情况出现在星期五时,才会发出警报。如果警报情况出现在星期二,则不会发出警报。 |
例如,您可以选择为“FATAL”模式正则表达式列打开属性编辑器,在紧急阀值、警告阀值和信息阀值中分别输入 3、2 和 1。
当 Hardware Diagnostic Suite 测试会话记录到致命错误时,可能显示的警报类型为:
diag_error 和 diag_fatal 模式的缺省阈值为:
Sun Management Center Hardware Diagnostic Suite 允许您创建自己的模式,当创建的模式出现在 Hardware Diagnostic Suite 错误日志文件中时,将触发相应的警报。
1. 打开 Hardware Diagnostic Suite 文件夹。
有关此操作的说明,请参见编辑 Hardware Diagnostic Suite 的警报阈值中的步骤 1 到步骤 5。
2. 要添加新的 Hardware Diagnostic Suite 日志文件模式以生成警报情况,请执行以下步骤:
a. 在 Hardware Diagnostic 错误表中的任意位置右击,然后从弹出菜单中选择“新建行”。
将显示“添加行”对话框(图 5-4)。
有关此操作的说明,请参见编辑 Hardware Diagnostic Suite 的警报阈值。
应用更改之后,将在表中插入新的一行。如果 Hardware Diagnostic Suite 测试会话记录了一条包含所指定模式的消息,就会生成一条有关该主机的警报。
1. 打开 Hardware Diagnostic Suite 文件夹。
有关此操作的说明,请参见编辑 Hardware Diagnostic Suite 的警报阈值中的步骤 1 到步骤 5。
2. 为 Hardware Diagnostic 错误表中的“正则表达式模式”单元格打开属性编辑器。
有关此操作的说明,请参见编辑 Hardware Diagnostic Suite 的警报阈值中的步骤 6 到步骤 7。
只能在每个操作字段中指定一个操作。要指定多个操作(例如,发送电子邮件并 运行脚本),则必须在多个字段中分别指定这些操作。下例将介绍具体的操作步骤。
将显示“操作选择”窗口(图 5-6)。
电子邮件收件人(本例中为 admin@shift1 )被添加到“警告操作”字段中。
在本例中,警告操作:向 root 发送电子邮件项是缺省操作。在后续步骤中,将重新定义紧急操作,以运行脚本。通过向“警告操作”字段添加电子邮件收件人,警报将会生成一封电子邮件并运行脚本。
缺省情况下,Hardware Diagnostic Suite 不会生成警告警报。为了实现本例,还必须设置警告条件的警报阈值。请参见编辑 Hardware Diagnostic Suite 的警报阈值。
在本例中,当出现任何致命错误的警告警报时,都会将下面的电子邮件发送给指定的收件人:
Date:Tue, 12 Oct 1999 15:25:39 -0800 From:root@Payroll2 (0000-Admin(0000)) |
C. 要创建在出现紧急 Hardware Diagnostic Suite 警报时运行脚本的操作,请执行以下步骤:
i. 将脚本置于 /var/opt/SUNWsymon/bin 目录下,并设置其执行权限。
注意 - 要从“操作选择”下拉菜单中选择脚本,该脚本必须位于 /var/opt/SUNWsymon/bin 目录下。只有拥有超级用户权限才能运行脚本。 |
在本例中,系统管理员编写的脚本 (/var/opt/SUNWsymon/bin/edproc.sh )将运行一个程序,使用 p_online() 系统调用在多处理器系统上禁用某个处理器。系统管理员还创建一个新的警报触发器,在 Hardware Diagnostic Suite 测试会话执行过程中检测到致命 FPU 错误时触发警报。
这些定制警报设置的结果如图 5-7 中的流程图所示:
Copyright © 2003, Sun Microsystems, Inc. All rights reserved.