Go to main content
Oracle® Linux 故障管理体系结构软件用户指南

退出打印视图

更新时间: 2015 年 10 月
 
 

故障和缺陷通知

遇到错误时,mcelog 守护进程将触发可配置的响应并将信息记录到 mcelog 文件中。例如,假设物理地址位置 0x45a3b50c0 生成一个可更正的内存读取错误。发生该情况时,mcelog 守护进程会向 /var/log/mcelog 添加一个条目。例如:

CPU 8
BANK 3
TSC 0
RIP 00:0
MISC 0x85
ADDR 0x45a3b50c0    <------ address that had the correctable read error
STATUS 0x9c000000f00c009f
MCGSTATUS 0x7
PROCESSOR 0:0x306f1
TIME 1389814624
SOCKETID 0
APICID 18
MCGCAP 0x7000c16

还会将一条消息发送到系统日志 (/var/log/messages),用于说明该问题(错误计数超过阈值)以及执行了何种操作(将该页面脱机),例如:

1  Jan 15 14:37:04 testserver16 kernel: Machine check poll done on CPU 8
2  Jan 15 14:37:04 testserver16 mcelog: Family 6 Model 3f CPU: only decoding 
architectural errors
3  Jan 15 14:37:04 testserver16 mcelog: corrected Socket memory error count 
exceeded threshold: 1 in 24h
4  Jan 15 14:37:04 testserver16 mcelog: Location SOCKET:0 CHANNEL:? DIMM:? []
5  Jan 15 14:37:04 testserver16 mcelog: Corrected memory errors on page 45a3b5000 
exceed threshold 1 in 24h: 1 in 24h
6  Jan 15 14:37:04 testserver16 mcelog: Location SOCKET:0 CHANNEL:? DIMM:? []
7  Jan 15 14:37:04 testserver16 mcelog: Running trigger `page-error-trigger'
8  Jan 15 14:37:04 testserver16 mcelog: Offlining page 45a3b5000

第 5 行上的消息表示已将可更正的错误阈值设置为 24 小时内 1 个错误。由于超过此阈值,因此执行该操作以从服务中删除页面 0x45a3b5000。系统日志中的 "Offlining page" 消息(第 8 行)指明了这一点。对于遇到了可更正错误的进程,系统会为其分配一个新页面或将其终止,具体取决于 mcelog.conf 文件 "page" 部分中的 "memory-ce-action" 值。

如果对应于有故障地址的 DIMM 超过由工厂编程的 DIMM 阈值,则除了将页面脱机之外,SP 还会生成一个故障,然后将该故障转发至主机并作为故障管理数据库的一部分进行记录。

通常,与 Fault Manager 守护进程进行的第一次交互是一条系统消息,它指示已诊断出某个故障或缺陷。消息将同时发送到控制台和 /var/log/messages 文件。来自 Fault Manager 守护进程的所有消息都使用以下格式:

1    SUNW-MSG-ID: SPX86A-8002-30, TYPE: Fault, VER: 1, SEVERITY: Minor
2    EVENT-TIME: Wed Nov 27 10:36:30 PST 2013
3    PLATFORM: SUN SERVER X4-4, CSN: -, HOSTNAME: testserver16
4    SOURCE: fdd, REV: 1.0
5    EVENT-ID: eed2208e-2dcf-40c9-9bab-ab3a13e94182
6    DESC: A processor has detected multiple memory controller correctable
     errors.
8    AUTO-RESPONSE: The affected processor will be disabled at the next system boot
9    and remain unavailable until repaired.  
10   The chassis wide and processor service-required LED's are illuminated.
11   IMPACT: The system will continue to operate in the presence of this
12   fault.
13   System performance may be impacted due to disabled processor.
14   REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this 
15   event. Please refer to the associated reference document at 
16   http://support.oracle.com/msg/SUN4V-8001-8H for the latest service procedures and 
17   policies regarding this diagnosis.

在收到有关诊断出问题的通知时,请查阅所建议的 Oracle 知识库文章了解更多详细信息。有关示例,请参见上方的第 16 行。除了第 14 行列出的操作外,知识库文章中还可能包含您或服务提供商应采取的其他操作。

还可以通过使用简单网络管理协议 (Simple Network Management Protocol, SNMP) 或简单邮件传输协议 (Simple Mail Transfer Protocol, SMTP) 在 Oracle ILOM 中配置事件通知。请参见 Oracle ILOM 文档,网址为 http://www.oracle.com/goto/ILOM/docs

此外,可以配置 Oracle 自动服务请求以便在出现特定硬件问题时自动从受支持的遥测资源(如 Oracle ILOM)请求 Oracle 服务。有关此功能的信息,请参见 Oracle 自动服务请求产品页。该页面上的文档链接提供了《Oracle ASR Quick Installation Guide》和《Oracle ASR Installation and Operations Guide》的链接。