此问题同时影响两个服务器。
在 CMIOU 上注入 fet_short 故障时会发生致命事件。如果启用了状态捕获脚本,主机控制台会显示消息,指示正在收集致命错误信息。只有在状态捕获脚本结束后,才会进行主机关机和恢复。
解决方法:等待状态捕获脚本完成。从出现问题时开始,完成系统恢复最多需要两小时。花费很长时间是由于脚本尝试读取已断电的故障 CMIOU 的寄存器内容。
如果在主机控制台上观察到以下故障和致命错误通知,但故障转移可能导致丢失诊断信息,可以根据需要手动停止主机:
fault.chassis.current.fetshort@/sys/cmiou fault.chassis.current.fetshort@/sys/swu fault.chassis.current.fetshort@/sys/swu/fm_ecb root@host-name-pd0:/# Oct 5 12:07:18 host-name-pd0 SC Alert: [ID 539154 daemon.alert] Fault | critical: Fault detected at time = Mon Oct 5 12:07:34 2015. The suspect component: /SYS/CMIOU1 has fault.chassis.current.fetshort with probability=100. 2015-10-05 12:08:08 SP> NOTICE: Fatal error occurred. Collecting diagnostic information.