Solaris Fault Manager 通过以下方式来跟踪软件、硬件和特定的设备问题:在错误日志中标识指明特定症状的错误遥测信息,然后在错误症状导致了实际故障时报告实际的故障诊断信息。
以下命令用于确定任何与软件或硬件相关的故障。
# fmadm faulty
可例行使用以上命令来确定发生故障的服务或设备。
可例行使用以下命令来确定与硬件或设备相关的错误。
# fmdump -eV | more
需要注意此日志文件中描述 vdev.open_failed、checksum 或 io_failure 问题的错误消息,否则它们可能会演变为实际错误(可通过 fmadm 故障命令显示)。
如果以上信息指明某个设备将要发生故障,则正好趁此时确保有可替换的设备。
还可以通过使用 iostat 命令来跟踪额外的设备错误。使用以下语法可标识错误统计信息摘要。
# iostat -en ---- errors --- s/w h/w trn tot device 0 0 0 0 c0t5000C500335F95E3d0 0 0 0 0 c0t5000C500335FC3E7d0 0 0 0 0 c0t5000C500335BA8C3d0 0 12 0 12 c2t0d0 0 0 0 0 c0t5000C500335E106Bd0 0 0 0 0 c0t50015179594B6F11d0 0 0 0 0 c0t5000C500335DC60Fd0 0 0 0 0 c0t5000C500335F907Fd0 0 0 0 0 c0t5000C500335BD117d0
在上面的输出中,报告了内部磁盘 c2t0d0 的错误。使用以下语法可显示更详细的设备错误。
固件版本低、磁盘损坏、电缆损坏或硬件连接故障可能导致需要重试或重置的持久性 SCSI 传输错误。可以通过升级您的 HBA 或设备固件解决部分瞬态传输错误。升级固件并确认所有设备都运行正常后,如果传输错误仍然存在,则应检查硬件组件是否存在电缆损坏或其他连接故障。