此问题同时影响两个服务器。
SPARC M7 系列服务器有冗余的 SPM,这意味着只有一个 SPM 是支持主机与 Oracle ILOM 之间通信的 PDomain SPM。只有 PDomain SPM 用于支持 USB 以太网和 USB 存储设备,这些设备用于支持互连接口和 KVMS 服务。此 SPM 的 PCIe 和 USB 设备将配置到系统中,但是其他 SPM 的 PCIe 设备不配置到系统中。
在 SP 故障转移过程中,将从旧 PDomain SPM 中删除 USB 设备。将添加新 PDomain SPM 的 PCIe 和 USB 设备,然后删除旧 SPM 的 PCIe 设备。如果 USB 设备消失时系统未成功卸载 KVMS host_storage_device 的文件系统,删除旧 SPM 的 PCIe 将失败。
Oracle ILOM 每 60 秒钟检查 PCIe 设备一次并尝试将其删除,直到删除成功。主机上没有服务受到影响,除了发布的错误消息。对不活动的 SPM 做删除准备的尝试将失败,因为 PCIe 链路仍在使用。Oracle ILOM 尝试为不活动的 SPM 删除 PCIe 设备时,以下错误每 60 秒钟在主机控制台上发布一次:
Oct 1 18:57:06 sca-m78-185-pd1 syseventconfd[317]: process 20325 exited with status 5 Oct 1 18:58:08 sca-m78-185-pd1 syseventconfd[317]: process 20369 exited with status 5 Oct 1 18:59:10 sca-m78-185-pd1 syseventconfd[317]: process 20415 exited with status 5 Oct 1 19:00:11 sca-m78-185-pd1 syseventconfd[317]: process 20458 exited with status 5 Oct 1 19:01:13 sca-m78-185-pd1 syseventconfd[317]: process 20501 exited with status 5 Oct 1 19:02:15 sca-m78-185-pd1 syseventconfd[317]: process 20564 exited with status 5 Oct 1 19:03:16 sca-m78-185-pd1 syseventconfd[317]: process 20607 exited with status 5
要确认您遇到了此问题,请检查主机是否显示主机中配置了多个 SPM 路径以及删除不活动 SPM 的 PCIe 设备是否由于已挂载文件系统而失败。
在 Oracle Solaris 中,键入:
root@host-name-pd1:~# cfgadm | grep SPM /SYS/SP0/SPM1 pci-pci/hp connected configured ok /SYS/SP1/SPM1 pci-pci/hp connected configured ok
在 Oracle ILOM CLI 中,确定哪个 SPM 是当前 PDomain SPM:
-> show /Servers/PDomains/PDomain_1/HOST sp_name /Servers/PDomains/PDomain_1/HOST Properties: sp_name = /SYS/SP1/SPM1
在主机控制台中,确认删除不活动 SPM 由于已挂载文件系统而失败。此命令不修复问题。
root@host-name-pd0:~# cfgadm -c disconnect /SYS/SP0/SPM1 cfgadm: Component system is busy, try again: Resource Information --------------------------------------------------------------------------------- /dev/dsk/c8t0d0s2 mounted filesystem "/media/versaboot_aiconf_on12_boot_sparc"
解决方法:如果您遇到此问题,不要启动 SP 故障转移。
恢复:执行以下步骤:
在主机控制台中,键入 eject 命令来清除对已删除 USB 设备的引用。可能会显示错误消息,但是错误状况将清除,允许删除 PCIe 设备。
root@host-name-pd1:~# eject eject of cdrom /dev/dsk/c8t0d0s2 failed: /dev/rdsk/c8t0d0s2: No such device or address
等待几分钟,然后检查 PCIe 设备是否已删除。
root@host-name-pd1:~# cfgadm | grep SPM /SYS/SP0/SPM1 unknown empty unconfigured unknown /SYS/SP1/SPM1 pci-pci/hp connected configured ok