Go to main content

SPARC M7 系列服务器产品说明

退出打印视图

更新时间: 2017 年 3 月
 
 

SPARC M7 SP 故障转移无法从已挂载的非黄金 Miniroot 映像中删除 PCIe 设备 (21549933)

此问题同时影响两个服务器。


注 -  此问题涉及 SP 故障转移。要了解与 SP 故障转移相关的所有问题,请参阅平台用户准则

SPARC M7 系列服务器有冗余的 SPM,这意味着只有一个 SPM 是支持主机与 Oracle ILOM 之间通信的 PDomain SPM。只有 PDomain SPM 用于支持 USB 以太网和 USB 存储设备,这些设备用于支持互连接口和 KVMS 服务。此 SPM 的 PCIe 和 USB 设备将配置到系统中,但是其他 SPM 的 PCIe 设备不配置到系统中。

在 SP 故障转移过程中,将从旧 PDomain SPM 中删除 USB 设备。将添加新 PDomain SPM 的 PCIe 和 USB 设备,然后删除旧 SPM 的 PCIe 设备。如果 USB 设备消失时系统未成功卸载 KVMS host_storage_device 的文件系统,删除旧 SPM 的 PCIe 将失败。

Oracle ILOM 每 60 秒钟检查 PCIe 设备一次并尝试将其删除,直到删除成功。主机上没有服务受到影响,除了发布的错误消息。对不活动的 SPM 做删除准备的尝试将失败,因为 PCIe 链路仍在使用。Oracle ILOM 尝试为不活动的 SPM 删除 PCIe 设备时,以下错误每 60 秒钟在主机控制台上发布一次:

       Oct  1 18:57:06 sca-m78-185-pd1 syseventconfd[317]: process 20325
exited with status 5
       Oct  1 18:58:08 sca-m78-185-pd1 syseventconfd[317]: process 20369
exited with status 5
       Oct  1 18:59:10 sca-m78-185-pd1 syseventconfd[317]: process 20415
exited with status 5
       Oct  1 19:00:11 sca-m78-185-pd1 syseventconfd[317]: process 20458
exited with status 5
       Oct  1 19:01:13 sca-m78-185-pd1 syseventconfd[317]: process 20501
exited with status 5
       Oct  1 19:02:15 sca-m78-185-pd1 syseventconfd[317]: process 20564
exited with status 5
       Oct  1 19:03:16 sca-m78-185-pd1 syseventconfd[317]: process 20607
exited with status 5

要确认您遇到了此问题,请检查主机是否显示主机中配置了多个 SPM 路径以及删除不活动 SPM 的 PCIe 设备是否由于已挂载文件系统而失败。

在 Oracle Solaris 中,键入:

root@host-name-pd1:~# cfgadm | grep SPM

/SYS/SP0/SPM1     pci-pci/hp    connected    configured       ok
/SYS/SP1/SPM1     pci-pci/hp    connected    configured       ok

在 Oracle ILOM CLI 中,确定哪个 SPM 是当前 PDomain SPM:

-> show /Servers/PDomains/PDomain_1/HOST sp_name

  /Servers/PDomains/PDomain_1/HOST
      Properties:
      sp_name = /SYS/SP1/SPM1

在主机控制台中,确认删除不活动 SPM 由于已挂载文件系统而失败。此命令不修复问题。

root@host-name-pd0:~# cfgadm -c disconnect /SYS/SP0/SPM1

cfgadm: Component system is busy, try again:

Resource                                Information
---------------------------------------------------------------------------------

/dev/dsk/c8t0d0s2   mounted filesystem  "/media/versaboot_aiconf_on12_boot_sparc"

解决方法:如果您遇到此问题,不要启动 SP 故障转移。

恢复:执行以下步骤:

  1. 在主机控制台中,键入 eject 命令来清除对已删除 USB 设备的引用。可能会显示错误消息,但是错误状况将清除,允许删除 PCIe 设备。

    root@host-name-pd1:~# eject
    
    eject of cdrom /dev/dsk/c8t0d0s2 failed: /dev/rdsk/c8t0d0s2: No such device or address
  2. 等待几分钟,然后检查 PCIe 设备是否已删除。

    root@host-name-pd1:~# cfgadm | grep SPM
    
    /SYS/SP0/SPM1      unknown      empty        unconfigured     unknown
    /SYS/SP1/SPM1      pci-pci/hp   connected    configured       ok