Este problema afecta ambos servidores.
Los servidores serie SPARC M7 tienen SPM redundantes, lo cual significa que solo uno de los SPM es el SPM de PDomain que admite la comunicación entre el host y Oracle ILOM. Solo el SPM del PDomain activa los dispositivos de almacenamiento USB y Ethernet USB que se utilizan para admitir los servicios de KVMS y la interfaz de interconexión. Los dispositivos PCIe y USB para este SPM se configuran en el sistema, pero los dispositivos PCIe para otros SPM no.
Durante una conmutación por error de SP, los dispositivos USB se eliminan del SPM de PDomain anterior. Se agregan los dispositivos PCIe y USB para el nuevo SPM de PDomain y, luego, se eliminan los dispositivos PCIe para el SPM anterior. Si el sistema no desmonta correctamente el sistema de archivos para el host_storage_device de KVMS cuando desaparece el dispositivo de almacenamiento USB, se produje un fallo en la eliminación de PCIe del SPM anterior.
Oracle ILOM comprueba e intenta eliminar los dispositivos PCIe cada 60 segundos hasta que la eliminación finaliza correctamente. Ningún servicio del host se ve afectado, más allá de los mensajes de error publicados. Los intentos para preparar el SPM inactivo para la eliminación generan un fallo porque el enlace de PCIe todavía está en uso. El siguiente mensaje se publica en la consola host cada 60 segundos mientras Oracle ILOM intenta eliminar los dispositivos PCIe del SPM inactivo:
Oct 1 18:57:06 sca-m78-185-pd1 syseventconfd[317]: process 20325 exited with status 5 Oct 1 18:58:08 sca-m78-185-pd1 syseventconfd[317]: process 20369 exited with status 5 Oct 1 18:59:10 sca-m78-185-pd1 syseventconfd[317]: process 20415 exited with status 5 Oct 1 19:00:11 sca-m78-185-pd1 syseventconfd[317]: process 20458 exited with status 5 Oct 1 19:01:13 sca-m78-185-pd1 syseventconfd[317]: process 20501 exited with status 5 Oct 1 19:02:15 sca-m78-185-pd1 syseventconfd[317]: process 20564 exited with status 5 Oct 1 19:03:16 sca-m78-185-pd1 syseventconfd[317]: process 20607 exited with status 5
Para confirmar que se ha presentado este problema, compruebe que el host muestre varias rutas de SPM configuradas en el host y que la eliminación de los dispositivos PCIe del SPM inactivo genere un fallo debido a un sistema de archivos montado.
En Oracle Solaris, escriba:
root@host-name-pd1:~# cfgadm | grep SPM /SYS/SP0/SPM1 pci-pci/hp connected configured ok /SYS/SP1/SPM1 pci-pci/hp connected configured ok
En la CLI de Oracle ILOM, determine qué SPM es el SPM de PDomain actual:
-> show /Servers/PDomains/PDomain_1/HOST sp_name /Servers/PDomains/PDomain_1/HOST Properties: sp_name = /SYS/SP1/SPM1
En la consola host, confirme que la eliminación del SPM inactivo haya generado un fallo debido a un sistema de archivos montado Este comando no corrige el problema.
root@host-name-pd0:~# cfgadm -c disconnect /SYS/SP0/SPM1 cfgadm: Component system is busy, try again: Resource Information --------------------------------------------------------------------------------- /dev/dsk/c8t0d0s2 mounted filesystem "/media/versaboot_aiconf_on12_boot_sparc"
Solución alternativa: no inicie una conmutación por error de SP si se presenta este problema.
Recuperación: realice los siguientes pasos.
En la consola host, escriba el comando eject para borrar la referencia al dispositivo USB eliminado. Es posible que se muestre un mensaje de error, pero se borra la condición de error, lo cual permite la eliminación de PCIe de todos los dispositivos.
root@host-name-pd1:~# eject eject of cdrom /dev/dsk/c8t0d0s2 failed: /dev/rdsk/c8t0d0s2: No such device or address
Espere algunos minutos y, luego, compruebe que los dispositivos PCIe se hayan eliminado.
root@host-name-pd1:~# cfgadm | grep SPM /SYS/SP0/SPM1 unknown empty unconfigured unknown /SYS/SP1/SPM1 pci-pci/hp connected configured ok