Problemas del hardware

Idioma:

En esta sección, se describen los problemas de hardware para la versión Oracle Solaris 11.4.

HBA con SAS de rutas múltiples ALUA puede causar fallos de E/S durante la conmutación por error (28337990)

Las rutas múltiples de Oracle Solaris pueden presentar fallos de E/S en destinos de almacenamiento con acceso asimétrico de unidad lógica (ALUA) durante la conmutación por error de la ruta. Esto sucederá solamente si el almacenamiento está conectado mediante transporte SAS SCSI. Un dispositivo conectado mediante SAS SCSI se enumera con cfgadm -alv bajo un controlador con tipo scsi-sas:

c7                             connected    configured   unknown
unavailable  scsi-sas     n /devices/pci@301/pci@1/scsi@0/iport@1:scsi
c7::w5000cca02f187da1,0        connected    configured   unknown
                          Client Device: /dev/dsk/c0t5000CCA02F187DA0d0s0(sd7)

Además, el comando mpathadm show lu indicará rutas múltiples asimétricas:

# mpathadm show lu /dev/dsk/c0t5000CCA02F187DA0d0s0
Logical Unit:  /dev/rdsk/c0t5000CCA02F187DA0d0s2
        mpath-support:  libmpscsi_vhci.so
        ...
        Asymmetric:  yes

Si surge este problema, verá un error similar al siguiente (se agregaron cortes de línea para facilitar la lectura):

Jul 15 2018 13:22:45.123456789 ereport.io.scsi.cmd.disk.tran
nvlist version: 0
       class = ereport.io.scsi.cmd.disk.tran
       ...
       thread-stacks = stack[0] = genunix`fm_dev_report_postv+2c8()
                                  |scsi`scsi_fm_report_post+204()
                                  |sd`sd_report_post+a04()
                                  |sd`sd_intr_report_post+150()
                                  |sd`sd_return_command+15c()
                                  |sd`sdintr+a00()|scsi`scsi_hba_pkt_comp+e94()
                                  |scsi_vhci`vhci_intr+d6c()
                                  |scsi`scsi_hba_pkt_comp+e94()
                                  |scsi`scsi_pkt_comp_daemon+c8()
       ...
       pkt-reason = 0x1a
       pkt-state = 0x0
       pkt-stats = 0x0
       ...

Solución alternativa: hasta que se publique una corrección, para solucionar este problema puede aumentar los valores de sd y ssd correspondientes a un par VID/PID afectado. Modifique /etc/driver/drv/sd.conf o /etc/driver/drv/ssd.conf como se muestra en el siguiente ejemplo:

sd-config-list = "VID PID", "path-busy-retry-count:4294967295, path-busy-retry-timeout:180000";

Tenga en cuenta que el valor que se muestra para path-busy-retry-count en este ejemplo es el valor máximo permitido para la configuración. Se podría usar un valor menor, pero el valor que funcione dependerá de la arquitectura del sistema y otras circunstancias. Por lo tanto, no se puede indicar un valor mínimo que funcione en todos los casos.

Esta solución alternativa tiene las siguientes restricciones y limitaciones:

Un valor elevado de path-busy-retry-count puede hacer que el núcleo gire mientras espera que se produzca la conmutación por error. Esto hará que el uso de CPU sea elevado. Por lo tanto, un sistema en el que se use esta solución alternativa podría estar sujeto a una mayor carga y tener un menor rendimiento. Al finalizar la conmutación por error, el sistema se recuperará.
Estos parámetros ajustables pueden cambiar en el futuro y no se los debe usar una vez que se haya publicado una corrección para el bug 28337990. Consulte la sección Bugs corregidos de los archivos Readme (Léame) de SRU.
Estos parámetros ajustables no se deben usar para ninguna otra finalidad a menos que Oracle lo recomiende explícitamente.

Aviso grave al realizar una operación de reconfiguración dinámica en un dispositivo HCA InfiniBand (28150723)

Se puede producir un aviso grave si una utilidad o herramienta de InfiniBand (IB), como ibqueryerrors o ibdiagnet, se está ejecutando mientras se realiza una operación de reconfiguración dinámica (DR) en un HCA. La operación de reconfiguración dinámica puede provenir de comandos como cfgadm o ldm remove-io que generan la extracción o la anulación de la configuración de un dispositivo de HCA. Consulte las páginas del comando man ibqueryerrors(8), ibdiagnet(1), cfgadm(8) y ldm(8) para obtener más información.

Si se genera un aviso grave por este motivo, verá un mensaje de error similar al siguiente:

panic[cpu14]/thread=c0405b9fe3980: BAD TRAP: type=31 rp=2a101bcf320 addr=62
mmu_fsr=0 occurred in module "ibtl" due to a NULL pointer dereference

Normalmente, si hay una herramienta de IB activa que está usando un HCA en el que se está intentando una operación de reconfiguración dinámica, la operación de DR falla, lo que indica que el HCA está en uso.

Solución alternativa: asegúrese de que no haya herramientas, utilidades ni aplicaciones de InfiniBand (como ibqueryerrors o ibdiagnet) activas al realizar una operación de reconfiguración dinámica en un dispositivo de HCA InfiniBand.

Es posible que el controlador iSCSI ceda antes de tiempo cuando intente reconectarse a un destino (21216881)

Si se interrumpe la conexión a un destino de forma temporal, es posible que el reintento de conexión máximo de iSCSI predeterminado, de 180 segundos (3 minutos), no sea suficiente para los iniciadores que usan un dispositivo de inicio iSCSI. Aparecerá el siguiente mensaje de error:

NOTICE: iscsi connection(19) unable to connect to target iqn.1986-03.com.sun:02:hostname, target address 192.168.001.160

Solución alternativa: aumente el reintento de conexión máximo de iSCSI a al menos 1080 segundos (18 minutos) en los iniciadores que están usando el dispositivo de inicio iSCSI.