Este capítulo describe los problemas específicos de los servidores de gama alta y media de Sun. Los servidores Sun actuales son parte de la familia de sistemas Sun Fire. Los servidores más antiguos son parte de la familia de sistemas Sun Enterprise.
Las notas de la versión de Sun Validation Test Suite son un documento independiente y se pueden encontrar en http://sun.com.
Algunos de los problemas y errores de este capítulo se han solucionado en versiones posteriores de Solaris 10. Si ha actualizado el software de Solaris, puede que varios de los problemas y errores no sean aplicables. Para conocer los problemas y errores que ya no afectan a su versión del software Solaris 10, consulte el Apéndice A, Tabla de errores integrados en el sistema operativo Solaris 10.
Esta sección describe los principales errores de reconfiguración dinámica del dominio en los siguientes sistemas de gama alta Sun Fire que ejecutan el software Solaris 10:
Sun Fire 25K
Sun Fire 20K
Sun Fire 15K
Sun Fire 12K
Para obtener información acerca de los errores de la reconfiguración dinámica en Sun Management Services, consulte las Notas de la versión SMS para la versión SMS que se esté ejecutando en el sistema.
Los siguientes errores de software y hardware se aplican a los sistemas de gama alta Sun Fire.
Si un proceso mantiene abierto un dispositivo de red, cualquier operación de reconfiguración dinámica que implique dicho dispositivo producirá un error. Los daemons y procesos que mantienen recuentos de referencia detienen las operaciones de reconfiguración dinámica.
Solución: como superusuario, realice los siguientes pasos:
Elimine o cambie el nombre del directorio /rplboot.
Cierre los servicios NFS.
# sh /etc/init.d/nfs.server stop |
Cierre los servicios del servidor de arranque.
# sh /etc/init.d/boot.server stop |
Realice la operación de desconexión de la reconfiguración dinámica.
Reinicie los servicios NFS.
# sh /etc/init.d/nfs.server start |
Reinicie los servicios de servidor de arranque.
# sh /etc/init.d/boot.server start |
Se muestran advertencias cuando un comando de reconfiguración dinámica se ejecuta en un sistema que está configurado con la tarjeta PCI SunSwift, Option 1032. Estas advertencias aparecen en dominios que están ejecutando Solaris 8, Solaris 9 o Solaris 10. La siguiente advertencia es un ejemplo:
Aug 12 12:27:41 machine genunix: WARNING: vmem_destroy('pcisch2_dvma'): leaked |
Estas advertencias son benignas. El espacio de acceso de memoria virtual directo (DVMA) se actualiza adecuadamente durante la operación de reconfiguración dinámica. No se produce ninguna fuga real de memoria de núcleo.
Solución: para evitar que se muestre la advertencia, añada la siguiente línea a /etc/system:
set pcisch:pci_preserve_iommu_tsb=0 |
Se produce un error en el enlace entre un sistema con Sun GigaSwift Ethernet MMF Option X1151A y determinados conmutadores CISCO. El error se produce cuando se intenta ejecutar una operación de reconfiguración dinámica en un sistema que está conectado a uno de los siguientes conmutadores:
Conmutador CISCO WS-c4003 (firewall: Software WS-C4003, Versión NmpSW: 4.4(1))
Conmutador CISCO WS-c4003 (firewall: Software WS-C4003, Versión NmpSW: 7.1(2))
Conmutador CISCO WS-c5500 (firewall Software WS-C5500, Versión McpSW: 4.2(1) y NmpSW: 4.2(1))
Este problema no se ha producido en un conmutador CISCO 6509.
Solución: utilice otro conmutador. Como alternativa, puede ponerse en contacto con Cisco para obtener una modificación de los conmutadores indicados.
Esta sección describe los principales problemas relacionados con la reconfiguración dinámica en los siguientes sistemas de gama media de Sun Fire:
Sun Fire E6900
Sun Fire E4900
Sun Fire E6800
Sun Fire E4810
Sun Fire E4800
Sun Fire E3800
La Tabla 3–1 muestra las combinaciones aceptadas del software Solaris y el firmware de controladora del sistema (SC) para cada sistema de gama media Sun Fire para ejecutar la reconfiguración dinámica.
Para sacar un mejor partido a las últimas funciones del firmware y correcciones de errores, ejecute el firmware SC más reciente en el sistema de gama media Sun Fire. Para obtener la información sobre la última modificación, consulte http://sunsolve.sun.com.
Plataforma |
Versión de Solaris |
Firmware SC mínimo |
---|---|---|
Sun Fire E6900/E4900 con UltraSPARC IV+ |
Solaris 10 3/05 HW1 (una versión limitada) o Solaris 10 1/06 |
5.19.0 |
E6900/E4900 sin UltraSPARC IV+ |
Solaris 9 4/04 |
5.16.0 |
Sun Fire 6800/4810/4800/3800 |
Solaris 9 4/04 |
5.16.0 |
Sun Fire 6800/4810/4800/3800 |
Solaris 9 |
5.13.0 |
Puede modernizar el firmware del sistema de gama media Sun Fire conectándose a un servidor FTP o HTTP en el que se guardan las imágenes del firmware. Para obtener más información, consulte los archivos README e Install.info. Estos archivos se encuentran en las versiones del firmware que se ejecutan en sus dominios. Puede descargar modificaciones de Sun de http://sunsolve.sun.com.
Esta sección muestra los errores de reconfiguración dinámica importantes.
Si un proceso mantiene abierto un dispositivo de red, cualquier operación de reconfiguración dinámica que implique dicho dispositivo producirá un error. Los daemons y procesos que mantienen recuentos de referencia detienen las operaciones de reconfiguración dinámica.
Solución: como superusuario, realice los siguientes pasos:
Elimine o cambie el nombre del directorio /rplboot.
Cierre los servicios NFS.
# sh /etc/init.d/nfs.server stop |
Cierre los servicios del servidor de arranque.
# sh /etc/init.d/boot.server stop |
Realice la operación de desconexión de la reconfiguración dinámica.
Reinicie los servicios NFS.
# sh /etc/init.d/nfs.server start |
Reinicie los servicios de servidor de arranque.
# sh /etc/init.d/boot.server start |
En los sistemas de gama media de Sun Fire, una placa de E/S CompactPCI (cPCI) no se puede desconfigurar si el Puerto 0 (P0) de dicha placa está deshabilitado. Este problema existe en Solaris 10 y Solaris 9. También existe en el software de Solaris 8, que tiene una o más de las siguientes modificaciones instaladas:
ID de modificación 108528–11 hasta la 108528–29
ID de modificación 111372–02 hasta la 111372–04
El error también se produce únicamente en las operaciones de reconfiguración dinámica que implican a placas cPCI. Se muestra un mensaje de error parecido al siguiente:
# cfgadm -c unconfigure NO.IB7 cfgadm: Hardware specific failure: unconfigure N0.IB7: Device busy:/ssm@0,0/pci@1b,700000/pci@1 |
NO.IB7 es una placa E/S CompactPCI con P0 deshabilitado.
Solución: deshabilite las ranuras en vez del Puerto 0.
Esta sección describe los problemas relacionados con las siguientes funciones del servidor Sun Enterprise 10000:
Requisitos del procesador de servicio del sistema
Reconfiguración dinámica (DR)
Redes de interdominios (IDN)
Sistema operativo Solaris en dominios de Sun Enterprise 10000
El software Solaris 10 se puede ejecutar en dominios individuales dentro del sistema Sun Enterprise 10000. Sin embargo, el procesador de servicio del sistema de Sun Enterprise 10000 no es compatible con esta versión.
El software SSP 3.5 es necesario en el procesador de servicio del sistema (SSP) para que sea compatible con Solaris 10. Instale primero el SSP 3.5 en su SSP. A continuación, puede instalar o actualizar al SO Solaris 10 en un dominio de Sun Enterprise 10000.
El software SSP 3.5 también es necesario, de forma que el dominio se puede configurar adecuadamente para DR Model 3.0.
Esta sección describe los distintos problemas relacionados con la reconfiguración dinámica de los dominios en Sun Enterprise 10000.
Debe utilizar DR 3.0 en los dominios de Sun Enterprise 10000 que se ejecutan en el SO Solaris comenzando con la versión Solaris 9 12/03. DR Model 3.0 hace referencia a la función que hace uso de los siguientes comandos en el SSP para realizar las operaciones de DR del dominio:
addboard
moveboard
deleteboard
showdevices
rcfgadm
Puede ejecutar el comando cfgadm en los dominios para obtener la información del estado de la placa. DR Model 3.0 también interactúa con Reconfiguration Coordination Manager (RCM) para coordinar las operaciones de DR con otras aplicaciones que se estén ejecutando en un dominio.
Para obtener detalles acerca de DR model 3.0, consulte la Sun Enterprise 10000 Dynamic Reconfiguration User Guide.
Para esta versión de Solaris, la DR no desvincula automáticamente los procesos de usuario de las CPU que se están desconectando. Debe realizar esta operación antes de iniciar una secuencia de desconexión. La operación de vaciado produce un error si se encuentran CPU con procesos vinculados.
Si un proceso mantiene abierto un dispositivo de red, cualquier operación de reconfiguración dinámica que implique dicho dispositivo producirá un error. Los daemons y procesos que mantienen recuentos de referencia detienen las operaciones de reconfiguración dinámica.
Solución: como superusuario, realice los siguientes pasos:
Elimine o cambie el nombre del directorio /rplboot.
Cierre los servicios NFS.
# sh /etc/init.d/nfs.server stop |
Cierre los servicios del servidor de arranque.
# sh /etc/init.d/boot.server stop |
Realice la operación de desconexión de la reconfiguración dinámica.
Reinicie los servicios NFS.
# sh /etc/init.d/nfs.server start |
Reinicie los servicios de servidor de arranque.
# sh /etc/init.d/boot.server start |
El software SSP 3.5 es necesario para que un dominio se configure adecuadamente para DR 3.0. Después de actualizar su SSP a SSP 3.5, si DR 3.0 está habilitado en el dominio, ejecute el siguiente comando:
# devfsadm -i ngdr |
Para que un dominio sea parte de una red InterDomain, todas las placas con memoria activa en dicho dominio deben tener al menos una CPU activa.
Antes de emitir el comando boot net desde el indicador de sistema OpenBoot PROM (OK), compruebe que la variable local-mac-address? se ha definido en false. Esta configuración es la predeterminada de serie. Si la variable se define en true, deberá asegurarse de que este valor es una configuración local adecuada.
Una variable local-mac-address? que se defina como true puede impedir que el dominio arranque con éxito en la red.
En una ventana netcon, puede utilizar el siguiente comando en el indicador de sistema OpenBoot PROM para ver los valores de las variables OpenBoot PROM:
OK printenv |
Para restablecer la variable local-mac-address? a su valor predeterminado, utilice el comando setenv:
OK setenv local-mac-address? false |
Esta sección contiene la última información acerca de la función de reconfiguración dinámica (DR) de los siguientes servidores de gama media que ejecuten el software Solaris 10:
Sun Enterprise 6x00
Sun Enterprise 5x00
Sun Enterprise 4x00
Sun Enterprise 3x00
Para obtener más información acerca de Sun Enterprise Server Dynamic Reconfiguration, consulte la Dynamic Reconfiguration User's Guide for Sun Enterprise 3x00/4x00/5x00/6x00 Systems. La versión de Solaris 10 incluye la compatibilidad con placas de memoria/CPU y la mayoría de las placas de E/S en los sistemas mencionados en la lista anterior.
Antes de realizar ninguna operación, asegúrese de que el sistema admite la reconfiguración dinámica. Si el sistema es de un diseño antiguo, aparecerá el siguiente mensaje en la consola o en los registros de la consola. Dicho sistema no es adecuado para la reconfiguración dinámica.
Hot Plug not supported in this system |
Las siguientes placas de E/S no se admiten actualmente:
Tipo 2 (gráficos)
Tipo 3 (PCI)
Tipo 5 (gráficos y SOC+)
Esta sección proporciona información general de software acerca de DR.
Para habilitar la reconfiguración dinámica, es preciso definir dos variables en el archivo /etc/system. También debe definir una variable adicional para habilitar la retirada de las placas de memoria/CPU. Siga estos pasos:
Inicie la sesión como superusuario.
Edite el archivo /etc/system añadiendo las siguientes líneas:
set pln:pln_enable_detach_suspend=1 set soc:soc_enable_detach_suspend=1 |
Para habilitar la retirada de una placa de memoria/CPU, añada esta línea al archivo:
set kernel_cage_enable=1 |
Esta variable permite la operación de desconfiguración de la memoria.
Reinicie el sistema para aplicar los cambios.
La prueba de inactividad se inicia con el siguiente comando:
# cfgadm -x quiesce-test sysctr10:slot number |
En un sistema grande, la prueba de inactividad puede tardar hasta un minuto. En este tiempo, no se mostrará ningún mensaje si cfgadm no encuentra controladores incompatibles.
Si se intenta conectar una placa que se encuentra en la lista de placas deshabilitadas, se puede producir un mensaje de error:
# cfgadm -c connect sysctrl0:slotnumber cfgadm: Hardware specific failure: connect failed: board is disabled: must override with [-f][-o enable-at-boot] |
Para habilitar la placa, hay disponibles dos opciones:
Utilización de la marca force (-f)
# cfgadm -f -c connect sysctrl0:slot number |
Utilización de la opción enable (-o enable-at-boot )
# cfgadm -o enable-at-boot -c connect sysctrl0:slot number |
Para retirar todas las placas de la lista de placas deshabilitadas, elija una de las dos opciones en función del símbolo de sistema desde el que se emite el comando:
Desde el símbolo de sistema de superusuario, escriba:
# eeprom disabled-board-list= |
Desde el símbolo de sistema OpenBoot PROM, escriba:
OK set-default disabled-board-list |
Para obtener más información acerca de la configuración de disabled-board-list, consulte la sección “Specific NVRAM Variables” en el manual Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems. Este manual es parte del conjunto de documentación de esta versión.
La información acerca de la configuración de disabled-memory-list de OpenBoot PROM se publica en esta versión. Consulte "Variables NVRAM específicas" en Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems en la documentación de Solaris incluida en el hardware de Sun.
Si necesita descargar estos controladores, utilice el comando de línea modinfo para buscar los ID de módulo de los controladores. A continuación, puede utilizar los ID del módulo del comando modunload para descargar estos controladores.
Retire la placa del sistema tan pronto como sea posible si se muestra el siguiente mensaje de error durante una secuencia de conexión de reconfiguración dinámica:
cfgadm: Hardware specific failure: connect failed: firmware operation error |
La placa no ha superado la comprobación automática, y si la retira, evitará los posibles errores de reconfiguración que se producirán en el siguiente reinicio.
El estado de error de prueba automática no permite realizar otras operaciones. Por tanto, si desea volver a intentar la operación inmediatamente, tendrá que retirar y volver a insertar la placa.
La siguiente lista está sujeta a cambios en cualquier momento.
Si un proceso mantiene abierto un dispositivo de red, cualquier operación de reconfiguración dinámica que implique dicho dispositivo producirá un error. Los daemons y procesos que mantienen recuentos de referencia detienen las operaciones de reconfiguración dinámica.
Solución: como superusuario, realice los siguientes pasos:
Elimine o cambie el nombre del directorio /rplboot.
Cierre los servicios NFS.
# sh /etc/init.d/nfs.server stop |
Cierre los servicios del servidor de arranque.
# sh /etc/init.d/boot.server stop |
Realice la operación de desconexión de la reconfiguración dinámica.
Reinicie los servicios NFS.
# sh /etc/init.d/nfs.server start |
Reinicie los servicios de servidor de arranque.
# sh /etc/init.d/boot.server start |
La memoria intercalada se queda en un estado incorrecto cuando Sun Enterprise5 x500 se reinicia tras un error grave. Las operaciones DR siguientes presentan errores. El problema sólo se produce en sistemas con memoria intercalada definida en min.
Solución: elija una de las siguientes opciones:
Para eliminar el problema, restablezca manualmente el sistema en el indicador de sistema OK .
Para evitar el problema, defina la propiedad memory-interleave de NVRAM en max.
La segunda opción provoca que la memoria se intercale siempre que se reinicie el sistema. Sin embargo, es posible que esta opción no sea aceptable porque una placa de memoria que contiene memoria intercalada no puede desconfigurarse dinámicamente. Consulte No se puede desconfigurar una placa de memoria/CPU que tiene memoria intercalada (4210234).
Para desconfigurar y desconectar posteriormente una placa de CPU con memoria o una placa de solo memoria, desconfigure primero la memoria. Sin embargo, si la memoria de la placa se intercala con memoria en otras placas, la memoria no se puede desconfigurar dinámicamente.
La memoria intercalada se puede mostrar utilizando los comandos prtdiag o cfgadm.
Solución: cierre el sistema antes de realizar el mantenimiento de la placa y, a continuación, reinícielo. Para poder realizar operaciones de DR futuras en la placa de memoria/CPU, defina la propiedad memory-interleave de NVRAM en min . Consulte también La memoria intercalada se ha definido incorrectamente tras un reinicio posterior a un error grave (4156075) para obtener información adicional acerca de la memoria intercalada.
Para desconfigurar y desconectar posteriormente una placa de CPU con memoria o una placa de solo memoria, desconfigure primero la memoria. Sin embargo, en la actualidad, parte de la memoria no se puede reasignar. Esta memoria se considera permanente.
La memoria permanente de una placa se marca como “permanent” en la pantalla de estado de cfgadm:
# cfgadm -s cols=ap_id:type:info Ap_Id Type Information ac0:bank0 memory slot3 64Mb base 0x0 permanent ac0:bank1 memory slot3 empty ac1:bank0 memory slot5 empty ac1:bank1 memory slot5 64Mb base 0x40000000 |
En este ejemplo, la placa en la ranura 3 (slot3) tiene una memoria permanente y no se puede retirar.
Solución: cierre el sistema antes de realizar el mantenimiento de la placa y, a continuación, reinícielo.
Si se está ejecutando un proceso cfgadm en una placa, se producirá un error al intentar desconectar simultáneamente una segunda placa. Aparece el mensaje de error siguiente.
cfgadm: Hardware specific failure: disconnect failed: nexus error during detach:address |
Solución: ejecute una única operación de cfgadm a la vez. Deje que finalice una operación cfgadm que se está ejecutando en una placa antes de comenzar la operación de desconexión cfgadm en una segunda placa.