Notas de la versión de Solaris 10 6/06

Capítulo 3 Problemas específicos del sistema

Este capítulo describe los problemas específicos de los servidores de gama alta y media de Sun. Los servidores Sun actuales son parte de la familia de sistemas Sun Fire. Los servidores más antiguos son parte de la familia de sistemas Sun Enterprise.


Nota –

Las notas de la versión de Sun Validation Test Suite son un documento independiente y se pueden encontrar en http://sun.com.



Nota –

Algunos de los problemas y errores de este capítulo se han solucionado en versiones posteriores de Solaris 10. Si ha actualizado el software de Solaris, puede que varios de los problemas y errores no sean aplicables. Para conocer los problemas y errores que ya no afectan a su versión del software Solaris 10, consulte el Apéndice A, Tabla de errores integrados en el sistema operativo Solaris 10.


Reconfiguración dinámica en los sistemas de gama alta Sun Fire

Esta sección describe los principales errores de reconfiguración dinámica del dominio en los siguientes sistemas de gama alta Sun Fire que ejecutan el software Solaris 10:

Para obtener información acerca de los errores de la reconfiguración dinámica en Sun Management Services, consulte las Notas de la versión SMS para la versión SMS que se esté ejecutando en el sistema.

Errores de software y hardware conocidos

Los siguientes errores de software y hardware se aplican a los sistemas de gama alta Sun Fire.

La retirada de dispositivos de red produce un error cuando el programa mantiene el dispositivo abierto (5054195)

Si un proceso mantiene abierto un dispositivo de red, cualquier operación de reconfiguración dinámica que implique dicho dispositivo producirá un error. Los daemons y procesos que mantienen recuentos de referencia detienen las operaciones de reconfiguración dinámica.

Solución: como superusuario, realice los siguientes pasos:

  1. Elimine o cambie el nombre del directorio /rplboot.

  2. Cierre los servicios NFS.


    # sh /etc/init.d/nfs.server stop
    
  3. Cierre los servicios del servidor de arranque.


    # sh /etc/init.d/boot.server stop
    
  4. Realice la operación de desconexión de la reconfiguración dinámica.

  5. Reinicie los servicios NFS.


    # sh /etc/init.d/nfs.server start
    
  6. Reinicie los servicios de servidor de arranque.


    # sh /etc/init.d/boot.server start
    

Deleteboard muestra un error de fuga (4730142)

Se muestran advertencias cuando un comando de reconfiguración dinámica se ejecuta en un sistema que está configurado con la tarjeta PCI SunSwift, Option 1032. Estas advertencias aparecen en dominios que están ejecutando Solaris 8, Solaris 9 o Solaris 10. La siguiente advertencia es un ejemplo:


Aug 12 12:27:41 machine genunix: WARNING:
 vmem_destroy('pcisch2_dvma'): leaked

Estas advertencias son benignas. El espacio de acceso de memoria virtual directo (DVMA) se actualiza adecuadamente durante la operación de reconfiguración dinámica. No se produce ninguna fuga real de memoria de núcleo.

Solución: para evitar que se muestre la advertencia, añada la siguiente línea a /etc/system:


set pcisch:pci_preserve_iommu_tsb=0

El enlace GigaSwift Ethernet MMF produce un error con el conmutador CISCO 4003 después de una conexión DR

Se produce un error en el enlace entre un sistema con Sun GigaSwift Ethernet MMF Option X1151A y determinados conmutadores CISCO. El error se produce cuando se intenta ejecutar una operación de reconfiguración dinámica en un sistema que está conectado a uno de los siguientes conmutadores:

Este problema no se ha producido en un conmutador CISCO 6509.

Solución: utilice otro conmutador. Como alternativa, puede ponerse en contacto con Cisco para obtener una modificación de los conmutadores indicados.

Reconfiguración dinámica en los sistemas de gama media Sun Fire

Esta sección describe los principales problemas relacionados con la reconfiguración dinámica en los siguientes sistemas de gama media de Sun Fire:

Firmware mínimo de la controladora del sistema

La Tabla 3–1 muestra las combinaciones aceptadas del software Solaris y el firmware de controladora del sistema (SC) para cada sistema de gama media Sun Fire para ejecutar la reconfiguración dinámica.


Nota –

Para sacar un mejor partido a las últimas funciones del firmware y correcciones de errores, ejecute el firmware SC más reciente en el sistema de gama media Sun Fire. Para obtener la información sobre la última modificación, consulte http://sunsolve.sun.com.


Tabla 3–1 Firmware SC mínimo para cada plataforma y versión de Solaris

Plataforma 

Versión de Solaris 

Firmware SC mínimo 

Sun Fire E6900/E4900 con UltraSPARC IV+ 

Solaris 10 3/05 HW1 (una versión limitada) o Solaris 10 1/06 

5.19.0 

E6900/E4900 sin UltraSPARC IV+ 

Solaris 9 4/04 

5.16.0 

Sun Fire 6800/4810/4800/3800 

Solaris 9 4/04 

5.16.0 

Sun Fire 6800/4810/4800/3800 

Solaris 9 

5.13.0 

Puede modernizar el firmware del sistema de gama media Sun Fire conectándose a un servidor FTP o HTTP en el que se guardan las imágenes del firmware. Para obtener más información, consulte los archivos README e Install.info. Estos archivos se encuentran en las versiones del firmware que se ejecutan en sus dominios. Puede descargar modificaciones de Sun de http://sunsolve.sun.com.

Errores conocidos de software de reconfiguración dinámica

Esta sección muestra los errores de reconfiguración dinámica importantes.

La retirada de dispositivos de red produce un error cuando el programa mantiene el dispositivo abierto (5054195)

Si un proceso mantiene abierto un dispositivo de red, cualquier operación de reconfiguración dinámica que implique dicho dispositivo producirá un error. Los daemons y procesos que mantienen recuentos de referencia detienen las operaciones de reconfiguración dinámica.

Solución: como superusuario, realice los siguientes pasos:

  1. Elimine o cambie el nombre del directorio /rplboot.

  2. Cierre los servicios NFS.


    # sh /etc/init.d/nfs.server stop
    
  3. Cierre los servicios del servidor de arranque.


    # sh /etc/init.d/boot.server stop
    
  4. Realice la operación de desconexión de la reconfiguración dinámica.

  5. Reinicie los servicios NFS.


    # sh /etc/init.d/nfs.server start
    
  6. Reinicie los servicios de servidor de arranque.


    # sh /etc/init.d/boot.server start
    

No se puede desconfigurar la placa cPCI con un puerto 0 deshabilitado (4798990)

En los sistemas de gama media de Sun Fire, una placa de E/S CompactPCI (cPCI) no se puede desconfigurar si el Puerto 0 (P0) de dicha placa está deshabilitado. Este problema existe en Solaris 10 y Solaris 9. También existe en el software de Solaris 8, que tiene una o más de las siguientes modificaciones instaladas:

El error también se produce únicamente en las operaciones de reconfiguración dinámica que implican a placas cPCI. Se muestra un mensaje de error parecido al siguiente:


# cfgadm -c unconfigure NO.IB7
cfgadm: Hardware specific failure: unconfigure N0.IB7: Device
busy:/ssm@0,0/pci@1b,700000/pci@1

NO.IB7 es una placa E/S CompactPCI con P0 deshabilitado.

Solución: deshabilite las ranuras en vez del Puerto 0.

Notas de la versión de Sun Enterprise 10000

Esta sección describe los problemas relacionados con las siguientes funciones del servidor Sun Enterprise 10000:


Nota –

El software Solaris 10 se puede ejecutar en dominios individuales dentro del sistema Sun Enterprise 10000. Sin embargo, el procesador de servicio del sistema de Sun Enterprise 10000 no es compatible con esta versión.


Requisitos del procesador de servicio del sistema

El software SSP 3.5 es necesario en el procesador de servicio del sistema (SSP) para que sea compatible con Solaris 10. Instale primero el SSP 3.5 en su SSP. A continuación, puede instalar o actualizar al SO Solaris 10 en un dominio de Sun Enterprise 10000.

El software SSP 3.5 también es necesario, de forma que el dominio se puede configurar adecuadamente para DR Model 3.0.

Problemas de reconfiguración dinámica

Esta sección describe los distintos problemas relacionados con la reconfiguración dinámica de los dominios en Sun Enterprise 10000.

DR Model 3.0

Debe utilizar DR 3.0 en los dominios de Sun Enterprise 10000 que se ejecutan en el SO Solaris comenzando con la versión Solaris 9 12/03. DR Model 3.0 hace referencia a la función que hace uso de los siguientes comandos en el SSP para realizar las operaciones de DR del dominio:

Puede ejecutar el comando cfgadm en los dominios para obtener la información del estado de la placa. DR Model 3.0 también interactúa con Reconfiguration Coordination Manager (RCM) para coordinar las operaciones de DR con otras aplicaciones que se estén ejecutando en un dominio.

Para obtener detalles acerca de DR model 3.0, consulte la Sun Enterprise 10000 Dynamic Reconfiguration User Guide.

DR y procesos de usuario vinculados

Para esta versión de Solaris, la DR no desvincula automáticamente los procesos de usuario de las CPU que se están desconectando. Debe realizar esta operación antes de iniciar una secuencia de desconexión. La operación de vaciado produce un error si se encuentran CPU con procesos vinculados.

La retirada de dispositivos de red produce un error cuando el programa mantiene el dispositivo abierto (5054195)

Si un proceso mantiene abierto un dispositivo de red, cualquier operación de reconfiguración dinámica que implique dicho dispositivo producirá un error. Los daemons y procesos que mantienen recuentos de referencia detienen las operaciones de reconfiguración dinámica.

Solución: como superusuario, realice los siguientes pasos:

  1. Elimine o cambie el nombre del directorio /rplboot.

  2. Cierre los servicios NFS.


    # sh /etc/init.d/nfs.server stop
    
  3. Cierre los servicios del servidor de arranque.


    # sh /etc/init.d/boot.server stop
    
  4. Realice la operación de desconexión de la reconfiguración dinámica.

  5. Reinicie los servicios NFS.


    # sh /etc/init.d/nfs.server start
    
  6. Reinicie los servicios de servidor de arranque.


    # sh /etc/init.d/boot.server start
    

La habilitación de DR 3.0 requiere un paso extra en determinadas situaciones (4507010)

El software SSP 3.5 es necesario para que un dominio se configure adecuadamente para DR 3.0. Después de actualizar su SSP a SSP 3.5, si DR 3.0 está habilitado en el dominio, ejecute el siguiente comando:


# devfsadm -i ngdr

Redes InterDomain

Para que un dominio sea parte de una red InterDomain, todas las placas con memoria activa en dicho dominio deben tener al menos una CPU activa.

Variables OpenBoot PROM

Antes de emitir el comando boot net desde el indicador de sistema OpenBoot PROM (OK), compruebe que la variable local-mac-address? se ha definido en false. Esta configuración es la predeterminada de serie. Si la variable se define en true, deberá asegurarse de que este valor es una configuración local adecuada.


Precaución – Precaución –

Una variable local-mac-address? que se defina como true puede impedir que el dominio arranque con éxito en la red.


En una ventana netcon, puede utilizar el siguiente comando en el indicador de sistema OpenBoot PROM para ver los valores de las variables OpenBoot PROM:


OK printenv

Para restablecer la variable local-mac-address? a su valor predeterminado, utilice el comando setenv:


OK setenv local-mac-address? false

Reconfiguración dinámica en los sistemas de gama media Sun Enterprise

Esta sección contiene la última información acerca de la función de reconfiguración dinámica (DR) de los siguientes servidores de gama media que ejecuten el software Solaris 10:

Para obtener más información acerca de Sun Enterprise Server Dynamic Reconfiguration, consulte la Dynamic Reconfiguration User's Guide for Sun Enterprise 3x00/4x00/5x00/6x00 Systems. La versión de Solaris 10 incluye la compatibilidad con placas de memoria/CPU y la mayoría de las placas de E/S en los sistemas mencionados en la lista anterior.

Hardware compatible

Antes de realizar ninguna operación, asegúrese de que el sistema admite la reconfiguración dinámica. Si el sistema es de un diseño antiguo, aparecerá el siguiente mensaje en la consola o en los registros de la consola. Dicho sistema no es adecuado para la reconfiguración dinámica.


Hot Plug not supported in this system

Las siguientes placas de E/S no se admiten actualmente:

Notas de software

Esta sección proporciona información general de software acerca de DR.

Habilitación de la reconfiguración dinámica

Para habilitar la reconfiguración dinámica, es preciso definir dos variables en el archivo /etc/system. También debe definir una variable adicional para habilitar la retirada de las placas de memoria/CPU. Siga estos pasos:

  1. Inicie la sesión como superusuario.

  2. Edite el archivo /etc/system añadiendo las siguientes líneas:


    set pln:pln_enable_detach_suspend=1
    set soc:soc_enable_detach_suspend=1
    
  3. Para habilitar la retirada de una placa de memoria/CPU, añada esta línea al archivo:


    set kernel_cage_enable=1
    

    Esta variable permite la operación de desconfiguración de la memoria.

  4. Reinicie el sistema para aplicar los cambios.

Prueba de inactividad

La prueba de inactividad se inicia con el siguiente comando:


 # cfgadm -x quiesce-test sysctr10:slot number

En un sistema grande, la prueba de inactividad puede tardar hasta un minuto. En este tiempo, no se mostrará ningún mensaje si cfgadm no encuentra controladores incompatibles.

Lista de placas deshabilitadas

Si se intenta conectar una placa que se encuentra en la lista de placas deshabilitadas, se puede producir un mensaje de error:


# cfgadm -c connect sysctrl0:slotnumber







cfgadm: Hardware specific failure: connect failed:
board is disabled: must override with [-f][-o enable-at-boot]

Para habilitar la placa, hay disponibles dos opciones:

Para retirar todas las placas de la lista de placas deshabilitadas, elija una de las dos opciones en función del símbolo de sistema desde el que se emite el comando:

Para obtener más información acerca de la configuración de disabled-board-list, consulte la sección “Specific NVRAM Variables” en el manual Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems. Este manual es parte del conjunto de documentación de esta versión.

Lista de memoria deshabilitada

La información acerca de la configuración de disabled-memory-list de OpenBoot PROM se publica en esta versión. Consulte "Variables NVRAM específicas" en Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems en la documentación de Solaris incluida en el hardware de Sun.

Descarga de controladores de desconexión insegura

Si necesita descargar estos controladores, utilice el comando de línea modinfo para buscar los ID de módulo de los controladores. A continuación, puede utilizar los ID del módulo del comando modunload para descargar estos controladores.

Error en la prueba automática durante una secuencia de conexión

Retire la placa del sistema tan pronto como sea posible si se muestra el siguiente mensaje de error durante una secuencia de conexión de reconfiguración dinámica:


cfgadm: Hardware specific failure: connect failed: firmware operation error

La placa no ha superado la comprobación automática, y si la retira, evitará los posibles errores de reconfiguración que se producirán en el siguiente reinicio.

El estado de error de prueba automática no permite realizar otras operaciones. Por tanto, si desea volver a intentar la operación inmediatamente, tendrá que retirar y volver a insertar la placa.

Errores conocidos

La siguiente lista está sujeta a cambios en cualquier momento.

La retirada de dispositivos de red produce un error cuando el programa mantiene el dispositivo abierto (5054195)

Si un proceso mantiene abierto un dispositivo de red, cualquier operación de reconfiguración dinámica que implique dicho dispositivo producirá un error. Los daemons y procesos que mantienen recuentos de referencia detienen las operaciones de reconfiguración dinámica.

Solución: como superusuario, realice los siguientes pasos:

  1. Elimine o cambie el nombre del directorio /rplboot.

  2. Cierre los servicios NFS.


    # sh /etc/init.d/nfs.server stop
    
  3. Cierre los servicios del servidor de arranque.


    # sh /etc/init.d/boot.server stop
    
  4. Realice la operación de desconexión de la reconfiguración dinámica.

  5. Reinicie los servicios NFS.


    # sh /etc/init.d/nfs.server start
    
  6. Reinicie los servicios de servidor de arranque.


    # sh /etc/init.d/boot.server start
    

La memoria intercalada se ha definido incorrectamente tras un reinicio posterior a un error grave (4156075)

La memoria intercalada se queda en un estado incorrecto cuando Sun Enterprise5 x500 se reinicia tras un error grave. Las operaciones DR siguientes presentan errores. El problema sólo se produce en sistemas con memoria intercalada definida en min.

Solución: elija una de las siguientes opciones:

No se puede desconfigurar una placa de memoria/CPU que tiene memoria intercalada (4210234)

Para desconfigurar y desconectar posteriormente una placa de CPU con memoria o una placa de solo memoria, desconfigure primero la memoria. Sin embargo, si la memoria de la placa se intercala con memoria en otras placas, la memoria no se puede desconfigurar dinámicamente.

La memoria intercalada se puede mostrar utilizando los comandos prtdiag o cfgadm.

Solución: cierre el sistema antes de realizar el mantenimiento de la placa y, a continuación, reinícielo. Para poder realizar operaciones de DR futuras en la placa de memoria/CPU, defina la propiedad memory-interleave de NVRAM en min . Consulte también La memoria intercalada se ha definido incorrectamente tras un reinicio posterior a un error grave (4156075) para obtener información adicional acerca de la memoria intercalada.

No se puede desconfigurar una placa de memoria/CPU que tiene memoria permanente (4210280)

Para desconfigurar y desconectar posteriormente una placa de CPU con memoria o una placa de solo memoria, desconfigure primero la memoria. Sin embargo, en la actualidad, parte de la memoria no se puede reasignar. Esta memoria se considera permanente.

La memoria permanente de una placa se marca como “permanent” en la pantalla de estado de cfgadm:


# cfgadm -s cols=ap_id:type:info
Ap_Id Type Information
ac0:bank0 memory slot3 64Mb base 0x0 permanent
ac0:bank1 memory slot3 empty
ac1:bank0 memory slot5 empty
ac1:bank1 memory slot5 64Mb base 0x40000000

En este ejemplo, la placa en la ranura 3 (slot3) tiene una memoria permanente y no se puede retirar.

Solución: cierre el sistema antes de realizar el mantenimiento de la placa y, a continuación, reinícielo.

La desconexión de cfgadm produce un error cuando se ejecutan comandos cfgadm concurrentes (4220105)

Si se está ejecutando un proceso cfgadm en una placa, se producirá un error al intentar desconectar simultáneamente una segunda placa. Aparece el mensaje de error siguiente.


cfgadm: Hardware specific failure: 
disconnect failed: nexus error during detach:address

Solución: ejecute una única operación de cfgadm a la vez. Deje que finalice una operación cfgadm que se está ejecutando en una placa antes de comenzar la operación de desconexión cfgadm en una segunda placa.