Errores conocidos del software de DR (Suplemento de notas sobre la versión de Solaris 8 2/02 para hardware de Sun)

Suplemento de notas sobre la versión de Solaris 8 2/02 para hardware de Sun

Errores conocidos del software de DR

`cryptorand` se interrumpe al desinstalar una placa de CPU mediante reconfiguración dinámica (error 4456095)

Descripción: Si un sistema está ejecutando el proceso cryptorand (que se encuentra en el paquete SUNWski), cualquier desconfiguración de la memoria, como la provocada por una desconexión de una placa de CPU/memoria (SB), provoca el cierre de cryptorand y el consiguiente registro de mensajes en /var/adm/messages. Esta acción impide el suministro de números aleatorios para la protección de los subsistemas, por lo que cualquier memoria existente cuando se inicia cryptorand no debería desconfigurarse.

El proceso cryptorand suministra un número aleatorio a /dev/random. Cuando se inicia cryptorand, el periodo que transcurre antes de que /dev/random esté disponible depende de la cantidad de memoria del sistema y equivale aproximadamente a dos minutos por GB. Las aplicaciones que utilizan /dev/random para obtener números aleatorios pueden sufrir un bloqueo temporal. No es necesario reiniciar cryptorand si se agrega una placa de CPU/memoria a un dominio.

Solución alternativa: Si se retira una placa de CPU/memoria del dominio, reinicie cryptorand introduciendo el siguiente comando como superusuario:

# sh /etc/init.d/cryptorand start

SBM causa a veces el error del sistema durante las operaciones de DR (error 4506562)

Descripción: Puede producirse un error de parada del sistema si se retira una placa del sistema que contiene unidades de CPU mientras se está utilizando Solaris Bandwidth Manager (SBM).

Solución alternativa: No instale SBM en sistemas que vayan a utilizarse para pruebas de DR ni realice operaciones de DR con placas que contengan unidades de CPU y pertenezcan a sistemas con SBM.

DR se bloquea durante las operaciones de configuración de las placas IB con `vxdmpadm policy=check_all` (error 4509462)

Descripción: Las operaciones de DR con placas IBx (E/S) se bloquean después de algunas iteraciones satisfactorias. Esta situación se produce cuando la operación de DR se ejecuta al mismo tiempo que el daemon DMP que implementa la norma check_all con un intervalo de tiempo.

Solución alternativa: Para evitar el bloqueo entre el daemon DMP y la operación de DR efectuada con la placa, introduzca el siguiente comando antes de realizar operaciones de DR. Este comando detiene y reinicia el daemon DMP.

# /usr/sbin/vxdmpadm stop restore

No se pueden desconectar los controladores SCSI mediante DR (error 4446253)

Descripción: Cuando un controlador SCSI está configurado pero no ocupado, no puede desconectarse con el comando cfgadm(1M) de DR.

Solución alternativa: Ninguna.

El módulo `cfgadm_sbd` no se bloquea en entornos multihilo (error 4498600)

Descripción: Cuando un cliente multihilo (multi-threaded) de la librería cfgadm envía varias peticiones sbd simultáneas, es posible que el sistema se bloquee.

Solución alternativa: Ninguna. Por el momento no hay aplicaciones que implementen el uso de la librería cfgadm en entornos multihilo.

Las operaciones de DR se bloquean después de varios bucles cuando se está ejecutando también el control de la alimentación de la CPU (error 4114317)

Descripción: Cuando se están realizando varias operaciones de DR simultáneas o se está ejecutando psradm al mismo tiempo que una operación de DR, el sistema se puede paralizar por el bloqueo mutuo de las operaciones, ya que cada una de ellas espera a que finalice el proceso de la otra.

Solución alternativa: Lleve a cabo las operaciones de DR de forma consecutiva (una cada vez) y permita que cada una de ellas finalice por completo antes de ejecutar psradm o de iniciar otra operación de DR.

Error de bus de consola del SC en operaciones de SNMP y durante la ejecución de DR (error 4485505)

Descripción: En raras ocasiones se genera un mensaje de error de bus de consola durante las operaciones get de SNMP con el objeto cpuModDescr. Este error es poco frecuente y sólo se produce cuando SunMC está monitorizando un sistema. Si aparece el mensaje, SunMC recibe unknown como valor del objeto cpuModDescr.

Solución alternativa: La única solución es no utilizar SunMC. En cualquier caso el mensaje no causa ningún daño y puede hacer caso omiso de él sin peligro. El único riesgo es que la interfaz gráfica de SunMC puede mostrar a veces un valor erróneo para cpuModDescr.

Posible error del sistema cuando se supera el tiempo de espera de `send_mondo_set` (error 4518324)

El sistema Sun Fire puede fallar si una o varias placas de CPU tienen definida una pausa de sincronización durante una operación de DR. Esta pausa es necesaria para conectar y desconectar las placas. Si hay alguna interrupción mondo pendiente de ejecución y, por alguna razón, el controlador del sistema no puede terminar la pausa de sincronización en el tiempo previsto por el valor de send_mondo timeout (un segundo), se genera el error del sistema.