Errores y problemas conocidos

Los errores y problemas conocidos siguientes afectan al funcionamiento de la versión Oracle Solaris Cluster 3.3 5/11. Los errores y problemas se agrupan en las categorías siguientes:

Administración
Servicios de datos
Entorno de desarrollador
Instalación
Localización
Tiempo de ejecución
Actualización

Administración

El grupo de recursos no conmuta por error cuando Failover_mode se establece en SOFT durante un error de interfaz pública (7038727)

Resumen del problema: Si un servicio de datos de conmutación por error, como HA para Oracle, está configurado con el recurso ScalMountpoint para analizar y detectar un error en el acceso de almacenamiento NAS, y la interfaz de red se pierde, por ejemplo debido a desconexión de cable, el sondeo del supervisor se bloquea. Si la propiedad Failover_mode se establece en SOFT, provoca un estado de parada no satisfactoria y el recurso no conmuta por error. El mensaje de error asociado es parecido al siguiente:

SC[SUNW.ScalMountPoint:3,scalmnt-rg,scal-oradata-11g-rs,/usr/cluster/lib/rgm/rt/scal_mountpoint/scal_mountpoint_probe]: Probing thread for mountpoint /oradata/11g is hanging for timeout period 300 seconds

Solución: Cambie la propiedad Failover_mode en el recurso a HARD

# clresource set -p Failover_mode=HARD ora-server-rs
# clresource show -v ora-server-rs | grep Failover_mode
   Failover_mode:                                HARD

No se puede registrar el tipo de recurso SUNW.scalable_acfs_proxy en un clúster de zona (7023590)

Resumen del problema: La implementación actual requiere un archivo RTR, en lugar de un vínculo simbólico al archivo, para estar presente en /usr/clúster/lib/rgm/rtreg.

Solución: Ejecute los comandos siguientes como superusuario en un solo nodo del clúster global.

# cp /opt/SUNWscor/oracle_asm/etc/SUNW.scalable_acfs_proxy /usr/cluster/lib/rgm/rtreg/
# clrt register -Z zoneclustername SUNW.scalable_acfs_proxy
# rm /usr/cluster/lib/rgm/rtreg/SUNW.scalable_acfs_proxy

Error en SPARC T3-4 de Oracle durante el reinicio (6993321)

Resumen del problema: Durante un reinicio, el servidor SPARC T3-4 de Oracle de cuatro procesadores no puede conectarse a la estructura Oracle Solaris Cluster. Aparecen mensajes de error similares a los siguientes:

Sep 20 15:18:53 svc.startd [8]: svc:/system/pools:default: Method or service exit timed out. Killing contract 29. 
Sep 20 15:18:53 svc.startd [8]: svc:/system/pools:default: Method "/lib/svc/method/svc-pools start" failed due to signal KILL. 
…
Sep 20 15:20:55 solta svc.startd [8]: system/pools:default failed: transitioned to maintenance (see 'svcs -xv' for details) 
…
Sep 20 15:22:12 solta INITGCHB: Given up waiting for rgmd. 
…
Sep 20 15:23:12 solta Cluster.GCHB_resd: GCHB system error: scha_cluster_open failed with 18 Sep 20 15:23:12 solta : No such process

Solución: Utilice el comando svccfg para aumentar el tiempo de espera de servicio a 300 segundos. Reinicie en un modo que no sea de clúster y ejecute los comandos siguientes:

# svccfg -s svc:/system/pools setprop start/timeout_seconds = 300
# svcadm refresh svc:/system/pools

Después de ejecutar estos comandos, reinicie en el modo de clúster.

La eliminación del último nodo que contiene un clúster de zona no elimina el clúster de zona de la configuración del clúster (6969605)

Resumen del problema: Cuando se elimina un nodo de clúster global que es el último nodo en el clúster global que contiene un clúster de zona, el clúster de zona no se elimina de la configuración del clúster

Solución: Antes de ejecutar el comando clnode remove -F para eliminar el nodo del clúster global, utilice el comando clzonecluster para eliminar el clúster de zona.

La falta de /dev/rmt supone un uso de reserva incorrecto cuando la directiva está establecida en pathcount (6920996)

Resumen del problema: Si un nuevo dispositivo de almacenamiento se agrega a un clúster y se configura con tres o más rutas de DID, el nodo en que se ejecuta el comando cldevice populate puede no llegar a registrar su clave PGR en el dispositivo.

Solución: Ejecute el comando cldevice populate en todos los nodos del clúster o bien ejecute el comando cldevice populate dos veces en el mismo nodo.

El código de propiedad global_fencing se interrumpe si el valor se cambia a prefer3 (6879360)

Resumen del problema: Oracle Solaris Cluster intenta comprobar que un dispositivo de almacenamiento sea totalmente compatible con SCSI-3 PGR antes de que el usuario pueda definir su propiedad de aislamiento en prefer3. Esta comprobación podría ser correcta cuando no debería serlo.

Solución: Asegúrese de que un dispositivo de almacenamiento esté certificado por Oracle Solaris Cluster para su uso con SCSI-3 PGR antes de cambiar el ajuste del aislamiento a prefer3.

La detección automática no funciona en LDoms con E/S híbrida (6870171)

Resumen del problema: Durante la configuración del clúster sobre LDoms con E/S híbrida, la detección automática no informa de las rutas para la interconexión del clúster.

Solución: Al ejecutar la utilidad interactiva scinstall, seleccione la opción para configurar el nodo patrocinador y otros nodos en operaciones anteriores, en lugar de configurar todos los nodos en una sola operación. Cuando la utilidad le pregunte si desea utilizar la detección automática, responda "no". Puede seleccionar los adaptadores de transporte de la lista que proporciona la utilidad scinstall.

SRDF de EMC e Hitachi TrueCopy rechazan la conmutación por cierre cuando la conmutación por cierre (switchover) y la conmutación regresiva (switchback) fallen a causa del estado del grupo de dispositivos replicados (6798901)

Resumen del problema: Si un grupo de dispositivos Hitachi TrueCopy, cuyo par replicado está en el estado COPY, o un grupo de dispositivos EMC SRDF, cuyo par replicado está dividido, intenta cambiar el grupo de dispositivos a otro nodo, la conmutación por cierre falla. Además, el grupo de dispositivos no puede volver en línea en el nodo original hasta que el par replicado se ha devuelto a un estado emparejado.

Solución: Compruebe que las réplicas TrueCopy no estén en el estado COPY o que las réplicas SRDF no se dividan, antes de intentar cambiar el grupo de dispositivos global asociado de Oracle Solaris Cluster a otro nodo del clúster.

La configuración de un recurso escalable con la directiva de equilibrio de carga LB_STICKY_WILD falla con clsetup (6773401)

Resumen del problema: No puede utilizar la utilidad clsetup para configurar un recurso de modo que tenga la directiva de equilibrio de carga LB_STICKY_WILD. La directiva se establece en LB_WILD.

Solución: Después de configurar el recurso, utilice el comando clresource create para cambiar la directiva de equilibrio de carga a LB_STICKY_WILD.

Eliminar nodos de la configuración de un clúster puede generar una situación de error grave en el nodo (6735924)

Resumen del problema: Cambiar una configuración de un clúster de tres nodos a uno de dos podría suponer la pérdida completa del clúster si uno de los nodos restantes abandona el clúster o se quita de la configuración del clúster.

Solución: Inmediatamente después de quitar un nodo de una configuración de clúster de tres nodos, ejecute el comando cldevice clear en uno de los nodos del clúster que quedan.

Si el kit de herramientas Solaris Security Toolkit está configurado en los nodos del clúster, scstat -i genera un error al enlazar RPC (6727594)

Resumen del problema: Si Solaris Security Toolkit está configurado en los nodos del clúster, el comando scstat -i genera un error al enlazar RPC. El mensaje de error es parecido al siguiente:

scrconf: RPC: Rpcbind failure - RPC: Authentication error

Other Sun Cluster commands that use RPC, such as clsnmpuser, might also fail.

Solución: agregar los nombres de host privados de clúster o las direcciones IP asociadas a los nombres de host privados de clúster al archivo /etc/hosts.allow.

Se precisan más comprobaciones de validación al combinar varios DID (6605101)

Resumen del problema: Los comandos scdidadm y cldevice no pueden comprobar que los dispositivos SRDF replicados que se combinan en un solo dispositivo DID son en realidad réplicas del otro y que pertenecen al grupo de replicación especificado.

Solución: Obre con cautela al combinar dispositivos DID para utilizarlos con SRDF. Compruebe que las instancias de dispositivos DID especificadas sean réplicas entre sí y que pertenezcan al grupo de replicación especificado.

Error al activar Solaris Cluster Manager en un clúster de 16 nodos (6594485)

Resumen del problema: La interfaz gráfica de usuario de Oracle Solaris Cluster Manager no puede utilizarse en un clúster de 16 nodos.

Solución: Emplee la utilidad clsetup o los comandos de mantenimiento de Oracle Solaris Cluster.

Servicios de datos

Si el grupo de recursos se crea después de que se reinicie el clúster de zona pero antes de la reconfiguración del RGM, se generan incoherencias en el RGM (7041222)

Resumen del problema: Si se crean, editan o eliminan grupos de recursos inmediatamente después de reiniciar un clúster de zona, el Administrador de grupo de recursos (RGM) entra en un estado incoherente en el que pueden fallar otras operaciones en el grupo de recursos. En el peor de los caso, este error puede provocar que los nodos del clúster global emitan avisos graves y se reinicien.

Este problema se puede producir después de que todos los nodos del clúster de zona se reinicien a la vez. El problema no se produce si sólo algunos de los nodos se reinician mientras que otros siguen funcionando. También puede ocurrir cuando todo el clúster físico se reinicia, si las actualizaciones del grupo de recursos se ejecutan inmediatamente después de que el clúster de zona se activa.

Los siguientes son comandos que pueden causar estos errores:

clresource create
clresource delete
clresource set
clresourcegroup create
clresourcegroup delete
clresourcegroup set

Solución: Para evitar este problema, espere un minuto o más al reiniciar un clúster de zona para permitir que el clúster de zona se estabilice antes de ejecutar cualquiera de los comandos anteriores.

Si todos los nodos del cluster físico se reinician, espere un minuto más después de que aparezcan los mensajes de la consola que indican que todos los nodos del clúster de zona se han unido al clúster, antes de ejecutar cualquiera de los comandos anteriores. Los mensajes de la consola son del siguiente tipo:

May  5 17:30:49 phys-schost-4 cl_runtime: NOTICE: Membership : Node 'zc-host-2' (node id 2) of cluster 'schost' joined.

Si sólo se reinician algunos nodos mientras que otros siguen funcionando, no es necesario el retraso adicional.

Apache Tomcat no se inicia debido a que falta una secuencia de comandos (7022690)

Resumen del problema: Después de la instalación y la creación del grupo de recursos y los recursos para Oracle Solaris Cluster HA para Apache Tomcat, el servicio no se puede iniciar si HA para Apache Tomcat está configurado en la parte superior de una zona de conmutación por error.

Solución: Póngase en contacto con la persona de contacto de Oracle para obtener la secuencia de comandos que falta.

La instancia principal de SAP Web Application Server no se puede conectar en el mismo nodo después de eliminar el distribuidor (7018400)

Resumen del problema: Si elimina el distribuidor de una instancia de diálogo que se está ejecutando con núcleo de SAP 7.11, el agente de SAP Web Application Server no puede reiniciar la instancia de diálogo en el mismo nodo. Después de dos reintentos, se conmuta por error y el inicio se realiza correctamente en el otro nodo. La causa principal es que, con núcleo de SAP 7.11, el comando cleanipc requiere la configuración LD_LIBRARY_PATH antes de ejecutar cleanipc.

Solución: Indique la configuración LD_LIBRARY_PATH y la ejecución de cleanipc en Webas_Startup_Script para el recurso webas. Por ejemplo, suponiendo que el SID de SAP es FIT y que la instancia es 03, el código que se debe indicar en la secuencia de comandos de inicio registrada para el recurso webas en la propiedad Webas_Startup_script es el siguiente:

LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/sap/FIT/SYS/exe/run
export LD_LIBRARY_PATH 
/usr/sap/FIT/SYS/exe/run/cleanipc 03 remove

El recurso HAStoragePlus configurado en un grupo de recursos escalable con sistema de archivos de clúster se queda en estado de inicio de manera indefinida (6960386)

Resumen del problema: Si la entrada del archivo /etc/vfstab de un sistema de archivos de clúster tiene un valor de montar al iniciar establecido en no y el sistema de archivos de clúster está configurado en un recurso SUNW.HAStoragePlus que pertenece a un grupo de recursos escalable, el recurso SUNW.HAStoragePlus no consigue conectarse. El recurso permanece en estado de inicio (Starting) hasta que concluye el tiempo de espera de prenet_start_method.

Solución: En la entrada del archivo /etc/vfstab del sistema de archivos de clúster, establezca en yes el valor de montar al iniciar (mount-at-boot).

El sondeo de la puerta de enlace realiza ping-pong si el módulo de escucha no está accesible (6927071)

Resumen del problema: En Siebel 8.1.1, el servidor de puerta de enlace tiene una dependencia en la base de datos. Si la máquina que contiene el módulo de escucha de la base de datos no está accesible, el sondeo de la puerta de enlace provocará que el grupo de recursos realice un ping pong hasta alcanzar el intervalo de ping pong.

Solución: Ubicar el módulo de escucha de la base de datos con la puerta de enlace mitiga este problema. O bien, si la base de datos se está ejecutando fuera del control de clúster, asegúrese de que la máquina que contiene el módulo de escucha de la base de datos esté activa y en ejecución.

Las aplicaciones escalables no se aíslan entre clústeres de zona (6911363)

Resumen del problema: Si las aplicaciones escalables configuradas para ejecutarse en clústeres de zona diferentes se enlazan a INADDR_ANY y usan el mismo puerto, los servicios escalables no pueden distinguir entre las instancias de estas aplicaciones que se ejecuten en clústeres de zona distintos.

Solución: No configure las aplicaciones escalables para enlazar a INADDR_ANY como la dirección IP local o para enlazarlas a un puerto que no entre en conflicto con otra aplicación escalable.

La ejecución del comando clnas add o clnas remove en varios nodos al mismo tiempo podría generar un problema (6791618)

Al agregar o quitar un dispositivo NAS, la ejecución del comando clnas add o clnas remove en varios nodos al mismo tiempo puede dañar el archivo de configuración NAS.

Solución: Ejecute el comando clnas add o clnas remove en un solo nodo cada vez.

El nodo de adición clresourcegroup hace que el recurso HAStoragePlus devuelva un estado erróneo (6547896)

Resumen del problema: Cuando una zona no global de marca native se agrega a la lista de nodos de un grupo de recursos que contiene un recurso HAStoragePlus configurado con agrupaciones ZFS, el recurso HAStoragePlus podría entrar en un estado erróneo (Faulted). Este problema ocurre únicamente cuando el nodo físico que contiene la zona native forma parte de la lista de nodos del grupo de recursos.

Solución: Reinicie el grupo de recursos que contiene el recurso HAStoragePlus en estado Faulted.

# clresourcegroup restart faulted-resourcegroup

Entorno de desarrollador

GDS devuelve un estado de salida incorrecto en el método de paro en el caso de servicios que no sean PMF (6831988)

Resumen del problema: La secuencia de comandos de parada del servicio de datos Generic Data Service (GDS) no puede forzar un error en el método de paro. Si la secuencia de comandos de paro finaliza con un valor distinto de cero, el método de paro de GDS intentará eliminar el daemon del recurso. Si se elimina correctamente, el método de paro finaliza satisfactoriamente, a pesar de que la secuencia de comandos de paro haya fallado. Como resultado, la secuencia de comandos de paro no puede forzar de modo programado un error en el método de paro.

Solución: Haga que la secuencia de comandos de paro de GDS ejecute el comando clresourcegroup quiesce -k nombre_gr, donde nombre_gr es el nombre del grupo de recursos que contenga el recurso GDS. La opción -k hará que el daemon rgmd elimine el método de paro de GDS que se está ejecutando. Esto moverá el recurso GDS al estado STOP_FAILED y el grupo de recursos se moverá al estado ERROR_STOP_FAILED.

Los puntos siguientes son limitaciones de esta solución:

El comando clresourcegroup quiesce impide que se pueda reiniciar el nodo, incluso si el Failover_mode del recurso se establece en HARD. Si el comportamiento de reinicio es necesario, la secuencia de comandos de paro de GDS puede consultar la propiedad Failover_mode y, si la propiedad se define en HARD, la secuencia de comandos de paro puede reiniciar directamente el nodo o la zona no global en la que se ejecuta.
Esta solución es más adecuada para un grupo de recursos a prueba de fallos, que sólo se puede parar en un nodo a la vez. En el caso de un grupo de recursos controlado por múltiples dispositivos, el recurso GDS podría pararse en varios nodos al mismo tiempo. La ejecución del comando clresourcegroup quiesce -k en ese caso eliminará todos los métodos de paro en ejecución en varios nodos, no sólo el que se está ejecutando en el nodo local.

Instalación

El programa de instalación elimina el paquete existente correspondiente a Ops Center Agent JavaDB Database. (6956479)

Resumen del problema: Oracle Enterprise Manager Ops Center Agent para Oracle Solaris 10 utiliza el software JavaDB para su base de datos de configuración. Al instalar el software Oracle Solaris Cluster mediante la utilidad installer, el paquete de software JavaDB se vuelve a instalar, lo que provoca que se suprima una base de datos de configuración del agente existente.

Los mensajes de error siguientes se reportan desde Ops Center Agent como resultado de la eliminación del paquete:

java.sql.SQLException: Database '/var/opt/sun/xvm/agentdb' not found.
        at org.apache.derby.impl.jdbc.SQLExceptionFactory40.getSQLException(Unknown Source)
        at org.apache.derby.impl.jdbc.Util.newEmbedSQLException(Unknown Source)
        at org.apache.derby.impl.jdbc.Util.newEmbedSQLException(Unknown Source)

El agente está inoperativo y se debe desconfigurar o configurar.

Solución: Instale manualmente en todos los nodos del clúster los paquetes JavaDB adicionales siguientes desde el soporte Oracle Solaris Cluster:

SUNWjavadb-demo
SUNWjavadb-javadoc
SUNWjavadb-docs
SUNWjavadb-client

La ejecución de la utilidad installer no elimina los paquetes de la base de datos JavaDB existente.

Localización

Resultado incorrecto de comprobación de requisitos del sistema (6495984)

Resumen del problema: Si se emplea la utilidad installer en las versiones de chino simplificado y chino tradicional para instalar el software Oracle Solaris Cluster, el programa que comprueba los requisitos del sistema indica de manera incorrecta que la zona de intercambio es de 0 MB.

Solución: Haga caso omiso de esta información. En estas versiones traducidas, puede ejecutarse el comando siguiente para determinar la zona de intercambio correcta:

# df -h | grep swap

Tiempo de ejecución

El estado de cldevicegroup siempre muestra los conjuntos de discos de Solaris Volume Manager de varios propietarios configurados en la estructura vucmm como "offline" (6962196)

Resumen del problema: Cuando un conjunto de discos de Solaris Volume Manager de varios propietarios está configurado en la estructura vucmm, el comando cldevicegroup status siempre muestra el conjunto de discos como offline independientemente del estado real del conjunto de discos.

Solución: Compruebe el estado del conjunto de discos de varios propietarios mediante el comando metastat -s conjunto_discos.

Error en Ssm_start debido a que no está relacionado con IPMP (6938555)

Resumen del problema: Un recurso escalable que depende de un recurso SUNW.SharedAddress no puede conectarse debido a un error de un grupo IPMP ubicado en una subred no utilizada por el recurso de direcciones compartidas. Aparecen mensajes similares a los siguientes en el archivo syslog de los nodos del clúster:

Mar 22 12:37:51 schost1 SC SUNW.gds:5,Traffic_voip373,Scal_service_voip373,SSM_START: ID 639855 daemon.error IPMP group sc_ipmp1 has status DOWN. Assuming this
node cannot respond to client requests.

Solución: Repare el grupo IPMP que ha fallado y reinicie el recurso escalable que ha generado el error.

Actualización

Las zonas de tipo de ip=exclusivo no pueden contener recursos SUNW.LogicalHostname después de la actualización (6702621)

Resumen del problema: El problema se produce cuando el tipo de recurso SUNW.LogicalHostname está registrado en la versión 2 (utilice el comando clresourcetype list para mostrar la versión). Después de la actualización, los recursos de nombre de host lógico se pueden crear para zonas no globales con ip-type=exclusive, pero el acceso de red al nombre de host lógico, por ejemplo, telnet o rsh, no funciona.

Solución: realice los pasos siguientes:

Elimine todos los grupos de recursos con una lista de nodos que contenga una zona no global con ip-type=exclusive que aloje recursos de nombre de host lógico.
Actualice el tipo de recurso SUNW.LogicalHostname al menos a la versión 3:
```
# clresourcetype register SUNW.LogicalHostname:3
```

Omitir Vínculos de navegación
Salir de la Vista de impresión
	Notas de la versión de Oracle Solaris Cluster 3.3 5/11 Oracle Solaris Cluster (Español)