En esta sección, se describen problemas que pueden afectar al grupo de recursos de estructura de Soporte para Oracle RAC.
Si ocurre un problema fatal al inicializar Soporte para Oracle RAC, el nodo genera un mensaje de aviso grave similar al siguiente mensaje de error:
panic[cpu0]/thread=40037e60: Failfast: Aborting because "ucmmd" died 30 seconds ago
Descripción: un componente controlado por el UCMM ha devuelto un error al UCMM durante una reconfiguración.
Cause: Las causas más habituales de este problema son las siguientes: Un nodo también puede generar un mensaje de aviso grave al inicializar Soporte para Oracle RAC porque se ha finalizado el timeout asignado al paso de reconfiguración. Para obtener más información, consulte Error grave de nodo debido a un timeout finalizado.
Solución: Si desea obtener instrucciones para corregir el problema, consulte Cómo recuperarse de un fallo del daemon ucmmd o de un componente relacionado.
El daemon de UCMM, ucmmd, gestiona la reconfiguración de Soporte para Oracle RAC. Cuando un cluster se inicia o se reinicia, este daemon se inicia únicamente después de que se validan todos los componentes de Soporte para Oracle RAC. Si la validación de un componente en un nodo falla, el daemon ucmmd no se inicia en el nodo.
Las causas más habituales de este problema son las siguientes:
Se produjo un error durante una reconfiguración anterior de un componente de Soporte para Oracle RAC.
Un paso en una reconfiguración anterior de Soporte para Oracle RAC superó el timeout, lo que generó un error grave en el nodo donde terminó el timeout.
Si desea obtener instrucciones para corregir el problema, consulte Cómo recuperarse de un fallo del daemon ucmmd o de un componente relacionado.
Realice esta tarea para corregir los problemas que se describen en las siguientes secciones:
Para la ubicación de los archivos de registro de las reconfiguraciones de UCMM, consulte Fuentes de información de diagnóstico.
Al examinar estos archivos, comience por el mensaje más reciente y vaya retrocediendo hasta identificar la causa del problema.
Para obtener más información sobre los mensajes de error que pueden indicar la causa de los errores de reconfiguración, consulte Oracle Solaris Cluster Error Messages Guide (Guía de mensajes de error de Oracle Solaris Cluster).
Por ejemplo:
Para obtener más información, consulte Error grave de nodo debido a un timeout finalizado.
Únicamente la solución a determinados problemas requiere un reinicio. Por ejemplo, el aumento de memoria compartida requiere un reinicio. Sin embargo, el aumento del valor del timeout de un paso no requiere un reinicio.
Para obtener más información sobre el reinicio de un nodo, consulte Cierre y arranque de un solo nodo de un cluster de Guía de administración del sistema de Oracle Solaris Cluster .
Este paso actualiza el grupo de recursos con los cambios en la configuración que ha efectuado.
# clresourcegroup offline -n node rac-fmwk-rg
Especifica el nombre o el identificador de nodo (ID) del nodo donde ocurrió el problema.
Especifica el nombre del grupo de recursos que se va a poner fuera de línea.
# clresourcegroup online -eM -n node rac-fmwk-rg