Guía del servicio de datos de Oracle® para Oracle Real Application Clusters

Salir de la Vista de impresión

Actualización: Julio de 2014, E52255–01
 
 

Error de un grupo de recursos de estructura de Soporte para Oracle RAC

En esta sección, se describen problemas que pueden afectar al grupo de recursos de estructura de Soporte para Oracle RAC.

Error grave del nodo al inicializar Soporte para Oracle RAC

Si ocurre un problema fatal al inicializar Soporte para Oracle RAC, el nodo genera un mensaje de aviso grave similar al siguiente mensaje de error:

panic[cpu0]/thread=40037e60: Failfast: Aborting because "ucmmd" died 30 seconds ago

Descripción:  un componente controlado por el UCMM ha devuelto un error al UCMM durante una reconfiguración.

Cause:  Las causas más habituales de este problema son las siguientes: Un nodo también puede generar un mensaje de aviso grave al inicializar Soporte para Oracle RAC porque se ha finalizado el timeout asignado al paso de reconfiguración. Para obtener más información, consulte Error grave de nodo debido a un timeout finalizado.

Solución:  Si desea obtener instrucciones para corregir el problema, consulte Cómo recuperarse de un fallo del daemon ucmmd o de un componente relacionado.


Notas -  Cuando el nodo es un nodo del cluster global, el aviso grave del nodo interrumpe el funcionamiento de todo el equipo. Cuando el nodo es un nodo de cluster de zona, el error grave del nodo sólo interrumpe esa zona específica y las demás zonas no son afectadas.

Fallo del daemon ucmmd al iniciarse

El daemon de UCMM, ucmmd, gestiona la reconfiguración de Soporte para Oracle RAC. Cuando un cluster se inicia o se reinicia, este daemon se inicia únicamente después de que se validan todos los componentes de Soporte para Oracle RAC. Si la validación de un componente en un nodo falla, el daemon ucmmd no se inicia en el nodo.

Las causas más habituales de este problema son las siguientes:

  • Se produjo un error durante una reconfiguración anterior de un componente de Soporte para Oracle RAC.

  • Un paso en una reconfiguración anterior de Soporte para Oracle RAC superó el timeout, lo que generó un error grave en el nodo donde terminó el timeout.

Si desea obtener instrucciones para corregir el problema, consulte Cómo recuperarse de un fallo del daemon ucmmd o de un componente relacionado.

Cómo recuperarse de un fallo del daemon ucmmd o de un componente relacionado

  1. Para determinar la causa del problema, examine los archivos de registro de las reconfiguraciones de UCMM y el archivo de mensajes del sistema.

    Para la ubicación de los archivos de registro de las reconfiguraciones de UCMM, consulte Fuentes de información de diagnóstico.

    Al examinar estos archivos, comience por el mensaje más reciente y vaya retrocediendo hasta identificar la causa del problema.

    Para obtener más información sobre los mensajes de error que pueden indicar la causa de los errores de reconfiguración, consulte Oracle Solaris Cluster Error Messages Guide (Guía de mensajes de error de Oracle Solaris Cluster).

  2. Corrija el problema que hizo que el componente devolviera un error al UCMM.

    Por ejemplo:

    • Si se ha agotado el timeout asignado al paso de reconfiguración, aumente el valor de la propiedad de extensión que especifica el timeout relativo al paso.

      Para obtener más información, consulte Error grave de nodo debido a un timeout finalizado.

  3. Si la solución del problema consiste en reiniciar, reinicie el nodo en donde ocurrió el problema.

    Únicamente la solución a determinados problemas requiere un reinicio. Por ejemplo, el aumento de memoria compartida requiere un reinicio. Sin embargo, el aumento del valor del timeout de un paso no requiere un reinicio.

    Para obtener más información sobre el reinicio de un nodo, consulte Cierre y arranque de un solo nodo de un cluster de Guía de administración del sistema de Oracle Solaris Cluster .

  4. En el nodo donde se produjo el problema, ponga fuera de línea y ponga en línea el grupo de recursos de estructura de Soporte para Oracle RAC.

    Este paso actualiza el grupo de recursos con los cambios en la configuración que ha efectuado.

    1. Asuma el rol root o asuma un rol que proporcione la autorización de RBAC solaris.cluster.admin.
    2. Escriba el comando para poner fuera de línea el grupo de recursos de estructura de Soporte para Oracle RAC y sus recursos.
      # clresourcegroup offline -n node rac-fmwk-rg
      –n node

      Especifica el nombre o el identificador de nodo (ID) del nodo donde ocurrió el problema.

      rac-fmwk-rg

      Especifica el nombre del grupo de recursos que se va a poner fuera de línea.

    3. Escriba el comando para poner en línea y en estado gestionado el grupo de recursos de estructura de Soporte para Oracle RAC y sus recursos.
      # clresourcegroup online -eM -n node rac-fmwk-rg