Guía de Sun Cluster Data Service para Sun Java System Application Server EE (HADB) para el sistema operativo Solaris

Funcionamiento del supervisor de fallos de Sun Cluster HA para Sun Java System Application Server EE (HADB)

En esta sección se explica cómo funciona el supervisor de fallos de Sun Cluster HA para Sun Java System Application Server EE (HADB).

El método de inicio del recurso HADB arranca los nodos HADB configurados para que se ejecuten en el nodo local de Sun Cluster si no están en ejecución. A continuación, intenta iniciar la base de datos de HADB; si no lo consigue, la base de datos se iniciará posteriormente durante el análisis.

El análisis del supervisor de fallos Sun Cluster HA para Sun Java System Application Server EE (HADB) comprueba periódicamente la base de datos y los nodos del HADB. El análisis reiniciará los métodos fallidos así como la base de datos si el recurso de HADB no está preparado para arrancar la base de datos durante el método de inicio. Para cada iteración de este proceso, el análisis lleva a cabo estos pasos:

  1. Primero, el análisis reposa durante un periodo de Thorough_Probe_Interval segundos.

  2. El análisis recupera el estado actual de la base de datos y los nodos de HADB; para ello ejecuta las órdenes hadbm status y hadbm status --nodes.

  3. Si la base de datos no se está ejecutando, el análisis comprueba que el archivo stopstate de HADB que corresponde a la base de datos exista en el nodo local de Sun Cluster. La orden hadbm start hace referencia al archivo stopstate para la asignación del rol de los nodos cuando inicia la base de datos.

  4. Si el archivo stopstate existe, el recurso de HADB lo examina para determinar si se puede iniciar la base de datos.

    • En caso afirmativo, el análisis inicia la base de datos y establece el estado del recurso como Online.

    • En caso negativo, el análisis establece el estado del recurso como Online Degraded.

  5. Si la base de datos se está ejecutando, el análisis inicia los nodos de HADB que están configurados para ejecutarse en el nodo local de Sun Cluster.

  6. Si la base de datos y los nodos locales de HADB se están ejecutando, el análisis establece el estado del recurso como Online si éste estaba como Online Degraded.

  7. Si todos los nodos de Sun Cluster del grupo de recursos de HADB tienen en ejecución el recurso de HADB en el estado Online Degraded durante un periodo superior a Stop_timeout segundos, el recurso de HADB llega a la conclusión de que la base de datos no se puede iniciar.

  8. Si la propiedad de extensión Auto_recovery se ha establecido en TRUE, el recurso de HADB intentará recuperar la base de datos.

  9. Para intentar recuperar la base de datos el análisis efectúa este proceso:

    • Emite la orden hadbm clear --fast en uno de los nodos de Sun Cluster en la lista de nodos del grupo de recursos que borra el contenido de la base de datos, la reinicializa y la vuelve a arrancar.

    • Si la orden hadbm clear tiene éxito, se emite la orden especificada en Auto_recovery_command en el mismo nodo de Sun Cluster en el que se ha emitido la orden hadbm clear. Esta orden, normalmente, debe ser una secuencia que contenga la orden asadmin create-session-store, pero también puede llevar a cabo otras acciones, por ejemplo, enviar un correo al administrador del servidor de aplicaciones.

    • Si ambos pasos son satisfactorios, el análisis establece el estado del recurso como en línea.

  10. La iteración se reanuda desde el pimer paso.


Nota –

Los parámetros Thorough_Probe_Interval y Stop_timeout se pueden ajustar con la orden scrgadm. Si desea obtener más información, consulte “Standard Properties” en Sun Cluster Data Services Planning and Administration Guide for Solaris OS.