Sun Cluster: Guía del servicio de datos para Sun Java System Application Server para el SO Solaris

Configuración del supervisor de fallos de Sun Cluster HA para Sun Java System Application Server

El supervisor de fallos para Sun Cluster HA para Sun Java System Application Server ver. anteriores a la 8.1 está incluido en un recurso cuyo tipo de recurso es SUNW.s1as.

Las propiedades de sistema y de extensión de los tipos de recursos controlan el comportamiento de los supervisores de fallos. Los valores predeterminados de estas propiedades determinan el comportamiento preestablecido de los supervisores de fallos. El comportamiento preestablecido debe ser adecuado para la mayoría de las instalaciones de Sun Cluster. En consecuencia, debe ajustar los supervisores de fallos sólo si necesita modificar este comportamiento preestablecido.

Para configurar los supervidores de fallos, hay que realizar las siguientes tareas:

Realice estas tareas cuando haya registrado y configurado Sun Cluster HA para Sun Java System Application Server de la forma que se describe en Registro y configuración de Sun Cluster HA para Sun Java System Application Server Ver. anteriores a la 8.1.

Para ver una descripción detallada de estas tareas, consulte Tuning Fault Monitors for Sun Cluster Data Services de Sun Cluster Data Services Planning and Administration Guide for Solaris OS.

Esta sección proporciona la información siguiente.

Operaciones del supervisor de fallos de Sun Cluster HA para Sun Java System Application Server durante un análisis

El análisis del supervisor de fallos de Sun Cluster HA para Sun Java System Application Server envía una solicitud al servidor para consultar sobre el estado del servidor de Sun Java System Application Server. El análisis realiza los pasos siguientes:

  1. El supervisor de fallos analiza la instancia de Sun Java System Application Server según el valor de tiempo de espera establecido con la propiedad de recurso Probe_timeout.

  2. El análisis conecta la dirección IP y las combinaciones de puerto definidas por la configuración del recurso de red y la configuración de Port_list para el grupo de recursos. Si el recurso está configurado sin un Port_list vacío, se omite este paso. Si la conexión es satisfactoria, el análisis se desconecta. Si la conexión no es satisfactoria, el fallo se registra.

    Un tráfico pesado en la red, una carga elevada del sistema o una configuración errónea pueden hacer que falle la consulta. La configuración errónea se puede producir si no se ha configurado el servidor Sun Java System Application Server para que reciba en todas las combinaciones de direcciones IP y puertos analizados. El servidor Sun Java System Application Server debe atender a todos los puertos de cada dirección IP que se especifique para el recurso.

  3. El análisis se conecta al servidor Sun Java System Application Server y realiza una comprobación de HTTP 1.1 GET enviando una solicitud de HTTP y recibiendo una respuesta en cada uno de los URI de Monitor_Uri_List.

    El resultado de cada solicitud HTTP puede ser un fallo o puede ser adecuado. Si todas las solicitudes reciben satisfactoriamente una respuesta del servidor Sun Java System Application Server, el análisis retorna y realiza el siguiente ciclo de análisis y reposo.

    Un tráfico pesado en la red, una carga elevada del sistema o una configuración errónea pueden hacer que la operación HTTP GET falle. Un error de configuración en la propiedad Monitor_Uri_List puede provocar un fallo si el URI de Monitor_Uri_List incluye un nombre de servidor o un puerto incorrectos. Por ejemplo, si la instancia del servidor de aplicaciones está recibiendo información a través del sistema anfitrión lógico schost-1 y el URI se especificó como http://schost-2/servlet/monitor, el análisis intentará contactar con schost-2 para solicitar /servlet/monitor .

  4. El análisis registra un fallo en el registro del historial si la respuesta al análisis no se recibe en el límite establecido por Probe_timeout. El análisis considera que este escenario no ha sido satisfactorio en la parte del servicio de datos de Sun Java System Application Server. Un fallo en el análisis de Sun Java System Application Server puede ser un fallo completo o parcial.

    Si la respuesta al análisis se recibe dentro del límite de Probe_timeout , se comprueba el código de respuesta de HTTP. Si el código de respuesta es 500 Internal Server Error, el análisis se considera totalmente insatisfactorio. El resto de los códigos de respuesta no se tienen en cuenta.

    A continuación se indican análisis totalmente insatisfactorios.

    • El siguiente mensaje de error se recibe cuando no se puede conectar al servidor. %s indica el nombre del sistema y %d indica el número de puerto.


      Failed to connect to the host <%s> and port <%d>. Receiving a
      response code of 500 Internal Server Error HTTP GET
      Response Code for probe of %s is 500. Failover will be in
      progress
    • El siguiente mensaje de error se recibe cuando no se puede enviar satisfactoriamente la secuencia de análisis al servidor. El primer %s indica el nombre de sistema, el %d indica el número de puerto y el segundo %s indica más detalles sobre el error.


      Write to server failed: server %s port %d: %s.
  5. El supervisor acumula fallos parciales que ocurren dentro del intervalo establecido por la propiedad del recurso Retry_interval hasta que sean iguales al error completo.

    A continuación se indican fallos parciales de análisis:

    • El siguiente mensaje de error se recibe cuando hay un fallo de desconexión antes de que finalice el tiempo de Probe_timeout. %d indica el número de puerto y %s hace referencia al nombre del recurso.


      Failed to disconnect from port %d of resource %s.
    • No poder completar todos los pasos del análisis en el tiempo Probe_timeout es un fallo parcial.

    • El siguiente mensaje de error se recibe cuando hay fallos al leer los datos desde el servidor o fallos de otro tipo. El primer %s indica el nombre de sistema, el %d indica el número de puerto y el segundo %s indica más detalles sobre el error.


      Failed to communicate with server %s port %d: %s
  6. Basado en el historial de fallos, un fallo puede provocar un reinicio local o una recuperación de fallos del servicio de datos.