Sun Cluster: Guía del servicio de datos para Sun Java System Application Server para SO Solaris

Funcionamiento del supervisor de fallos de Sun Cluster HA for Sun Java System Application Server

Esta sección explica el supervisor de fallos de Sun Cluster HA for Sun Java System Application Server.

Esta sección proporciona la información siguiente.

Propiedades de extensión

El supervisor de fallos de Sun Cluster HA for Sun Java System Application Server usa las siguientes propiedades de extensión. Debe poder ajustarlas.

Tabla 1–3 Propiedades de extensión de Sun Cluster HA for Sun Java System Application Server

Nombre/tipo de datos 

Descripción  

Confdir_list(matriz de cadenas)

La ruta completa al directorio de configuración de Sun Java System Application Server está definida en esta propiedad de la extensión.  

Valor predeterminado: Ninguno

Ajustable: Al crearse

Monitor_Uri_List(secuencia)

Un URI o una lista de URI que puede usar el supervisor de fallos para comprobar el funcionamiento de Sun Java System Application Server. El supervisor de fallos comprueba el servidor de aplicaciones con una operación HTTP GET en el URI. La propiedad de extensión Monitor_Uri_List se puede usar para analizar el funcionamiento de la aplicación desplegada. Analice las aplicaciones desplegadas estableciendo la propiedad en uno o varios URI servidos por aplicaciones utilizadas en Sun Java System Application Server. Si el código de retorno del servidor es HTTP 500 (Internal Server Error) o si la conexión falla, el análisis entrará en acción. Consulte el método de análisis para obtener más detalles.

Valor predeterminado: Nulo

Ajustable: En cualquier momento

Análisis de funciones y algoritmos

El análisis de Sun Cluster HA for Sun Java System Application Server envía una solicitud al servidor para consultar el estado del servidor Sun Java System Application Server. El análisis realiza los pasos siguientes:

  1. Analiza la instancia de Sun Java System Application Server según el valor de tiempo de espera establecido con la propiedad de recurso Probe_timeout.

  2. Se conecta a la dirección IP y las combinaciones de puerto definidas por la configuración de recursos de red y la configuración de Port_list del grupo de recursos. Si el recurso está configurado sin un Port_list vacío, se omite este paso. Si la conexión es satisfactoria, el análisis se desconecta. Si la conexión no es satisfactoria, el fallo se registra.

    Un tráfico pesado en la red, una carga elevada del sistema o una configuración errónea pueden hacer que falle la consulta. La configuración errónea se puede producir si no se ha configurado el servidor Sun Java System Application Server para que reciba en todas las combinaciones de direcciones IP y puertos analizados. El servidor Sun Java System Application Server debe atender a todos los puertos de cada dirección IP que se especifique para el recurso.

  3. Se conecta al servidor Sun Java System Application Server y realiza una comprobación de HTTP 1.1 GET enviando una solicitud de HTTP y recibiendo una respuesta en cada uno de los URI de Monitor_Uri_List.

    El resultado de las solicitudes de HTTP puede ser no satisfactorio o satisfactorio. Si todas las solicitudes reciben satisfactoriamente una respuesta del servidor Sun Java System Application Server, el análisis retorna y realiza el siguiente ciclo de análisis y reposo.

    Un tráfico pesado en la red, una carga elevada del sistema o una configuración errónea pueden hacer que la operación HTTP GET falle. La configuración errónea de la propiedad Monitor_Uri_List puede provocar un fallo si un URI en Monitor_Uri_List incluye un puerto o nombre de sistema incorrecto. Por ejemplo, si la instancia de servidor de aplicaciones está recibiendo en un sistema lógico schost-1 y se especificó el URI como http://schost-2/servlet/monitor, el análisis intentará ponerse en contacto con schost-2 para solicitar /servlet/monitor.

  4. Registra un fallo en el registro histórico si la respuesta al análisis no se recibe dentro del límite de Probe_timeout. El análisis considera que este escenario no ha sido satisfactorio en la parte del servicio de datos de Sun Java System Application Server. Un fallo en el análisis de Sun Java System Application Server puede ser un fallo completo o parcial.

    Si la respuesta al análisis se recibe dentro del límite de Probe_timeout, se comprueba el código de respuesta de HTTP. Si el código de respuesta es 500 “Internal Server Error”, el análisis se considera totalmente insatisfactorio. El resto de los códigos de respuesta no se tienen en cuenta.

    A continuación se indican análisis totalmente insatisfactorios.

    • El siguiente mensaje de error se recibe cuando no se puede conectar al servidor. %s indica el nombre del sistema y %d indica el número de puerto.


      Failed to connect to the host <%s> and port <%d>. Receiving a response code of 500 “Internal Server Error” HTTP GET Response Code for probe of %s is 500. Failover will be in progress

    • El siguiente mensaje de error se recibe cuando no se puede enviar satisfactoriamente la secuencia de análisis al servidor. El primer %s indica el nombre de sistema, el %d indica el número de puerto y el segundo %s indica más detalles sobre el error.


      Write to server failed: server %s port %d:

  5. El supervisor acumula fallos parciales que se producen en la configuración de la propiedad de recursos Retry_interval hasta que equivalen a un fallo completo.

    A continuación se indican fallos parciales de análisis:

    • El siguiente mensaje de error se recibe cuando hay un fallo de desconexión antes de que finalice el tiempo de Probe_timeout. El primer %d indica el número de puerto y %s indica el nombre del recurso.


      Failed to disconnect from port %d of resource %s.

    • No poder completar todos los pasos del análisis en el tiempo Probe_timeout es un fallo parcial.

    • El siguiente mensaje de error se recibe cuando no se pueden leer los datos del servidor por otros motivos. El primer %s indica el nombre de servidor y %d indica el número de puerto. El segundo %s indica más detalles sobre el error.


      Failed to communicate with server %s port %d: %s

  6. Basado en el historial de fallos, un fallo puede provocar un reinicio local o una recuperación de fallos del servicio de datos.