Sun Cluster: Guía del servicio de datos para Sun Java System Application Server para el SO Solaris

Funcionamiento del supervisor de fallos cuando está definida la propiedad Monitor_Uri_List

Cuando la propiedad de extensión Monitor_Uri_List está configurada como un único URI o como una lista de URI, el análisis del supervisor de fallos lleva a cabo los siguientes pasos.

  1. El supervisor de fallos analiza la instancia de Sun Java System Application Server según el valor de tiempo de espera establecido con la propiedad de recurso Probe_timeout.

  2. La prueba conecta el servidor Sun Java System Application Server y realiza una comprobación de HTTP 1.1 GET enviando una solicitud de HTTP y recibiendo una respuesta en cada uno de los URI de Monitor_Uri_List.

    El resultado de cada solicitud HTTP puede ser un fallo o puede ser adecuado. Si todas las solicitudes reciben satisfactoriamente una respuesta del servidor Sun Java System Application Server, el análisis retorna y realiza el siguiente ciclo de análisis y reposo.

    Un tráfico pesado en la red, una carga elevada del sistema o una configuración errónea pueden hacer que la operación HTTP GET falle. Un error de configuración en la propiedad Monitor_Uri_List puede provocar un fallo si el URI de Monitor_Uri_List incluye un nombre de servidor o un puerto incorrecto. Por ejemplo, si la instancia del servidor de aplicaciones está recibiendo información a través del servidor lógico schost-1 y el URI se epecificó como http://schost-2/servlet/monitor, la prueba intentará contactar con schost-2 para solicitar /servlet/monitor .

  3. La prueba registra un fallo en el registro del historial si la respuesta a la prueba no se recibe en el límite establecido por Probe_timeout. El análisis considera que este escenario no ha sido satisfactorio en la parte del servicio de datos de Sun Java System Application Server. Un fallo en el análisis de Sun Java System Application Server puede ser un fallo completo o parcial.

    Si la respuesta al análisis se recibe dentro del límite de Probe_timeout , se comprueba el código de respuesta de HTTP. Si el código de respuesta es 500 Internal Server Error, el análisis se considera totalmente insatisfactorio. El resto de los códigos de respuesta no se tienen en cuenta.

    A continuación se indican análisis totalmente insatisfactorios.

    • El siguiente mensaje de error se recibe cuando no se puede conectar al servidor. %s indica el nombre del sistema y %d indica el número de puerto.


      Failed to connect to the host <%s> and port <%d>. Receiving a
      response code of 500 Internal Server Error HTTP GET
      Response Code for probe of %s is 500. Failover will be in
      progress
    • El siguiente mensaje de error se recibe cuando no se puede enviar satisfactoriamente la secuencia de análisis al servidor. El primer %s indica el nombre de sistema, el %d indica el número de puerto y el segundo %s indica más detalles sobre el error.


      Write to server failed: server %s port %d: %s.
  4. El supervisor acumula fallos parciales que ocurren dentro del intervalo establecido por la propiedad del recurso Retry_interval hasta que sean iguales al error completo.

    A continuación se indican fallos parciales de análisis:

    • El siguiente mensaje de error se recibe cuando hay un fallo de desconexión antes de que finalice el tiempo de Probe_timeout. %d indica el número de puerto y %s hace referencia al nombre del recurso.


      Failed to disconnect from port %d of resource %s.
    • No poder completar todos los pasos del análisis en el tiempo Probe_timeout es un fallo parcial.

    • El siguiente mensaje de error se recibe cuando hay fallos al leer los datos desde el servidor o fallos de otro tipo. El primer %s indica el nombre de sistema, el %d indica el número de puerto y el segundo %s indica más detalles sobre el error.


      Failed to communicate with server %s port %d: %s
  5. En función del historial de fallos y de la configuración de los parámetros de análisis, un fallo puede provocar un reinicio local o bien que el servicio de datos se recupere del fallo.