Sun Cluster: Guía del servicio de datos para Sun Java System Application Server para el SO Solaris

Ajuste del supervisor de fallos de Sun Cluster HA para Sun Java System Application Server

El supervisor de fallos predeterminado del componente servidor de administración de dominios de Sun Cluster HA para Sun Java System Application Server ver. posteriores a la 8.1 se incluye en un recurso cuyo tipo de recurso es SUNW.jsas.

Las propiedades de sistema y de extensión de los tipos de recursos controlan el comportamiento de los supervisores de fallos. Los valores predeterminados de estas propiedades determinan el comportamiento preestablecido de los supervisores de fallos. El comportamiento prestablecido debe ser adecuado para la mayoría de las instalaciones de Sun Cluster. En consecuencia, debe ajustar los supervisores de fallos sólo si necesita modificar este comportamiento prestablecido.

Para ajustar los supervidores de fallos, hay que realizar las siguientes tareas:

Realice estas tareas cuando haya registrado y configurado Sun Cluster HA para Sun Java System Application Server de la forma que se describe en Registro y configuración de Sun Cluster HA para Sun Java System Application Server Ver. posteriores a la 8.1.

Para ver una descripción detallada de estas tareas, consulte Tuning Fault Monitors for Sun Cluster Data Services de Sun Cluster Data Services Planning and Administration Guide for Solaris OS.

Esta sección proporciona la información siguiente.

Funcionamiento del supervisor de fallos para el componente DAS durante un análisis

El análisis del supervisor de fallos del componente DAS de Sun Cluster HA para Sun Java System Application Server envía una solicitud al servidor para conocer el estado del servidor de Sun Java System Application Server. El funcionamiento del supervisor de fallos depende de la configuración de la propiedad de extensión Monitor_Uri_List.

Funcionamiento del supervisor de fallos cuando está definida la propiedad Monitor_Uri_List

Cuando la propiedad de extensión Monitor_Uri_List está configurada como un único URI o como una lista de URI, el análisis del supervisor de fallos lleva a cabo los siguientes pasos.

  1. El supervisor de fallos analiza la instancia de Sun Java System Application Server según el valor de tiempo de espera establecido con la propiedad de recurso Probe_timeout.

  2. La prueba conecta el servidor Sun Java System Application Server y realiza una comprobación de HTTP 1.1 GET enviando una solicitud de HTTP y recibiendo una respuesta en cada uno de los URI de Monitor_Uri_List.

    El resultado de cada solicitud HTTP puede ser un fallo o puede ser adecuado. Si todas las solicitudes reciben satisfactoriamente una respuesta del servidor Sun Java System Application Server, el análisis retorna y realiza el siguiente ciclo de análisis y reposo.

    Un tráfico pesado en la red, una carga elevada del sistema o una configuración errónea pueden hacer que la operación HTTP GET falle. Un error de configuración en la propiedad Monitor_Uri_List puede provocar un fallo si el URI de Monitor_Uri_List incluye un nombre de servidor o un puerto incorrecto. Por ejemplo, si la instancia del servidor de aplicaciones está recibiendo información a través del servidor lógico schost-1 y el URI se epecificó como http://schost-2/servlet/monitor, la prueba intentará contactar con schost-2 para solicitar /servlet/monitor .

  3. La prueba registra un fallo en el registro del historial si la respuesta a la prueba no se recibe en el límite establecido por Probe_timeout. El análisis considera que este escenario no ha sido satisfactorio en la parte del servicio de datos de Sun Java System Application Server. Un fallo en el análisis de Sun Java System Application Server puede ser un fallo completo o parcial.

    Si la respuesta al análisis se recibe dentro del límite de Probe_timeout , se comprueba el código de respuesta de HTTP. Si el código de respuesta es 500 Internal Server Error, el análisis se considera totalmente insatisfactorio. El resto de los códigos de respuesta no se tienen en cuenta.

    A continuación se indican análisis totalmente insatisfactorios.

    • El siguiente mensaje de error se recibe cuando no se puede conectar al servidor. %s indica el nombre del sistema y %d indica el número de puerto.


      Failed to connect to the host <%s> and port <%d>. Receiving a
      response code of 500 Internal Server Error HTTP GET
      Response Code for probe of %s is 500. Failover will be in
      progress
    • El siguiente mensaje de error se recibe cuando no se puede enviar satisfactoriamente la secuencia de análisis al servidor. El primer %s indica el nombre de sistema, el %d indica el número de puerto y el segundo %s indica más detalles sobre el error.


      Write to server failed: server %s port %d: %s.
  4. El supervisor acumula fallos parciales que ocurren dentro del intervalo establecido por la propiedad del recurso Retry_interval hasta que sean iguales al error completo.

    A continuación se indican fallos parciales de análisis:

    • El siguiente mensaje de error se recibe cuando hay un fallo de desconexión antes de que finalice el tiempo de Probe_timeout. %d indica el número de puerto y %s hace referencia al nombre del recurso.


      Failed to disconnect from port %d of resource %s.
    • No poder completar todos los pasos del análisis en el tiempo Probe_timeout es un fallo parcial.

    • El siguiente mensaje de error se recibe cuando hay fallos al leer los datos desde el servidor o fallos de otro tipo. El primer %s indica el nombre de sistema, el %d indica el número de puerto y el segundo %s indica más detalles sobre el error.


      Failed to communicate with server %s port %d: %s
  5. En función del historial de fallos y de la configuración de los parámetros de análisis, un fallo puede provocar un reinicio local o bien que el servicio de datos se recupere del fallo.

Funcionamiento del supervisor de fallos cuando no está definida la propiedad Monitor_Uri_List

Cuando la propiedad de extensión Monitor_Uri_List no está definida, el análisis del supervisor de fallos realiza los siguientes pasos.

  1. El supervisor de fallos analiza la instancia de Sun Java System Application Server según el valor de tiempo de espera establecido con la propiedad de recurso Probe_timeout.

  2. El análisis utiliza el comando asadmin para obtener el estado del servidor de administración de dominios (DAS) de la siguiente forma:


    $INSTALL_DIR/appserver/bin/asadmin list-domains --domaindir $DOMAIN_DIR

    Se definen las siguientes variables de entorno.

    • INSTALL_DIR es la ubicación de instalación que se configura usando la propiedad de extensión Confdir_list.

    • DOMAIN_DIR es la ruta completa al directorio del dominio.

    • DOMAIN_NAME es el nombre del dominio.

  3. Si el análisis determina que DAS no se está ejecutando, se genera un fallo completo.

  4. En función del historial de fallos y de la configuración de los parámetros de análisis, un fallo puede provocar un reinicio local o bien que el servicio de datos se recupere del fallo.