用于 Sun Java System Application Server 的 Sun Cluster 数据服务指南(适用于 Solaris OS)

设置 Monitor_Uri_List 属性时的故障监视器操作

在将 Monitor_Uri_List 扩展属性设置为单一的 URI 或 URI 列表时,故障监视器探测将执行以下步骤。

  1. 故障监视器将根据由 Probe_timeout 资源属性设置的超时值来探测 Sun Java System Application Server 实例。

  2. 探测将连接到 Sun Java System Application Server 服务器,并通过向 Monitor_Uri_List 中的每个 URI 发送 HTTP 请求和接收响应来执行 HTTP 1.1 GET 检查。

    每个 HTTP 请求的结果不是失败就是成功。如果所有请求均成功从 Sun Java System Application Server 服务器接收到回复,则探测将返回并继续执行下一轮探测和休眠。

    网络通信繁忙、系统负载大和配置错误均会导致 HTTP GET 探测失败。如果 Monitor_Uri_List 中的 URI 包含错误的端口或主机名,则 Monitor_Uri_List 属性的配置错误可能会导致失败。例如,如果应用服务器实例正在逻辑主机 schost-1 上进行侦听,并且 URI 被指定为 http://schost-2/servlet/monitor,探测将尝试联系 schost-2 以请求 /servlet/monitor

  3. 如果在 Probe_timeout 限制内没有收到探测的回复,探测将在历史记录日志中记录一次失败。探测会将这种情况视为 Sun Java System Application Server 数据服务部分出现故障。Sun Java System Application Server 探测失败可以是完全失败,也可以是部分失败。

    如果在 Probe_timeout 限制内接收到探测回复,则将检查 HTTP 回复码。如果回复码为 500(内部服务器错误),探测将被视为完全失败。所有其他回复码都被忽略。

    下面是探测完全失败的一些例子。

    • 无法连接到服务器时会接收到以下错误消息。%s 表示主机名,%d 表示端口号。


      无法连接到主机 <%s> 和端口 <%d>。收到的回复码为 500(内部服务器错误),
      %s 探测的 HTTP GET 回复码为 500。将执行故障转移
    • 无法成功将探测字符串发送到服务器时会收到以下错误消息。第一个 %s 表示主机名,%d 表示端口号,第二个 %s 表示错误的更多详细信息。


      向服务器写入数据失败:服务器 %s,端口 %d:%s。
  4. 监视器将累积 Retry_interval 资源属性设置内出现的部分失败,直至其等于一次完全失败。

    下面是探测部分失败的一些例子:

    • 如果在 Probe_timeout 设置的时间内无法断开连接,则会收到以下错误消息。%d 表示端口号,%s 表示资源名称。


      无法从资源 %s 的端口 %d 断开连接。
    • 无法在 Probe_timeout 时间内完成所有探测步骤是部分失败。

    • 由于其他原因无法从服务器读取数据时将收到以下错误消息。第一个 %s 表示主机名,%d 表示端口号,第二个 %s 表示错误的更详细信息。


      无法与服务器 %s 端口 %d 进行通信: %s
  5. 根据失败的历史记录和探测参数的设置,一次失败可能会导致本地重新启动或数据服务的故障转移。