用於 Sun Java System Application Server 的 Sun Cluster 資料服務指南 (適用於 Solaris 作業系統)

調校 Sun Cluster HA for Sun Java System Application Server 的故障監視器

Sun Cluster HA for Sun Java System Application Server 支援的 8.1 版以前的版本 的故障監視器包含在資源類型為 SUNW.s1as 的資源中。

資源類型的系統特性和延伸特性可以控制故障監視器的運作方式。這些特性的預設值可以決定故障監視器的預設運作方式。預設運作方式應適用於大部分 Sun Cluster 安裝。因此,您應在需要修改預設運作方式時調校故障監視器。

調校這些故障監視器包含以下作業:

請在註冊與配置 Sun Cluster HA for Sun Java System Application Server 時執行這些作業,如註冊與配置 Sun Cluster HA for Sun Java System Application Server 支援的 8.1 版以前的版本中所述。

如需有關這些作業的詳細資訊,請參閱「Sun Cluster Data Services Planning and Administration Guide for Solaris OS」中的「Tuning Fault Monitors for Sun Cluster Data Services」

本節提供以下資訊。

Sun Cluster HA for Sun Java System Application Server 故障監視器在探測期間執行的作業

Sun Cluster HA for Sun Java System Application Server 故障監視器探測向伺服器傳送請求,以查詢 Sun Java System Application Server 伺服器的運作狀態。探測會執行以下步驟:

  1. 故障監視器依照 Probe_timeout 資源特性設定的逾時值探測 Sun Java System Application Server 實例。

  2. 該探測將連線至由網路資源配置和資源群組的 Port_list 設定定義的 IP 位址和連接埠組合。如果在無需空 Port_list 的情況下配置資源,則會略過此步驟。如果連接成功,探測會取消連接。如果連接失敗,系統將記錄失敗。

    大量的網路通訊、沉重的系統負載以及配置錯誤均會導致查詢失敗。如果您未將 Sun Java System Application Server 伺服器配置為偵聽所有被測試的 IP 位址/埠組合,則會發生配置錯誤。Sun Java System Application Server 伺服器應對為該資源指定的每個 IP 位址的每個埠提供服務。

  3. 該探測將連線至 Sun Java System Application Server 伺服器並且執行 HTTP 1.1 GET 檢查,方法是傳送 HTTP 請求並接收對 Monitor_Uri_List 中每個 URI 的回應。

    每個 HTTP 請求的結果為失敗或成功。如果所有要求均成功收到來自 Sun Java System Application Server 伺服器的回覆,測試將返回並繼續進行下一個測試和休息循環。

    大量的網路通訊、沉重的系統負載以及配置錯誤均會導致 HTTP GET 探測失敗。如果 Monitor_Uri_List 中的 URI 包含不正確的連接埠或主機名稱,則 Monitor_Uri_List 特性的配置錯誤可能導致失敗。例如,如果應用程式伺服器實例正在偵聽邏輯主機 schost-1 並且 URI 指定為 http://schost-2/servlet/monitor,則探測將嘗試聯絡 schost-2 以請求 /servlet/monitor

  4. 如果未在 Probe_timeout 限制內收到探測的回應,探測將在歷史記錄中記錄失敗。測試會將此情況視為 Sun Java System Application Server 資料服務部分上的失敗。Sun Java System Application Server 測試失敗可以為完全失敗或部分失敗。

    如果在 Probe_timeout 限制內收到對探測的回覆,則系統將檢查 HTTP 回覆碼。如果回應代碼為 500 內部伺服器錯誤,則認為探測完全失敗。所有其他的回覆碼均被忽略。

    以下為完全探測失敗。

    • 連接至伺服器失敗時會收到以下錯誤訊息。%s 表示主機名稱,%d 表示連接埠編號。


      無法連線至主機 <%s> 與連接埠 <%d>。
      收到回應代碼為 500 內部伺服器錯誤,%s 探測的 HTTP GET
      回應代碼為 500。容錯移轉即將啟動
    • 將測試字串傳送至伺服器失敗時會收到以下錯誤訊息。第一個 %s 表示主機名稱,%d 表示連接埠編號,第二個 %s 表示有關錯誤的進一步詳細資訊。


      無法寫入伺服器:伺服器 %s 連接埠 %d: %s。
  5. 監視器將累積 Retry_interval 資源特性所設定的時間間隔內發生的部分失敗,直至其等同於完全失敗。

    以下為部分探測失敗:

    • 如果無法在 Probe_timeout 設定的時間之前取消連接時,則會收到以下錯誤訊息。%d 表示連接埠號碼,%s 表示資源名稱。


      無法從資源 %s 的連接埠 %d 斷開連線。
    • 無法在 Probe_timeout 時間內完成所有探測步驟為部分失敗。

    • 當由於其他原因無法從伺服器讀取資料時,會收到下列錯誤訊息。第一個 %s 表示主機名稱,%d 表示連接埠編號,第二個 %s 表示有關錯誤的進一步詳細資訊。


      無法與伺服器 %s 連接埠 %d 通訊:%s
  6. 根據失敗歷史,一個失敗可導致本機重新啟動或資料服務的故障轉移。