Sun Cluster 3.0 5/02 增補

應用程式伺服器的 Sun Cluster HA for SAP 故障偵測

針對應用程式伺服器,故障偵測會執行下列步驟。

  1. 擷取主要派送程式的處理 ID

  2. 進入無窮迴圈 (暫停 Thorough_probe_interval)

  3. 檢查 SAP 資源的運作狀態

    1. 異常中止 - 如果 Process Monitor Facility (PMF) 偵測到 SAP 處理樹已經故障,故障監視器便會視此問題為完全故障。故障監視器會根據該資源過去的故障歷史記錄重新啟動 SAP 資源,或進行故障轉移將它移到另一個節點上。

    2. 透過偵測進行 SAP 資源運作狀態的檢查 - 探測會使用 ps(1) 指令檢查 SAP Message Server (訊息伺服器) 與主要的派送程式處理。如果系統的主動處理清單中遺失了 SAP 的主要派送程式處理,則故障監視器會視此問題為完全故障。

    3. 透過探測程式檢查資料庫連線狀態 - 探測程式會呼叫 SAP 所附的 R3trans 公用程式檢查資料庫連線的狀態。Sun Cluster HA for SAP 故障測試可確認 SAP 是否能正確連接資料庫。但 Sun Cluster HA for SAP 又會仰賴高可用性資料庫的故障測試,以判斷資料庫是否正常運作。如果資料庫連線狀態的檢查失敗,則故障監視器便會在 syslog 中記錄這個訊息 Database might be down,並將 SAP 資源的狀態改為 DEGRADED。如果探測程式再次檢查資料庫狀態時,發現連線又重新建立起來,則故障監視器會在 syslog 中記錄這個訊息 Database is up。然後故障監視器便會將 SAP 資源的狀態改為 OK

  4. 評估故障的歷史記錄

    根據故障的歷史記錄,故障監視器會採取下列動作之一。

    • 不予回應

    • 本機重新啟動

    • 進行故障轉移

      如果應用程式伺服器資源為具有故障轉移功能的資源,則故障監視器便會對此應用程式伺服器進行故障轉移。

      如果應用程式伺服器資源為延伸性資源,當本機重新啟動次數達到上限後,若叢集內還有其他節點可用,RGM 便會在另一個節點上啟動此應用程式。