Sun Cluster 3.0 5/02 增補

Sun Cluster HA for SAP 故障監視器

Sun Cluster HA for SAP 故障監視器會檢查 SAP 的處理動作與資料庫的運作是否正常。SAP 的處理動作是否正常,會影響 SAP 資源的故障歷史記錄。而 SAP 資源的故障歷史記錄又會觸發故障監視器的反應,包括不予回應、重新啟動或進行故障轉移。

相較之下,使用資料庫 SAP 時的運作是否正常,便不會影響 SAP 資源的故障歷史記錄。資料庫的運作狀態確實會觸發 SAP 故障監視器記錄任何 syslog 訊息,並對應地設定使用此資料庫的 SAP 資源的狀態。

中央實例的 Sun Cluster HA for SAP 故障偵測

針對中央實例,故障偵測會執行下列步驟。

  1. 擷取 SAP Message Server (訊息伺服器) 與派送程式的處理 ID

  2. 進入無窮迴圈 (暫停 Thorough_probe_interval)

  3. 檢查 SAP 資源的運作狀態

    1. 異常中止 - 如果 Process Monitor Facility (PMF) 偵測到 SAP 處理樹已經故障,故障監視器便會視此問題為完全故障。故障監視器會根據該資源過去的故障歷史記錄重新啟動 SAP 資源,或進行故障轉移將它移到另一個節點上。

    2. 透過偵測進行 SAP 資源運作狀態的檢查 - 探測會使用 ps(1) 指令檢查 SAP Message Server (訊息伺服器) 與主要的派送程式處理。如果系統的主動處理清單中遺失了任何一個 SAP Message Server (訊息伺服器) 或主要派送程式處理,則故障監視器會視此問題為完全故障。

      若您將 Check_ms_retry 參數的值設定為大於 0,探測程式便會檢查 SAP Message Server (訊息伺服器) 的連線。如果您將延伸屬性 Lgtst_ms_with_logicalhostname 設成其預設值 TRUE,探測程式便會利用 lgtst 公用程式完成 SAP Message Server (訊息伺服器) 連線的測試。探測程式會使用 SAP 資源群組中指定的邏輯主機名稱介面,呼叫 SAP 所附的 lgtst 公用程式。如果將延伸屬性 Lgtst_ms_with_logicalhostname 的設定成 TRUE 以外的值,探測程式便會以該節點的邏輯主機名稱 (回送介面) 呼叫 lgtst

      若呼叫 lgtst 公用程式失敗,表示 SAP Message Server (訊息伺服器) 連線不正常。在此情況下,故障監視器會視此問題為部分故障,故不會立刻觸發 SAP 重新啟動或進行故障轉移。遇到以下狀況時,故障監視器只要偵測到兩次部分故障,便將其視為完全故障。

      1. Check_ms_retry 延伸屬性設定為 2

      2. Retry_interval 資源屬性設定的重試時間間隔內,故障監視器累積了兩次部分故障。

      完全故障會觸發本機重新啟動或開始進行故障轉移,端視該資源過去的故障歷史記錄而定。

    3. 透過探測程式檢查資料庫連線狀態 - 探測程式會呼叫 SAP 所附的 R3trans 公用程式檢查資料庫連線的狀態。Sun Cluster HA for SAP 故障測試可確認 SAP 是否能正確連接資料庫。但 Sun Cluster HA for SAP 又會仰賴高可用性資料庫的故障測試,以判斷資料庫是否正常運作。如果資料庫連線狀態的檢查失敗,則故障監視器便會在 syslog 內記錄此訊息 Database might be down。然後故障監視器便會將 SAP 資源的狀態改為 DEGRADED。如果探測程式再次檢查資料庫狀態時,發現連線又重新建立起來,則故障監視器會在 syslog 中記錄這個訊息 Database is up,並將 SAP 資源的狀態改成 OK

  4. 評估故障的歷史記錄

    根據故障的歷史記錄,故障監視器會採取下列動作之一。

    • 不予回應

    • 本機重新啟動

    • 進行故障轉移

應用程式伺服器的 Sun Cluster HA for SAP 故障偵測

針對應用程式伺服器,故障偵測會執行下列步驟。

  1. 擷取主要派送程式的處理 ID

  2. 進入無窮迴圈 (暫停 Thorough_probe_interval)

  3. 檢查 SAP 資源的運作狀態

    1. 異常中止 - 如果 Process Monitor Facility (PMF) 偵測到 SAP 處理樹已經故障,故障監視器便會視此問題為完全故障。故障監視器會根據該資源過去的故障歷史記錄重新啟動 SAP 資源,或進行故障轉移將它移到另一個節點上。

    2. 透過偵測進行 SAP 資源運作狀態的檢查 - 探測會使用 ps(1) 指令檢查 SAP Message Server (訊息伺服器) 與主要的派送程式處理。如果系統的主動處理清單中遺失了 SAP 的主要派送程式處理,則故障監視器會視此問題為完全故障。

    3. 透過探測程式檢查資料庫連線狀態 - 探測程式會呼叫 SAP 所附的 R3trans 公用程式檢查資料庫連線的狀態。Sun Cluster HA for SAP 故障測試可確認 SAP 是否能正確連接資料庫。但 Sun Cluster HA for SAP 又會仰賴高可用性資料庫的故障測試,以判斷資料庫是否正常運作。如果資料庫連線狀態的檢查失敗,則故障監視器便會在 syslog 中記錄這個訊息 Database might be down,並將 SAP 資源的狀態改為 DEGRADED。如果探測程式再次檢查資料庫狀態時,發現連線又重新建立起來,則故障監視器會在 syslog 中記錄這個訊息 Database is up。然後故障監視器便會將 SAP 資源的狀態改為 OK

  4. 評估故障的歷史記錄

    根據故障的歷史記錄,故障監視器會採取下列動作之一。

    • 不予回應

    • 本機重新啟動

    • 進行故障轉移

      如果應用程式伺服器資源為具有故障轉移功能的資源,則故障監視器便會對此應用程式伺服器進行故障轉移。

      如果應用程式伺服器資源為延伸性資源,當本機重新啟動次數達到上限後,若叢集內還有其他節點可用,RGM 便會在另一個節點上啟動此應用程式。