Sun Cluster 3.0 5/02 增補

中央實例的 Sun Cluster HA for SAP 故障偵測

針對中央實例,故障偵測會執行下列步驟。

  1. 擷取 SAP Message Server (訊息伺服器) 與派送程式的處理 ID

  2. 進入無窮迴圈 (暫停 Thorough_probe_interval)

  3. 檢查 SAP 資源的運作狀態

    1. 異常中止 - 如果 Process Monitor Facility (PMF) 偵測到 SAP 處理樹已經故障,故障監視器便會視此問題為完全故障。故障監視器會根據該資源過去的故障歷史記錄重新啟動 SAP 資源,或進行故障轉移將它移到另一個節點上。

    2. 透過偵測進行 SAP 資源運作狀態的檢查 - 探測會使用 ps(1) 指令檢查 SAP Message Server (訊息伺服器) 與主要的派送程式處理。如果系統的主動處理清單中遺失了任何一個 SAP Message Server (訊息伺服器) 或主要派送程式處理,則故障監視器會視此問題為完全故障。

      若您將 Check_ms_retry 參數的值設定為大於 0,探測程式便會檢查 SAP Message Server (訊息伺服器) 的連線。如果您將延伸屬性 Lgtst_ms_with_logicalhostname 設成其預設值 TRUE,探測程式便會利用 lgtst 公用程式完成 SAP Message Server (訊息伺服器) 連線的測試。探測程式會使用 SAP 資源群組中指定的邏輯主機名稱介面,呼叫 SAP 所附的 lgtst 公用程式。如果將延伸屬性 Lgtst_ms_with_logicalhostname 的設定成 TRUE 以外的值,探測程式便會以該節點的邏輯主機名稱 (回送介面) 呼叫 lgtst

      若呼叫 lgtst 公用程式失敗,表示 SAP Message Server (訊息伺服器) 連線不正常。在此情況下,故障監視器會視此問題為部分故障,故不會立刻觸發 SAP 重新啟動或進行故障轉移。遇到以下狀況時,故障監視器只要偵測到兩次部分故障,便將其視為完全故障。

      1. Check_ms_retry 延伸屬性設定為 2

      2. Retry_interval 資源屬性設定的重試時間間隔內,故障監視器累積了兩次部分故障。

      完全故障會觸發本機重新啟動或開始進行故障轉移,端視該資源過去的故障歷史記錄而定。

    3. 透過探測程式檢查資料庫連線狀態 - 探測程式會呼叫 SAP 所附的 R3trans 公用程式檢查資料庫連線的狀態。Sun Cluster HA for SAP 故障測試可確認 SAP 是否能正確連接資料庫。但 Sun Cluster HA for SAP 又會仰賴高可用性資料庫的故障測試,以判斷資料庫是否正常運作。如果資料庫連線狀態的檢查失敗,則故障監視器便會在 syslog 內記錄此訊息 Database might be down。然後故障監視器便會將 SAP 資源的狀態改為 DEGRADED。如果探測程式再次檢查資料庫狀態時,發現連線又重新建立起來,則故障監視器會在 syslog 中記錄這個訊息 Database is up,並將 SAP 資源的狀態改成 OK

  4. 評估故障的歷史記錄

    根據故障的歷史記錄,故障監視器會採取下列動作之一。

    • 不予回應

    • 本機重新啟動

    • 進行故障轉移