中央實例的 Sun Cluster HA for SAP 故障偵測 (Sun Cluster 3.0 5/02 增補)

Sun Cluster 3.0 5/02 增補

中央實例的 Sun Cluster HA for SAP 故障偵測

針對中央實例，故障偵測會執行下列步驟。

擷取 SAP Message Server (訊息伺服器) 與派送程式的處理 ID
進入無窮迴圈 (暫停 Thorough_probe_interval)
檢查 SAP 資源的運作狀態
1. 異常中止 - 如果 Process Monitor Facility (PMF) 偵測到 SAP 處理樹已經故障，故障監視器便會視此問題為完全故障。故障監視器會根據該資源過去的故障歷史記錄重新啟動 SAP 資源，或進行故障轉移將它移到另一個節點上。
2. 透過偵測進行 SAP 資源運作狀態的檢查 - 探測會使用 ps(1) 指令檢查 SAP Message Server (訊息伺服器) 與主要的派送程式處理。如果系統的主動處理清單中遺失了任何一個 SAP Message Server (訊息伺服器) 或主要派送程式處理，則故障監視器會視此問題為完全故障。
  
  若您將 Check_ms_retry 參數的值設定為大於 0，探測程式便會檢查 SAP Message Server (訊息伺服器) 的連線。如果您將延伸屬性 Lgtst_ms_with_logicalhostname 設成其預設值 TRUE，探測程式便會利用 lgtst 公用程式完成 SAP Message Server (訊息伺服器) 連線的測試。探測程式會使用 SAP 資源群組中指定的邏輯主機名稱介面，呼叫 SAP 所附的 lgtst 公用程式。如果將延伸屬性 Lgtst_ms_with_logicalhostname 的設定成 TRUE 以外的值，探測程式便會以該節點的邏輯主機名稱 (回送介面) 呼叫 lgtst。
  
  若呼叫 lgtst 公用程式失敗，表示 SAP Message Server (訊息伺服器) 連線不正常。在此情況下，故障監視器會視此問題為部分故障，故不會立刻觸發 SAP 重新啟動或進行故障轉移。遇到以下狀況時，故障監視器只要偵測到兩次部分故障，便將其視為完全故障。
  1. Check_ms_retry 延伸屬性設定為 2。
  2. 在 Retry_interval 資源屬性設定的重試時間間隔內，故障監視器累積了兩次部分故障。
  完全故障會觸發本機重新啟動或開始進行故障轉移，端視該資源過去的故障歷史記錄而定。
3. 透過探測程式檢查資料庫連線狀態 - 探測程式會呼叫 SAP 所附的 R3trans 公用程式檢查資料庫連線的狀態。Sun Cluster HA for SAP 故障測試可確認 SAP 是否能正確連接資料庫。但 Sun Cluster HA for SAP 又會仰賴高可用性資料庫的故障測試，以判斷資料庫是否正常運作。如果資料庫連線狀態的檢查失敗，則故障監視器便會在 syslog 內記錄此訊息 Database might be down。然後故障監視器便會將 SAP 資源的狀態改為 DEGRADED。如果探測程式再次檢查資料庫狀態時，發現連線又重新建立起來，則故障監視器會在 syslog 中記錄這個訊息 Database is up，並將 SAP 資源的狀態改成 OK。
評估故障的歷史記錄

根據故障的歷史記錄，故障監視器會採取下列動作之一。
- 不予回應
- 本機重新啟動
- 進行故障轉移