Sun Cluster 3.0 概念

PNM 錯誤偵測和失效保護處理程序

PNM 定期檢查作用中配接卡的封包計數器,假設正常配接卡的封包計數器將會 因為正常網路流量通過配接卡而變更。如果封包計數器經過一段時間後並沒有變更, PNM 會進入 ping 序列,以強制流量通過作用中配接卡。 PNM 會在每次的序列結束時檢查封包計數器是否有任何變更,如果在重複幾次 ping 序列動作之後 封包計數器仍然不變,則宣告配接卡故障。只要有一個備份配接卡可以使用,這些事件會觸發失效保護以備份配接卡。

PNM 會監視輸入和輸出封包計數器,所以當任一或兩者的計數器有一段時間沒有變更時, 即會起始 ping 序列。

ping 序列包含測試 ALL_ROUTER 廣播位址 (224.0.0.2)、ALL_HOST 廣播位址 (224.0.0.1) 和 區域子網路廣播位址。

Ping 的結構,是以花費最少為優先考量的方式,所以如果有一個花費較少的 ping 成功時,花費較多的 ping 就不會執行。此外,ping 只是作為在配接卡上產生流量的方法。其退出狀態不會 作為配接卡是否為可運作或故障的決策。

此演算法中有四個可調參數:inactive_timeping_timeoutrepeat_testslow_network。這些參數提供了錯誤偵測的速度和正確性之間的取捨選擇。請參照 Sun Cluster 3.0 系統管理手冊 中變更公用網路參數和變更方法的程序。

在 NAFO 群組的作用配接卡上偵測到錯誤之後,如果無法使用備份配接卡,群組會宣告為 「當機 (DOWN)」,而所有其備份配接卡的測試會持續。否則,如果有備份配接卡可以使用,失效保護 會發生至備份配接卡。當故障的作用配接卡被關閉和停用時,邏輯位址與其關聯的旗號會「轉移」至備份配接卡。

當 IP 位址失效保護順利完成時,會送出無償式 ARP 廣播,所以可維持與遠程用戶端的連接。