Sun Cluster 3.0 12/01 概念

PNM 錯誤偵測和故障轉移處理程序

PNM 定期檢查作用中配接卡的封包計數器,假設正常配接卡的封包計數器將會因為正常網路流量通過配接卡而變更。 如果封包計數器經過一段時間後並沒有變更,PNM 會進入 ping 序列,以強制流量通過作用中配接卡。 PNM 會在每次的序列結束時檢查封包計數器是否有任何變更,如果在重複幾次 ping 序列動作之後封包計數器仍然不變,則宣告配接卡故障。 只要有一個備份配接卡可以使用,這個事件會觸發故障轉移以備份配接卡。

輸入與輸出封包計數器由 PNM 監督,因此當任一或二者皆有一段時間維持不變時,就啟動了 ping 序列動作。

Ping 序列包含測試 ALL_ROUTER 廣播位址 (224.0.0.2)、ALL_HOST 廣播位址 (224.0.0.1) 和區域子網路廣播位址。

Ping 的結構,是以花費最少為優先考量的方式,所以如果有一個花費較少的ping 成功時,花費較多的ping 就不會執行。 此外,ping 只是作為在配接卡上產生流量的方法。 其退出狀態不會作為配接卡是否為可運作或故障的決策。

此演算法中有四個可調參數: inactive_timeping_timeoutrepeat_testslow_network。 這些參數提供了錯誤偵測的速度和正確性之間的取捨選擇。 請參照 Sun Cluster 3.0 12/01 系統管理手冊 中變更公用網路參數和變更方法的程序。

在 NAFO 群組的作用配接卡上偵測到錯誤之後,如果無法使用備份配接卡,群組會宣告為「當機 (DOWN)」,而所有其備份配接卡的測試會持續。 否則,如果有備份配接卡可以使用,故障轉移會發生至備份配接卡。 當故障的作用配接卡被關閉和停用時,邏輯位址與其關聯的旗號會 轉移 至備份配接卡。

當成功完成 IP 位址的故障轉移時,就會送出無償的 (gratuitous) ARP 廣播。 也就維持了與遠端用戶端的連接。