Sun Cluster 概念指南 (適用於 Solaris 作業系統)

叢集成員身份監視器

為了讓資料免於毀損,所有的節點必須對叢集成員達成一致的協議。必要時,CMM 會為了回應故障而協調叢集服務 (應用程式) 的叢集重新配置。

CMM 從叢集傳輸層接收有關連接到其他節點的資訊。在重新配置期間,CMM 使用叢集交互連接來交換狀態資訊。

在偵測到叢集成員變更之後,CMM 會執行叢集的同步化配置,此時可能會根據新的叢集成員而重新分配叢集資源。

與舊版次 Sun Cluster 軟體不同,CMM 完全在核心程式中執行。

請參閱關於故障隔離,以取得有關叢集如何保護自己免於被分割成多個單獨叢集的更多資訊。

Failfast 機制

如果 CMM 偵測到某節點發生緊急問題,則它會呼叫叢集框架以強制關閉 (當機) 節點,然後從叢集成員身份中移除該節點。發生此情況的機制稱為 failfast。Failfast 會導致節點以兩種方式關閉。

當叢集常駐程式的失效導致節點當機時,在該節點的主控台上會顯示類似下列內容的訊息。


panic[cpu0]/thread=40e60: Failfast: Aborting because "pmfd" died 35 seconds ago.
409b8 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+48 (70f900, 30, 70df54, 407acc, 0)
%l0-7: 1006c80 000000a 000000a 10093bc 406d3c80 7110340 0000000 4001 fbf0

在當機之後,該節點可能重新啟動並嘗試重新連結叢集,或者停留在 OpenBootTM PROM (OBP) 提示符號處 (如果叢集由基於 SPARC 的系統組成)。採用的動作由 auto-boot? 參數的設定所決定。您可以在 OpenBoot PROM ok 提示符號處,使用 eeprom(1M) 來設定 auto-boot?