為了讓資料免於毀損,所有的節點必須對叢集成員達成一致的協議。必要時,CMM 會為了回應故障而協調叢集服務 (應用程式) 的叢集重新配置。
CMM 從叢集傳輸層接收有關連接到其他節點的資訊。在重新配置期間,CMM 使用叢集交互連接來交換狀態資訊。
在偵測到叢集成員變更之後,CMM 會執行叢集的同步化配置,此時可能會根據新的叢集成員而重新分配叢集資源。
與舊版次 Sun Cluster 軟體不同,CMM 完全在核心程式中執行。
請參閱關於故障隔離,以取得有關叢集如何保護自己免於被分割成多個單獨叢集的更多資訊。
如果 CMM 偵測到某節點發生緊急問題,則它會呼叫叢集框架以強制關閉 (當機) 節點,然後從叢集成員身份中移除該節點。發生此情況的機制稱為 failfast。Failfast 會導致節點以兩種方式關閉。
如果一個節點離開叢集,然後在沒有法定數目的情況下嘗試啟動一個新叢集,則它將被「隔離」,無法存取共用磁碟。請參閱關於故障隔離,以取得有關 failfast 此種用法的詳細資訊。
如果一個或多個叢集特定的常駐程式掛掉 (clexecd、rpc.pmfd、rgmd 或 rpc.ed),CMM 會偵測到此故障,而節點會混亂。
panic[cpu0]/thread=40e60: Failfast: Aborting because "pmfd" died 35 seconds ago. 409b8 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+48 (70f900, 30, 70df54, 407acc, 0) %l0-7: 1006c80 000000a 000000a 10093bc 406d3c80 7110340 0000000 4001 fbf0 |
在當機之後,該節點可能重新啟動並嘗試重新連結叢集,或者停留在 OpenBootTM PROM (OBP) 提示符號處 (如果叢集由基於 SPARC 的系統組成)。採用的動作由 auto-boot? 參數的設定所決定。您可以在 OpenBoot PROM ok 提示符號處,使用 eeprom(1M) 來設定 auto-boot?。