如果 CMM 偵測到某節點具有嚴重問題,它便會通知叢集框架強制關閉 (當機) 該節點並將其從叢集成員關係中移除。發生此情況的機制稱為 failfast。Failfast 會以兩種方式關閉節點。
如果一個節點離開叢集,然後在沒有法定數目的情況下嘗試啟動一個新叢集,則它將被「隔離」,無法存取共用磁碟。請參閱關於故障隔離,以取得有關 failfast 的此種用途之詳細資訊。
如果一個或多個叢集特定的常駐程式終止 (clexecd、rpc.pmfd、rgmd 或 rpc.ed),則 CMM 會偵測到故障並且節點將會當機。
叢集常駐程式終止導致節點當機時,該節點的主控台上將會顯示與以下訊息類似的訊息。
panic[cpu0]/thread=40e60: Failfast: Aborting because "pmfd" died 35 seconds ago. 409b8 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+48 (70f900, 30, 70df54, 407acc, 0) %l0-7: 1006c80 000000a 000000a 10093bc 406d3c80 7110340 0000000 4001 fbf0 |
發生當機之後,節點可能會重新啟動並嘗試重新加入叢集。或者,如果叢集由基於 SPARC 的系統組成,則節點可能會保持在 OpenBootTM PROM (OBP) 提示符號狀態。節點的下一個動作由 auto-boot? 參數的設定決定。您可以在 OpenBoot PROM ok 提示符號中使用 eeprom(1M) 設定 auto-boot?。