Sun Cluster 3.0 概念

失效隔離

叢集的主要議題是造成叢集出現分割的失效 (稱為 split brain)。發生此情形時,不是所有的節點均可通訊,所以個別節點或節點子集可能會嘗試形成個別或子集叢集。 每個子集或分割區可能相信,自己擁有唯一的多主機磁碟存取和所有權。 嘗試寫入磁碟的多個節點會導致資料毀損。

失效隔離藉由實際地防止磁碟存取,限制節點存取多主機磁碟。 當節點離開叢集時 (失效或被分割),失效隔離可確保節點不會再存取碟。只有目前的成員可以存取 磁碟,因此維持了資料的完整性。

磁碟裝置服務提供失效保護功能給使用多主機磁碟的服務。當目前是磁碟裝置群組的主要 (所有者) 叢集成員失效或無法到達時,會選出新的主要成員,繼續提供磁碟裝置群組的存取,期間只出現輕微的中斷時間。 處理程序期間,在啟動新的主要成員之前,舊的主要成員會放棄存取裝置。然而,當成員退出叢集且接觸不到時,叢集就無法通知該主要節點釋放裝置。因此,您需要 一個方法讓存活的成員可以從失效的成員接手控制和存取整體裝置。

Sun Cluster 使用 SCSI 磁碟保留來實作失效隔離。使用 SCSI 保留,失效的節點會「隔離」多主機磁碟,以防止存取這些磁碟。

SCSI-2 磁碟保留支援一種保留形式,授與存取權給所有連接磁碟的節點 (沒有保留存在) 或限制單一節點的存取權 (握有保留的節點)。

當叢集成員偵測到另一個節點在叢集交互連接上已經不再進行通訊, 即會起始隔離程序來防止其它的節點存取共用磁碟。當發生此失效隔離時, 一般會令隔離節點混亂,並在其主控台上出現「保留衝突」訊息。

偵測到個節點不再是叢集成員時,會放置 SCSI 保留在此節點與其它節點之間共用的所有磁碟上,所以就發生保留衝突的狀況。隔離節點可能不知道,自己已被隔離,而且如果它嘗試存取其中一個共用磁碟,就會偵測到保留和混亂。