本章包含有關 SunPlex 系統最常見問題的解答。 問題是依照主題來排列。
到底什麼是高可用性系統?
SunPlex 系統將高可用性 (HA) 定義為,即使發生一般可造成伺服器系統無法使用的故障,叢集仍可保持應用程式啟動並執行的能力。
叢集是利用何種處理程序來提供高可用性?
藉由故障轉移的處理程序,叢集框架提供高可用性的環境。 故障轉移是叢集所執行的一系列步驟,可將應用程式從故障節點移轉至叢集中的另一個可作業節點上。
高可用性的資料服務有兩類,亦即故障轉移和可延伸。
故障轉移資料服務表示應用程式一次僅在叢集中的一個主要節點上執行。 其他的節點可能執行其他的應用程式,但是每個應用程式僅執行於單一節點上。 如果主要節點故障,在故障節點上執行的應用程式會移轉至另一個節點繼續執行。
可延伸服務將應用程式分散在多個節點,以建立單一、邏輯的服務。 可延伸服務會利用其執行所在的整個叢集中的節點與處理器數目。
對於各個應用程式,一個節點擁有叢集的實體介面。 此節點稱為「整體介面 (GIF) 節點」。 叢集中可以有多個 GIF 節點。 每個 GIF 節點都擁有一個或多個可延伸服務可以使用的邏輯介面。 這些邏輯介面稱為整體介面。 一個 GIF 節點擁有用於處理針對特定應用程式之所有要求的整體介面,並可將這些要求派送至應用程式伺服器正在執行的多重節點上。 如果 GIF 節點發生故障,則整體介面將故障轉移至存活節點。
如果應用程式所執行的任一節點故障,應用程式會繼續在其他的節點上執行,其中部分效能會降低,直到故障節點返回叢集之後才改善。
我是否可以作為用戶端,執行一個或多個作為包含其他叢集節點的高度可用 NFS 伺服器的叢集節點?
不,不要做回送裝載。
是否可以將叢集檔案系統用於不在 Resource Group Manager 控制下的應用程式?
可以。 然而,沒有 RGM 的控制,應用程式需要在其執行的節點發生故障後,以手動方式重新啟動。
是否所有叢集檔案系統均必須具有一個位於 /global 目錄下的裝載點?
不是。然而,將叢集檔案系統置於同一裝載點之下 (如 /global),會使這些檔案系統的組織和管理得到優化。
使用叢集檔案系統和匯出 NFS 檔案系統之間的差異是什麼?
有多處的差異:
叢集檔案系統支援整體裝置。 NFS 不支援遠端存取裝置。
叢集檔案系統擁有全域名稱空間。 只需要一個裝載指令。 至於 NFS,您必須在每一個節點載設檔案系統。
叢集檔案系統快取檔案的機會多於 NFS。 例如,當某個檔案正在被多個節點存取進行讀取、寫入、檔案鎖定和非同步輸入/輸出。
建置叢集檔案系統,是為了利用可提供遠程 DMA 和零複製功能的未來快速叢集交互連接。
如果您變更叢集檔案系統中某個檔案的屬性 (例如,使用 chmod(1M)),此變更會立即反映在所有節點上。 對於匯出式 NFS 檔案系統,此動作要花費較長時間。
檔案系統 /global/.devices/node@<nodeID> 出現在我的叢集節點上。 是否可以使用此檔案系統,來儲存我希望其成為具有高可用性和整體性的資料?
這些系統檔會儲存整體裝置的名稱空間。 它們不供一般使用。 當它們為整體時,從不以整體方式存取,每一節點只存取自己的整體裝置的名稱空間。 如果某節點已斷開,則其他節點將無法這個已斷開節點的名稱空間。 這些檔案系統不具高可用性。 它們不應用來儲存需為整體或高可用的資料
是否需要鏡像所有磁碟裝置?
對於要作為高可用性的磁碟裝置,必須要進行鏡像,或使用 RAID-5 硬體。 所有的資料服務應該使用高可用性磁碟裝置,或裝載於高可用性磁碟裝置上的叢集檔案系統。 這樣的配置可以容忍單一磁碟故障。
是否可以對本機磁碟 (開機磁碟) 使用一個容體管理程式,而對多重主機磁碟使用其他容體管理程式?
SPARC: 此配置受管理本機磁碟的 Solaris Volume Manager 軟體以及管理多重主機磁碟的 VERITAS Volume Manager 支援。 但並不支援其他組合。
x86: 否,此配置不受支援,因為在基於 x86 的叢集中僅支援 Solaris Volume Manager。
哪些 SunPlex 資料服務可用?
支援的資料服務清單包含於Sun Cluster Release Notes中。
哪些應用程式版本受 SunPlex 資料服務的支援?
支援的應用程式版本包含於Sun Cluster Release Notes中。
是否可以寫入自己的資料服務?
需要。 請參閱Sun Cluster 資料服務開發者指南及「Data Service Development Library API」所提供的「Data Service Enabling Technologies」說明文件,以取得詳細資訊。
在建立網路資源時,我是否應指定數字 IP 位址或主機名稱?
指定網路資源,最好是使用 UNIX 主機名稱,而非數字型 IP 位址。
建立網路資源時,使用邏輯主機名稱 (LogicalHostname 資源) 與共用位址 (SharedAddress 資源) 之間的差異是什麼?
除了 Sun Cluster HA for NFS 的情況外,說明文件提到在 Failover 模式資源群組中使用 LogicalHostname 資源時,可能會交替使用 SharedAddress 資源或 LogicalHostname 資源。 使用 SharedAddress 資源需要一些額外的負擔,因為叢集網路軟體是針對 SharedAddress 而非 LogicalHostname 配置的。
使用 SharedAddress 的優點,是當您同時配置可延伸和故障轉移資料服務,而且要用戶端能夠使用相同的主機名稱來存取這兩種服務。 在這種情況下,SharedAddress 資源與故障轉移應用程式資源同時包含於一個資源群組中,而可延伸服務資源包含於獨立的資源群組中,並被配置為使用 SharedAddress。 然後,可延伸服務與故障轉移服務可以使用在 SharedAddress 資源中所配置的同一組主機名稱/位址。
SunPlex 系統支援哪些公用網路配接卡?
目前,SunPlex 系統支援 Ethernet (10/100BASE-T 和 1000BASE-SX Gb ) 公用網路配接卡。 因為未來可能會支援新的介面,請洽詢您的 Sun 業務代表,以取得最新的資訊。
在故障轉移中 MAC 位址的角色為何?
發生故障轉移時,會產生新的「位址解析度通訊協定 (Address Resolution Protocol,ARP)」封包並廣播到網路上。 這些 ARP 封包包含新的 MAC 位址 (節點移轉後的新實體配接卡的位址) 和舊的 IP 位址。 當網路上的其他機器接收到上述封包中的一個封包之後,該封包會從其 ARP 快取中清除舊的 MAC-IP 對映,而使用新對映。
SunPlex 系統是否支援設定 local-mac-address?=true?
需要。 實際上,IP 網路多重路徑要求必須將 local-mac-address? 設定為 true。
您可以在基於 SPARC 的叢集中,於 OpenBoot PROM ok 提示符號後,使用 eeprom(1M) 來設定 local-mac-address?;或者在基於 x86 的叢集中,於 BIOS 啟動後使用您選擇執行的 SCSI 公用程式來設定。
當 IP Network Multipathing 在配接卡之間執行切換保護移轉時,我可以預期多長時間的延遲?
延遲可以達數分鐘。 這是因為在完成 IP Network Multipathing 切換保護移轉後,牽涉到送出免費的 ARP。 然而,並不保證用戶端和叢集間的路由器將使用免費的 ARP。 因此,在路由器上此 IP 位址的 ARP 快取項目逾時之前,它可能一直使用舊的 MAC 位址。
偵測到網路配接卡故障的速度有多快?
預設的故障偵測時間為 10 秒。 演算法嘗試符合此故障偵測時間,但實際時間取決於網路負載。
所有的叢集成員是否需要相同的 root 密碼?
每個叢集成員不需要有相同的 root 密碼。 然而,所有的節點使用相同的 root 密碼可以簡化您的節點管理工作。
節點啟動的順序是否相當重要?
在大多數情況下,啟動順序並不重要。然而,它對於防止 Amnesia 很重要 (請參閱法定數目與法定裝置,以取得有關 Amnesia 的詳細資訊)。 例如,如果節點 2 是法定裝置的所有者,而且節點 1 關機,接著您又將節點 2 關機,則您必須先啟動節點 2 再啟動節點 1。 這樣可以防止您意外啟動具有過時叢集配置資訊的節點。
是否需要在叢集節點中鏡像本機磁碟?
需要。 雖然這種鏡像並非必要,但鏡像叢集節點的磁碟可以排除非鏡像磁碟故障而導致節點當機的情況。 鏡像叢集節點的區域磁碟的缺點,是需要較多的系統管理負擔。
叢集成員備份的問題有哪些?
您可以對叢集使用多種備份方法。 其中一種方法是令某個節點連接磁帶機/磁帶庫作為備份節點。 然後使用叢集檔案系統來備份資料。 請勿連接此節點至共用磁碟。
請參閱Sun Cluster 系統管理指南,以取得有關備份與復原程序的其他資訊。
節點何時正常到足以作為次要節點?
在重新啟動後,當節點顯示登入提示時,此節點正常,足以成為次要節點。
什麼原因使多重主機儲存體具備高可用性?
多重主機儲存體具備高可用性,是因為有了鏡像 (或硬體式的 RAID-5 控制器) 而可以承受單一磁碟的遺失。 因為多重主機儲存裝置具有一個以上的主機連接,也可以承受失去它所連接的單一節點。 另外,從每個節點到貼附儲存體的冗餘路徑可提供主機匯流排配接卡、電纜或磁碟控制器故障的公差。
SunPlex 系統支援哪些叢集交互連接?
目前,SunPlex 系統在基於 SPARC 和 x86 的叢集中,支援乙太網路 (100BASE-T Fast Ethernet 與 1000BASE-SX Gb) 叢集交互連接。 SunPlex 系統則僅在基於 SPARC 的叢集中支援 SCI 網路介面叢集交互連接。
“電纜”和傳輸“路徑有何不同?”
叢集傳輸電纜是使用傳輸配接卡與交換器來配置的。 電纜是以元件對元件方式連接配接卡和交換器。 叢集拓撲管理程式使用可用電纜在節點之間建置點對點傳輸路徑。 電纜並不會直接對應至傳輸路徑。
電纜由管理員靜態地「啟用」或「停用」。 電纜具有「狀況」(啟用或停用),但非「狀態」。 如果電纜已停用,就如同已取消配置電纜。 停用的電纜無法用作傳輸路徑。 由於電纜不是探測式的,所以無法得知它們的狀態。 電纜的狀況可以使用 scconf -p 來檢視。
傳輸路徑並非由叢集拓撲管理者動態建立的。 傳輸路徑的「狀態」是由拓樸管理程式決定的。 路徑的狀態可以「線上」或「離線」。 傳輸路徑的狀態可以使用 scstat(1M) 來檢視。
請考慮下述具四條電纜的兩個節點叢集範例。
node1:adapter0 to switch1, port0 node1:adapter1 to switch2, port0 node2:adapter0 to switch1, port1 node2:adapter1 to switch2, port1 |
有兩個可能的傳輸路徑可由這四條電纜形成。
node1:adapter0 to node2:adapter0 node2:adapter1 to node2:adapter1 |
與叢集配合使用是否需要考慮任何特殊的用戶端需求或限制?
用戶端系統連接至叢集,與連接至任何其他伺服器相同。在某些情況下,視資料服務應用程式而定,您可能需要安裝用戶端軟體或執行其它配置變更,使得用戶端可以連接至資料服務應用程式。 請參閱Sun Cluster Data Services Planning and Administration Guide中的個別章節,以取得有關用戶端配置需求的其他資訊。
SunPlex 系統是否需要管理主控台?
需要。
管理主控台是否必須專屬於叢集,還是可用於其他作業?
SunPlex 系統不需要專用的管理主控台,但是使用專用主控台可以有以下優點:
在同一機器上將主控台和管理工具分組,達到中央化叢集管理
讓您的硬體服務供應商可較快速地解決問題
管理主控台的位置是否需要置於叢集本身「附近」,例如在同一房間中?
請洽詢您的硬體服務供應商。 供應商可能會要求主控台位置要靠近叢集本身。 將主控台置於同一房間中,並無技術上的原因。
一部管理主控台在符合所有距離要求的前提下,是否可以服務多個叢集?
可以。 您可以從單一管理主控台來控制多個叢集。 您也可以在叢集之間共用單一的終端機集線器。
SunPlex 系統是否需要終端機集線器?
所有以 Sun Cluster 3.0 開始的軟體版次均不需要終端機集線器來執行。 與 Sun Cluster 2.2 產品 (需要終端機集線器以實施故障隔離) 不同,以後的產品並不依靠終端機集線器。
我發現大部分 SunPlex 伺服器使用終端機集線器,但是 Sun Enterprise E10000 server 不使用。 原因為何?
終端機集線器對大部分的伺服器而言,實際上是一個串列對 Ethernet 轉換器。 其主控台是串列埠。 Sun Enterprise E10000 server 沒有串列主控台。 「系統服務處理器」(SSP) 是主控台,是透過 Ethernet 或 jtag 通訊埠。 對於 Sun Enterprise E10000 server,您一定要將 SSP 用於主控台。
使用終端機集線器有哪些優勢?
使用終端機集線器可為網路上任意位置的遠端工作站之各節點提供主控台層級的存取,包括當節點在基於 SPARC 的節點上處於 OpenBoot PROM (OBP) 中時,或者在基於 x86 的節點上作為啟動子系統時。
如果我使用的終端機集線器不受 Sun 支援,那麼我需要知道哪些內容,才能使我要使用的終端機集線器合乎標準?
Sun 支援的終端機集線器與其他主控台裝置的主要差異,是 Sun 終端機集線器具有特殊的韌體可以防止終端機集線器在開機時送出中斷。 請注意,如果您的主控台裝置會送出中斷,或可能會被解釋為中斷的信號,它將會關閉節點。
我是否可以釋放 SUN 所支援的終端機集線器上已鎖定的通訊埠,而不需重新啟動它?
可以。 請注意需要重設的通訊埠編號並鍵入下列指令:
telnet tc 輸入 Annex 通訊埠名稱或編號:cli annex: su - annex# admin admin : reset port_number admin : quit annex# hangup # |
請參閱Sun Cluster 系統管理指南,以取得有關配置與管理 Sun 支援之終端機集線器的詳細資訊。
假如終端機集線器本身發生故障,該怎麼辦? 必須常備另一台終端機集線器嗎?
不需要。如果終端機集線器故障,您並不會失去任何叢集可用性。 但是您會失去連接節點主控台的能力,直到集線器回復服務為止。
如果我真的使用終端機集線器,它的安全性如何?
一般而言,終端機集線器是連接至系統管理員所使用的小型網路,不是連接到其他用戶端存取的網路。 您可以藉由限制該特定網路的存取權來控制安全性。
SPARC: 我如何藉由磁帶機或磁碟機使用動態重新配置?
判斷磁碟機或磁帶機是否為作用中裝置群組的一部分。 如果磁碟機不是作用中裝置群組的一部分,您可以在其上執行移除 DR 作業。
如果 DR 移除板作業可能會影響到作用中的磁碟機或磁帶機,系統會拒絕該作業,並指出可能會被該作業影響的磁碟機。 如果磁碟機是作用中裝置群組的一部分,請移至SPARC: 磁碟與磁帶機的 DR 叢集注意事項。
判斷磁碟機是主要節點的元件還是次要節點的元件。 如果磁碟機是次要節點的元件,便可以在其上執行 DR 移除作業。
如果磁碟機是主要節點的元件,則必須先切換主要節點與次要節點,然後才能在該裝置上執行 DR 移除作業。
如果您在次要節點上執行 DR 作業時,現行的主要節點發生故障,叢集可用性將會受到影響。 除非提供新的次要節點,否則主要節點沒有地方可以進行故障轉移。