1


Sun Fire 中階系統上的 DR 簡介

雖然 Solaris 9 和 Solaris 10 作業系統支援 DR 的所有功能性,但某些先前版本的 Solaris 軟體不支援 I/O 板的重新配置。Solaris 8 2/02 軟體是第一個支援網域上所有的 DR 功能性之 Solaris 8 軟體發行版本。如需關於在執行 Solaris 8 軟體的系統上啟用 DR 之完整資訊及指示,請至:

http://www.sun.com/servers/midrange/dr_sunfire



備註 - 執行 DR 作業,需要使用 root 存取。




動態重新配置

DR 軟體是 Solaris 軟體的一部分。當作業系統正在執行時,而且對在網域中執行的使用者程序產生最小的影響的狀態下,使用 DR 軟體,您即可動態重新配置系統板,並可將其安全地移除或安裝於系統中。

您可使用 DR 進行以下作業:

指令行介面

DR 軟體具有使用 cfgadm 指令的指令行介面 (CLI),此為配置管理程式。DR 代理程式亦對 Suntrademark Management Center 圖形化使用者介面提供遠端介面。

圖形化使用者介面

選購的 Sun Management Center 軟體(自 3.0 版本起)提供了諸如網域管理的功能,並且提供圖形化使用者介面 (GUI) 來代替 cfgadm DR 指令行介面 (CLI)。若您偏愛使用 GUI,則可選擇使用 Sun Management Center 軟體,而不使用系統控制器軟體或 DR 軟體的指令行介面。

若要使用 Sun Management Center 軟體,您必須將「系統控制器」板接上網路。透過網路連線,您可以同時檢視指令行介面以及圖形化使用者介面。如需有關如何使用 Sun Management Center 軟體的指示,請參閱「Sun Management Center 使用者指南」「用於 Sun Fire 中階系統的 Sun Management Center 補充資料」。若要取得將系統控制器連接至「系統控制器」板上的網路連線之相關指示,請參閱系統安裝文件資料。


DR 概念

本節包含關於 Sun Fire 中階系統網域的一般 DR 概念之說明。

網域

Sun Fire 中階伺服器可以分為幾個動態系統網域,在本文件中稱為網域。這些網域以指定給網域的系統板插槽為基礎。每個網域在硬體分割區中有各自的電源,如此當其中一個網域發生問題時,才不會影響到伺服器上的其他網域。

網域配置資訊會在 SC 上受到維護,並說明系統板插槽如何邏輯分割至網域中。網域配置包括空插槽及已插入之插槽。

某一網域之可用插槽數是由系統控制器上的可用元件清單來維護的。將插槽指定給網域後,在指定網域上可看到該插槽,但其他網域則無法看見它。反過來說,在您指定或將插槽配置到其他網域前,必須先取消插槽指定並中斷該插槽與原網域的連線。

邏輯網域由數個指定給該網域的插槽組成。而實體網域則由數個實體上相互連接的板組成。插槽即使不是實體網域的一部分,也能成為邏輯網域的成員。在網域啟動之後,可將系統板指定給邏輯網域。不過,要等到作業系統發出請求,它才會成為實體網域的一部分。未指定給網域的系統板或插槽可用於在其可用元件清單中具有該板或插槽的任何網域。如果板位於該網域的可用元件清單,板則可從平台主控台或網域主控台指定給網域。網域的可用元件清單只能從平台主控台修改。

可分離性

可分離的裝置必須符合下列要項:

某些板無法分離,因為無法移動這些板的資源。例如,若網域只有一個 CPU 板,則無法分離該 CPU 板。若啟動磁碟無法執行防故障備用模式,則將無法分離連接到該啟動磁碟的 I/O 板。

若 I/O 板無多重路徑,您可以:

靜止

在取消配置有永久記憶體(OpenBoottrademark PROM 或核心記憶體)之系統板上的作業時,作業系統會短暫中止,這種狀況稱為作業系統靜止。在重要的作業階段中,中央機板上所有作業系統及裝置活動必須暫停幾秒鐘。

判定板是否具有永久記憶體的快速方法為,以超級使用者身份執行下列指令:


# cfgadm -av | grep permanent

 

系統會回應下列輸出,描述系統板 0(零):


N0.SB0::memory connected configured ok base address 0x0, 4194304
 KBytes total, 668072 KBytes permanent

 

在作業系統達到靜止狀態之前,該環境必須暫停所有的程序、CPU 與裝置活動。若作業系統無法達到靜止狀態,該環境會顯示無法靜止的原因,其中可能的原因如下:

導致程序暫停失敗的情況,時常是暫時的現象。如果發生錯誤,請檢查該錯誤的原因。若作業系統遇到臨時狀況 - 無法中止程序 - 您可以試著再操作一次。

永久記憶體為 Solaris 核心及其資料常駐之處。核心無法以如同常駐於其他板的使用者程序可分頁至交換裝置之方式來釋放記憶體。反而,cfgadm 會使用複製重新命名技術來釋放記憶體。

複製重新命名作業中的第一個步驟為,暫停所有 I/O 作業和執行緒活動以停止系統上的所有記憶體活動;此即靜止。在靜止期間,系統會停止不動並不回應外在事件,如網路封包。靜止的持續時間視下列兩個因素而定:需要停止多少 I/O 裝置和執行緒;需要複製多少記憶體。通常 I/O 裝置的數量會決定所需的靜止時間,因為 I/O 裝置必須暫停和取消暫停。靜止狀態通常會持續超過兩分鐘。

因為靜止具有顯著的影響,cfgadm 會先請求確認再實行靜止。若您輸入:


# cfgadm -c unconfigure N0.SB0

 

系統會回應下列提示以供確認:


System may be temporarily suspended, proceed (yes/no)?

 

如果您使用 Sun Management Center 來執行 DR 作業,快顯視窗則會顯示此提示。

輸入 Yes 確認靜止的影響是可接受的,然後繼續進行。

安全暫停和非安全暫停裝置

當 DR 暫停作業系統時,所有附接到作業系統的裝置驅動程式也必須暫停。若驅動程式無法暫停(或接著恢復),DR 作業就會失敗。

當作業系統處於靜止狀態時,安全暫停 裝置不會存取記憶體或中斷系統。若驅動程式支援作業系統的靜止(暫停/恢復)功能,此驅動程式即可視為具有安全暫停的功能。此可安全暫停的驅動程式亦可保證:當暫停請求順利完成時,驅動程式所管理的裝置不會嘗試存取記憶體;即使在做出暫停請求時,該裝置為開啟狀態,它也不會嘗試存取記憶體。

當作業系統處於靜止狀態時,非安全暫停 裝置具有記憶體存取或系統中斷的功能。

附接點

附接點是板及其插槽的統稱。DR 能顯示插槽、板和附接點的狀態。DR 對板的定義也包括連接其上的裝置,所以「插卡」這個詞指的是板及附接裝置兩者的組合。

依照附接點,共使用兩種格式:

 

其中 N0 代表節點 0(零),

SB 代表系統板,

IB 代表 I/O 板,而

x 則代表插槽編號。插槽編號 0 到 5 為系統板的號碼,6 到 9 則為 I/O 板的號碼。

 

DR 作業

DR 作業有四種主要形式。


作業

說明

連線

插槽提供板電源並監視其溫度。就 I/O 板來說,連線作業包括在配置作業中。

配置

作業系統指定板的功能角色,並針對板以及板的附接裝置載入裝置的驅動程式。

取消配置

系統將板以邏輯的方式從作業中的系統分離而出,並使相關的裝置驅動程式離線。環境監視功能會繼續,但系統無法使用板上的裝置。

切斷連線

系統停止監視板,而且插槽的電源關閉。


 

若系統板在使用中,在您關閉電源前,請中止使用並從網域切斷連線。在插入並開啟全新或升級的系統板之電源後,請利用作業系統連接其附接點並將其配置使用。

cfgadm(1M) 指令能以單一指令連線及配置(或取消配置及切斷連線),但如有需要,每項作業(連線、配置、取消配置或切斷連線)也都能獨立執行。

熱插入硬體

熱插入板與模組具有特殊的連接器,可在資料腳位建立聯繫之前,供應電源給板或模組。系統正在運作時,具有熱插入連接器的板及裝置可以插入或移除。

用於 Sun Fire 中階伺服器上的 I/O 板和 CPU/記憶體板是熱插入裝置。有些裝置,如週邊設備的電源供應器,不是熱插入模組而且無法在系統運作時移除。

狀況與狀態

狀態是指插座(插槽)或插卡(板)的作業狀態。狀況是指附接點的作業狀態。

在嘗試於網域的系統板或元件上執行任何 DR 作業前,您必須確認狀態和狀況。使用 cfgadm(1M) 指令的 -la 選項來顯示各個元件的類型、狀態和狀況以及網域中各個板插槽的狀態和狀況。請參閱本節元件類型中的元件類型清單。


板狀態、狀況及類別

本節包括系統板(也稱為系統插槽)狀態、狀況及類別的說明。

板插座狀態

板會有下列三種插座狀態的其中一種:空、切斷連線、或連線。每當您插入板時,插座狀態從空轉為切斷連線。每當您移除板時,插座狀態從切斷連線轉為空。



caution icon

注意 - 實體移除在連線狀態,或接上電源及切斷連線狀態中的板,會使作業系統當機,並會導致系統板永久損壞。




名稱

說明

empty

不存在。

disconnected

板可從系統匯流排切斷連線。板可不需關閉電源即處於切斷連線狀態。然而,在將板從插槽移除前須先關閉板電源並切斷連線。

connected

啟動板電源並連線到系統匯流排。您只能在連線狀態下檢視板的元件。


板插卡狀態

板會有下列兩種插卡狀態的其中一種:配置或取消配置。切斷連線板的插卡狀態會一直處於取消配置中。


名稱

說明

configured

板上至少有一個元件已配置。

unconfigured

板上所有元件已取消配置。


 

板狀況

板的狀況會是以下四種狀況之一:未知、正常、錯誤、或無法使用。


名稱

說明

unknown

板未受測試。

ok

板可作業。

failed

板未通過測試。

unusable

板插槽無法使用。


 

板類別

cfgadm 指令會將 Sun Fire 中階伺服器系統板顯示為類別「sbd」,以及將 CompactPCI (cPCI) 卡顯示為類別「pci」。

若要顯示與附接點關聯的類別,請以超級使用者身份執行下列指令:


# cfgadm -s "cols=ap_id:class"

 

若也要列出動態附接點及其類別,請將 cfgadm 指令的 -a 選項新增為前述指令的引數。


元件狀態、狀況及類型

本節包括元件狀態和狀況及其類型的說明。

元件插座狀態

元件無法獨立連線或切斷連線。因此,元件只會有一種狀態:連線。

元件插卡狀態

元件會有下列兩種插卡狀態的其中一種:配置或取消配置。


名稱

說明

configured

元件可以在 Solaris 軟體下使用。

unconfigured

元件無法在 Solaris 軟體下使用。


 

元件狀況

元件會有下列三種狀況的其中一種:未知、正常、錯誤。


名稱

說明

unknown

元件從未測試。

ok

元件可作業。

failed

元件未通過測試。


 

元件類型

您可使用 DR 來配置或取消配置數種元件類型。


名稱

說明

cpu

獨立的 CPU

memory

板上所有的記憶體

pci

任何 I/O 裝置、控制器或匯流排


 


I/O 板上的 DR

當您新增或移除具有 I/O 裝置的系統板時必須格外小心。在您移除具有 I/O 裝置的板時,板上所有的裝置都必須關閉,其所有的檔案系統也都必須卸載。

如果您需要從網域暫時移除具有 I/O 裝置的板,然後在新增或移除任何具有 I/O 裝置的板前把它重新加入的話,便不必也不需要執行重新配置。在此清況下,連接板裝置的裝置路徑將維持不變。

在 I/O (IBx) 板上執行任何 DR 作業之前,請輸入下列指令停止 vold 常駐程式:


# sh /etc/init.d/volmgt stop

 

在 DR 作業已成功完成之後,請輸入下列指令重新啟動 vold 常駐程式:


# sh /etc/init.d/volmgt start

 

在 Sun Fire 中階系統上,DR 不支援 SAI/P(錯誤 ID 4466378)或 HIPPI/P。先前的發行版本不支援 SunHSI/P 驅動程式,但阻止支援的錯誤 4496362 已於 106922 (2.0) 和 109715 (3.0) 修補程式中修復。如需更多資訊,請參閱 SunSolve。

您必須執行 devfsadm(1M) 指令以查看任何已發生的變更,尤其是有關從 PCI 至 cPCI 的變更。

CompactPCI 的特定限制

下列限制適用於包含 CompactPCI 組件的重新配置:

取消配置 cPCI 卡也會自動將其取消連接。若已啟用自動配置,連接 cPCI 卡也會將其配置。若已停用自動配置,您必須手動執行配置。

解決與 I/O 裝置相關的問題

所有 I/O 裝置必須先關閉才能取消配置。如果您遇到與 I/O 裝置有關的問題,下列清單可協助您克服問題。



備註 - 如果您使用 ndd(1M) 指令來設定網路驅動程式的配置參數,參數在 DR 作業之後可能不會持續。使用特定驅動程式的 /etc/system 檔案或 driver.conf 檔案來永久設定參數。




永久和非永久記憶體

在刪除板之前,作業系統須先空出板上的記憶體。空出板是指將其非永久記憶體的內容刷新至交換空間,並複製其永久記憶體的內容(也就是核心和 OpenBoottrademark PROM 軟體)到另一個記憶體板上。

若要重置永久記憶體,網域上的作業系統必須暫時靜止(使所有活動暫停,通常只有在該網域)。靜止持續的長短取決於網域 I/O 配置和執行的工作量。

使用永久記憶體來分離板只能在作業系統靜止時進行。因此,您應該清楚永久記憶體的常駐位置,以免嚴重影響到網域的作業。若要顯示永久記憶體的大小,請使用 cfgadm(1M) 指令及其 -av 選項。若要空出具有永久記憶體的板,作業系統必須找出相當大區塊的可用記憶體(即目標記憶體),以複製永久記憶體的目前內容(即來源記憶體)。

目標記憶體限制

只有在目標板具有與來源板同等或更多的記憶體時,DR 才會支援系統板間的永久記憶體重新配置。如果記憶體較少,系統將不允許 DR 作業。如有較多,額外記憶體則會新增至可用記憶體池。


DR 概念圖示

DR 可讓您不關閉系統就切斷並回復系統板連線。當系統持續作業時,您可以使用 DR 增加或移除系統資源。

請以系統資源重新配置實例考慮以下的 Sun Fire 系統配置,如下圖所示:網域 A 包括系統板 0 和 2,以及 I/O 板 7。網域 B 包括系統板 1 和 3,以及 I/O 板 8。



備註 - 執行 DR 作業前,請確認系統遵循限制中設定的限制。




圖 1-1 重新配置前的網域實例


若要重新將系統板 1 從網域 B 指定至網域 A,您可以使用 Sun Management Center 軟體 GUI。或在每個網域的 CLI 上手動執行以下步驟:

1. 以超級使用者身份在網域 B 的指令行輸入以下指令,以切斷系統板 1 的連線:


# cfgadm -c disconnect -o unassign N0.SB1

 

2. 然後在網域 A 的指令行輸入以下指令,以指定、連線、及配置網域 A 的系統板 1:


# cfgadm -c configure N0.SB1

 

下列的系統配置就是結果。請注意,系統板唯一的連線方式已經改變,並非機櫃內系統板的實體佈局有所改變。


圖 1-2 配置過後的網域實例



限制

記憶體交錯

如果系統記憶體與多個 CPU/記憶體板交錯,系統板則無法動態重新配置。



備註 - 若要取得更多關於記憶體交錯的資訊,請參考 setupdomain 指令的 interleave-scope 參數;該指令在「Sun Fire Midrange Systems Platform Administration Manual」「Sun Fire Midrange System Controller Command Reference Manual」



反過來說,不管記憶體是否交錯,CompactPCI 卡和 I/O 板都可以 動態重新配置。