關於穩定性、可用性和可維修性

Sun Blade 8000 Series包含許多以刀鋒為中心並擴及整個機殼的功能,可提高穩定性、可用性和可維修性 (RAS)。這些 RAS 功能是影響系統能夠持續運作及減少系統維修所需時間的系統設計層面。穩定性是指在沒有發生故障的情況下,系統持續運作和維護資料完整性的能力。可用性是指在最低影響的情況下,系統在發生故障後回復至運作狀態的能力。可維修性與元件發生故障之後,維修系統以提供服務所需的時間有關。Sun Blade 8000 Series的 RAS 功能會一起提供近乎不間斷的作業。

這個主題包含下列小節:

可熱插式元件

Sun Blade 8000 Series硬體支援下列元件的熱插式作業:機殼掛載 Sun Blade 伺服器模組 (刀鋒)、Sun Blade 8000 Network Express Module、PCI Express ExpressModule、機殼監視模組、風扇模組、電源供應器模組和硬碟機。您可以使用適當的軟體指令,在系統執行時安裝或移除這些元件。熱插式技術可以在不中斷服務的情況下更換這些元件,從而有效提高系統的可維修性和可用性。如需詳細資訊,請參閱關於可熱插式元件

備援元件

Sun Blade 8000 Series提供備援元件,在其中一個相關聯的元件發生故障時,使系統能持續運作。此功能的分隔會將元件問題和維修所造成的影響降至最低。備援元件包含下列:

  • 伺服器模組 (刀鋒),視系統配置而定

  • 電源供應器模組

  • PCI Express ExpressModule (僅限 Sun Blade 8000 機殼)

  • Sun Blade 8000 Network Express Module

  • 機殼監視模組

  • 系統風扇

環境監視

Sun Blade 8000 Series的特色是環境監視子系統,其設計目的為保護元件免於下列狀況的破壞:

  • 極端的溫度

  • 整個系統缺乏適當的散熱導流

  • 電源供應器故障

  • 硬體故障

位於整個系統的溫度感應器會監視機殼和內部元件的環境溫度。軟體和硬體會確保機殼內部溫度不超出預先定義的安全操作範圍。如果感應器觀察的溫度下降低於或上升高於所設定的臨界值,監視軟體子系統會使系統前後方的琥珀色「需要維修操作」指示燈亮起。如果溫度狀況持續存在,並且達到重要的臨界值,系統可以啟動正常關機。

所有錯誤和警告訊息都會傳送到機殼監視模組 (CMM),並且記錄在 Sun ILOM 記錄檔中。此外,部分用戶可置換裝置 (CRU),例如電源供應器、風扇和 DIMM,也會提供 LED,指出 CRU 內部發生故障。

錯誤更正和同位檢查

Sun Blade 伺服器模組 (刀鋒) 上的 AMD 雙核心處理器提供其內部快取記憶體的同位檢查保護以及資料的錯誤更正碼 (ECC) 保護。系統可以偵測下列錯誤類型並記錄到系統事件記錄 (SEL):

  • 可更正和無法更正的記憶體 ECC 錯誤

  • SP 可更正的記憶體 ECC 錯誤

  • 可更正和無法更正的 CPU 內部錯誤

  • 機殼共用基礎架構中的故障,包括風扇和電源供應器故障

進階 ECC 最多會更正半位元組範圍內的 4 個位元 (只要都在相同的 DRAM 中)。如果 DRAM 發生故障,DIMM 仍會繼續運作。

RAS 功能摘要

功能

說明

電源供應器

可熱插式;整合至機殼,使刀鋒更穩定

  • 針對 Sun Blade 8000 機殼 – N+N 配置

  • 針對 Sun Blade 8000 P 機殼 – N+1 配置

氣流暢通和散熱

風扇整合至機殼,使風扇、刀鋒和電源供應器更穩定

針對 Sun Blade 8000 機殼:

  • 3 個可熱插式前風扇模組可讓 PCI Express ExpressModule 散熱

  • 6 個風扇 (整合至電源供應器) 可讓電源供應器散熱

  • 9 個可熱插式後風扇模組可讓刀鋒散熱

針對 Sun Blade 8000 P 機殼:

  • 4 個風扇 (整合至電源供應器) 可讓電源供應器散熱

  • 9 個可熱插式後風扇模組可讓刀鋒散熱

伺服器模組 (刀鋒)

可熱插式;維修不會影響配線方式或 I/O 配置

記憶體

ECC 保護的記憶體和 CPU

I/O 模組

可熱插式 PCI Express ExpressModule (僅限 Sun Blade 8000 機殼) 和 Network Express Module

伺服器模組 (刀鋒) 磁碟機

可熱插式;可配置成 RAID-0 (平行儲存) 和 RAID-1 (鏡像) 配置

機殼監視模組

可熱插式;安裝兩個 CMM 時的使用中/待機作業

服務處理器

內部管理網路的備援連線

Sun ILOM 和系統管理

每部刀鋒和整個機殼的智慧型管理功能;當作業系統離線或關閉系統電源時,Sun ILOM 仍會繼續運作且可存取;提供刀鋒的遠端管理、遠端磁片和 CD-ROM 模擬

硬體升級

無需工具,即可存取使用者可升級的模組

軟體升級

網路型啟動和網路型作業系統以及 BIOS 升級

開機與重新啟動

伺服器自動重新啟動;網路型啟動功能

疑難排解

疑難排解包含:

  • 環境監視

  • 故障預測分析

  • 系統狀態指示燈之快速回應照明

  • 服務 LED 指示燈

  • 系統錯誤記錄,包括記錄到系統事件記錄 (SEL)