關於故障管理

Sun Blade 8000 Series的故障管理軟體會監視硬體運作狀態,以及診斷及報告系統元件上的硬體故障。故障管理也會監視環境情況,並且會在系統環境超出可接受的參數時報告。系統機殼、電源供應器 (PSU)、伺服器模組 (刀鋒) 和風扇上的各種感應器會持續受到監視,並且在感應器顯示問題時,會通知故障管理軟體 (在機殼監視模組 (CMM) 上執行)。

然後,故障管理會診斷問題。如果它判斷已發生硬體或環境失敗,故障管理會使受影響元件上的「需要維修操作」LED 亮起。ILOM 管理介面也會更新,以反映此故障 (錯誤),並且在事件記錄中會將故障記錄為錯誤。

Note

Sun Blade 8000 Series的故障管理軟體與 Solaris 的「故障管理架構」(FMA) 完全無關。故障管理是系統管理軟體的一部分,並不會與刀鋒型主機或其作業系統互動。

外部與內部故障

當系統元件發生硬體故障時,此情況稱為「內部故障」,亦即 Sun Blade 8000 Series硬體本身的問題所導致的故障。當修復動作發生 (最可能是更換失敗的元件) 時,會清除內部故障。

然而,有些故障是「外部故障」。在這些情況下,沒有失敗的系統硬體,而是系統的外部情況造成潛在問題。例如,如果 (機殼外部) 環境氣溫超出特定臨界值,此情況就是故障,如果沒有加以更正,會對系統作業有不良影響。外部故障會「自動清除」:當外部情況不再存在時,會清除外部故障。然而,如果疏於照應,外部故障可能會造成元件或整個系統關閉。

故障管理監視的元件

故障管理會監視下列系統元件。

系統元件

請參閱本主題

系統機殼

機殼故障

電源供應器 (PSU)

電源供應器故障

伺服器模組 (刀鋒)

伺服器模組 (刀鋒) 故障

風扇

風扇故障