有三個方法可以告知何時系統中發生故障:
故障的元件和系統機殼上的琥珀色「需要維修操作」LED 會亮起 (請參閱監視「需要維修操作」LED).
元件狀態資訊 (可透過 ILOM Web 介面和 CLI 來存取) 顯示元件處於故障狀態 (請參閱透過管理介面監視故障).
系統事件記錄中會記錄故障狀況 (請參閱監視事件記錄).
當元件發生硬體故障 (進入故障狀態) 時,故障管理會使該元件的「需要維修操作」(琥珀色) LED 亮起。此外,當任何系統元件處於故障狀態時,故障管理會使系統機殼 (前後) 的「需要維修操作」LED 亮起。
因為「需要維修操作」LED 表示硬體故障,所以它會保持亮起,直到故障管理偵測到已更換或修復失敗的硬體。只要任何系統元件仍處於故障狀態,機殼的「需要維修操作」LED (做為所有元件故障的摘要指示器) 就會保持亮起。
如果機殼的「需要維修操作」LED 亮起,但沒有其他系統元件顯示其「需要維修操作」LED 時,這表示故障管理已診斷出外部故障:會對整個系統構成潛在影響的系統外部問題。例如,如果外在環境氣溫超出 43oC (109.4oF),會宣告故障並且關閉系統,儘管沒有任何系統硬體的實體錯誤。
如需有關造成這些機殼故障之外部狀況的資訊,請參閱機殼故障。
電源供應器 (PSU) 是特殊案例:它會監視它本身的故障狀態並控制其「需要維修操作」LED。故障管理軟體無法啟動或關閉 PSU LED。然而,因為故障管理會監視 PSU 上的感應器,所以當發生 PSU 故障時會得到通知。故障管理會使機殼的「需要維修操作」LED 亮起,並且會在 ILOM 管理介面和事件記錄中記錄此故障狀況。
請注意,可能發生的情況是,PSU 熄滅其「需要維修操作」LED (宣告已清除故障),但故障管理繼續宣告 PSU 仍處於故障狀態。如果發生此狀況,LOM 管理介面、機殼的「需要維修操作」LED 和事件記錄會反映故障狀態持續存在。
如需詳細資訊,請參閱電源供應器故障。
若要從 Web 介面檢查系統元件的故障狀態:
登入 ILOM Web 介面。
選取 [System Information] 標籤。
選取 [Components] 標籤。
這時會出現 [Components] 頁面。此頁面會顯示 [Component Management Status] 表格,會列出系統元件及顯示其故障狀態。
尋找故障的元件。
尋找故障狀態列示成 [Faulted] 的元件。請注意,如果有任何故障的元件,系統機殼本身 (/CH) 也會列示成 [Faulted]。
請參閱關於 ILOM 指令行介面,以瞭解物件名稱空間,以及如何識別與故障有關的目標和特性。
開啟一個 ILOM CLI 視窗。
輸入適當的 show 指令,以顯示有關系統元件的資訊。
例如,當您在機殼層級 (/CH) 且元件處於故障狀態時,機殼的 fault_state 會列示成 [Faulted],如下所示。
-> show
/CH
Targets:
.
.
.
Properties:
type = Chassis
fault_state = Faulted
clear_fault_action = (none)
->
深入檢視至故障的元件,並且再次輸入 show 指令,確認元件的 fault_state = Faulted。
下列範例顯示後風扇模組 0 (/CH/RFM0) 的 fault_state) 為 Faulted。
->cd /CH/RFM0
/CH/RFM0 ->show
/CH/RFM0 Targets: SERVICE ACT FAN1_OK FAN2_OK FAN1_SPEED FAN2_SPEED Properties: type = Rear Fan FRU fault_state = Faulted clear_fault_action = (none) prepare_to_remove_status = NotReady prepare_to_remove_action = (none) return_to_service_action = (none) ->
故障會記錄在系統事件記錄中,您可以從 ILOM Web 介面和 CLI 檢視此記錄。
登入 ILOM Web 介面。
選取 [System Monitoring] 標籤。
選取 [Event Logs] 標籤。
故障會列示故障類別、發生故障時的時間戳記,以及故障的說明。請注意,如果您要尋找最近發生的故障,它可能會在記錄結尾附近。故障項目看起來類似下列範例,它列出電源供應器 3 (/CH/PS3) 發生故障。
4 Mon May 1 13:17:22 2006 FMA Fault critical Fault detected at time = Mon May 1 13:17:22 2006. The suspect component: /CH/PS3 has FAULT:powersupply_temperature_ps with probability=100
如需尋找及解譯事件記錄內容的各項指示,請參閱檢視事件記錄。
開啟一個 ILOM CLI 視窗。
輸入下列指令,以檢視事件記錄:
show /CMM/logs/event list
您可以捲動整個記錄輸出,檢視其內容。故障項目看起來類似下列範例,它列出電源供應器 3 (/CH/PS3) 發生故障。
4 Mon May 1 13:17:22 2006 FMA Fault critical Fault detected at time = Mon May 1 13:17:22 2006. The suspect component: /CH/PS3 has FAULT:powersupply_temperature_ps with probability=100
如需尋找及解譯事件記錄內容的各項指示,請參閱檢視事件記錄。