監視故障

關於監視故障

有三個方法可以告知何時系統中發生故障:

  • 故障的元件和系統機殼上的琥珀色「需要維修操作」LED 會亮起 (請參閱監視「需要維修操作」LED).

  • 元件狀態資訊 (可透過 ILOM Web 介面和 CLI 來存取) 顯示元件處於故障狀態 (請參閱透過管理介面監視故障).

  • 系統事件記錄中會記錄故障狀況 (請參閱監視事件記錄).

監視「需要維修操作」LED

當元件發生硬體故障 (進入故障狀態) 時,故障管理會使該元件的「需要維修操作」(琥珀色) LED 亮起。此外,當任何系統元件處於故障狀態時,故障管理會使系統機殼 (前後) 的「需要維修操作」LED 亮起。

何時「需要維修操作」LED 會關閉

因為「需要維修操作」LED 表示硬體故障,所以它會保持亮起,直到故障管理偵測到已更換或修復失敗的硬體。只要任何系統元件仍處於故障狀態,機殼的「需要維修操作」LED (做為所有元件故障的摘要指示器) 就會保持亮起。

何時機殼 LED 會亮起

如果機殼的「需要維修操作」LED 亮起,但沒有其他系統元件顯示其「需要維修操作」LED 時,這表示故障管理已診斷出外部故障:會對整個系統構成潛在影響的系統外部問題。例如,如果外在環境氣溫超出 43oC (109.4oF),會宣告故障並且關閉系統,儘管沒有任何系統硬體的實體錯誤。

如需有關造成這些機殼故障之外部狀況的資訊,請參閱機殼故障

關於電源供應器故障

電源供應器 (PSU) 是特殊案例:它會監視它本身的故障狀態並控制其「需要維修操作」LED。故障管理軟體無法啟動或關閉 PSU LED。然而,因為故障管理會監視 PSU 上的感應器,所以當發生 PSU 故障時會得到通知。故障管理會使機殼的「需要維修操作」LED 亮起,並且會在 ILOM 管理介面和事件記錄中記錄此故障狀況。

請注意,可能發生的情況是,PSU 熄滅其「需要維修操作」LED (宣告已清除故障),但故障管理繼續宣告 PSU 仍處於故障狀態。如果發生此狀況,LOM 管理介面、機殼的「需要維修操作」LED 和事件記錄會反映故障狀態持續存在。

如需詳細資訊,請參閱電源供應器故障

透過管理介面監視故障

透過 Web 介面監視元件狀態

若要從 Web 介面檢查系統元件的故障狀態:

  1. 登入 ILOM Web 介面。

  2. 選取 [System Information] 標籤。

  3. 選取 [Components] 標籤。

    這時會出現 [Components] 頁面。此頁面會顯示 [Component Management Status] 表格,會列出系統元件及顯示其故障狀態

  4. 尋找故障的元件。

    尋找故障狀態列示成 [Faulted] 的元件。請注意,如果有任何故障的元件,系統機殼本身 (/CH) 也會列示成 [Faulted]。

透過 CLI 監視元件狀態

Note

請參閱關於 ILOM 指令行介面,以瞭解物件名稱空間,以及如何識別與故障有關的目標和特性。

  1. 開啟一個 ILOM CLI 視窗。

  2. 輸入適當的 show 指令,以顯示有關系統元件的資訊。

    例如,當您在機殼層級 (/CH) 且元件處於故障狀態時,機殼的 fault_state 會列示成 [Faulted],如下所示。

    -> show
    /CH
    Targets:
    	.
    	.
    	.
    
    
    Properties:
    	type = Chassis
    	fault_state = Faulted
    	clear_fault_action = (none)
    ->
  3. 深入檢視至故障的元件,並且再次輸入 show 指令,確認元件的 fault_state = Faulted

    下列範例顯示後風扇模組 0 (/CH/RFM0) 的 fault_state) 為 Faulted

    -> cd /CH/RFM0
    /CH/RFM0
    
    
    -> show
    /CH/RFM0
    Targets:
    	SERVICE
    	ACT
    	FAN1_OK
    	FAN2_OK
    	FAN1_SPEED
    	FAN2_SPEED
    
    
    Properties:
    	type = Rear Fan FRU
    	fault_state = Faulted 
    	clear_fault_action = (none)
    	prepare_to_remove_status = NotReady
    	prepare_to_remove_action = (none)
    	return_to_service_action = (none)
    ->

監視事件記錄

故障會記錄在系統事件記錄中,您可以從 ILOM Web 介面和 CLI 檢視此記錄。

透過 Web 介面檢視事件記錄

  1. 登入 ILOM Web 介面。

  2. 選取 [System Monitoring] 標籤。

  3. 選取 [Event Logs] 標籤。

    故障會列示故障類別、發生故障時的時間戳記,以及故障的說明。請注意,如果您要尋找最近發生的故障,它可能會在記錄結尾附近。故障項目看起來類似下列範例,它列出電源供應器 3 (/CH/PS3) 發生故障。

    4      Mon May  1 13:17:22 2006  FMA       Fault     critical
           Fault detected at time = Mon May  1 13:17:22 2006. The suspect component:
           /CH/PS3 has FAULT:powersupply_temperature_ps with probability=100

    如需尋找及解譯事件記錄內容的各項指示,請參閱檢視事件記錄

透過 CLI 視窗檢視事件記錄

  1. 開啟一個 ILOM CLI 視窗。

  2. 輸入下列指令,以檢視事件記錄:

    show /CMM/logs/event list

    您可以捲動整個記錄輸出,檢視其內容。故障項目看起來類似下列範例,它列出電源供應器 3 (/CH/PS3) 發生故障。

    4      Mon May  1 13:17:22 2006  FMA       Fault     critical
           Fault detected at time = Mon May  1 13:17:22 2006. The suspect component:
           /CH/PS3 has FAULT:powersupply_temperature_ps with probability=100

    如需尋找及解譯事件記錄內容的各項指示,請參閱檢視事件記錄