5

配合使用 Hardware Diagnostic Suite 和 Sun Management Center 警報

本章說明如何檢視和自訂 Sun Management Center 警報,以使其與 Hardware Diagnostic Suite 配合作業:



注意 - 本章中的程序假設 Hardware Diagnostic Suite 已在執行中,如第 3 章所述。


如需有關 Sun Management Center 警報的其他資訊,請參閱「 Sun Management Center 3.5 使用者指南」。


Sun Management Center 警報概觀

Sun Management Center 軟體可監視您的系統,並在發生異常情況時透過警報通知您。只要出現的情況不在預先定義的範圍內,都會觸發警報。

Hardware Diagnostic Suite 使用 Sun Management Center Hardware Diagnostic Suite 功能,針對您測試的主機,觸發並顯示警報情況。依預設,每個 Hardware Diagnostic Suite 測試階段作業錯誤訊息都會觸發 Sun Management Center 緊急警報。警報會顯示在 Sun Management Center 主控台中。另外,您可以定義哪些 Hardware Diagnostic 事件觸發 Sun Management Center 警報,亦可定義出現警報時執行的動作。

您可以配置 Sun Management Center,使它在觸發特定警報時傳送電子郵件,並在系統上執行 script,以進行某項動作。例如,如果 Hardware Diagnostic Suite 偵測到多重處理器系統中有一個 FPU 發生錯誤,此事件將觸發警報,並自動執行某個 script,將可疑的 CPU 置於離線狀態,同時立即傳送電子郵件通知給系統管理員。請參閱圖 5-7,以取得警報動作的流程圖。

發生警報情況時,Sun Management Center 會使用警報指標 (表 5-1) 向您發出警示。

表 5-1 警報指標

指標

嚴重程度

說明

 

黑色警報符號
 

1 當機

 

 

出現影響服務的情況,必須 立即 採取修正措施。例如,由 Sun Management Center 負責管理的物件出現故障,而它又是不可缺少的資源。

 

紅色警報符號
 

 

2 緊急

 

 

出現影響服務的情況,必須採取修正措施。當 Hardware Diagnostic Suite 測試階段作業偵測到硬體錯誤時,就會產生這種類型的錯誤。

 

黃色警報符號
 

 

3 警示

 

 

出現不至於影響服務的情況,但應該採取修正措施,以免出現更嚴重的錯誤。

 

 

藍色警報符號
 

 

4 小心

 

 

 

偵測到會影響服務的潛在故障或即將發生的故障,之後可能發生重大問題。

 

 

灰色警報符號
 

 

5 停用

 

 

某資源已停用。

表 5-2 描述顯示警報指標的 Sun Management Center 視窗。

表 5-2 警報指標的位置

警報指標位置

說明

Sun Management Center 主視窗

彩色警報指標會出現在階層結構視圖及拓樸視圖內的主機名稱旁邊。

 

此外,「領域狀況摘要」視窗中會顯示各類警報的統計數字 (視窗右上角的一組圓形彩色警報指標)。請參閱圖 3-2

「細節」視窗

 

一個小型的彩色警報指標會出現在「細節」視窗最上方、主機名稱的旁邊。

「細節」視窗
(「模組瀏覽器」標籤)

彩色警報指標會出現在產生警報的 Sun Management Center 模組旁邊。Hardware Diagnostic Suite 所產生的警報則出現在階層結構視圖及拓樸視圖內「本端應用程式」指標的旁邊。

「細節」視窗
(「警報」標籤)

此視窗會將所有警報指標 (未認可的和已認可的) 列於一個表格中。

警報資訊

「警報」標籤會顯示下列主機警報資訊:

表 5-3 警報表格說明

種類

說明

嚴重程度

圖形指標的顏色代表警報的嚴重程度,如表 5-1 所述。

指標旁邊若出現綠色勾選符號,表示該警報已經認可。如果沒有勾選符號,表示該警報未經認可。

開始時間

代表首度發生警報的時間。

狀態

如果出現一個「正在響」且打開的指標,表示引發警報的情況仍然存在。

如果出現一個「無聲」且關閉的指標,表示該情況已不復存在。

動作

表示該警報所執行的動作。

訊息

一則表示警報類型的簡短訊息。



程序圖示   檢視與認可警報

1. 在 Sun Management Center 主視窗中,於階層結構視圖或拓樸視圖內找到主機。

如果顯示警報指標 (表 5-1),則表示此警報情況未經認可,必須進一步調查。

主機名稱旁一次只能顯示一種警報指標。如果某主機有兩種或更多類型的警報指標,則較嚴重的未認可警報優先顯示在樹狀結構中。所有警報都會列示在 Sun Management Center 的警報視窗內。



注意 - Sun Management Center 會顯示各種不同事件的警報,顯示的警報並不都是由 Hardware Diagnostic Suite 測試階段作業產生的。





注意 - 根據 Sun Management Center 代理程式的配置,只有一個伺服器可從該代理程式接收警報資訊。



2. 如果發生警報,請遵循下列步驟來檢視和認可警報情況:

a. 在 Sun Management Center 的主視窗中,連按兩下主機以開啟「細節」視窗。

b. 選取「警報」標籤。

螢幕上會顯示「警報」視窗 (圖 5-1)。此視窗會顯示所有與此主機有關的警報。

圖 5-1 「警報」標籤

警報標籤和警報資料的螢幕快照。

3. 若要認可警報,請選取該警報,然後按一下勾選按鈕 勾選符號按鈕符號

此警報在「警報」標籤清單中標記為 已認可 。已認可的警報不會顯示於其他 Sun Management Center 視窗中。

在「 Sun Management Center 3.5 使用者指南 」中,可以找到有關 Sun Management Center 警報的其他資訊。


程序圖示   編輯 Hardware Diagnostic Suite 的警報臨界值

依預設,Sun Management Center 會掃描 Hardware Diagnostic Suite 的錯誤與資訊日誌檔,以確認是否出現 ERROR FATAL 文字型態。如果偵測到此類文字型態,就會產生警報。您可以修改錯誤情況標準,也可以建立自己的型態,以便在記錄了這樣的情況或型態之後,也能產生警報。

1. 在 Sun Management Center 主視窗中,找到您要設定或修改警報情況的主機,開啟該主機的「細節」視窗。(請參閱圖 3-3。)

2. 選取「細節」視窗的「模組瀏覽器」標籤。

3. 在拓樸視圖內,連按兩下「本端應用程式」圖示。

4. 在拓樸視圖內,連按兩下「Hardware Diagnostic Suite」圖示。

5. 在拓樸視圖內,連按兩下「Hardware Diagnostic Suite 代理程式」圖示。

螢幕上將顯示 Hardware Diagnostic Suite 代理程式的屬性 (圖 5-2)。

圖 5-2 Hardware Diagnostic Suite 代理程式的屬性

「硬體診斷代理程式」視窗的螢幕快照。其中一個表格顯示了代理程式屬性,另一個表格顯示了型態名稱和說明。

表 5-4 說明這些屬性。

表 5-4 Hardware Diagnostic Suite 代理程式的屬性

表格名稱

列/欄

說明

Hardware Diagnostic Suite 代理程式

HWDS UDP 連接埠

用於 Hardware Diagnostics 代理程式與伺服器之間的通訊。

Hardware Diagnostic 錯誤

 

型態名稱

指定型態名稱屬性。型態名稱是該表的索引鍵,必須是唯一的。Hardware Diagnostic Suite 錯誤的預設型態名稱為:

  • diag_error - 此型態掃描 Hardware Diagnostic Suite 測試階段作業的錯誤訊息。
  • diag_fatal - 此型態掃描 Hardware Diagnostic Suite 測試階段作業的嚴重錯誤訊息。

 

型態說明

指定 regexp 型態的說明。Hardware Diagnostic Suite 的說明為:

偵測到硬體錯誤
硬體故障

 

Regexp 型態

定義產生警報的型態。

Hardware Diagnostic Suite 的預設型態為:

ERROR - 當 Hardware Diagnostic Suite 日誌檔中出現此型態時,表示發生必須修正的硬體錯誤。此錯誤可能緣於缺少媒體、纜線鬆脫或是連接中斷。

FATAL - 出現此型態時,表示硬體故障無法復原。Hardware Diagnostic Suite 測試可能偵測到資料比較錯誤或硬體錯誤。

請參閱表 4-3,以取得有關 Hardware Diagnostic Suite 錯誤類型的說明。

 

符合項數

顯示比對之後相符的型態數目。當此數字與警報臨界值相符時,就會觸發警報。此表格儲存格也可用來定義警報臨界值,如步驟 6步驟 9 所述。


6. 透過按一下「Regexp 型態」表格儲存格,選取 ERROR 或 FATAL 資料屬性。(請參閱表 4-1,以取得錯誤類型的說明。)

7. 透過執行下列其中一項動作,開啟「屬性編輯程式」:

初始出現的「屬性編輯程式」畫面會顯示該屬性的相關資訊。您不能在此畫面中編輯警報的屬性。

8. 選取「屬性編輯程式」中的「警報」標籤。

螢幕上會顯示警報畫面 (圖 5-3)。您可在此畫面設定警報臨界值。

圖 5-3 屬性編輯程式,「警報」畫面

「屬性編輯程式」的「警報」畫面之螢幕快照。[ D ]

9. 在警報臨界值欄位中輸入適當的數字,以定義想要的警報臨界值。

警報臨界值根據出現的型態相符數目,決定要產生的警報類型 (表 5-5)。

表 5-5 警報臨界值

可輸入新值的欄位

說明

緊急臨界值

請指定一個整數。如果型態符合項數超過此值,就會產生「緊急」(紅色) 警報。

警告臨界值

請指定一個整數。如果型態符合項數超過此值,就會產生「警示」(黃色) 警報。

資訊臨界值

請指定一個整數。如果型態符合項數超過此值,就會產生「小心」(藍色) 警報。

警報視窗

警報只會在這段時間內發生。例如,如果鍵入 day_of_week=fri ,則僅在星期五出現警報情況時才會發出警報。如果警報情況發生在星期二,並不會記錄任何警報。

例如,選取 FATAL 型態 Regexp 欄位的屬性編輯程式時,可輸入值 3、2 和 1,分別表示緊急臨界值、警報臨界值和資訊臨界值。

當 Hardware Diagnostic Suite 測試階段作業記錄嚴重錯誤時,會立即顯示如下警報類型:

diag_error diag_fatal 型態的預設臨界值為:

若要將臨界值重設為 Hardware Diagnostic Suite 的預設值,請在各欄位中輸入空白。

 

 

程序圖示  建立您自己的警報觸發條件

Sun Management Center Hardware Diagnostic Suite 可讓您建立自己的型態:當 Hardware Diagnostic Suite 錯誤日誌檔中出現您定義的型態時,便會觸發警報。

1. 開啟 Hardware Diagnostic Suite 資料夾。

如需有關執行此動作的指示,請參閱編輯 Hardware Diagnostic Suite 的警報臨界值中的步驟 1步驟 5

2. 若要增加可產生警報情況的新 Hardware Diagnostic Suite 日誌檔型態,請執行下列步驟:

a. 在 Hardware Diagnostic 錯誤表格中的任意位置按一下滑鼠右鍵,從即現式功能表中選取「新增列」。

螢幕上會出現「新增列」對話方塊 (圖 5-4)。

圖5-4 Sun Management Center 的「新增列」對話方塊

「新增列」對話方塊的螢幕快照。欄位為「型態名稱」、「Regexp 型態」和「型態說明」。按鈕為「確定」、「套用」、「重設」、和「取消」。

b. 根據表 5-6 中的說明,在各欄位內輸入資訊。

請參閱表 5-4,以取得這些欄位的詳細說明。

表 5-6 「新增列」對話方塊欄位說明

欄位名稱

說明

型態名稱

指定您要建立的警報情況之名稱。

Regexp 型態

指定產生警報情況的規則表達式 (型態)。

型態說明

指定 Regexp 型態的說明。


c. 完成以下其中一項動作:

d. 建立警報臨界值,以定義觸發的警報類型。

如需有關執行此動作的指示,請參閱編輯 Hardware Diagnostic Suite 的警報臨界值

套用您所作的變更後,新增的列就會插入表格內。如果 Hardware Diagnostic Suite 測試階段作業記錄的訊息包含您指定的型態,將會對該主機發出警報。


程序圖示  建立警報動作

依預設,當偵測到 Error 或 Fatal 錯誤時,Hardware Diagnostic Suite 會向超級使用者發送電子郵件。不過,您可以自訂警報動作以執行其他作業,例如執行 script。



注意 - 執行這些 script 要求擁有超級使用者許可權。



1. 開啟 Hardware Diagnostic Suite 資料夾。

如需有關執行此動作的指示,請參閱編輯 Hardware Diagnostic Suite 的警報臨界值中的步驟 1步驟 5

2. 在 Hardware Diagnostic 錯誤表格中,開啟 Regexp 型態表格儲存格的「屬性編輯程式」。

如需有關執行此動作的指示,請參閱編輯 Hardware Diagnostic Suite 的警報臨界值中的步驟 6步驟 7

3. 選取「屬性編輯程式」內的「動作」標籤。

螢幕上會顯示「動作」功能表,如圖 5-5 所示。表 5-7 說明其欄位。

圖 5-5 屬性編輯程式,「動作」標籤

「屬性編輯程式」的「動作」畫面之螢幕快照。[ D ]

 

表 5-7 「動作」標籤欄位說明

欄位

說明

緊急動作

 

指定出現緊急 (紅色) 警報時應執行的動作。

警示動作

 

指定出現警示 (黃色) 警報時應執行的動作。

小心動作

 

指定出現小心 (藍色) 警報時應執行的動作。

不確定動作

指定出現「不確定」指標時應執行的動作。具有不確定狀態的物件旁會出現黑色的星形或「潑濺」符號。此情況沒有警報那麼嚴重。

關閉動作

 

指定警報關閉時應執行的動作。

變更動作

 

指定發生任何變數變更時應執行的動作 (不論是否產生警報)。

4. 在動作欄位新增動作。



注意 - 預設配置為在發生任何 Hardware Diagnostic Suite 緊急警報時均向超級使用者發送電子郵件。如果要修改或建立其他動作,您只需在動作欄位內新增動作即可。



一個動作欄位內只能指定一個動作。若要執行多個動作 (例如,發送電子郵件 執行 script),則必須在不同欄位中指定這些動作。以下範例說明如何指定多個動作。

a. 按一下所選層級 (緊急、警示等) 旁邊的「動作」按鈕。

螢幕上會顯示「動作選擇」視窗 (圖 5-6)。

b. 指定電子郵件的收件人。

圖5-6 指定電子郵件位址的動作欄位

「動作選擇」畫面的螢幕快照。選項有發送電子郵件、以及執行 Scritp 或清除動作等其他動作。

一個電子郵件收件人 (在本範例中為 admin@shift1 ) 即加入「警示動作」欄位中。

在本範例中,預設動作是 緊急動作:向超級使用者發送電子郵件 。在下一個步驟中,緊急動作將會被重新定義為執行 script。只要將電子郵件收件人加入「警示動作」欄位內,警報就會發出電子郵件並執行 script。

依預設,Hardware Diagnostic Suite 不會產生「警示」警報。為使此範例能夠運作,您必須同時設定「警示」情況的警報臨界值。請參閱編輯 Hardware Diagnostic Suite 的警報臨界值

在本範例中,無論何時出現任何嚴重錯誤的警示警報,都會發送下列電子郵件至收件人:

Date:Tue, 12 Oct 1999 15:25:39 -0800

From:root@Payroll2 (0000-Admin(0000))

Mime-Version:1.0

 

Sun Management Center alarm action notification ...{Alert:

Payroll2 File Scanning Hardware Error Detected Matches > 1}

c. 若要建立一個動作,以在發生 Hardware Diagnostic Suite 緊急警報時執行 script,請執行下列步驟:

i. 將 script 放置於 /var/opt/SUNWsymon/bin 目錄下,並確定已設定執行許可權。



注意 - 該 script 必須位於 /var/opt/SUNWsymon/bin 目錄中,您才能從「動作選擇」下拉式功能表中選取它。執行此 script 必須擁有超級使用者權限。


ii. 從「可用的 Script」下拉式功能表中選取該 script。

iii. 在功能表中按一下「確定」。

在本範例中,管理員編寫了一個 script ( /var/opt/SUNWsymon/bin/edproc.sh),它執行的程式使用 p_online() 系統呼叫在多重處理器系統上停用一個處理器。管理員同時建立了新的警報觸發條件:在 Hardware Diagnostic Suite 測試階段作業中,若偵測到嚴重的 FPU 錯誤,即發出警報。

同時,這些自訂警報設定將產生圖 5-7 中流程圖所示的結果。

圖 5-7 警報動作流程圖

自訂警報過程的流程圖。[ D ]

5. 在「屬性編輯程式」中,執行以下其中一項動作來完成此程序: