第 5 章 |
配合使用 Hardware Diagnostic Suite 和 Sun Management Center 警報 |
本章說明如何檢視和自訂 Sun Management Center 警報,以使其與 Hardware Diagnostic Suite 配合作業:
注意 - 本章中的程序假設 Hardware Diagnostic Suite 已在執行中,如第 3 章所述。 |
如需有關 Sun Management Center 警報的其他資訊,請參閱「 Sun Management Center 3.5 使用者指南」。
Sun Management Center 警報概觀Sun Management Center 軟體可監視您的系統,並在發生異常情況時透過警報通知您。只要出現的情況不在預先定義的範圍內,都會觸發警報。
Hardware Diagnostic Suite 使用 Sun Management Center Hardware Diagnostic Suite 功能,針對您測試的主機,觸發並顯示警報情況。依預設,每個 Hardware Diagnostic Suite 測試階段作業錯誤訊息都會觸發 Sun Management Center 緊急警報。警報會顯示在 Sun Management Center 主控台中。另外,您可以定義哪些 Hardware Diagnostic 事件觸發 Sun Management Center 警報,亦可定義出現警報時執行的動作。
您可以配置 Sun Management Center,使它在觸發特定警報時傳送電子郵件,並在系統上執行 script,以進行某項動作。例如,如果 Hardware Diagnostic Suite 偵測到多重處理器系統中有一個 FPU 發生錯誤,此事件將觸發警報,並自動執行某個 script,將可疑的 CPU 置於離線狀態,同時立即傳送電子郵件通知給系統管理員。請參閱圖 5-7,以取得警報動作的流程圖。
發生警報情況時,Sun Management Center 會使用警報指標 (表 5-1) 向您發出警示。
![]() |
出現影響服務的情況,必須 立即 採取修正措施。例如,由 Sun Management Center 負責管理的物件出現故障,而它又是不可缺少的資源。 |
|
![]() |
出現影響服務的情況,必須採取修正措施。當 Hardware Diagnostic Suite 測試階段作業偵測到硬體錯誤時,就會產生這種類型的錯誤。 |
|
![]() |
||
![]() |
||
![]() |
表 5-2 描述顯示警報指標的 Sun Management Center 視窗。
彩色警報指標會出現在階層結構視圖及拓樸視圖內的主機名稱旁邊。 此外,「領域狀況摘要」視窗中會顯示各類警報的統計數字 (視窗右上角的一組圓形彩色警報指標)。請參閱圖 3-2。 |
|
彩色警報指標會出現在產生警報的 Sun Management Center 模組旁邊。Hardware Diagnostic Suite 所產生的警報則出現在階層結構視圖及拓樸視圖內「本端應用程式」指標的旁邊。 |
|
圖形指標的顏色代表警報的嚴重程度,如表 5-1 所述。 |
|
1. 在 Sun Management Center 主視窗中,於階層結構視圖或拓樸視圖內找到主機。
如果顯示警報指標 (表 5-1),則表示此警報情況未經認可,必須進一步調查。
主機名稱旁一次只能顯示一種警報指標。如果某主機有兩種或更多類型的警報指標,則較嚴重的未認可警報優先顯示在樹狀結構中。所有警報都會列示在 Sun Management Center 的警報視窗內。
注意 - Sun Management Center 會顯示各種不同事件的警報,顯示的警報並不都是由 Hardware Diagnostic Suite 測試階段作業產生的。 |
a. 在 Sun Management Center 的主視窗中,連按兩下主機以開啟「細節」視窗。
螢幕上會顯示「警報」視窗 (圖 5-1)。此視窗會顯示所有與此主機有關的警報。
此警報在「警報」標籤清單中標記為 已認可 。已認可的警報不會顯示於其他 Sun Management Center 視窗中。
在「 Sun Management Center 3.5 使用者指南 」中,可以找到有關 Sun Management Center 警報的其他資訊。
依預設,Sun Management Center 會掃描 Hardware Diagnostic Suite 的錯誤與資訊日誌檔,以確認是否出現 ERROR 或 FATAL 文字型態。如果偵測到此類文字型態,就會產生警報。您可以修改錯誤情況標準,也可以建立自己的型態,以便在記錄了這樣的情況或型態之後,也能產生警報。
1. 在 Sun Management Center 主視窗中,找到您要設定或修改警報情況的主機,開啟該主機的「細節」視窗。(請參閱圖 3-3。)
4. 在拓樸視圖內,連按兩下「Hardware Diagnostic Suite」圖示。
5. 在拓樸視圖內,連按兩下「Hardware Diagnostic Suite 代理程式」圖示。
螢幕上將顯示 Hardware Diagnostic Suite 代理程式的屬性 (圖 5-2)。
表 5-4 說明這些屬性。
指定型態名稱屬性。型態名稱是該表的索引鍵,必須是唯一的。Hardware Diagnostic Suite 錯誤的預設型態名稱為: |
||
Hardware Diagnostic Suite 的預設型態為: ERROR - 當 Hardware Diagnostic Suite 日誌檔中出現此型態時,表示發生必須修正的硬體錯誤。此錯誤可能緣於缺少媒體、纜線鬆脫或是連接中斷。 FATAL - 出現此型態時,表示硬體故障無法復原。Hardware Diagnostic Suite 測試可能偵測到資料比較錯誤或硬體錯誤。 請參閱表 4-3,以取得有關 Hardware Diagnostic Suite 錯誤類型的說明。 |
||
顯示比對之後相符的型態數目。當此數字與警報臨界值相符時,就會觸發警報。此表格儲存格也可用來定義警報臨界值,如步驟 6 至步驟 9 所述。 |
6. 透過按一下「Regexp 型態」表格儲存格,選取 ERROR 或 FATAL 資料屬性。(請參閱表 4-1,以取得錯誤類型的說明。)
初始出現的「屬性編輯程式」畫面會顯示該屬性的相關資訊。您不能在此畫面中編輯警報的屬性。
螢幕上會顯示警報畫面 (圖 5-3)。您可在此畫面設定警報臨界值。
9. 在警報臨界值欄位中輸入適當的數字,以定義想要的警報臨界值。
警報臨界值根據出現的型態相符數目,決定要產生的警報類型 (表 5-5)。
警報只會在這段時間內發生。例如,如果鍵入 day_of_week=fri ,則僅在星期五出現警報情況時才會發出警報。如果警報情況發生在星期二,並不會記錄任何警報。 |
例如,選取 FATAL 型態 Regexp 欄位的屬性編輯程式時,可輸入值 3、2 和 1,分別表示緊急臨界值、警報臨界值和資訊臨界值。
當 Hardware Diagnostic Suite 測試階段作業記錄嚴重錯誤時,會立即顯示如下警報類型:
diag_error 與 diag_fatal 型態的預設臨界值為:
若要將臨界值重設為 Hardware Diagnostic Suite 的預設值,請在各欄位中輸入空白。
Sun Management Center Hardware Diagnostic Suite 可讓您建立自己的型態:當 Hardware Diagnostic Suite 錯誤日誌檔中出現您定義的型態時,便會觸發警報。
1. 開啟 Hardware Diagnostic Suite 資料夾。
如需有關執行此動作的指示,請參閱編輯 Hardware Diagnostic Suite 的警報臨界值中的步驟 1 至步驟 5。
2. 若要增加可產生警報情況的新 Hardware Diagnostic Suite 日誌檔型態,請執行下列步驟:
a. 在 Hardware Diagnostic 錯誤表格中的任意位置按一下滑鼠右鍵,從即現式功能表中選取「新增列」。
螢幕上會出現「新增列」對話方塊 (圖 5-4)。
b. 根據表 5-6 中的說明,在各欄位內輸入資訊。
請參閱表 5-4,以取得這些欄位的詳細說明。
如需有關執行此動作的指示,請參閱編輯 Hardware Diagnostic Suite 的警報臨界值。
套用您所作的變更後,新增的列就會插入表格內。如果 Hardware Diagnostic Suite 測試階段作業記錄的訊息包含您指定的型態,將會對該主機發出警報。
依預設,當偵測到 Error 或 Fatal 錯誤時,Hardware Diagnostic Suite 會向超級使用者發送電子郵件。不過,您可以自訂警報動作以執行其他作業,例如執行 script。
1. 開啟 Hardware Diagnostic Suite 資料夾。
如需有關執行此動作的指示,請參閱編輯 Hardware Diagnostic Suite 的警報臨界值中的步驟 1 至步驟 5。
2. 在 Hardware Diagnostic 錯誤表格中,開啟 Regexp 型態表格儲存格的「屬性編輯程式」。
如需有關執行此動作的指示,請參閱編輯 Hardware Diagnostic Suite 的警報臨界值中的步驟 6 至步驟 7。
螢幕上會顯示「動作」功能表,如圖 5-5 所示。表 5-7 說明其欄位。
注意 - 預設配置為在發生任何 Hardware Diagnostic Suite 緊急警報時均向超級使用者發送電子郵件。如果要修改或建立其他動作,您只需在動作欄位內新增動作即可。 |
一個動作欄位內只能指定一個動作。若要執行多個動作 (例如,發送電子郵件 和 執行 script),則必須在不同欄位中指定這些動作。以下範例說明如何指定多個動作。
a. 按一下所選層級 (緊急、警示等) 旁邊的「動作」按鈕。
螢幕上會顯示「動作選擇」視窗 (圖 5-6)。
一個電子郵件收件人 (在本範例中為 admin@shift1 ) 即加入「警示動作」欄位中。
在本範例中,預設動作是 緊急動作:向超級使用者發送電子郵件 。在下一個步驟中,緊急動作將會被重新定義為執行 script。只要將電子郵件收件人加入「警示動作」欄位內,警報就會發出電子郵件並執行 script。
依預設,Hardware Diagnostic Suite 不會產生「警示」警報。為使此範例能夠運作,您必須同時設定「警示」情況的警報臨界值。請參閱編輯 Hardware Diagnostic Suite 的警報臨界值。
在本範例中,無論何時出現任何嚴重錯誤的警示警報,都會發送下列電子郵件至收件人:
Date:Tue, 12 Oct 1999 15:25:39 -0800 From:root@Payroll2 (0000-Admin(0000)) |
c. 若要建立一個動作,以在發生 Hardware Diagnostic Suite 緊急警報時執行 script,請執行下列步驟:
i. 將 script 放置於 /var/opt/SUNWsymon/bin 目錄下,並確定已設定執行許可權。
注意 - 該 script 必須位於 /var/opt/SUNWsymon/bin 目錄中,您才能從「動作選擇」下拉式功能表中選取它。執行此 script 必須擁有超級使用者權限。 |
ii. 從「可用的 Script」下拉式功能表中選取該 script。
在本範例中,管理員編寫了一個 script ( /var/opt/SUNWsymon/bin/edproc.sh),它執行的程式使用 p_online() 系統呼叫在多重處理器系統上停用一個處理器。管理員同時建立了新的警報觸發條件:在 Hardware Diagnostic Suite 測試階段作業中,若偵測到嚴重的 FPU 錯誤,即發出警報。
同時,這些自訂警報設定將產生圖 5-7 中流程圖所示的結果。
Copyright © 2003, Sun Microsystems, Inc. All rights reserved.