2


SMS 1.5 錯誤

本章提供有關 SMS 1.5 已知錯誤的資訊,其中包括:


SMS 1.5 軟體中的錯誤

本節摘錄了影響 SMS 1.5 的重要錯誤。

在備份 cpio 中存有超過 4095 個檔案將中斷 smsrestore (CR ID 6295142)

若是在 cpio 歸檔檔案中存有超過 4095 個檔案,smsrestore 指令將失敗。

解決方法是移除不需要的檔案,然後用 smsbackup 重新建立 cpio 歸檔檔案。最可能不需要的檔案是發佈記錄和傾印檔案。每個網域中可能有多達 1000 個發佈記錄和 1000 個傾印檔案。

向 NetConnect 報告的 FMA 事件未能取得已修改之機架序號 (CR ID 5052078)

若是 Sun Fire 高階伺服器在執行時未使用 setcsn 指令將其機架序號 (CSN) 設定在 SC 上,則在網域停止運作 (Dstop) 以後傳送至 NetConnect 的所有錯誤管理架構 (FMA) 報告將在其事件報告中顯示序號為空白。

解決方法:使用 setcsn 指令設定機架序號然後重新啟動 SMS。您必須重新啟動 SMS,CSN 才會出現在事件報告中。

欲取得關於在 SC 上設定機架序號的資訊,請參閱「System Management Services (SMS) 1.5 安裝指南」

ndd/dev/scman man_pathgroups_report 的輸出需要說明 (CR ID 6252771)

ndd(1M) 指令可以用 root 的身份執行,以讀取和寫入特定的裝置驅動程式參數。scman(7D) (ndd/dev/scman) 管理 Management (MAN) 網路中 Starcat SC 那一方,而且支援 ndd(1M) 指令。

如果未能正確解譯 scman(7D) 的 man_pathgroups_report 參數,則此參數看來似乎發生了嚴重的硬體錯誤,而其實該錯誤是軟體所造成的。結果可能導致不正確的結論而認為必須進行硬體交換以找出問題根源。

當您指定 man_pathgroups_report 參數時,便可以得到如下所示的輸出:


# ndd /dev/scman man_pathgroups_report
MAN Pathgroup report: (* == error)
Interface       Destination             Active Path     Alternate Paths
----------------------------------------------------------------
scman1          Other SSC               eri0 eri0 exp 0, hme1 exp 0 *

 

最後一行中的星號 (*) 代表「上一次使用 hme1 實體介面的時候,發生了一項錯誤」。根據以往的經驗,大部份的錯誤肇因於軟體而非硬體。

有兩種情況會導致軟體發生錯誤:MAN 網路對等端不再回應「活動訊號」訊息,或是 dlpi(7P) 狀態轉換發生錯誤。以 root 的身份執行下列指令,便會不斷製造上述情形 (假設確切的輸出如上所示):


# ndd -set /dev/scman man_set_active_path '1 0 1'

 

對執行該指令的 SC (例如:SC0) 而言,其使用中路徑從 eri0 切換為 hme1。此後的一段時間內,SC1 將會繼續在 eri0 實體介面上傳送資料封包,而 SC0 會繼續在 hme1 上傳送資料封包。一段時間以後,SC1 和 SC0 將使用相同的介面進行同步化及通訊。不過,每一個 SC 上都會顯示星號,以指出上一次發生錯誤的介面。在這種情形下,錯誤確實是由軟體所造成的 (即錯誤真的是對「活動訊號」訊息序列無回應)。這不是嚴重的硬體錯誤。

若是發生了永久的且嚴重的硬體錯誤,在輸出中仍然會顯示星號。不過,您不能假設硬體是星號所示問題的唯一可能原因。

showenvironment 報告表示網域 A 未指定任何板,並輸出報告 (CR ID 6299795)

若您在 Sun Fire 系統上的網域 A 中移除、安裝和指定板,然後使用 showenvironment 指令以及 -d A 選項,那麼指令將傳回一項錯誤訊息:

No board assigned to Domain A.

錯誤訊息有誤,可忽略之。這問題僅發生在網域 A。


SMS 1.5 文件勘誤

本節摘要說明 SMS 1.5 線上手冊與文件的錯誤。

rcfgadm(1M)

CR ID 4945049

rcfgadm(1M) 線上手冊中的備註應如下所述:

如果 rcfgadm 指令失敗,板不會回到其原始狀態。dxsdcs 錯誤訊息已記錄至網域中。若是錯誤可以回復,您可以重試該指令。

在您重試執行指令以前,請確認下列 dcs 項目存在於網域上的 /etc/inetd.conf 中,而且這些項目未被停用:


sun-dr stream tcp wait root /usr/lib/dcs dcs
sun-dr stream tcp6 wait root /usr/lib/dcs dcs

 

若是錯誤無法回復,您必須重新啟動網域以使用該板。

testemail(1M)

CR ID 5047803

-c 選項在 testemail(1M) 線上手冊中的說明應如下所述:

testemail 用來產生事件的錯誤類別或是以逗點分隔的錯誤類別清單。

-c 錯誤類別, 錯誤類別, 錯誤類別

有效錯誤類別的範例可從 /etc/opt/SUNWSMS/config/SF15000.dict 檔案中取得。

CR ID 6221370

「說明」一節的備註應如下所述:

當您使用 ecache 資源呼叫 testemail 時,請確認含有 ecache 的系統板已開啟電源。否則,testemail 的呼叫動作將失敗,且不會產生任何電子郵件。

System Management Services (SMS) 1.5 Administrator Guide

第 1 章,第 5 頁:

對 Sun Fire 高階系統而言,VCMON 的說明並不正確。正確的說明可從本文件中 VCMON 取得。

第 10 章,第 190 頁:

showboards 指令的說明中,-a 選項應改為 -v

showenvironment 指令的說明中,應該移除「裝置」種類。

第 11 章,第 201 頁:

第一個範例應如下所述:

showlogs -d 網域指示器 -p s

第二個範例則應該是:

showlogs -d 網域指示器 -p c

附錄 A,第 247 頁:

應該新增以下指令:

smsinstall:安裝 SMS 軟體。

smsupgrade:升級現在已安裝在系統上的 SMS 軟體。

附錄 B (CR 6227544, 4943474):

下列的錯誤訊息種類應該新增在錯誤代碼 11300 和 50000 之間:

11500-11699: 保留予 EFHD 訊息使用

11700-11899: 保留予 ELAD 訊息使用

11900-12099: 保留予 ERD 訊息使用

12100-12299: 保留予事件公用程式訊息使用

12300-12499: 保留予 Wcapp 訊息使用

12500-12699: 保留予 FRUID 相關的訊息使用

12700-12799: 保留予 EBD 訊息使用

System Management Services (SMS) 1.5 安裝指南

第 31 頁:

步驟 3 應該是:

執行 smsupgrade 指令以重新安裝 SMS。

第 45 頁:

步驟 2 之後應該有步驟 3,內容如下所述:

升級 Solaris 作業系統。請參閱第 31 頁的「要在 SC 上安裝或升級 Solaris 作業系統」。

步驟 3 之後應該有步驟 4,內容如下所述:

在進行重大作業系統升級以後,執行 smsupgrade 以重新安裝 SMS (請參閱第 32 頁)。不然,請繼續下一步驟並復原 SMS 配置。

「復原 SMS 軟體」的標題應改為「復原 SMS 配置。」