2


SMS 1.5 錯誤

本章提供已知的 SMS 1.5 錯誤與 SMS 修補程式 (支援 UltraSPARC IV+ 處理器) 中已修正的錯誤之相關資訊。本章包含以下小節:


此更新中的錯誤修正

本節列出 SMS 1.5 軟體中的錯誤,以及與支援 UltraSPARC IV+ 處理器的 SMS 修補程式相關之已修正錯誤。



備註 - 需要安裝修補程式 120648-02 以支援 UltraSPARC IV+ 處理器。



增強 UltraSPARC IV+ CPU 錯誤處理的功能 (CR ID 6257778)

修補程式 120843-01 增強了 OpenBoottrademark PROM 的錯誤處理與回復能力,以便涵蓋 UltraSPARC IV+ 處理器。

prtdiag 表示 C5 插槽的錯誤匯流排頻率 (CR ID 6286277)

在您將卡熱插接到插槽 1 (c5v0) 並重新啟動系統以後,prtdiag 顯示已插卡插槽的正確匯流排頻率,但是卻未正確地報告其他空插槽的匯流排頻率。這項錯誤已在修補程式 120843-01 中修正。

在具有雙核心 UltraSPARC IV+ 的 Starcat 系統上,「PCI IOC ECC 測試」在 -l64 或更高處失敗 (CR ID 6255743)

在安裝了雙核心 UltraSPARC IV+ 板的 Sun Fire E25K/E20K 系統上,lpost 可能會在診斷層級 64、96 或 127 失敗。出現失敗時,lpost 會傳回下列錯誤訊息:


{SB03/P0/C1} ERROR: TEST=PCI IOC Ecc Tests,SUBTEST=PCI IOC ECC 

 

修補程式 120648-02 已修正這項問題。

修改 hpost 以支援 1500 MHz 的 UltraSPARC IV+ GA (CR ID 6270911)

需要修改 SMS 1.5 中的 hpost 以支援 UltraSPARC IV+ 板。修補程式 120648-02 將執行這項修改。

hpost -q 從 Solaris 重新啟動時失敗,因為「逾時後無法配置」 (CR ID 6324035)

有時候,若您重新啟動 UltraSPARC IV+ 板上某個網域,在 UltraSPARC IV+ 板上執行 Solaris 9 4/04 作業系統的 Sun Fire E25K/E20K 系統會發生逾時。系統將傳回下列錯誤訊息:

 


Proccore SB0/P0/C0 timed out on test Domain Advanced Tests id=0x6F. Test Failed.FAIL Proccore SB0/P0/C0: test_seq_cwd(): failed out of config on timeout
 
(Timeout Secs Given: 30)

 

修補程式 120648-02 將修正這項問題。

UltraSPARC IV+ 版本 2.1 的早期產品應該僅限內部使用 (CR 6292571)

第一個發行供客戶系統使用的 UltraSPARC IV+ 處理器的版本是 2.1.1。修補程式 120648-02 修改了 POST 以偵測不合客戶使用規格的較早版本 2.1 處理器,取消其配置。

請注意版本 2.1 和 2.1.1 無法用 MaskID 加以區別,因為兩者的 MaskID 都是 2.1。POST 可根據其他電子式可讀資訊來區別它們。

UltraSPARC IV+: PN 1500 MHz 上的 marginvoltage vcore 負值未顯示正確的容限電壓 (CR 6288445)

這項錯誤僅發生在 1500 MHz UltraSPARC IV+ 板。有時候,使用 marginvoltage 指令以及 -m-1 選項將傳回不正確的值。若您稍後再次發出該指令,則傳回正確的值。這項錯誤已在修補程式 120789-01 中修正。

UltraSPARC IV+: UltraSPARC IV+ vcore 的 marginvoltage 輸出格式不正確 (CR 6290143)

這項錯誤僅發生在 1500 MHz UltraSPARC IV+ 板。當您使用 marginvoltage 指令並搭配 -m-1-m+1 選項時,系統會傳回不正確的輸出格式。例如,使用 -m+1 指令會傳回 UltraSPARC IV+ 板上的 Nom (電壓) 而不是 Nom+3% (電壓) 之已變更的值,但是相同的指令在 UltraSPARC IV 和 UltraSPARC III 板上則會傳回正確的輸出。修補程式 120789-01 會修正這項問題。

RFE: AVL-FS2 (Starcat): 為新的 UltraSPARC IV+ CPU 錯誤提供診斷結果 (CR ID 6277467)

UltraSPARC IV+ 處理器包含其他錯誤偵測和 RAS 功能,而這些功能已超越 UltraSPARC IV 和 III+ 處理器原有功能。此 CR 說明 Availability (可用性) 軟體功能已經增強,以診斷 UltraSPARC IV+ 可能報告的新錯誤。有了這項增強功能,Availability (可用性) 軟體將對所有類型的處理器之嚴重錯誤,以及 Solaris 9 網域的非嚴重性錯誤進行診斷。修補程式 120827-01 提供這項增強功能。

SC CPU 必須處理在非 FMA 網域上的 L3/L2 快取記憶體錯誤以避免造成處理器告發 (CR ID 6302265)

UltraSPARC IV+ 晶片具有三個層級的快取記憶體。層級 2 和 3 是指資料快取記憶體,層級 2 是處理器內部的快取記憶體,而層級 3 則是處理器外部的快取記憶體。

有時候一項錯誤會產生如同副作用的其他錯誤。無論錯誤發生在資料快取記憶體的哪一層級,Availability (可用性) 軟體會診斷錯誤的根本原因而捨棄副作用型的一個或多個錯誤。這麼做不僅有助於診斷,也確保發生問題的元件不是因為副作用型錯誤而被告發。修補程式 120827-01 會修正這種情形。

hwad 連續傳送 Dstop 事件造成延遲及不正確的 dsmd ASR (CR ID 6302843)

在執行多個網域的系統上, hwad 必須對每一個執行中的網域發出一項 dstop (網域停止) 事件,才可以使用 dsmd 來回復發生錯誤情形以後的網域。由於連續發出這些 dstop 事件,在最初發出 dstop 的時間與所有網域已回復的時間上會出現延遲現象。

修補程式 120789-01 修正了這項問題,dstop 現在使用不同的執行緒向網域同時發出事件,因而消除了延遲。

CPU 事件的可調整 SERD 在 S9U8、S10U1/FMA 和 SMS 1.5 之間並不一致 (CR ID 6309365)

要顧及 UltraSPARC IV+ 處理器中的其他快取記憶體層級,SC 方面的 SERD (Soft Error Rate Discriminator,軟性錯誤等級區別程式) 需要不同的臨界值,以配合 Solaris 9 網域上現有的臨界值。若末調整,網域會在 SC 方面進行診斷以前將處理器設為離線,而且處理器的運作狀態不會正確更新。

修補程式 120827-01 將修正此問題,使得兩個作業系統版本之間,以及在所有受支援的處理器類型的 SMS 1.5 軟體之間的診斷一致。


SMS 1.5 軟體中的已知錯誤

本節摘要地說明影響 SMS 1.5 的重大錯誤。

向 NetConnect 報告的 FMA 事件未取得已修改的機架序號 (CR ID 5052078)

若是 Sun Fire 高階伺服器在執行時未使用 setcsn 指令將其機架序號 (CSN) 設定在 SC 上,則在網域停止運作 (Dstop) 以後傳送至 NetConnect 的所有錯誤管理架構 (Fault Management Architecture, FMA) 報告將在其事件報告中顯示序號為空白。

解決方法:使用 setcsn 指令設定機架序號然後重新啟動 SMS。您必須重新啟動 SMS,CSN 才會出現在事件報告中。

如需有關如何在 SC 上設定機架序號的更多資訊,請參閱「System Management Services (SMS) 1.5 安裝指南」

ndd/dev/scman man_pathgroups_report 的輸出需要說明 (CR ID 6252771)

ndd(1M) 指令可以 root 身份執行以便讀取和寫入特定裝置驅動程式參數。scman(7D) (ndd/dev/scman) 管理 Sun Fire E25K/E20K SC 方面的管理 (MAN) 網路,而且支援 ndd(1M) 指令。

如果未能正確解譯 scman(7D) 的 man_pathgroups_report 參數,則此參數看來似乎發生了嚴重的硬體錯誤,而其實該錯誤是軟體所造成的。結果可能導致不正確的結論而認為必須進行硬體交換以找出問題根源。

當您指定 man_pathgroups_report 參數時,即可得到以下的輸出:


# ndd /dev/scman man_pathgroups_report
MAN Pathgroup report: (* == error)
Interface       Destination             Active Path     Alternate Paths
----------------------------------------------------------------
scman1          Other SSC               eri0 eri0 exp 0, hme1 exp 0 *

 

最後一行中的星號 (*) 代表「上一次使用 hme1 實體介面的時候,發生了一項錯誤」。根據以往的經驗,大部份的錯誤肇因於軟體而非硬體。

有兩種情況會導致軟體發生錯誤:MAN 網路對等端不再回應「活動訊號」訊息,或是 dlpi(7P) 狀態轉換發生錯誤。以 root 的身份執行下列指令會不斷製造上述情形 (假設確切的輸出如上所示):


# ndd -set /dev/scman man_set_active_path '1 0 1'

 

對執行該指令的 SC (例如:SC0) 而言,其使用中路徑從 eri0 切換為 hme1。此後的一段時間內,SC1 將會繼續在 eri0 實體介面上傳送資料封包,而 SC0 會繼續在 hme1 上傳送資料封包。一段時間以後,SC1 和 SC0 將使用相同的介面進行同步化及通訊。不過,每一個 SC 上都會顯示星號,以指出上一次發生錯誤的介面。在這種情形下,錯誤確實是由軟體所造成的 (即錯誤真的是對「活動訊號」訊息序列無回應)。這不是嚴重的硬體錯誤。

若是發生了永久且嚴重的硬體錯誤,在輸出中仍然會顯示星號。不過,您不能假設星號所示問題的唯一可能原因是硬體。


SMS 1.5 文件勘誤

本節摘要說明 SMS 1.5 線上手冊與文件的錯誤。

marginvoltage(1M)

marginvoltage 線上手冊有如下聲明:

邊界設定將隨著電源關閉再開的循環而變動。

該聲明僅適用於核心電壓。其他所有設定都是固定的。

rcfgadm(1M)

CR ID 4945049

rcfgadm(1M) 線上手冊中的備註應如下所述:

如果 rcfgadm 指令失敗,板不會回到其原始狀態。dxsdcs 錯誤訊息已記錄至網域中。若是錯誤可以回復,您可以重試該指令。

single-step bullet若您在網域上執行 Solaris 8 或 Solaris 9 作業系統,請執行以下檢查:

1. 在您重試執行指令以前,請確認下列 dcs 項目存在於網域上的 /etc/inetd.conf 中,而且這些項目未被停用。


sun-dr stream tcp wait root /usr/lib/dcs dcs
sun-dr stream tcp6 wait root /usr/lib/dcs dcs

 

2. 若是錯誤無法回復,您必須重新啟動網域以使用該板。

single-step bullet若您在網域上執行 Solaris 10 作業系統,dcs 現在已是 SMF (服務管理功能,Service Management Facility) 的一部份。請執行以下步驟:

1. 請確認您是以 root 的身份登入。

2. 請在網域上的系統提示符號處鍵入以下指令:


# inetadm | grep dcs
 
disabled disabled svc: /platform/sun4u/dcs: default

 

3. 如果 dcs 已被停用 (如同上述範例所示),請鍵入以下指令將其啟用:


# svcadm enable svc:/platform/sun4u/dcs:tcp

 

testemail(1M)

CR ID 5047803

-c 選項在 testemail(1M) 線上手冊中的說明應如下所述:

testemail 用來產生事件的錯誤類別或是以逗點分隔的錯誤類別清單。

-c 錯誤類別, 錯誤類別, 錯誤類別

有效錯誤類別的範例可從 /etc/opt/SUNWSMS/config/SF15000.dict 檔案中取得。

CR ID 6221370

「說明」一節的備註應如下所述:

當您使用 Ecache 資源呼叫 testemail 時,請確認含有 Ecache 的系統板已開啟電源。否則,testemail 的呼叫動作將失敗,且不會產生任何電子郵件。

System Management Services (SMS) 1.5 Administrator Guide

第 1 章,第 5 頁:

VCMON 的說明應如下:

已將電壓核心監視參數 (VCMON) 新增到 SMS 軟體。在啟用 VCMON 的時候,它將監視處理器上的所有電壓變化或電壓漂移。若 VCMON 偵測到電壓上升的變化 (通常表示插槽連結的問題),它會以 FMA 事件通知使用者,並將該處理器的元件運作狀況 (CHS) 標記為有問題。

第 10 章,第 190 頁:

showboards 指令的說明中,-a 選項應改為 -v

showenvironment 指令的說明中,應該移除「裝置」種類。

第 11 章,第 201 頁:

第一個範例應如下所述:

showlogs -d 網域指示器 -p s

第二個範例則應該是:

showlogs -d 網域指示器 -p c

附錄 A,第 247 頁:

應該新增以下指令:

smsinstall:安裝 SMS 軟體。

smsupgrade:升級現在已安裝在系統上的 SMS 軟體。

附錄 B (CR 6227544, 4943474):

下列的錯誤訊息種類應該新增在錯誤代碼 11300 和 50000 之間:

11500-11699:保留予 EFHD 訊息使用

11700-11899:保留予 ELAD 訊息使用

11900-12099:保留予 ERD 訊息使用

12100-12299:保留予 Event Utilities (事件公用程式) 訊息使用

12300-12499:保留予 Wcapp 訊息使用

12500-12699:保留予 FRUID 相關的訊息使用

12700-12799:保留予 EBD 訊息使用

System Management Services (SMS) 1.5 安裝指南

第 5 頁:

「硬體相容性」表格 (表 1-2) 應將 Solaris 8 2/02 列示為第一個同時受網域和系統控制器支援的 Solaris 8 軟體版本。

此表列出的 1.65 MHz UltraSPARC 處理器為內容輸入的錯誤,正確的速度應該是 1.5 MHz。

SMS 1.5 支援 2 GB 大小的 /swap 分割區,也支援「安裝指南」中所說明的 4 GB 大小分割區。SMS 1.5 的建議分割區大小如下所示:


0

/ (root)

8 GB

1

swap

4 GB

4

OLDS/LVM 資料庫 (metadb)

32 MB

5

OLDS/LVM 資料庫 (metadb)

 

32 MB

7

/export/install

剩餘的未使用空間


 

第 14 頁:

您必須先安裝好並開始執行 SMS,然後才能停用容錯移轉。

第 15 頁:

要驗證是否已安裝 Java 版本 1.2.2,請在系統提示符號處鍵入指令 java -version

步驟 3 的內容應如下所述:

執行 smsupgrade 指令以重新安裝 SMS。

第 28 頁:

你必須先安裝好 SMS 並開始執行,然後才可以記錄機架序號 (CSN)。

第 37 頁:

該範例應該顯示 sc0,而不是 sc1

第 38 頁:

flashupdate 範例未進行 -f 切換。其內容應如下所述:

-f /opt/SUNWsms/hostobjs/sgcpu.flash

第 42 頁:

本程序在步驟 2 以後應該接有步驟 3。步驟 3 的內容如下所述:

升級 Solaris 作業系統。請參閱第 15 頁的「在 SC 上安裝或升級 Solaris 作業系統」。

步驟 3 之後應該有步驟 4,內容如下所述:

在進行重大作業系統升級以後,執行 smsupgrade 以重新安裝 SMS (請參閱第 32 頁)。不然,請繼續下一步驟並復原 SMS 配置。

「重新安裝 SMS 軟體」的標題應改為「復原 SMS 配置。」