Solaris 10 5/08 版本說明

第 3 章 特定系統問題

本章旨在說明特定於 Sun 中階及高階伺服器的問題。目前的 Sun 伺服器是 Sun Fire 系統系列的一部分。過去的伺服器則是 Sun Enterprise 系統系列的一部分。


備註 –

Sun 驗證測試套裝軟體版本說明目前是獨立的文件,可在 http://sun.com 中找到。



備註 –

本章的部分問題與錯誤已於後續 Solaris 10 發行版本中修正。如果您已升級 Solaris 軟體,本章中的某些問題與錯誤可能不再存在。若要查看不再適用於特定 Solaris 10 軟體的錯誤與問題,請參閱附錄 ASolaris 10 作業系統的整合錯誤修復表


Sun Fire 高階系統上的動態重新配置

本節旨在說明下列執行 Solaris 10 軟體的 Sun Fire 高階系統主要的網域端 DR 錯誤:

如需有關 Sun 管理服務上 DR 錯誤的資訊,請參閱您系統上執行之 SMS 版本的「SMS 版本說明」。


備註 –

由於 DR 執行於本節列出的伺服器,因此本資訊僅適用於 DR。如需有關其他伺服器上 DR 的資訊,請參閱說明這些伺服器的「版本說明」或「產品說明」文件或章節。


已知的軟體錯誤與硬體錯誤

下列軟體錯誤與硬體錯誤適用於 Sun Fire 高階系統。

Deleteboard 顯示漏失錯誤 (4730142)

在以 SunSwift PCI 卡配置的系統中執行 DR 指令 (選項 1032) 時,可能會出現警告。這些警告會出現在執行 Solaris 8、Solaris 9 或 Solaris 10 軟體的網域上。下面是此警告的一個範例:


Aug 12 12:27:41 machine genunix: WARNING:
 vmem_destroy('pcisch2_dvma'): leaked

這些警告是有益的。在 DR 作業期間,直接虛擬記憶體存取 (DVMA) 空間會適當地重新整理。事實上並沒有發生任何核心記憶體漏失。

解決方法:為避免顯示此警告,請將下行增加至 /etc/system 中:


set pcisch:pci_preserve_iommu_tsb=0

附加 DR 之後,GigaSwift 乙太網路 MMF 和 CISCO 4003 交換器連結失敗

帶有 Sun GigaSwift 乙太網路 MMF 選項 X1151A 的系統和某些 CISCO 交換器間的連結失敗。在附加至下列交換器之一的系統中,嘗試執行 DR 作業會失敗:

在 CISCO 6509 交換器中不會出現這個問題。

解決方法:使用其他交換器。此外,您可以洽詢 Cisco 是否有適用於以上所列之交換器的修補程式。

Sun Fire 中階系統上的動態重新配置

本節旨在說明與下列 Sun Fire 中階系統的 DR 相關的主要問題:


備註 –

由於 DR 執行於本節列出的伺服器,因此本資訊僅適用於 DR。如需有關其他伺服器上 DR 的資訊,請參閱說明這些伺服器的「版本說明」或「產品說明」文件或章節。


最小系統控制器韌體

表 3–1 顯示了各個 Sun Fire 中階系統執行 DR 時可接受的 Solaris 軟體和系統控制器 (SC) 韌體的組合。


備註 –

要使最新韌體功能及錯誤修復的使用達到最佳,請在您的 Sun Fire 中階系統中執行最新的 SC 韌體。如需有關最新修補程式的資訊,請參閱 http://sunsolve.sun.com


表 3–1 各個平台及 Solaris 發行版本的最低 SC 韌體要求

平台 

Solaris 發行版本 

最低 SC 韌體要求 

具備 UltraSPARC IV+ 的 Sun Fire E6900/E4900 

Solaris 10 3/05 HW1 (限量發行版本) 或 Solaris 10 1/06 

5.19.0 

不具備 UltraSPARC IV+ 的 E6900/E4900 

Solaris 9 4/04 

5.16.0 

Sun Fire 6800/4810/4800/3800 

Solaris 9 4/04 

5.16.0 

Sun Fire 6800/4810/4800/3800 

Solaris 9 

5.13.0 

連線至儲存韌體影像的 FTP 或 HTTP 伺服器,可以為 Sun Fire 中階系統升級系統韌體。如需更多資訊,請參閱 READMEInstall.info 檔案。在您的網域中執行的韌體發行版本中含有這些檔案。您可以從 http://sunsolve.sun.com 下載 Sun 修補程式。

已知 DR 軟體錯誤

本節列出重要的 DR 錯誤。

程式保持裝置開啟時,網路裝置移除失敗 (5054195)

如果某個程序正保持某個網路裝置為開啟狀態,則任一與該裝置有關的 DR 作業都會失敗。保持參照計數的常駐程式及程序會使 DR 作業停止而無法完成。

解決方法:以超級使用者身份執行下列步驟:

  1. 移除或重新命名 /rplboot 路徑。

  2. 關閉 NFS 服務。


    # sh /etc/init.d/nfs.server stop
    
  3. 關閉啟動伺服器服務。


    # sh /etc/init.d/boot.server stop
    
  4. 執行 DR 分離作業。

  5. 重新啟動 NFS 服務。


    # sh /etc/init.d/nfs.server start
    
  6. 重新啟動啟動伺服器服務。


    # sh /etc/init.d/boot.server start
    

連接埠 0 停用時無法取消配置 cPCI 板 (4798990)

在 Sun Fire 中階系統中,CompactPCI (cPCI) I/O 板中的連接埠 0 (P0) 停用時,該板無法取消配置。此問題存在於 Solaris 10 及 Solaris 9 軟體中。也存在於已安裝下列一個或多個修補程式的 Solaris 8 軟體中:

該錯誤也只在與 cPCI 板有關的 DR 作業期間才出現。系統會顯示類似下列範例中的錯誤訊息:


# cfgadm -c unconfigure NO.IB7
cfgadm: Hardware specific failure: unconfigure N0.IB7: Device
busy:/ssm@0,0/pci@1b,700000/pci@1

NO.IB7 是 P0 已停用的 CompactPCI I/O 板。

解決方法:停用槽而不停用連接埠 0。

Sun Enterprise 10000 版本說明

本節旨在說明與下列 Sun Enterprise 10000 伺服器中的功能有關的問題:


備註 –

Solaris 10 軟體可在 Sun Enterprise 10000 系統中的個別網域中運行。不過,此發行版本不支援 Sun Enterprise 10000 系統服務處理器。


系統服務處理器需求

系統服務處理器 (SSP) 中需要 SSP 3.5 軟體以支援 Solaris 10 軟體。請先在 SSP 中安裝 SSP 3.5。然後您可以在 Sun Enterprise 10000 網域中安裝或升級 Solaris 10 作業系統。

此外還需要 SSP 3.5 軟體,以使網域可適當地為 DR 模組 3.0 進行配置。

動態重新配置問題

本節旨在說明 Sun Enterprise 10000 網域中各種和動態重新配置有關的問題。

DR 模型 3.0

自 Solaris 9 12/03 發行版本起,必須在運行 Solaris 作業系統的 Sun Enterprise 10000 網域中使用 DR 3.0。DR 模型 3.0 會參照在 SSP 上使用下列指令的功能來執行網域 DR 作業:

您可以在網域中執行 cfgadm 指令以取得板狀態資訊。DR 模型 3.0 也具有與重新配置協調管理程式 (RCM) 的交互介面,以調和其他在網域中運行的應用程式的 DR 作業。

如需有關 DR 模型 3.0 的詳細資訊,請參閱「Sun Enterprise 10000 Dynamic Reconfiguration User Guide」。

DR 與連結使用者程序

對於此 Solaris 發行版本,DR 不再從分離的 CPU 自動解開使用者程序。在初始化分離順序前,您必須執行此作業。如果發現 CPU 中有連結的程序,Drain 作業即會失敗。

程式保持裝置開啟時,網路裝置移除失敗 (5054195)

如果某個程序正保持某個網路裝置為開啟狀態,則任一與該裝置有關的 DR 作業都會失敗。保持參照計數的常駐程式及程序會使 DR 作業停止而無法完成。

解決方法:以超級使用者身份執行下列步驟:

  1. 移除或重新命名 /rplboot 路徑。

  2. 關閉 NFS 服務。


    # sh /etc/init.d/nfs.server stop
    
  3. 關閉啟動伺服器服務。


    # sh /etc/init.d/boot.server stop
    
  4. 執行 DR 分離作業。

  5. 重新啟動 NFS 服務。


    # sh /etc/init.d/nfs.server start
    
  6. 重新啟動啟動伺服器服務。


    # sh /etc/init.d/boot.server start
    

InterDomain 網路

若網域要成為 InterDomain 網路的一部分,則該網域中所有具有使用中記憶體的板至少要有一個使用中的 CPU。

OpenBoot PROM 變數

在您從 OpenBoot PROM 提示 (OK) 輸入 boot net 指令之前,請先驗證 local-mac-address?變數已設定為 false。此設定是出廠預設設定。如果此變數設定為 true,則您必須確定此值是適當的本機配置。


注意 – 注意 –

local-mac-address?亦即,設定為 true 可能會無法從網路上成功啟動網域。


netcon 視窗中,您可以使用下列 OpenBoot PROM 提示處的指令,以顯示 OpenBoot PROM 變數的值:


OK printenv

要重新設定 local-mac-address?變數為預設的設定。請使用 setenv 指令:


OK setenv local-mac-address? false

Sun Enterprise 中階系統上的動態重新配置

本節包含有關下列執行 Solaris 10 軟體的中階伺服器的動態重新配置 (DR) 功能的最新資訊:

如需有關 Sun Enterprise 伺服器動態重新配置的更多資訊,請參閱「Dynamic Reconfiguration User's Guide for Sun Enterprise 3x00/4x00/5x00/6x00 Systems」。Solaris 10 發行版本包含對上述清單所提及的系統中所有 CPU/記憶體板以及多數 I/O 板的支援。

支援的硬體

在繼續之前,請先確定系統支援動態重新配置。如果您的系統屬於較舊的設計,則在您的主控台或是主控台記錄中會顯示下列訊息。此系統不適合進行動態重新配置。


Hot Plug not supported in this system

目前不再支援下列 I/O 板:

軟體備註

本節提供有關 DR 的一般軟體資訊。

啟用動態重新配置

若要啟用動態重新配置,您必須在 /etc/system 檔案中設定兩個變數。您必須再設定一個其他的變數以移除 CPU/記憶體板。執行下列步驟:

  1. 以超級使用者身份登入。

  2. 透過增加以下行來編輯 /etc/system 檔案:


    set pln:pln_enable_detach_suspend=1
    set soc:soc_enable_detach_suspend=1
    
  3. 如果要移除 CPU/記憶體板,請將此行加到檔案中:


    set kernel_cage_enable=1
    

    設定這個變數可啟動記憶體取消配置的操作。

  4. 重新啟動系統以套用變更。

靜止測試

可以使用下列指令來啟動靜止測試:


 # cfgadm -x quiesce-test sysctr10:slot number

在較大的系統中,靜止測試最多可能會執行一分鐘。如果 cfgadm 沒發現不相容的驅動程式,則這段期間不會顯示任何訊息。

已停用的主機板清單

嘗試連線已停用的主機板清單中的主機板,可能會產生此錯誤訊息:


# cfgadm -c connect sysctrl0:slotnumber







cfgadm: Hardware specific failure: connect failed:
board is disabled: must override with [-f][-o enable-at-boot]

如果要置換停用條件,您可以使用兩個選項:

如果要從已停用的主機板清單移除所有主機板,請依據您輸入指令後出現的提示從兩個選項中選擇一個:

如需有關 disabled-board-list 設定的更多資訊,請參閱「Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems」手冊中的「Specific NVRAM Variables」小節。該手冊是此發行版本文件集中的一部分。

已停用的記憶體清單

OpenBoot PROM disabled-memory-list 設定的相關資訊已發佈於此發行版本中。請參閱 SUN 硬體文件中 Solaris 部分之「Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems」中的「Specific NVRAM Variables」。

卸載不支援分離的驅動程式

如果您必須卸載不支援分離的驅動程式,請使用 modinfo 行指令來尋找驅動程式的模組 ID。然後您可以使用 modunload 指令中的模組 ID 來卸載不支援分離的驅動程式。

在連接序列期間發生自我測試執行失敗

如果在 DR 連接序列期間顯示下列錯誤訊息,請盡快從系統移除板。


cfgadm: Hardware specific failure: connect failed: firmware operation error

該板無法自我測試,而移除板可避免在下次重新啟動時可能發生的重新配置錯誤。

無法自我測試狀態使您無法進行下一步作業。因此,如果您想立即重試失敗的作業,您必須先移除板,而後再重新插入板。

已知的錯誤

下列為隨時會變更的主題。

程式保持裝置開啟時,網路裝置移除失敗 (5054195)

如果某個程序正保持某個網路裝置為開啟狀態,則任一與該裝置有關的 DR 作業都會失敗。保持參照計數的常駐程式及程序會使 DR 作業停止而無法完成。

解決方法:以超級使用者身份執行下列步驟:

  1. 移除或重新命名 /rplboot 路徑。

  2. 關閉 NFS 服務。


    # sh /etc/init.d/nfs.server stop
    
  3. 關閉啟動伺服器服務。


    # sh /etc/init.d/boot.server stop
    
  4. 執行 DR 分離作業。

  5. 重新啟動 NFS 服務。


    # sh /etc/init.d/nfs.server start
    
  6. 重新啟動啟動伺服器服務。


    # sh /etc/init.d/boot.server start
    

執行同步運作的 cfgadm 指令時,cfgadm 中斷連線失敗 (4220105)

如果板中正在執行 cfgadm 程序時,嘗試同時將第二個板中斷連線將失敗。螢幕上將顯示下列錯誤訊息:


cfgadm: Hardware specific failure: 
disconnect failed: nexus error during detach:address

解決方法:一次只執行一個 cfgadm 作業。允許在對第二個板啟動 cfgadm 中斷連線作業之前,先完成某個板中執行中的 cfgadm 作業。