附錄B


疑難排解

本章旨在說明一般錯誤類型:

下列為 cfgadm 診斷訊息的範例。(本章不包含語法錯誤訊息。)


cfgadm: Configuration administration not supported on this machine
cfgadm: hardware component is busy, try again
cfgadm: operation: configuration operation not supported on this machine
cfgadm: operation: Data error: error_text
cfgadm: operation: Hardware specific failure: error_text
cfgadm: operation: Insufficient privileges
cfgadm: operation: Operation requires a service interruption
cfgadm: System is busy, try again
WARNING: Processor number failed to offline. 

 

請參閱下列的線上說明手冊,以取得其他錯誤訊息的詳細資訊:cfgadm(1M)、cfgadm_sbd(1M)、cfgadm_pci(1M) 及 config_admin(3CFGADM)。


取消配置作業失敗

在您開始作業時,若系統並非處於正確狀態,針對系統板或 I/O 板進行的取消配置作業可能會失敗。

系統板取消配置錯誤

無法取消配置記憶體與其他板記憶體交錯的主機板

若您嘗試取消配置主機板,而該板的記憶體與其他主機板的記憶體交錯的話,系統就會出現下列的錯誤訊息:


cfgadm: Hardware specific failure: unconfigure N0.SB2::memory: Memory is
interleaved across boards: /ssm@0,0/memory-controller@b,400000

 

無法取消配置已出現連結程序的 CPU

若您嘗試取消配置已出現連結程序的 CPU,系統就會出現下列的錯誤訊息:


cfgadm: Hardware specific failure: unconfigure N0.SB2::cpu3: Failed to off-line:
/ssm@0,0/SUNW,UltraSPARC-III 

 

single-step bullet取消 CPU 連結程序並重試取消配置作業。

在取消配置所有記憶體前無法取消配置 CPU (僅適用於中階)

嘗試取消配置 CPU 前,主機板上的所以有記憶體須先取消配置。若您在取消配置板上所有的記憶體前就嘗試取消配置 CPU,系統就會出現下列的錯誤訊息:


cfgadm: Hardware specific failure: unconfigure N0.SB2::cpu0: Can't unconfig cpu 
if mem online: /ssm@0,0/memory-controller

 

single-step bullet取消配置板上所有記憶體然後取消配置 CPU。

無法取消配置板上有永久記憶體的記憶體

欲取消配置板上有永久記憶體的記憶體,請將永久記憶體頁移到其它有足夠的可用記憶體的板上。在取消配置作業進行前,須先準備好另外的板以便使用。

記憶體無法重新配置

如果取消配置作業失敗,並出現下列的訊息,板上的記憶體便無法取消配置:


cfgadm: Hardware specific failure: unconfigure N0.SB0: No available memory 
target: /ssm@0,0/memory-controller@3,400000

 

在其它板上加上足夠的記憶體以便儲存永久記憶體頁,然後重新嘗試取消配置作業。

single-step bullet請確認無法移除記憶體頁面。

請注意清單中的「permanent」一詞。


# cfgadm -av -s "select=type(memory)"

 
可用記憶體不足

如果取消配置作業失敗並出現以下任一訊息的話,在移除板時,系統會出現可用記憶體不足的情況。


cfgadm: Hardware specific failure: unconfigure N0.SB0: Insufficient memory

cfgadm: Hardware specific failure: unconfigure N0.SB0: Memory operation failed

  

single-step bullet請刪減系統上的記憶體載入並再試一次,如果可行,可在另一個板插槽安裝更多記憶體。

記憶體需求增加

如果取消配置作業失敗,並出現下列的訊息,在進行取消配置作業的同時,記憶體需求會增加:


cfgadm: Hardware specific failure: unconfigure N0.SB0: Memory operation refused

 

single-step bullet降低系統記憶體承載並再試一次。

無法取消配置 CPU

CPU 取消配置是 CPU/記憶體板取消配置作業中的一部分系統板。如果作業無法讓 CPU 離線,下列訊息會記錄在主控台上:


WARNING: Processor 編號 failed to offline. 

 

如有下列狀況,會產生錯誤:

無法中斷板連線

即使在取消配置板後,還是可能出現無法中斷連線的情況。cfgadm 狀態會顯示把板列為不可分離裝置的清單。當板所提供的必要硬體服務不能重置到替代的板上時,就會發生這個問題。

I/O 板取消配置失敗

裝置在使用時無法取消配置或中斷連線。取消配置 I/O 板的失敗原因是因為板上活動並沒有停止,或因為在活動停止後 I/O 裝置又重新活動。

裝置忙碌

在嘗試取消配置或中斷板的連線前,須先將連接 I/O 板的磁碟置於閒置的狀態下。對使用中的裝置採取取消配置或中斷連線的動作都會失敗。

如果取消配置作業是因 I/O 板有忙碌或開放的裝置而導致失敗,該板就會只有部分取消配置。作業序列會因裝置忙碌而停止。

要重新存取未取消配置的裝置,該板須先完全取消配置然後重新配置。

如果板上的裝置忙碌,在嘗試取消配置的動作後,系統會記錄下列的訊息:


cfgadm: Hardware specific failure: unconfigure N0.IB6: Device busy: /ssm@0,0/pci@18,700000/pci@1/SUNW,isptwo@4/sd@6,0

 

要繼續取消配置作業,請先卸下裝置並重試取消配置作業。在您重新配置板前,該板須在取消配置的狀態。

I/O 裝置問題

1. 使用 fuser(1M) 指令辨識哪些程序已讓裝置開啟。

2. 請刪除 vold 常駐程式。


 # /etc/init.d/volmgt stop

 

3. 中斷所有與欲取消配置的卡有關的 SCSI 控制器之連線。

欲獲得所有連線的 SCSI 控制器之清單,請使用以下指令。


 # cfgadm -l -s "select=class(scsi)"

 

4. 若使用 Solaris Volume Manager 鏡射的備用功能來存取連線至板上的裝置,請重新配置子系統以方便其他主機板上的控制器存取該裝置或網路。

5. 請卸載檔案系統,包括含有主機板常駐分割區的磁碟區管理員中介裝置。


# umount/partition

 

6. 從板常駐分割區中,移除磁碟區管理員資料庫。

磁碟區管理員資料庫的位置,分別由使用者明確選擇,並且可以變更。

7. 移除任何 Solaris Volume Manager 或 Veritas Volume Manager 所使用的個人區域。

依照預設,Solaris Volume Manager 會在其所控制的每個裝置上使用個人區域,因此在分離這些裝置前,必須先從 Solaris Volume Manager 控制中移除這類裝置。

8. 移除交換配置中的磁碟分割區。

9. 刪除任何直接開啟裝置或原始分割區的程序,或引導程序去關閉板上已開啟的裝置。



備註 - 卸載檔案系統可能會影響 NFS 用戶端系統。



RPC 或 TCP 逾時,或失去連線

預設逾時為兩分鐘後。管理員可能需要增加逾時值以防止在 DR 引起的作業系統靜止期間 (通常會超過兩分鐘) 出現逾時現象。系統靜止會讓系統和相關網路服務超過兩分鐘無法作業。這些變化會影響用戶端與伺服器機器。


配置作業失敗

記憶體配置錯誤 (僅適用於中階)

配置記憶體前,主機板上的所有 CPU 都須先配置。若您在一或數個 CPU 取消配置的情形下,嘗試配置記憶體,系統就會出現下列的錯誤訊息:


cfgadm: Hardware specific failure: configure N0.SB2::memory: Can't config memory if not all cpus are online: /ssm@0,0/memory-controller

 

I/O 板配置失敗

配置作業可能因附有裝置的 I/O 板目前並不支援熱插式而失敗。在此情況下,該板只有部分配置。作業會因裝置不支援而停止。在此情況下,在配置之前,須讓該板回到取消配置狀態。系統會記錄訊息,例如:


cfgadm: Hardware specific failure: configure N0.IB6: Unsafe driver present: <device path>

 

single-step bullet欲繼續配置作業,請將不支援裝置的驅動程式移除或使用支援熱插式的新版驅動程式代替。