Sun Cluster 3.1 版次注意事項

已知問題和錯誤

以下已知問題和錯誤會影響 Sun Cluster 3.1 版次的操作。有關最新的資訊,請參閱 http://docs.sun.com 中的線上 Sun Cluster 3.1 Release Notes Supplement

Largefile 狀態不正確 (4419214)

問題摘要:/etc/mnttab 檔案並未顯示全域裝載 VxFS 檔案系統的最新 largefile 狀態。

解決方法:使用 fsadm 指令來檢驗檔案系統 largefile 狀態,而不是 /etc/mnttab 項。

全域 VxFS 檔案系統列出的區塊分配與本機 VxFS 不同 (4449437)

問題摘要:對於指定的檔案大小,全域 VxFS 比本機 VxFS 分配了更多的磁碟區塊。

解決方法:卸載和裝載檔案系統將消除已分配為特定檔案的額外磁碟區塊。

節點無法帶出 qfe 路徑 (4526883)

問題摘要:有時不能顯示 qfe 配接卡末端的私用互連傳輸路徑。

解決方法:遵照以下步驟:

  1. 使用 scstat -W 來識別出錯的配接卡。輸出應該顯示以該配接卡作為其路徑端點之一的所有傳輸路徑,且端點狀態為 faulted waiting

  2. 使用 scsetup 從叢集配置中移除所有連接至該配接卡的電纜。

  3. 然後再次使用 scsetup 從叢集配置中移除該配接卡。

  4. 裝回配接卡和電纜。

  5. 檢驗是否出現路徑。如果故障仍存在,請重複幾次步驟 1–5。

  6. 檢驗是否出現路徑。如果還是存在此故障,請重新啟動配接卡出錯的節點。在重新啟動該節點前,請確定其餘的叢集是否有足夠的法定票數可承受重新啟動節點。

寫入稀疏檔案空洞時未更新檔案區塊 (4607142)

問題摘要:在稀疏檔案中寫入區塊分配後,叢集節點間的檔案區塊計數不一定一致。對於位於 UFS(或 VxFS 3.4)上的叢集檔案系統,叢集節點間的區塊不一致現象將在約 30 秒後消失。

解決方法:inode(觸摸等)進行更新的檔案複合資料操作應使 st_blocks 值同步,以便後續複合資料操作可以確保 st_blocks 值的一致。

同時使用 forcedirectiommap (2) 可能會導致出現驚慌狀況 (4629536)

問題摘要:使用 forcedirectio 裝載選項和 mmap(2) 函數目前可能會造成資料毀損與 系統當機或驚慌狀況。

解決方法:請遵守下列限制:

如果需要使用 directio,請以 directio 選項裝載整個檔案系統。

卸載叢集檔案系統失敗 (4656624)

問題摘要:即使 fuser 指令顯示沒有使用者在任何節點上,有時也會出現無法卸載叢集檔案系統的情況。

解決方法:在完成 I/O 到基本檔案系統的所有異步後,請重新嘗試卸載。

重新啟動使叢集節點進入非工作狀態 (4664510)

問題摘要:如果在關閉其中一個 Sun StorEdge T3 陣列的電源之後又執行了 scshutdown,此時若重新啟動這兩個節點,則叢集將進入非工作狀態。

解決方法:如果複本的一半已經遺失,請執行下列步驟:

  1. 確定叢集處於叢集狀態。

  2. 強制匯入磁碟組。


    # metaset -s set-name -f -C take
    
  3. 刪除毀損的複本。


    # metadb -s set-name -fd /dev/did/dsk/dNsX
    
  4. 釋放磁碟組。


    # metaset -s set-name -C release
    

    至此,便可裝載及使用檔案系統。但是,複本中的冗餘尚未回復。如果複本的另一半也遺失了,便無法將鏡像回復到完整的狀態。

  5. 請在採取上述修復程序之後重新建立資料庫。

將 Plex 與磁碟群組解除關聯導致出現驚慌狀況 (4657088)

問題摘要:如果將 SunPlex 與 Sun Cluster 3.0 下的磁碟群組解除關聯或分開,可能會導致叢集節點與以下字串出現驚慌狀況:

panic[cpu2]/thread=30002901460: BAD TRAP: type=31 rp=2a101b1d200 addr=40 mmu_fsr=0 occurred in module "vxfs" due to a NULL pointer dereference

解決方法:在將 SunPlex 與磁碟群組解除關聯或分開之前,請卸載相應的檔案系統。

scvxinstall -i 未能安裝許可證密鑰 (4706175)

問題摘要:scvxinstall -i 指令使用 -L 選項來接受許可證密鑰。但是,系統會忽略該密鑰,並且不會安裝它。

解決方法:請不要使用 scvxinstall-i 形式提供許可證密鑰。將不會安裝密鑰。 應使用互動形式或使用 -e 選項來安裝許可證密鑰。在繼續封裝根之前,請檢查許可證需求,並使用 -e 選項或互動形式來提供所需的密鑰。

Sun Cluster HA–Siebel 未能監視 Siebel 元件 (4722288)

問題摘要:Sun Cluster HA-Siebel 代理不會監視單個 Siebel 元件。如果偵測到 Siebel 元件出現故障,僅會在系統日誌中記錄一則警告訊息。

解決方法: 使用指令 scswitch -R -h node-g resource_group 來重新啟動其元件處於離線狀態下的 Siebel 伺服器資源群組。

remove 程序檔未能撤銷註冊 SUNW.gds 資源類型 (4727699)

問題摘要:remove 程序檔不能撤銷註冊 SUNW.gds 資源類型,並顯示以下訊息:


Resource type has been un-registered already.

解決方法:在使用 remove 程序檔後,請手動撤銷註冊 SUNW.gds。 作為替代,請使用 scsetup 指令或 SunPlex Manager。

Create IPMP 選項覆寫 hostname.int (4731768)

問題摘要:SunPlex Manager 中的 Create IPMP group 選項只能與尚未配置的配接卡一起使用。如果配接卡已經配置了 IP 位址,則應手動為 IPMP 配置配接卡。

解決方法:SunPlex Manager 中的 Create IPMP group 選項只能與尚未配置的配接卡一起使用。如果配接卡已配置了 IP 位址,則應使用 Solaris IPMP 管理工具手動配置配接卡。

使用 Solaris shutdown 指令可能導致節點出現驚慌狀況 (4745648)

問題摘要:如果使用 Solaris shutdown 指令或類似指令(例如,uadmin )轉到叢集節 點,則可能導致節點出現驚慌狀況,並顯示以下訊息:

CMM: Shutdown timer expired. Halting.

解決方法:請與您的 Sun 服務代表聯繫以獲得支援。這種驚慌狀況是一種安全的方式,它可以保證叢集中的另一節點能接管由關閉的節點主控的服務。

用於將法定裝置加入到叢集的管理指令失敗 (4746088)

問題摘要:如果叢集具有法定要求的最少選票,則使用管理指令將法定裝置加入到叢集將會失敗,並顯示以下訊息:

Cluster could lose quorum

.

解決方法:請與您的 Sun 服務代表聯繫以獲得支援。

在私用互連上使用 ce 配接卡時出現路徑逾時 (4746175)

問題摘要:如果一個或多個叢集節點具有 4 個以上處理器,則私用互連上使用 ce 配接卡的叢集可能會通知路徑逾時,並且後續節點可能會出現驚慌狀況。

解決方法: 透過將 set ce:ce_taskq_disable=1 加入到所有叢集節點的 /etc/system 檔案中並重新啟動叢集節點,來設定 ce_taskq_disable 參數。這將確保心跳(和其他包)始終傳遞中斷的上下文,以便 消除路徑逾時和後續節點驚慌狀況。 重新啟動叢集節點時,應觀察法定情況。

公用網路故障可能會導致 Siebel 閘道探測器逾時 (4764204)

問題摘要:公用網路故障可能會導致 Siebel 閘道探測器逾時,最終導致 Siebel 閘道資源處於離線狀態。 如果在其上執行 Siebel 閘道的節點具有以 /home 開頭的路徑(這將取決於網路資源,如 NFS 和 NIS ),則可能會發生這種情況。如果沒有公用網路,則在嘗試開啟 /home 上的檔案時 Siebel 閘道探測器將掛斷,以致探測器逾時。

解決方法: 對於可主控 Siebel 閘道的叢集之所有節點,請完成以下步驟。

  1. 確保 /etc/nsswitch.conf 中的 passwdgroupproject 項僅參考 files,而不 參考 nis

  2. 確保任何以 /home 開頭的路徑沒有 NFS 或 NIS 依存。

    您可能有本機安裝的 /home 路徑,或將 /home 安裝點重新命名為 /export/home 或不以 /home 開頭的某些名稱。

  3. /etc/auto_master 檔案中,註釋掉包含項 +auto_master 的行。 此外,使用 auto_home 註釋掉任何 /home 項。

  4. etc/auto_home 中,註釋掉包含 +auto_home 的行。

清除閘道路由將中斷每個節點的邏輯 IP 通訊 (4766076)

問題摘要:為透過私用互連提供高可用性的、每個節點的邏輯 IP 通訊,Sun Cluster 軟體依存叢集節點上的閘道路由。 清除閘道路由將中斷每個節點的邏輯 IP 通訊。

解決方法:重新啟動那些無意中清除了路由的叢集節點。要復原閘道路由,重新啟動一次叢集節點即可。 每個節點的邏輯 IP 通訊將保持中斷狀態,直至復原路由。重新啟動叢集節點時,必須觀察法定情況。

故障轉移不成功導致出錯 (4766781)

問題摘要:如果對檔案系統進行故障轉移/切換不成功,則會導致出錯。

解決方法:卸載並重新裝載檔案系統。

啟用 TCP 選擇性確認可能導致資料損壞 (4775631)

問題摘要:在叢集節點上啟用 TCP 選擇性確認可能導致資料損壞。

解決方法:用戶無需採取措施。為避免導致全域檔案系統上的資料損壞,請不要在叢集節點上重新啟用 TCP 選擇性確認。

scinstall 某些資料服務錯誤地顯示為不受支援 (4776411)

問題摘要:scinstall 不正確地顯示,以下資料服務不受 Solaris 9 支援:

解決方法:Solaris 8 和 9 支援 Sun Cluster HA for SAP 和 Sun Cluster HA for SAP liveCache; 忽略 scinstall 中的不受支援功能清單。

如果缺少 /dev/rmtscdidadm 將出錯退出 (4783135)

問題摘要:scdidadm(1M) 執行依存 /dev/rmt/dev/(r)dsk 的存在,以成功 執行 scdiadm -r。 Solaris 兩個均安裝,不管是否存在實際的基本儲存裝置。如果缺少 /dev/rmt,則 scdidadm 將退出,並顯示以下錯誤:

Cannot walk /dev/rmt" during execution of 'scdidadm -r

.

解決方法:在缺少 /dev/rmt 的任意節點上,請使用 mkdir 來建立一個目錄 /dev/rmt。然後,從一個節點執行 scgdevs

節點出現故障時的資料損壞導致叢集檔案系統主機當機 (4804964)

問題摘要:執行修補程式 113454-04、113073-02 和 113276-02(或這些修補程式的子集)的 Sun Cluster 3.x 系統會出現資料損壞。此問題僅出現在全域裝載的 UFS 檔案系統中。資料損壞會導致資料遺失(也就是說,在應存在資料的地方顯示零),並且遺失的資料量始終是磁碟區塊的倍數。如果節點故障導致叢集檔案系統主機在叢集檔案系統用戶端完成(或報告剛剛完成)寫入作業後隨即當機,則隨時可能出現資料丟失。出現此錯誤現象的期間很短,並且不會每次出現。

解決方法:使用 -o syncdir 裝載選項以強制 UFS 使用同步 UFS 日誌事務。

重新啟動後,節點在進行切換作業時掛斷 (4806621)

問題摘要:如果在節點連接叢集時正在進行裝置群組切換,則連接節點和切換作業可能掛斷。存取任意裝置服務的所有嘗試也會掛斷。在叢集包含超過兩個節點,並且裝置上裝載的檔案系統為 VxFS 檔案系統時,很可能發生此錯誤。

解決方法:為避免這種情況,請不要在節點正在連結至叢集時開始裝置群組切換。如果出現這種情況,則必須重新啟動所有叢集節點以恢復對裝置群組的存取。

在叢集檔案系統已滿時,檔案系統出現驚慌狀況 (4808748)

問題摘要:在叢集檔案系統已滿時,檔案系統可能會出現驚慌狀況,並顯示以下訊息之一: 1)

assertion failed: cur_data_token & PXFS_WRITE_TOKEN or PXFS_READ_TOKEN

或 2)

vp->v_pages == NULL

.這些應急狀況旨在防止資料在檔案系統已滿時損壞。

解決方法:要減少出現此問題的可能性,請儘可能透過 UFS 使用叢集檔案系統。在透過 UFS 使用叢集檔案系統時,出現這些應急狀況之一的可能性極小,但風險大於透過 VxFS 使用叢集檔案的風險。

叢集節點在啟動時掛斷 (4809076)

問題摘要:在裝置服務切換請求時,如果在重新啟動節點的同時使用了 scswitch -z -D <device-group> -h <node>,並且在裝置服務上配置了全域檔案系統,全域檔案系統將變得不可用,並且涉及任何裝置服務或全域檔案系統的後續配置更改也會掛斷。此外,後續叢集節點連結可能掛斷。

解決方法:要進行恢復,您需要重新啟動所有叢集節點。

使用 scconf -rq 刪除法定裝置導致叢集出現驚慌狀況 (4811232)

問題摘要:如果執行 scconf -rq 命令在脆弱的配置中刪除法定裝置,則叢集的所有節點將出現驚慌狀況,並顯示以下訊息

CMM lost operational quorum

.

解決方法:要從叢集中刪除法定裝置,請首先檢查 scstat -q 的輸出。 如果列出的法定裝置在 Present 列中包含多個投票,則應使用 scconf -cq globaldev=QD,maintstate 將裝置首先置於維護模式下。 在命令完成並且 scstat -q 中顯示的法定裝置顯示為包含 0 個投票後,則可以使用 scconf -rq 刪除裝置。

使用 O_EXCL 旗標時鏡像容體出現故障 (4820273)

問題摘要:如果正在使用 Solstice DiskSuite/Solaris Volume Manager,並且透過 O_EXCL 旗標開啟了鏡像容體,則包含此容體的裝置群組故障轉移將會失敗。 在故障轉移後第一次存取該容體時,此錯誤將導致新裝置群組主機出現驚慌狀況。

解決方法:在使用 Solstice DiskSuite/Solaris Volume Manager 時,請不要透過 O_EXCL 旗標開啟鏡像容體。

節點重新啟動後,叢集在切換期間掛斷 (4823195)

問題摘要:如果在重新啟動或連結節點的同時發出裝置服務故障轉移請求,並且在裝置服務上配置了叢集檔案系統,則叢集檔案系統可能會變得不可用,並且涉及任何裝置服務或叢集檔案系統的後續配置更改也會掛斷。此外,後續叢集節點連結也可能掛斷。

解決方法:要進行恢復,您需啟動所有叢集節點。

法文語言環境中的未翻譯文字 (4840085)

問題摘要:在法文語言環境中,使用 SunPlex Manager 安裝 Sun Cluster 時出現某些未翻譯文字。

解決方法:此錯誤不影響 SunPlex Manager 的功能。您可以忽略未翻譯文字,或將瀏覽器語言設置為英文以避免混雜的翻譯。