Sun Cluster 3.1 版次注意事項

已知問題和錯誤

以下已知問題和錯誤會影響 Sun Cluster 3.1 版次的操作。有關最新的資訊，請參閱 http://docs.sun.com 中的線上 Sun Cluster 3.1 Release Notes Supplement。

Largefile 狀態不正確 (4419214)

問題摘要：/etc/mnttab 檔案並未顯示全域裝載 VxFS 檔案系統的最新 largefile 狀態。

解決方法：使用 fsadm 指令來檢驗檔案系統 largefile 狀態，而不是 /etc/mnttab 項。

全域 VxFS 檔案系統列出的區塊分配與本機 VxFS 不同 (4449437)

問題摘要：對於指定的檔案大小，全域 VxFS 比本機 VxFS 分配了更多的磁碟區塊。

解決方法：卸載和裝載檔案系統將消除已分配為特定檔案的額外磁碟區塊。

節點無法帶出 qfe 路徑 (4526883)

問題摘要：有時不能顯示 qfe 配接卡末端的私用互連傳輸路徑。

解決方法：遵照以下步驟：

使用 scstat -W 來識別出錯的配接卡。輸出應該顯示以該配接卡作為其路徑端點之一的所有傳輸路徑，且端點狀態為 faulted 或 waiting。
使用 scsetup 從叢集配置中移除所有連接至該配接卡的電纜。
然後再次使用 scsetup 從叢集配置中移除該配接卡。
裝回配接卡和電纜。
檢驗是否出現路徑。如果故障仍存在，請重複幾次步驟 1–5。
檢驗是否出現路徑。如果還是存在此故障，請重新啟動配接卡出錯的節點。在重新啟動該節點前，請確定其餘的叢集是否有足夠的法定票數可承受重新啟動節點。

寫入稀疏檔案空洞時未更新檔案區塊 (4607142)

問題摘要：在稀疏檔案中寫入區塊分配後，叢集節點間的檔案區塊計數不一定一致。對於位於 UFS（或 VxFS 3.4）上的叢集檔案系統，叢集節點間的區塊不一致現象將在約 30 秒後消失。

解決方法：對 inode（觸摸等）進行更新的檔案複合資料操作應使 st_blocks 值同步，以便後續複合資料操作可以確保 st_blocks 值的一致。

同時使用 `forcedirectio` 和 `mmap` (2) 可能會導致出現驚慌狀況 (4629536)

問題摘要：使用 forcedirectio 裝載選項和 mmap(2) 函數目前可能會造成資料毀損與系統當機或驚慌狀況。

解決方法：請遵守下列限制：

請勿以重新裝載時新增的 directio 裝載選項重新裝載檔案系統。
請勿使用 directio ioctl 在單一檔案上設定 directio 裝載選項。

如果需要使用 directio，請以 directio 選項裝載整個檔案系統。

卸載叢集檔案系統失敗 (4656624)

問題摘要：即使 fuser 指令顯示沒有使用者在任何節點上，有時也會出現無法卸載叢集檔案系統的情況。

解決方法：在完成 I/O 到基本檔案系統的所有異步後，請重新嘗試卸載。

重新啟動使叢集節點進入非工作狀態 (4664510)

問題摘要：如果在關閉其中一個 Sun StorEdge T3 陣列的電源之後又執行了 scshutdown，此時若重新啟動這兩個節點，則叢集將進入非工作狀態。

解決方法：如果複本的一半已經遺失，請執行下列步驟：

確定叢集處於叢集狀態。

強制匯入磁碟組。
# metaset -s set-name -f -C take

刪除毀損的複本。

# metadb -s set-name -fd /dev/did/dsk/dNsX

釋放磁碟組。
# metaset -s set-name -C release
至此，便可裝載及使用檔案系統。但是，複本中的冗餘尚未回復。如果複本的另一半也遺失了，便無法將鏡像回復到完整的狀態。

請在採取上述修復程序之後重新建立資料庫。

將 Plex 與磁碟群組解除關聯導致出現驚慌狀況 (4657088)

問題摘要：如果將 SunPlex 與 Sun Cluster 3.0 下的磁碟群組解除關聯或分開，可能會導致叢集節點與以下字串出現驚慌狀況：

panic[cpu2]/thread=30002901460: BAD TRAP: type=31 rp=2a101b1d200 addr=40 mmu_fsr=0 occurred in module "vxfs" due to a NULL pointer dereference

解決方法：在將 SunPlex 與磁碟群組解除關聯或分開之前，請卸載相應的檔案系統。

`scvxinstall -i` 未能安裝許可證密鑰 (4706175)

問題摘要：scvxinstall -i 指令使用 -L 選項來接受許可證密鑰。但是，系統會忽略該密鑰，並且不會安裝它。

解決方法：請不要使用 scvxinstall 的 -i 形式提供許可證密鑰。將不會安裝密鑰。應使用互動形式或使用 -e 選項來安裝許可證密鑰。在繼續封裝根之前，請檢查許可證需求，並使用 -e 選項或互動形式來提供所需的密鑰。

Sun Cluster HA–Siebel 未能監視 Siebel 元件 (4722288)

問題摘要：Sun Cluster HA-Siebel 代理不會監視單個 Siebel 元件。如果偵測到 Siebel 元件出現故障，僅會在系統日誌中記錄一則警告訊息。

解決方法： 使用指令 scswitch -R -h node-g resource_group 來重新啟動其元件處於離線狀態下的 Siebel 伺服器資源群組。

`remove` 程序檔未能撤銷註冊 `SUNW.gds` 資源類型 (4727699)

問題摘要：remove 程序檔不能撤銷註冊 SUNW.gds 資源類型，並顯示以下訊息：

Resource type has been un-registered already.

解決方法：在使用 remove 程序檔後，請手動撤銷註冊 SUNW.gds。作為替代，請使用 scsetup 指令或 SunPlex Manager。

Create IPMP 選項覆寫 `hostname.int` (4731768)

問題摘要：SunPlex Manager 中的 Create IPMP group 選項只能與尚未配置的配接卡一起使用。如果配接卡已經配置了 IP 位址，則應手動為 IPMP 配置配接卡。

解決方法：SunPlex Manager 中的 Create IPMP group 選項只能與尚未配置的配接卡一起使用。如果配接卡已配置了 IP 位址，則應使用 Solaris IPMP 管理工具手動配置配接卡。

使用 Solaris `shutdown` 指令可能導致節點出現驚慌狀況 (4745648)

問題摘要：如果使用 Solaris shutdown 指令或類似指令（例如，uadmin ）轉到叢集節點，則可能導致節點出現驚慌狀況，並顯示以下訊息：

CMM: Shutdown timer expired. Halting.

解決方法：請與您的 Sun 服務代表聯繫以獲得支援。這種驚慌狀況是一種安全的方式，它可以保證叢集中的另一節點能接管由關閉的節點主控的服務。

用於將法定裝置加入到叢集的管理指令失敗 (4746088)

問題摘要：如果叢集具有法定要求的最少選票，則使用管理指令將法定裝置加入到叢集將會失敗，並顯示以下訊息：

Cluster could lose quorum

解決方法：請與您的 Sun 服務代表聯繫以獲得支援。

在私用互連上使用 `ce` 配接卡時出現路徑逾時 (4746175)

問題摘要：如果一個或多個叢集節點具有 4 個以上處理器，則私用互連上使用 ce 配接卡的叢集可能會通知路徑逾時，並且後續節點可能會出現驚慌狀況。

解決方法： 透過將 set ce:ce_taskq_disable=1 加入到所有叢集節點的 /etc/system 檔案中並重新啟動叢集節點，來設定 ce_taskq_disable 參數。這將確保心跳（和其他包）始終傳遞中斷的上下文，以便消除路徑逾時和後續節點驚慌狀況。重新啟動叢集節點時，應觀察法定情況。

公用網路故障可能會導致 Siebel 閘道探測器逾時 (4764204)

問題摘要：公用網路故障可能會導致 Siebel 閘道探測器逾時，最終導致 Siebel 閘道資源處於離線狀態。如果在其上執行 Siebel 閘道的節點具有以 /home 開頭的路徑（這將取決於網路資源，如 NFS 和 NIS ），則可能會發生這種情況。如果沒有公用網路，則在嘗試開啟 /home 上的檔案時 Siebel 閘道探測器將掛斷，以致探測器逾時。

解決方法： 對於可主控 Siebel 閘道的叢集之所有節點，請完成以下步驟。

確保 /etc/nsswitch.conf 中的 passwd、group 和 project 項僅參考 files，而不參考 nis 。

確保任何以 /home 開頭的路徑沒有 NFS 或 NIS 依存。

您可能有本機安裝的 /home 路徑，或將 /home 安裝點重新命名為 /export/home 或不以 /home 開頭的某些名稱。

在 /etc/auto_master 檔案中，註釋掉包含項 +auto_master 的行。此外，使用 auto_home 註釋掉任何 /home 項。

在 etc/auto_home 中，註釋掉包含 +auto_home 的行。

清除閘道路由將中斷每個節點的邏輯 IP 通訊 (4766076)

問題摘要：為透過私用互連提供高可用性的、每個節點的邏輯 IP 通訊，Sun Cluster 軟體依存叢集節點上的閘道路由。清除閘道路由將中斷每個節點的邏輯 IP 通訊。

解決方法：重新啟動那些無意中清除了路由的叢集節點。要復原閘道路由，重新啟動一次叢集節點即可。每個節點的邏輯 IP 通訊將保持中斷狀態，直至復原路由。重新啟動叢集節點時，必須觀察法定情況。

故障轉移不成功導致出錯 (4766781)

問題摘要：如果對檔案系統進行故障轉移/切換不成功，則會導致出錯。

解決方法：卸載並重新裝載檔案系統。

啟用 TCP 選擇性確認可能導致資料損壞 (4775631)

問題摘要：在叢集節點上啟用 TCP 選擇性確認可能導致資料損壞。

解決方法：用戶無需採取措施。為避免導致全域檔案系統上的資料損壞，請不要在叢集節點上重新啟用 TCP 選擇性確認。

`scinstall` 某些資料服務錯誤地顯示為不受支援 (4776411)

問題摘要：scinstall 不正確地顯示，以下資料服務不受 Solaris 9 支援：

Sun Cluster HA for SAP
Sun Cluster HA for SAP liveCache

解決方法：Solaris 8 和 9 支援 Sun Cluster HA for SAP 和 Sun Cluster HA for SAP liveCache；忽略 scinstall 中的不受支援功能清單。

如果缺少 `/dev/rmt`，`scdidadm` 將出錯退出 (4783135)

問題摘要：scdidadm(1M) 執行依存 /dev/rmt 和 /dev/(r)dsk 的存在，以成功執行 scdiadm -r。 Solaris 兩個均安裝，不管是否存在實際的基本儲存裝置。如果缺少 /dev/rmt，則 scdidadm 將退出，並顯示以下錯誤：

Cannot walk /dev/rmt" during execution of 'scdidadm -r

解決方法：在缺少 /dev/rmt 的任意節點上，請使用 mkdir 來建立一個目錄 /dev/rmt。然後，從一個節點執行 scgdevs。

節點出現故障時的資料損壞導致叢集檔案系統主機當機 (4804964)

問題摘要：執行修補程式 113454-04、113073-02 和 113276-02（或這些修補程式的子集）的 Sun Cluster 3.x 系統會出現資料損壞。此問題僅出現在全域裝載的 UFS 檔案系統中。資料損壞會導致資料遺失（也就是說，在應存在資料的地方顯示零），並且遺失的資料量始終是磁碟區塊的倍數。如果節點故障導致叢集檔案系統主機在叢集檔案系統用戶端完成（或報告剛剛完成）寫入作業後隨即當機，則隨時可能出現資料丟失。出現此錯誤現象的期間很短，並且不會每次出現。

解決方法：使用 -o syncdir 裝載選項以強制 UFS 使用同步 UFS 日誌事務。

重新啟動後，節點在進行切換作業時掛斷 (4806621)

問題摘要：如果在節點連接叢集時正在進行裝置群組切換，則連接節點和切換作業可能掛斷。存取任意裝置服務的所有嘗試也會掛斷。在叢集包含超過兩個節點，並且裝置上裝載的檔案系統為 VxFS 檔案系統時，很可能發生此錯誤。

解決方法：為避免這種情況，請不要在節點正在連結至叢集時開始裝置群組切換。如果出現這種情況，則必須重新啟動所有叢集節點以恢復對裝置群組的存取。

在叢集檔案系統已滿時，檔案系統出現驚慌狀況 (4808748)

問題摘要：在叢集檔案系統已滿時，檔案系統可能會出現驚慌狀況，並顯示以下訊息之一： 1)

assertion failed: cur_data_token & PXFS_WRITE_TOKEN or PXFS_READ_TOKEN

或 2)

vp->v_pages == NULL

.這些應急狀況旨在防止資料在檔案系統已滿時損壞。

解決方法：要減少出現此問題的可能性，請儘可能透過 UFS 使用叢集檔案系統。在透過 UFS 使用叢集檔案系統時，出現這些應急狀況之一的可能性極小，但風險大於透過 VxFS 使用叢集檔案的風險。

叢集節點在啟動時掛斷 (4809076)

問題摘要：在裝置服務切換請求時，如果在重新啟動節點的同時使用了 scswitch -z -D <device-group> -h <node>，並且在裝置服務上配置了全域檔案系統，全域檔案系統將變得不可用，並且涉及任何裝置服務或全域檔案系統的後續配置更改也會掛斷。此外，後續叢集節點連結可能掛斷。

解決方法：要進行恢復，您需要重新啟動所有叢集節點。

使用 `scconf -rq` 刪除法定裝置導致叢集出現驚慌狀況 (4811232)

問題摘要：如果執行 scconf -rq 命令在脆弱的配置中刪除法定裝置，則叢集的所有節點將出現驚慌狀況，並顯示以下訊息

CMM lost operational quorum

解決方法：要從叢集中刪除法定裝置，請首先檢查 scstat -q 的輸出。如果列出的法定裝置在 Present 列中包含多個投票，則應使用 scconf -cq globaldev=QD,maintstate 將裝置首先置於維護模式下。在命令完成並且 scstat -q 中顯示的法定裝置顯示為包含 0 個投票後，則可以使用 scconf -rq 刪除裝置。

使用 `O_EXCL` 旗標時鏡像容體出現故障 (4820273)

問題摘要：如果正在使用 Solstice DiskSuite/Solaris Volume Manager，並且透過 O_EXCL 旗標開啟了鏡像容體，則包含此容體的裝置群組故障轉移將會失敗。在故障轉移後第一次存取該容體時，此錯誤將導致新裝置群組主機出現驚慌狀況。

解決方法：在使用 Solstice DiskSuite/Solaris Volume Manager 時，請不要透過 O_EXCL 旗標開啟鏡像容體。

節點重新啟動後，叢集在切換期間掛斷 (4823195)

問題摘要：如果在重新啟動或連結節點的同時發出裝置服務故障轉移請求，並且在裝置服務上配置了叢集檔案系統，則叢集檔案系統可能會變得不可用，並且涉及任何裝置服務或叢集檔案系統的後續配置更改也會掛斷。此外，後續叢集節點連結也可能掛斷。

解決方法：要進行恢復，您需啟動所有叢集節點。

法文語言環境中的未翻譯文字 (4840085)

問題摘要：在法文語言環境中，使用 SunPlex Manager 安裝 Sun Cluster 時出現某些未翻譯文字。

解決方法：此錯誤不影響 SunPlex Manager 的功能。您可以忽略未翻譯文字，或將瀏覽器語言設置為英文以避免混雜的翻譯。