在執行系統上將 ConnectX 韌體升級至版本 2.6.000 或更高版本時,會導致某些 HCA 和 x64 平台發生問題。此問題僅會影響 Mellanox 品牌的 HCA。Sun 品牌的 PCIe HCA、EM、NEM 和 SPARC 平台不受影響。
您可能無法啟動系統,或是系統可能會在啟動期間當機。ibd (IPoverIB) 實例編號可能會變更,阻止系統啟動與探測 ibd 裝置。
解決方法 1:使用 cxflash 更新韌體之後,在重新啟動系統之前,請從 /etc/path_to_inst 檔案和 /dev 目錄移除 ibd<x> 實例。執行下列步驟:
以超級使用者的身分登入。裝置樹狀結構資訊可能類似如下所示:
# ls -R /devices | grep 15b3 /devices/pci@0,0/pci10de,5d@e/pci15b3,634a@0 /devices/pci@0,0/pci10de,5d@e/pci15b3,634a@0/ibport@1,ffff,ipib /devices/pci@0,0/pci10de,5d@e/pci15b3,634a@0/ibport@1,ffff,ipib:ibd0 /devices/pci@0,0/pci10de,5d@e/pci15b3,634a@0/ibport@2,ffff,ipib /devices/pci@0,0/pci10de,5d@e/pci15b3,634a@0/ibport@2,ffff,ipib:ibd1 /devices/pci@0,0/pci10de,5d@e/pci15b3,634a@0:devctl |
裝置規格依安裝的 Mellanox 品牌的卡不同而有所不同。
編輯 path_to_inst 檔案。執行下列步驟:
建立現有 path_to_inst 檔案的副本。
# cp /etc/path_to_inst /etc/path_to_inst.backup |
開啟 path_to_inst 檔案:
# vi /etc/path_to_inst |
搜尋含有 ibd 和 hermon 的行,然後將這些行刪除。
儲存變更並關閉此檔案。
移除 /dev 目錄中的項目:
rm /dev/ibd?* |
重新啟動系統。系統會如常啟動,而對應的裝置樹狀結構資訊可能類似如下所示:
# ls -R /devices | grep 15b3 /devices/pci@0,0/pci10de,5d@e/pci15b3,5@0 /devices/pci@0,0/pci10de,5d@e/pci15b3,5@0/ibport@1,ffff,ipib /devices/pci@0,0/pci10de,5d@e/pci15b3,5@0/ibport@1,ffff,ipib:ibd0 /devices/pci@0,0/pci10de,5d@e/pci15b3,5@0/ibport@2,ffff,ipib /devices/pci@0,0/pci10de,5d@e/pci15b3,5@0/ibport@2,ffff,ipib:ibd1 /devices/pci@0,0/pci10de,5d@e/pci15b3,5@0:devctl |
解決方法 2:如果在更新 path_to_inst 檔案和 /dev 目錄之前重新啟動系統,則系統可能會當機。在此情況下,請執行以下步驟:
關閉系統電源,並從匯流排移除 HCA。
在未安裝 HCA 的情況下重新啟動系統。
當系統重新啟動後,請依照解決方法 1 中所列的步驟 2 到步驟 3 進行。
關閉系統電源。
重新安裝 HCA。重新啟動系統。
如果系統重新啟動,但 ibd 介面沒有自動探測,則 /etc/hostname.ib<?> 檔案可能不適用於目前的裝置配置。手動重新命名檔案以反映正確的配置。