附註:
- 此教學課程需要存取 Oracle Cloud。若要註冊免費帳戶,請參閱 Oracle Cloud Infrastructure Free Tier 入門。
- 它使用 Oracle Cloud Infrastructure 證明資料、租用戶及區間的範例值。完成實驗室時,請將這些值取代為您雲端環境特定的值。
在 Oracle Cloud Infrastructure 上部署 NVIDIA RTX Virtual Workstation
簡介
NVIDIA RTX Virtual Workstation 軟體能讓使用者以類似工作站的原生效能,在雲端上執行高效能模擬、圖形轉譯和設計工作負載。它解鎖了圖形 API (例如 OpenGL 或 DirectX) 提供的強大彩現功能,為雲端帶來突破性的圖形效能。
目標
- 在 Oracle Cloud Infrastructure (OCI) 上使用支援 NVIDIA A10 GPU 的運算資源配置,運用 RTX 和 NVIDIA Virtual GPU 技術。
作業 1:在 OCI 上佈建 NVIDIA RTX Virtual Workstation 的運算執行處理
-
從這些可用的 GPU.A10 資源配置中選取一個資源配置。
VM.GPU.A10.1 VM.GPU.A10.2 BM.GPU.A10.4
-
啟動運算執行處理時,會將資源配置變更為上述其中一個資源配置。若要啟動 GPU.A10 VM,請按一下專長與上一代,然後選取其中一個 VM.GPU.A10 資源配置。針對裸機伺服器,按一下裸機機器並選取 BM.GPU.A10.4 資源配置。
-
如果您的租用戶未設定 GPU.A10 的服務限額,這些資源配置將不會列在資源配置清單中。
-
若要在 OCI 主控台中檢查您的租用戶限制,請設定要佈建 GPU.A10 運算執行處理的區域,開啟導覽功能表並按一下治理與管理。
-
在租用戶管理下,選取限制、配額和用量。
-
將服務設為運算,選取範圍中的其中一個可用性網域,然後在資源中輸入 GPU.A10 。
-
選取 A10 型 VM 和 BM 執行處理的 GPU 。
-
-
運算限制是依可用性網域而定。檢查是否已在區域的任何可用性網域中設定限制。如果所有可用性網域的服務限額設為 0,請按一下要求提高服務限額,然後送出此資源的提高限額要求。如需有關服務限制的詳細資訊,請參閱服務限制。
注意:若要存取限制、配額和使用狀況,您必須是租用戶管理員群組的成員,或者您的群組必須有指定讀取 LimitsAndUsageViewers 的原則。
-
目前 OCI GPU.A10 運算資源配置支援 Oracle Linux、Ubuntu 和 Rocky Linux。僅 VM 資源配置支援 Windows。
備註: NVIDIA 未正式支援 Rocky Linux。
-
在 OCI 上佈建運算執行處理時,請使用標準作業系統映像檔。請勿使用啟用 GPU 的映像檔,因為已安裝的 NVIDIA GPU 驅動程式不支援需要安裝 NVIDIA vGPU 驅動程式的 RTX 虛擬工作站 (vWS)。
作業 2:下載並安裝 NVIDIA vGPU 驅動程式
-
下載 NVIDIA vGPU 驅動程式,如下載 NVIDIA vGPU 軟體中所述。如果您沒有 NVIDIA 的企業帳戶,可以在虛擬 GPU (vGPU) 軟體免費 90Days 試用 - NVIDIA 註冊試用。
-
使用您的 NVIDIA Enterprise 帳戶登入 NVIDIA Enterprise Application HUB。
-
開啟「NVIDIA 授權入口網站」,然後選取軟體下載。套用下列篩選:
-
產品系列:輸入 VGPU 。
-
平台:輸入 Linux KVM 。
-
-
依發行日期排序,並使用 Linux KVM 平台的最新 vGPU 驅動程式版本下載套裝程式。例如,目前的最新 vGPU 版本為 17.4。
-
解壓縮檔案並移至
Guest_Drivers
資料夾。您會發現 Windows 和 Linux 的 vGPU 驅動程式安裝檔案。
注意:如果您使用 Linux,請依照「工作 3」、「工作 4」、「工作 5」進行,如果您使用 Windows,請移至「工作 6」。
作業 3:在 Linux 上安裝 NVIDIA vGPU 驅動程式
-
Oracle Linux 8
-
將 NVIDIA Linux 驅動程式
NVIDIA-Linux-x86_64-xxx.xx.xx-grid.run
複製到佈建的運算執行處理。 -
安裝 NVIDIA 驅動程式安裝並執行下列指令來啟用
gcc-12
工具集之前。sudo dnf install gcc-toolset-12 scl enable gcc-toolset-12 bash
-
您也必須停用與 NVIDIA 驅動程式發生衝突的
nouveau
驅動程式。執行下列命令以檢查是否已載入nouveau
驅動程式。lsmod | grep nouveau
-
如果在指令輸出中顯示
nouveau
驅動程式,您必須先停用該驅動程式。若要在 Oracle Linux 上停用nouveau
驅動程式,請建立/etc/modprobe.d/blacklist-nouveau.conf
檔案並新增下列內容。blacklist nouveau options nouveau modeset=0
-
儲存檔案並重新產生 initramfs。
sudo dracut --force
-
停用驅動程式之後,請重新啟動伺服器。
sudo reboot
-
請執行下列命令來安裝 NVIDIA vGPU 驅動程式。
sudo bash ./NVIDIA-Linux-x86_64-xxx.xxx.xx-grid.run
-
忽略警告並按一下確定以繼續安裝。重新啟動伺服器。
sudo reboot
-
-
Oracle Linux 9
-
將 NVIDIA Linux 驅動程式
NVIDIA-Linux-x86_64-xxx.xx.xx-grid.run
複製到佈建的運算執行處理。 -
您也必須停用與 NVIDIA 驅動程式發生衝突的
nouveau
驅動程式。執行下列動作以檢查是否已載入nouveau
驅動程式。lsmod | grep nouveau
-
如果在指令輸出中顯示
nouveau
驅動程式,您必須先停用該驅動程式。若要在 Oracle Linux 上停用nouveau
驅動程式,請建立/etc/modprobe.d/blacklist-nouveau.conf
檔案並新增下列內容。blacklist nouveau options nouveau modeset=0
-
儲存檔案並重新產生 initramfs。
sudo dracut --force
-
停用驅動程式之後,請重新啟動伺服器。
sudo reboot
-
請執行下列動作以安裝 NVIDIA vGPU 驅動程式。
sudo bash ./NVIDIA-Linux-x86_64-xxx.xxx.xx-grid.run
-
忽略警告並按一下確定以繼續安裝。重新啟動伺服器。
sudo reboot
-
-
Rocky Linux 9
-
將 NVIDIA Linux 驅動程式
NVIDIA-Linux-x86_64-xxx.xx.xx-grid.run
複製到佈建的運算執行處理。 -
安裝符合 Linux 核心版本的 Linux 標頭。
sudo dnf install kernel-devel-$(uname -r)
-
如果找不到與核心版本相符的 Linux 標頭,請升級 Linux 核心,然後重新啟動伺服器。
sudo dnf install kernel sudo reboot
重新啟動之後,請重新安裝 Linux 標頭,以符合 Linux 核心版本。
sudo dnf install kernel-devel-$(uname -r)
-
執行下列命令以檢查是否已載入
nouveau
驅動程式。lsmod | grep nouveau
-
如果在指令輸出中顯示
nouveau
驅動程式,您必須先停用該驅動程式。若要在 Oracle Linux 上停用nouveau
驅動程式,請建立/etc/modprobe.d/blacklist-nouveau.conf
檔案並新增下列內容。blacklist nouveau options nouveau modeset=0
-
儲存檔案並重新產生 initramfs。
sudo dracut --force
-
停用驅動程式之後,請重新啟動伺服器。
sudo reboot
-
請執行下列命令來安裝 NVIDIA vGPU 驅動程式。
sudo bash ./NVIDIA-Linux-x86_64-xxx.xxx.xx-grid.run
-
忽略警告並按一下確定以繼續安裝。重新啟動伺服器。
sudo reboot
-
-
Ubuntu 22
-
將 NVIDIA Linux 驅動程式
NVIDIA-Linux-grid-xxx.xx.xx_amd64.deb
複製到佈建的運算執行處理。 -
執行下列命令以檢查是否已載入
nouveau
驅動程式。lsmod | grep nouveau
-
如果在指令輸出中顯示
nouveau
驅動程式,您必須先停用該驅動程式。若要在 Oracle Linux 上停用nouveau
驅動程式,請建立/etc/modprobe.d/blacklist-nouveau.conf
檔案並新增下列內容。blacklist nouveau options nouveau modeset=0
-
儲存檔案並重新產生 initramfs。
sudo dracut --force
-
停用驅動程式之後,請重新啟動伺服器。
sudo reboot
-
請執行下列命令來安裝 NVIDIA vGPU 驅動程式。
sudo apt install ./NVIDIA-Linux-grid-xxx.xxx.xx_amd64.deb
-
重新啟動伺服器。
sudo reboot
-
作業 4:驗證 NVIDIA vGPU 驅動程式安裝
-
執行
nvidia-smi
命令以驗證 NVIDIA vGPU 驅動程式安裝。
作業 5:啟用 NVIDIA RTX 虛擬工作站
-
若要啟用 NVIDIA RTX Virtual Workstation 功能,請更新
edit /etc/nvidia/gridd.conf
。sudo vi /etc/nvidia/gridd.conf
-
新增線條。
FeatureType=2
-
儲存變更並關閉檔案。
-
檢查 GSP 韌體是否已啟用。
nvidia-smi -q | grep GSP
-
如果啟用 GSP 韌體,則指令會顯示 GSP 韌體版本。
GSP Firmware Version : 525.85.05
-
如果啟用 GSP 韌體,請將 NVIDIA 模組參數
NVreg_EnableGpuFirmware
設為 0 以停用此韌體。編輯/etc/modprobe.d/nvidia.conf
檔案以設定此參數。如果/etc/modprobe.d/nvidia.conf
檔案不存在,請建立該檔案。sudo vi /etc/modprobe.d/nvidia.conf
將下面這一行加到上面 (如果還沒有的話)。
options nvidia NVreg_EnableGpuFirmware=0
-
停用 GSP 之後,您必須重新啟動伺服器。
sudo reboot
-
從 NVIDIA 授權入口網站或 DLS 設備下載從屬端組態權杖。如需有關如何註冊 NVIDIA vGPU 授權的資訊,請參閱任務 7:向 NVIDIA vGPU Software License Server 註冊。
-
將從屬端組態記號複製到
/etc/nvidia/ClientConfigToken
的預設位置,並將檔案權限設為 744。sudo chmod 744 /etc/nvidia/ClientConfigToken/client_configuration_token_*.tok
注意:如果您要將從屬端組態記號儲存在自訂位置,請將記號複製到您建立的目錄,並將
/etc/nvidia/gridd.conf
中的ClientConfigTokenPath
組態參數設為指向此目錄。 -
重新啟動
nvidia-gridd
服務。sudo systemctl restart nvidia-gridd
-
執行
nvidia-smi -q
命令,並檢查產品品牌是否設為 NVIDIA RTX ,而授權狀態顯示已授權。 -
如果無法取得授權,並將授權狀態顯示為未授權,請檢查 nvidia-gridd 服務日誌。
sudo grep gridd /var/log/messages
作業 6:在 Windows 上安裝 NVIDIA vGPU 驅動程式
-
將 NVIDIA Windows 驅動程式套裝軟體複製到您要安裝驅動程式的來賓 VM 或實體主機。執行套裝軟體以解壓縮並執行驅動程式安裝程式。接受授權合約並選擇 Express 安裝。
-
OCI A10 GPU VM 已設定 GPU 代付,因此您必須透過 regedit 設定 vGPU 驅動程式行為。如需詳細資訊,請參閱虛擬 GPU 用戶端授權使用者指南。
-
新增
FeatureType DWord (REG_DWORD)
登錄值至 Windows 登錄機碼。HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\nvlddmkm\Global\GridLicensing
-
將此值設為 2 以啟用 NVIDIA RTX Virtual Workstation 授權。
-
重新啟動 NVIDIA Display Container LS 服務。
-
從 NVIDIA 授權入口網站或 DLS 設備下載從屬端組態權杖。如需有關如何註冊 NVIDIA vGPU 授權的資訊,請參閱任務 7:向 NVIDIA vGPU Software License Server 註冊。
-
將從屬端組態權杖複製到資料夾。
%SystemDrive%:\Program Files\NVIDIA Corporation\GRID Licensing\ClientConfigToken
-
從命令行或 PowerShell 執行
nvidia-smi -q
命令,並檢查產品品牌是否設為 NVIDIA RTX ,而授權狀態顯示已授權。注意:在 Windows 上,
nvidia-smi.exe
預設會安裝在C:\Program Files\NVIDIA Corporation\NVSMI
資料夾中。 -
如果無法取得授權,並將授權狀態顯示為未授權,請在日誌中檢查授權訊息。
%SystemDrive%\Users\Public\Documents\NvidiaLogging\Log.NVDisplay.Container.exe.log
作業 7:在 NVIDIA vGPU Software License Server 註冊 vGPUS
vGPU 授權是透過 NVIDIA 軟體強制執行,如果 VM 無法取得授權,則虛擬 GPU 的效能會隨著時間降低。從 vGPU 版本 13.0 開始,NVIDIA 授權系統支援下列類型的服務執行處理:
-
雲端授權服務 (CLS) 執行個體: CLS 執行個體託管在 NVIDIA 授權入口網站上。
-
委派授權服務 (DLS) 執行處理: DLS 執行處理是在企業內部部署環境所代管,可從您的專用網路存取。
您可以從「NVIDIA 授權入口網站」下載 DLS 虛擬設備。
-
前往「軟體下載」,選取非驅動程式下載並下載,將平台設為 Linux KVM ,然後下載最新版本的 NLS 授權伺服器 (DLS) ... (適用於 Linux KVM) 。
-
解壓縮檔案並將 DLS 虛擬設備 QCOW2 檔案上傳至 OCI 物件儲存。之後,您可以將它匯入 OCI 作為半虛擬化自訂映像檔,並從中建立 VM。或者,您可以在 KVM 環境中以其中一個 VM 身分執行 DLS 虛擬設備。
- 如需有關如何取得和註冊 NVIDIA vGPU 授權以及如何設定 DLS 授權伺服器的詳細資訊,請參閱 NVIDIA License System User Guide 和 NVIDIA License System Quick Start Guide 。
-
在 NVIDIA vGPU 軟體授權伺服器註冊 vGPU 授權之後,您就可以在
nvidia-smi -q
命令的輸出中查看授權狀態來進行確認。
相關連結
認可
- 作者 - Michael Prestin (主要雲端架構師)
其他學習資源
探索 docs.oracle.com/learn 上的其他實驗室,或存取 Oracle Learning YouTube 頻道上的更多免費學習內容。此外,請造訪 education.oracle.com/learning-explorer 以成為 Oracle Learning Explorer。
如需產品文件,請造訪 Oracle Help Center 。
Deploy NVIDIA RTX Virtual Workstation on Oracle Cloud Infrastructure
F80552-04
November 2024