附註:
- 此教學課程需要存取 Oracle Cloud。若要註冊免費帳戶,請參閱開始使用 Oracle Cloud Infrastructure Free Tier 。
- 它使用 Oracle Cloud Infrastructure 憑證、租用戶及區間的範例值。完成實驗室時,請以雲端環境特有的值取代這些值。
在 Oracle Cloud Infrastructure 中部署 GPU 高效能運算叢集
簡介
強大的大型語言模型 (LLM) 出現可增加基礎架構對具有足夠圖形處理單元 (GPU) 記憶體的基礎架構的需求,以執行微調工作,而達成此目標的一種方式則使用 GPU 叢集。Oracle Cloud Infrastructure (OCI) 可部署 NVIDIA GPU A100s 的超級叢集,並使用其功能來執行或微調 LLM。
元件
叢集網路是 OCI 的強大資源,用於部署由高頻寬、超低延遲網路連線的 HPC 和 GPU 機器叢集。叢集中的每個節點都是位於與其他節點相鄰實體的裸機機器。節點之間的遠端直接記憶體存取 (RDMA) 網路可提供單一數位微秒延遲,相較於企業內部部署的高效能運算 (HPC) 叢集。如需詳細資訊,請參閱具有執行處理集區的叢集網路。
若要部署叢集,您必須建立一個內含工作區區間資訊的動態群組、一組原則,讓服務和動態群組能夠執行某些作業、節點叢集使用的 Ubuntu ISO 映像檔自訂映像檔,以及部署 Marketplace 堆疊以部署叢集。如需詳細資訊,請參閱管理動態群組、原則、自訂映像檔以及 Oracle Cloud Marketplace 。
目標
- 使用預先設定的堆疊在 OCI 上部署 GPU A100 叢集。
必要條件
-
存取以建立動態群組、使用者群組及原則。如需存取權限,請洽詢租用戶管理員。
-
GPU 運算限制。如果您沒有足夠的運算 GPU 限制,請參閱要求提高服務限制。
作業 1:建立動態群組
建立含工作區資訊的動態群組規則。
-
登入 OCI 主控台,瀏覽至識別與安全,然後按一下區間。從工作區間複製 Oracle Cloud ID (OCID)。
-
按一下動態群組和建立動態群組。
-
輸入名稱和描述。對於此教學課程,請輸入
instance-principal
作為名稱。更新 OCID,然後按一下建立。
工作 2:定義原則
定義部署程序所需的原則。
-
前往 OCI 主控台,瀏覽至識別與安全和原則。
-
按一下建立原則並輸入名稱、描述,然後選取根區間。
-
按一下顯示手動編輯器並輸入下列原則,以您的資訊取代
<>
,然後按一下建立。Allow service compute_management to use tag-namespace in tenancy Allow service compute_management to manage compute-management-family in tenancy Allow service compute_management to read app-catalog-listing in tenancy Allow group Administrators to manage all-resources in compartment <> allow service compute_management to use tag-namespace in tenancy allow service compute_management to manage compute-management-family in tenancy allow service compute_management to read app-catalog-listing in tenancy allow group user to manage all-resources in compartment compartmentName Allow dynamic-group instance-principal to read app-catalog-listing in tenancy Allow dynamic-group instance-principal to use tag-namespace in tenancy Allow dynamic-group instance-principal to manage compute-management-family in compartment <> Allow dynamic-group instance-principal to manage instance-family in compartment <> Allow dynamic-group instance-principal to use virtual-network-family in compartment <> Allow dynamic-group instance-principal to use volumes in compartment <>
工作 3:( 選擇性 ) 建立自訂影像
從 GPU 機器的 Ubuntu 映像檔建立自訂映像檔。(視需要)。
-
前往 OCI 主控台,瀏覽至運算和自訂映像檔。
-
在自訂影像下,按一下匯入影像。
-
請輸入下列資訊。
- 區間:輸入區間。
- 名稱:針對此教學課程,輸入
Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
作為名稱。 - 作業系統 (OS):輸入作業系統。
- 選取從物件儲存 URL 匯入,然後輸入下列 URL:
https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
-
輸入物件儲存中的影像位置。
-
依照預設保留其他組態,然後按一下匯入影像。自訂映像檔需要幾分鐘的時間才能可供使用。
工作 4:部署 HPC 堆疊
簡單快速地部署 HPC 堆疊的方式是使用下列 URL:https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-hpc/archive/refs/heads/master.zip
。此 URL 將使用所有建議和更新的命令檔來建立環境。
注意:若要檢查部署命令檔的最新更新,請前往 URL:
https://github.com/oracle-quickstart/oci-hpc
。在README.md
檔案中,按一下部署至 Oracle Cloud ,如下圖所示。
或
傳統透過 OCI 主控台部署 HPC 堆疊。
-
前往 OCI 主控台,按一下市集和所有應用程式。
-
在搜尋列中輸入
HPC solutions
。 -
選取 HPC 叢集。
-
輸入建立堆疊所需的必要資訊。
-
輸入必要的值以設定進階堡壘主機選項。
-
輸入叢集網路參數。
-
按一下建立以起始堆疊部署。
堆疊已順利建立。
-
若要檢查建立的執行處理,請前往 OCI 主控台,然後按一下運算、執行處理。
認可
- 作者 - Douglas Silva (LAD A-Team)、Leandro Camargo (LAD A-Team)
其他學習資源
瀏覽 docs.oracle.com/learn 的其他實驗室,或前往 Oracle Learning YouTube 頻道存取更多免費學習內容。此外,請造訪 education.oracle.com/learning-explorer 以成為 Oracle Learning Explorer。
如需產品文件,請造訪 Oracle Help Center 。
Deploy a GPU High Performance Computing Cluster in Oracle Cloud Infrastructure
F98236-01
May 2024