附註:

在 Oracle Cloud Infrastructure 中部署 GPU 高效能運算叢集

簡介

強大的大型語言模型 (LLM) 出現可增加基礎架構對具有足夠圖形處理單元 (GPU) 記憶體的基礎架構的需求,以執行微調工作,而達成此目標的一種方式則使用 GPU 叢集。Oracle Cloud Infrastructure (OCI) 可部署 NVIDIA GPU A100s 的超級叢集,並使用其功能來執行或微調 LLM。

元件

叢集網路是 OCI 的強大資源,用於部署由高頻寬、超低延遲網路連線的 HPC 和 GPU 機器叢集。叢集中的每個節點都是位於與其他節點相鄰實體的裸機機器。節點之間的遠端直接記憶體存取 (RDMA) 網路可提供單一數位微秒延遲,相較於企業內部部署的高效能運算 (HPC) 叢集。如需詳細資訊,請參閱具有執行處理集區的叢集網路

若要部署叢集,您必須建立一個內含工作區區間資訊的動態群組、一組原則,讓服務和動態群組能夠執行某些作業、節點叢集使用的 Ubuntu ISO 映像檔自訂映像檔,以及部署 Marketplace 堆疊以部署叢集。如需詳細資訊,請參閱管理動態群組原則自訂映像檔以及 Oracle Cloud Marketplace

目標

必要條件

作業 1:建立動態群組

建立含工作區資訊的動態群組規則。

  1. 登入 OCI 主控台,瀏覽至識別與安全,然後按一下區間。從工作區間複製 Oracle Cloud ID (OCID)。

    影像 1

  2. 按一下動態群組建立動態群組

  3. 輸入名稱描述。對於此教學課程,請輸入 instance-principal 作為名稱。更新 OCID,然後按一下建立

    影像 2

工作 2:定義原則

定義部署程序所需的原則。

  1. 前往 OCI 主控台,瀏覽至識別與安全原則

  2. 按一下建立原則並輸入名稱描述,然後選取根區間。

  3. 按一下顯示手動編輯器並輸入下列原則,以您的資訊取代 <>,然後按一下建立

    Allow service compute_management to use tag-namespace in tenancy
    
    Allow service compute_management to manage compute-management-family in tenancy
    
    Allow service compute_management to read app-catalog-listing in tenancy
    
    Allow group Administrators to manage all-resources in compartment <>
    
    allow service compute_management to use tag-namespace in tenancy
    
    allow service compute_management to manage compute-management-family in tenancy
    
    allow service compute_management to read app-catalog-listing in tenancy
    
    allow group user to manage all-resources in compartment compartmentName
    
    Allow dynamic-group instance-principal to read app-catalog-listing in tenancy
    
    Allow dynamic-group instance-principal to use tag-namespace in tenancy
    
    Allow dynamic-group instance-principal to manage compute-management-family in compartment <>
    
    Allow dynamic-group instance-principal to manage instance-family in compartment <>
    
    Allow dynamic-group instance-principal to use virtual-network-family in compartment <>
    
    Allow dynamic-group instance-principal to use volumes in compartment <>
    

    影像 3

工作 3:( 選擇性 ) 建立自訂影像

從 GPU 機器的 Ubuntu 映像檔建立自訂映像檔。(視需要)。

  1. 前往 OCI 主控台,瀏覽至運算自訂映像檔

    影像 4

  2. 自訂影像下,按一下匯入影像

    影像 5

  3. 請輸入下列資訊。

    • 區間:輸入區間。
    • 名稱:針對此教學課程,輸入 Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0 作為名稱。
    • 作業系統 (OS):輸入作業系統。
    • 選取從物件儲存 URL 匯入,然後輸入下列 URL:https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0

    影像 6

  4. 輸入物件儲存中的影像位置。

    影像 7

    影像 8

  5. 依照預設保留其他組態,然後按一下匯入影像。自訂映像檔需要幾分鐘的時間才能可供使用。

    影像 9

工作 4:部署 HPC 堆疊

簡單快速地部署 HPC 堆疊的方式是使用下列 URL:https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-hpc/archive/refs/heads/master.zip。此 URL 將使用所有建議和更新的命令檔來建立環境。

注意:若要檢查部署命令檔的最新更新,請前往 URL:https://github.com/oracle-quickstart/oci-hpc。在 README.md 檔案中,按一下部署至 Oracle Cloud ,如下圖所示。

影像 28

傳統透過 OCI 主控台部署 HPC 堆疊。

  1. 前往 OCI 主控台,按一下市集所有應用程式

    影像 10

  2. 搜尋列中輸入 HPC solutions

    影像 11

  3. 選取 HPC 叢集

    影像 12

  4. 輸入建立堆疊所需的必要資訊。

    影像 13

    影像 14

    影像 15

    影像 16

    影像 17

    影像 18

    影像 19

    影像 20

  5. 輸入必要的值以設定進階堡壘主機選項

    影像 21

  6. 輸入叢集網路參數。

    影像 22 影像 23

  7. 按一下建立以起始堆疊部署。

    影像 24

    堆疊已順利建立。

    影像 25

  8. 若要檢查建立的執行處理,請前往 OCI 主控台,然後按一下運算執行處理

    影像 26

    影像 27

認可

其他學習資源

瀏覽 docs.oracle.com/learn 的其他實驗室,或前往 Oracle Learning YouTube 頻道存取更多免費學習內容。此外,請造訪 education.oracle.com/learning-explorer 以成為 Oracle Learning Explorer。

如需產品文件,請造訪 Oracle Help Center