從 Oracle Cloud Marketplace 設定 HPC 叢集堆疊

HPC 叢集堆疊使用 Terraform 部署 Oracle Cloud Infrastructure 資源。堆疊將會建立 GPU 節點、儲存體、標準網路和高效能叢集網路，以及用於存取及管理叢集的堡壘主機 / 標頭節點。

部署 GPU 叢集

您的 Oracle Cloud 帳戶必須位於具備部署及管理這些資源權限的群組中。如需有關原則需求的詳細資訊，請參閱 HPC 叢集使用說明。

您可以將堆疊部署至現有的區間，但若是特別為叢集建立區間，可能會更乾淨。

附註：

雖然使用市集堆疊佈建環境無須付費，但系統仍會向您收取啟動堆疊時佈建資源的費用。

建立租用戶和區域的區間，並且確認有可用的原則。
1. 以您要在其中工作之租用戶和區域的 Oracle Cloud 使用者身分登入 OCI 主控台。
2. 建立叢集資源的區間。
3. 請確定已備妥 OCI 原則，以便讓您建立叢集。
  這可能需要您安全性或網路管理員的協助。以下是「原則」範例：允許 myGroup 群組管理 compartment 區間中的所有資源。
使用 HPC 叢集堆疊部署 GPU 叢集。
1. 瀏覽至 Marketplace，然後按一下所有應用程式。
2. 在搜尋清單方塊中，輸入 HPC 叢集。
  
  附註：
  如果租用戶的 OCI Marketplace 中沒有 HPC 叢集堆疊，您可以從 GitHub 複製堆疊 (git 複製 https://github.com/oracle-quickstart/oci-hpc.git)，然後將它匯入 OCI 資源管理程式。這提供相同的功能，但您需要存取適用於 GPU 節點的適當「自訂作業系統映像檔」。
3. 按一下 HPC 叢集。
4. 選取一個版本。
  已使用預設的 v2.10.4.1。
5. 選取要在其中建立叢集的區間
6. 按一下啟動堆疊。

設定叢集

啟動堆疊時，請完成「堆疊資訊」和「組態」頁面，以開始設定叢集。

完成堆疊資訊頁面：
1. 輸入叢集的名稱。
2. (選用) 新增簡短說明。
3. 按下一步。
組態變數頁面便會顯示。
設定叢集。
組態變數頁面提供許多根據需求自訂叢集的機會。我們不會詳細說明每個選項。而是在建置支援 NVIDIA 叢集軟體的 GPU 叢集時，提供任何非預設設定的指引。
1. 在公用 SSH 金鑰中，新增可讓您登入叢集的公開金鑰。
2. 選取使用自訂叢集名稱核取方塊，然後輸入基本主機名稱。
  這是用來作為堡壘主機和登入節點主機名稱的前置碼。
使用標頭節點選項來自訂堡壘主機。
此執行處理可作為主要登入節點、Slurm 控制器，也可用於部分組建和其他支援叢集的活動。您可以在此調整 CPU、記憶體及開機磁碟區容量，以符合您的需求
使用計算節點選項來選取叢集中工作節點的類型和數量。您可以使用市集的作業系統映像檔部署這些節點，或使用您偏好的作業系統組建提供自訂映像檔。

config-compute.png 圖解描述
- 可用性網域：如果您在具有多個可用性網域 (AD) 的區域中工作，請選取具備 GPU 資源最佳可用性的 AD。
- 選取使用叢集網路。
- 運算節點的資源配置：選取您在此叢集中使用的裸機 GPU 資源配置。例如，BM.GPU4.8。
- 起始叢集大小：輸入要啟動設定的裸機節點數目。
- 若要從 Marketplace 使用預先配置的作業系統映像進行建置，請選取使用市集映像檔。然後，在映像檔版本下，為預先設定 GPU 和 RDMA 網路驅動程式的作業系統選取其中一個 GPU 映像檔。
- 使用市集映像檔：如果您使用自訂映像檔建立叢集，請取消選取此核取方塊並選取使用不支援的映像檔，然後在映像檔 OCID 下，提供您已上傳至租用戶之自訂映像檔的 OCID。
- 使用運算代理程式：市集映像檔可能需要此選項。
(選擇性) 其他登入節點提供第二個主機，供叢集使用者與叢集互動。您可以根據需求自訂資源配置、OCPUS 及記憶體。
進階儲存體選項提供數種方式來預先配置可供整個叢集使用的共用儲存體。按一下顯示進階儲存體選項以展開選擇項目。

config-storage.png 圖解描述
- 堡壘主機本位目錄是所有叢集節點間共用的 NFS。這是 Headnode 開機磁碟區的一部分，您可以在標頭節點選項中進行自訂。
- 如需更多共用儲存體，請選取共用空間的其他區塊磁碟區，然後輸入容量。此磁碟區會連附至堡壘主機，並且以 /nfs/cluster 的身分在叢集之間共用。
- NVME 或區塊磁碟區的共用 NFS 暫用空間會從叢集的第一個運算節點共用 NVMe 容量作為 /nfs/scratch。這提供比節點磁碟區更高的效能儲存，但可提供較少的容量和可用性。
- Mount Localdisk 會在每個運算節點上從 NVMe 建立檔案系統，並將其掛載到該節點本機。
- 一個邏輯磁碟區使用 LVM 從多個 NVMe 裝置建立一個較大的磁碟區。
- 備援：透過鏡像裝置提高 NVMe 儲存的可靠性 (但減少可用的容量)。
使用網路選項選取 VCN。
- 使用現有的 VCN ：預設為取消選取。如果取消選取，則會佈建新的 VCN。選取此核取方塊即可在現有的 VCN 和子網路內佈建叢集。這可以讓您更輕鬆地整合此叢集和其他租用戶資源。
使用軟體選取要安裝的軟體。

config-software.png 圖解描述
- 選取安裝 SLURM 以提供 SLURM 工作排程與管理。
- (選擇性) 選取安裝 HPC 叢集監督工具，以深入瞭解叢集活動和使用狀況。
- 選取安裝容器化 GPU 工作負載的 NVIDIA Enroot 。這會準備環境在 NVIDIA PyTorch、NVIDIA NeMo Platform 及其他容器中執行工作負載。
  
  附註：
  請務必選取此選項。
- 選取安裝 Slurm 的 NVIDIA Pyxis 外掛程式。
- 選取啟用 PAM 即可限制運算節點的登入存取權。
除錯：確定已選取設定系統 (此為預設值)。
按下一步以複查組態設定值。

複查時，叢集組態會顯示所有非預設選項。您可以返回上一頁頁面進行變更並重新瀏覽所有設定值。
選取執行套用，然後按一下建立以啟動您租用戶的堆疊並建立叢集。
堆疊會在 OCI 資源管理程式中建立，並隨您的規格啟動，以立即開始佈建。

此程序需要幾分鐘的時間。每個運算節點佈建節點只需要幾分鐘的時間，但將其他軟體安裝至節點時，會增加組建時間。您可以在 OCI 主控台中監督組建進度。請依序前往資源管理程式和工作，複查活動和可能錯誤的最新工作日誌。當「資源管理程式工作」狀態報告成功時，建置完成。

如果最終狀態不成功，請複查工作日誌以取得詳細資料。如需有關運算執行處理和叢集網路的問題，請參閱叢集網路工作要求瞭解詳細資訊。若要瀏覽至此頁面，請依序前往運算、叢集網路、叢集網路詳細資訊和叢集網路工作要求。選取最新的工作要求以檢視詳細資訊。

如果是成功的組建，堡壘主機的 IP 位址會在工作日誌結尾報告。如果您設定其他登入節點，也會顯示登入節點 IP 位址。例如，

Apply complete! Resources: 23 added, 0 changed, 0 destroyed.

Outputs:
RDMA_NIC_metrics_url = "https://objectstorage.us-gov-phoenix-1.oraclecloud.com
backup = "No Slurm Backup Defined"
bastion = 139.87.214.247
login = "No Login Node Defined"
private_ips = 172.16.6.4 172.16.7.109"

請記下堡壘主機公用 IP 位址，因為需要登入叢集。
您也可以在 OCI 主控台的運算底下找到 IP 位址，然後在執行處理底下找到 IP 位址。