管理運算

本節涵蓋在 AI Data Platform Workbench 中建立、變更或移除運算叢集的基本功能。

關於運算叢集

所有用途的運算叢集都提供您運算資源,讓您在「AI 資料平台工作台」執行處理中處理工作負載。

您可以從 Oracle AI Data Platform Workbench 的運算頁面管理運算叢集。


左窗格中標示運算的 AI Data Platform Compute 頁面

運算型態

您的 AI Data Platform Workbench 有兩種類型的運算:全方位的運算叢集與預設主要目錄運算叢集。

您只能在「AI 資料平台工作台」中建立全用途運算叢集。所有用途的運算叢集適用於各種工作負載,可附加至您的筆記型電腦,並用於工作流程中。除非另有說明,否則文件中對「運算叢集」或「叢集」的任何參照,都會參照所有用途的運算叢集。

當您建立新的所有用途運算叢集時,可以選擇「快速啟動」或「自訂」組態。「快速啟動」組態經過最佳化,可提供快速啟動;而「自訂」組態則可讓您微調所有用途的運算叢集,以符合處理所需的特定工作負載。在「快速啟動」和「自訂」組態選項中,您可以檢視成本預測並修改閒置逾時選項。

附註:

將自訂程式庫安裝至 Quickstart 設定的所有用途運算叢集,會自動將它變更為「自訂」組態。這可能會影響啟動效能。

所有 AI Data Platform Workbench 執行處理中都有「預設主要目錄運算叢集」。此叢集負責必要的 AI Data Platform Workbench 功能,例如搜尋蒐集、重新整理目錄物件、建立、編輯及刪除物件,以及測試連線。

叢集執行時期

可使用 Apache Spark 3.5 程式實際執行建立所有用途的運算叢集。程式實際執行環境與下列相容:

  • Spark 3.5.0
  • Delta 3.2.0 (已預先納入)
  • Python 3.11
  • Scala 2.12
  • Hadoop 3.3.4
  • Java 17

運算叢集的維護更新

AI Data Platform Workbench 運算會自動套用維護更新,無須使用者介入。維護更新涵蓋作業系統和 AI Data Platform Workbench 內部元件的任何必要安全修正程式或錯誤修正。

AI Data Platform Workbench 會先驗證沒有執行中的叢集,再套用這些每月維護更新。

建立快速啟動叢集

您可以選擇建立具有預先設定設定值的全用途運算叢集,以在「AI 資料平台工作台」中處理資料和 AI 工作負載。

快速入門組態是 Apache Spark 叢集,具備 1 個驅動程式和最多 10 個工作者,每個叢集都有 AMD 2 OCPU 和 32 GB 記憶體。預設會對快速啟動組態啟用自動調整功能。您可以將叢集設定為持續作用,或設定叢集自動停止 (閒置逾時) 的無活動間隔。被連附的工作流程或記事本呼叫時,將會繼續已停止的叢集。

您可以在建立叢集之後隨時編輯叢集。

  1. 按一下左側導覽面板中的建立,然後按一下運算。您也可以導覽至您的工作區,然後按一下運算,再按一下 建立叢集圖示 建立叢集

    建立開啟叢集對話方塊並選取「快速啟動徑向」選項

  2. 提供識別叢集的名稱和描述。
  3. 選取程式實際執行版本
  4. 選取快速啟動作為您的叢集組態。
  5. 選取工作者數目為靜態或自動調整。預設會對快速啟動組態啟用自動調整功能。
  6. 執行持續時間中,選取叢集是否將在設定的無活動持續時間後停止執行。如果選取閒置逾時,請指定叢集逾時之前的閒置時間 (分鐘)。
  7. 按一下建立

建立自訂叢集

您可以在「AI 資料平台工作台」中建立具有自行選擇處理資料和 AI 工作負載之組態設定值的全用途運算叢集。

自訂叢集適用於想要運用全系列組態選項以符合其需求的進階使用者。您應選取最符合您要處理之工作負載的動因與員工選項。您可以將叢集設定為持續作用,或設定叢集自動停止 (閒置逾時) 的無活動間隔。被連附的工作流程或記事本呼叫時,將會繼續已停止的叢集。

您可以在建立叢集之後隨時編輯叢集。

  1. 按一下左側導覽面板中的建立,然後按一下運算。您也可以導覽至您的工作區,然後按一下運算,再按一下 建立叢集圖示 建立叢集

    開啟「建立運算叢集」對話方塊並選取「自訂徑向」選項

  2. 提供識別叢集的名稱和描述。
  3. 選取程式實際執行版本
  4. 選取叢集的驅動程式選項。
  5. 選取叢集的工作者選項。這些選項適用於所有叢集工作者。
  6. 選取職工人數為靜態或自動調整。
    • 如果是靜態金額,請指定工作程式的數目。
    • 如果是自動調整,請指定叢集可調整的工作程式數目下限和上限。
  7. 執行持續時間中,選取叢集是否將在設定的無活動持續時間後停止執行。如果選取閒置逾時,請指定叢集逾時之前的閒置時間 (分鐘)。
  8. 按一下建立

建立 NVIDIA GPU 叢集

您可以選擇在所有用途運算叢集中使用 NVIDIA GPU,加速統一 AI 和資料管線中的任何工作負載。

NVIDIA GPU 資源配置使用下列組態:

表格 13-1 NVIDIA GPU 資源配置

GPU 數目 OCPU 區塊儲存 (GB) GPU 記憶體 (GB) CPU 記憶體 (GB)
1 15 1500 24 240
2 30 3000 48 480

附註:

使用 NVIDIA GPU 資源配置時,「驅動程式」和「工作者」資源配置都必須是 NVIDIA GPU。目前不支援混合相同叢集的 CPU 和 GPU 資源配置。
  1. 按一下左側導覽面板中的建立,然後按一下運算。您也可以導覽至您的工作區,然後按一下運算,再按一下 建立叢集圖示 建立叢集

    建立運算叢集對話方塊並選取自訂徑向選項

  2. 提供識別叢集的名稱和描述。
  3. 選取程式實際執行版本
  4. 選取自訂作為您的叢集組態。
  5. 對於叢集驅動程式選項:
    • 選取 NVIDIA GPU 作為驅動程式資源配置。
    • 選取 1 或 2 作為 GPU 數目。
  6. 對於叢集工作者選項:
    • 選取 NVIDIA GPU 作為「工作形狀」。
    • 選取 1 或 2 作為 GPU 數目。
  7. 選取職工人數為靜態或自動調整。
    • 如果是靜態金額,請指定工作程式的數目。
    • 如果是自動調整,請指定叢集可調整的工作程式數目下限和上限。
  8. 執行持續時間中,選取叢集是否將在設定的無活動持續時間後停止執行。如果選取閒置逾時,請指定叢集逾時之前的閒置時間 (分鐘)。
  9. 按一下建立

NVIDIA GPU 叢集調整

您可以調整 NVIDIA GPU 叢集,使用 GPU 提供者的建議以及安裝選用的程式庫來最佳化其效能。

調整 GPU 叢集可協助最佳化這些叢集在「AI 資料平台工作台」中的工作呼叫時的效能。

若是 NVIDIA GPU 型叢集,您可以依照 NVIDIA 的調校指南取得最佳化效能的建議和步驟。

您還可以選擇安裝 Spark RAPIDS 程式庫,以協助最佳化:

  • Spark RAPIDS 程式庫是 Apache Spark 的 RAPIDS 加速器,提供一組利用 GPU 加速處理的 Plugin。
  • Spark RAPIDS ML 程式庫可在 Apache Spark 上啟用 GPU 加速的分散式機器學習,並提供數種由 RAPIDS cuML 程式庫支援的 PySpark ML 相容演算法。

Spark RAPIDS 程式庫通常是先用於圖徵工程和資料清除,然後使用 Spark RAPIDS ML 程式庫大規模執行交叉驗證。您可以使用這些程式庫來進行詐騙偵測 (時間序列)、Web 點擊流及 A/B 實驗等使用案例。

表格 13-2 建議的 Spark 組態

設定 數值 附註
spark.executor 執行處理 4 每一職工的職工人數 x GPU 數目

如果職工人數為 4,而每個職工的 GPU 數目為 1,則建議的 spark.executor.instances 組態為 4 x 1 = 4

繁體中文 (台灣) 16 GPU 數目 / 工作節點 /CPU 核心數目,最多 16 個
繁體中文 (台灣) 32 GB 2GB / 核心或 80% 的 CPU 記憶體 / 每個工作節點的 GPU 數目 (以較低者為準)
繁體中文 (台灣) 0.0625 1 / spark.executor.cores
繁體中文 (香港) 3 GPU 記憶體 / 8GB,最大 4
繁體中文 (台灣) 32 每一工作者的 CPU 核心數 /GPU 數目
繁體中文 (台灣) 32 每一工作者的 CPU 核心數 /GPU 數目
繁體中文 (香港) com.nvidia.spark.rapids.spark350.RapidsShuffleManager -
繁體中文 (台灣) 多重執行緒 -
繁體中文 中文版 _ English -
繁體中文 (台灣) 1 -
spark.sql.files.max 分割區位元組 2 GB 選擇性,建議用於大型資料集
spark.rapids SQL.batch 大小位元組 2 GB 選擇性,建議用於大型資料集
繁體中文 (香港) 32 G 選擇性,建議用於大型資料集
繁體中文 (台灣) 8 G 選擇性,建議用於大型資料集
繁體中文 (台灣) 32 MB 選擇性,建議用於大型資料集
spark.sql.adaptive.advisory 分割區大小位元組 160 MB 選擇性,建議用於大型資料集
已啟用 spark.rapids 檔案快取 選擇性,建議工作負載是否重複使用資料集

修改叢集

您可以變更叢集的設定值或新增其他參數。

  1. 瀏覽至您的工作區,然後按一下運算
  2. 在您要修改的運算叢集旁邊,按一下 動作 3 點圖示 動作,然後按一下編輯
  3. 請視需要修改運算叢集的屬性或新增其他參數。
  4. 按一下「儲存」

刪除叢集

您可以刪除未使用或不再需要的運算叢集。

  1. 瀏覽至您的工作區,然後按一下運算
  2. 在您要刪除的叢集旁邊,按一下 動作 3 點圖示 動作,然後按一下刪除
  3. 按一下「刪除」

檢視叢集詳細資訊

您可以隨時複查叢集的資源配置和設定值。

  1. 瀏覽至您的工作區,然後按一下運算
  2. 按一下您要檢視其詳細資訊的叢集名稱。
  3. 按一下詳細資訊頁籤。

運算叢集的維護更新

Oracle AI Data Platform 運算會自動套用維護更新,無須使用者介入。

維護更新涵蓋作業系統和 AI 資料平台內部元件的任何必要安全修正程式或錯誤修正。AI Data Platform 會先驗證沒有執行中的叢集,再套用這些每月維護更新。