管理计算

本节介绍在 AI 数据平台工作台中创建、更改或删除计算集群的基本功能。

关于计算集群

借助通用计算集群,您可以在 AI 数据平台工作台实例中处理工作负载。

您可以从 Oracle AI Data Platform Workbench 的计算页面管理计算集群。


左窗格中突出显示了计算的 AI 数据平台计算页面

计算的类型

AI 数据平台工作台中存在两种类型的计算:全用途计算集群和默认主目录计算集群。

您只能在 AI 数据平台工作台中创建所有用途的计算集群。全功能计算集群适用于多种工作负载,可以附加到您的笔记本并用于工作流。除非另有说明,文档中对“计算集群”或“集群”的任何引用都引用了所有用途的计算集群。

创建新的全用途计算集群时,可以选择快速入门或定制配置。快速入门配置经过优化,可以提供快速启动,而自定义配置允许您微调所有用途的计算集群,以适应您需要处理的特定工作负载。在“快速入门”和“自定义”配置选项中,您可以查看成本预测并修改空闲超时选项。

注意:

将定制库安装到配置了 Quickstart 的所有专用计算集群会自动将其更改为定制配置。这可能会影响启动性能。

所有 AI 数据平台工作台实例中都存在默认主目录计算集群。此集群负责基本的 AI 数据平台工作台功能,例如搜索搜索、刷新目录对象、创建、编辑和删除对象以及测试连接。

集群运行时

可使用 Apache Spark 3.5 运行时创建全用途计算集群。运行时环境与以下各项兼容:

  • Spark 3.5.0
  • Delta 3.2.0(预先包含)
  • Python 3.11
  • Scala 2.12
  • Hadoop 3.3.4
  • Java 17

计算集群的维护更新

AI Data Platform Workbench 计算可自动应用维护更新,无需用户干预。维护更新涵盖操作系统和 AI Data Platform Workbench 内部组件的任何必要安全补丁程序或 bug 修复。

AI Data Platform Workbench 在应用这些每月维护更新之前验证没有正在运行的集群。

创建快速入门集群

您可以选择创建具有预配置设置的全功能计算集群,以在 AI 数据平台工作台中处理数据和 AI 工作负载。

快速入门配置是一个 Apache Spark 集群,具有 1 个驱动程序和最多 10 个 Worker,每个集群都具有 AMD 2 OCPU 和 32 GB 内存。对于快速入门配置,默认情况下会启用自动缩放。您可以将群集设置为始终处于活动状态,也可以设置不活动状态的时间间隔,在此时间间隔之后群集将自动停止(空闲超时)。由附加的工作流或记事本调用时,停止的集群将恢复。

创建后,您可以随时编辑集群。

  1. 单击左侧导航面板中的创建,然后单击计算。您还可以导航到工作区,然后单击计算,然后单击 “创建集群”图标 创建集群

    "Create cluster"(创建群集)对话框打开,其中选择了 "Quickstart radial"(快速入门)选项

  2. 提供名称和说明以标识您的集群。
  3. 选择运行时版本
  4. 选择快速启动作为群集配置。
  5. 选择员工数是静态的还是自动缩放的。对于快速入门配置,默认情况下启用自动缩放。
  6. 对于运行持续时间,选择群集是否会在设置的不活动持续时间后停止运行。如果选择了 Idle timeout(空闲超时),请在群集超时之前指定空闲时间(以分钟为单位)。
  7. 单击创建

创建定制集群

您可以创建具有您自己选择在 AI 数据平台工作台中处理数据和 AI 工作负载的配置设置的通用计算集群。

定制集群适用于希望利用各种配置选项来满足其需求的高级用户。您应选择最适合要处理的工作负载的驱动程序和 worker 选项。您可以将群集设置为始终处于活动状态,也可以设置不活动状态的时间间隔,在此时间间隔之后群集将自动停止(空闲超时)。由附加的工作流或记事本调用时,停止的集群将恢复。

创建后,您可以随时编辑集群。

  1. 单击左侧导航面板中的创建,然后单击计算。您还可以导航到工作区,然后单击计算,然后单击 “创建集群”图标 创建集群

    打开“创建计算集群”对话框,其中选择了“定制径向”选项

  2. 提供名称和说明以标识您的集群。
  3. 选择运行时版本
  4. 为群集选择驱动程序选项。
  5. 选择集群的 Worker 选项。这些选项适用于所有群集工作进程。
  6. 选择员工数是静态还是自动缩放。
    • 如果是静态金额,则指定员工数。
    • 如果为自动缩放,请指定集群可以缩放到的最小和最大工作进程数。
  7. 对于运行持续时间,选择群集是否会在设置的不活动持续时间后停止运行。如果选择了 Idle timeout(空闲超时),请在群集超时之前指定空闲时间(以分钟为单位)。
  8. 单击创建

创建 NVIDIA GPU 集群

您可以选择在全用途计算集群中使用 NVIDIA GPU 来加速统一 AI 和数据管道中的任何负载。

NVIDIA GPU 配置使用以下配置:

表 13-1 NVIDIA GPU 配置

GPU 计数 OCPU 块存储 (GB) GPU 内存 (GB) CPU 内存 (GB)
1 15 1500 24 240
2 30 3000 48 480

注意:

使用 NVIDIA GPU 配置时,驱动程序和 Worker 配置必须是 NVIDIA GPU。当前不支持为同一集群混合 CPU 和 GPU 配置。
  1. 单击左侧导航面板中的创建,然后单击计算。您还可以导航到工作区,然后单击计算,然后单击 “创建集群”图标 创建集群

    打开“创建计算集群”对话框,其中选择了“定制径向”选项

  2. 提供名称和说明以标识您的集群。
  3. 选择运行时版本
  4. 选择定制作为群集配置。
  5. 对于群集驱动程序选项:
    • 选择 NVIDIA GPU 作为驱动程序配置。
    • 选择 1 或 2 作为 GPU 计数。
  6. 对于集群 Worker 选项:
    • 选择 NVIDIA GPU 作为 Worker 配置。
    • 选择 1 或 2 作为 GPU 计数。
  7. 选择员工数是静态还是自动缩放。
    • 如果是静态金额,则指定员工数。
    • 如果为自动缩放,请指定集群可以缩放到的最小和最大工作进程数。
  8. 对于运行持续时间,选择群集是否会在设置的不活动持续时间后停止运行。如果选择了 Idle timeout(空闲超时),请在群集超时之前指定空闲时间(以分钟为单位)。
  9. 单击创建

NVIDIA GPU 集群优化

您可以通过使用 GPU 提供程序的建议和安装可选库来优化 NVIDIA GPU 集群,以优化其性能。

当 AI 数据平台工作台中的作业调用这些集群时,优化 GPU 集群有助于优化其性能。

对于基于 NVIDIA GPU 的集群,您可以按照 NVIDIA 的调优指南来获取优化性能的建议和步骤。

您还可以选择安装 Spark RAPIDS 库来帮助优化:

  • Spark RAPIDS 库是适用于 Apache Spark 的 RAPIDS 加速器,提供了一组利用 GPU 加速处理的插件。
  • Spark RAPIDS ML 库在 Apache Spark 上支持 GPU 加速的分布式机器学习,并提供由 RAPIDS cuML 库支持的多个 PySpark ML 兼容算法。

Spark RAPIDS 库通常首先用于功能工程和数据清理,然后使用 Spark RAPIDS ML 库大规模执行交叉验证。您可以将这些库用于欺诈检测(时间序列)、Web 点击流和 A/B 实验等用例。

表 13-2 建议的 Spark 配置

设置 注释
spark.executor.instances 4 每个工作进程的 worker 数 x GPU 计数

如果 Worker 数量为 4,并且每个 Worker 的 GPU 计数为 1,则建议的 spark.executor.instances 配置为 4 x 1 = 4

spark.executor.cores 16 GPU 计数/工作进程/CPU 核心,最多 16 个
spark.executor.memory 32 GB 2GB/核心或 80% 的 CPU 内存/每个工作进程的 GPU 计数(以较小者为准)
spark.task.resource.gpu.amount 0.0625 1 个 / spark.executor.cores
spark.rapids.sql.concurrentGpu 任务 3 GPU 内存 / 8GB,最多 4 个
spark.rapids.shuffle.multiThreaded.writer.threads 32 每个工作进程的 CPU 核心数/GPU 计数
spark.rapids.shuffle.multiThreaded.reader.threads 32 每个工作进程的 CPU 核心数/GPU 计数
spark.shuffle.manager com.nvidia.spark.rapids.spark350.RapidsShuffleManager -
spark.rapids.shuffle.mode 多路径 -
火花插件 com.nvidia.spark.SQLPlugin -
spark.executor.resource.gpu.amount 1 -
spark.sql.files.maxPartitionBytes 2 GB 可选,建议用于大型数据集
spark.rapids.sql.batchSizeBytes 2 GB 可选,建议用于大型数据集
spark.rapids.memory.host.spillStorageSize 32 G 可选,建议用于大型数据集
spark.rapids.memory.pinnedPool.size 8 G 可选,建议用于大型数据集
spark.sql.adaptive.coalescePartitions.minPartitionSize 32 MB 可选,建议用于大型数据集
spark.sql.adaptive.advisoryPartitionSizeInBytes 160 MB 可选,建议用于大型数据集
spark.rapids.filecache.enabled 可选,建议在工作负载将重用数据集时使用

修改群集

您可以更改群集的设置或添加其他参数。

  1. 导航到工作区,然后单击计算
  2. 在要修改的计算集群旁边,单击 “操作三个点”图标 操作,然后单击编辑
  3. 修改计算集群的属性或根据需要添加其他参数。
  4. 单击保存

删除集群

您可以删除未使用或不再需要的计算集群。

  1. 导航到工作区,然后单击计算
  2. 在要删除的群集旁边,单击 “操作三个点”图标 操作,然后单击删除
  3. 单击删除

查看集群详细信息

您可以随时查看集群的配置和设置。

  1. 导航到工作区,然后单击计算
  2. 单击要查看其详细信息的集群的名称。
  3. 单击详细信息选项卡。

计算集群的维护更新

Oracle AI Data Platform 计算可自动应用维护更新,无需用户干预。

维护更新涵盖了操作系统和 AI Data Platform 内部组件的任何必要安全补丁程序或 bug 修复。在应用这些每月维护更新之前,AI Data Platform 会验证没有正在运行的集群。