设置开源机器学习和 AI 环境

通过使用预配置的 GPU 堆栈和预安装的通用 IDE、笔记本和框架快速设置机器学习和人工智能 (AI) 环境,从而开始产生结果。

Oracle 用于深度学习的预配置环境在众多应用中的许多行业中非常有用。

  • 自然语言处理

  • 图像识别和分类

  • 金融服务欺诈检测

  • 面向在线零售商的建议引擎

  • 风险管理

此预配置环境包括具有 NVIDIA GPU 和 CUDA 以及 cuDNN 驱动程序的虚拟机 (VM)、常见 Python 和 R 集成开发环境 (IDE)、Jupyter Notebooks 以及开源机器学习 (ML) 和深度学习 (DL) 框架。

您可以使用自动伸缩功能扩展计算资源,也可以根据需要停止计算实例以控制成本。VM 包括基本的数据和代码,供您测试和浏览。

Oracle Cloud Marketplace 中提供了适用于 Oracle Cloud Infrastructure 映像的 AI 数据科学 VM。

体系结构

此参考体系结构显示如何在 Oracle Cloud Infrastructure 上的区域中实施机器学习和人工智能 (AI) 环境。

此参考体系结构部署堡垒主机、培训节点、推断节点、用户应用程序 VM 以及 Oracle Cloud Infrastructure 上的其他组件。该体系结构使用具有一个可用性域和区域子网的区域。可以在具有多个可用性域的区域中使用相同的体系结构。



此体系结构具有以下组件:

  • 堡垒主机

    提供对专用子网中其他计算实例的访问的计算实例。

  • 培训节点

    客户开发和验证应用模型的计算实例,例如神经网络模拟。培训节点是功能强大的实例,可从对象存储中检索数据,根据所使用的模型对数据执行操作,并将数据存储在连接的共享块存储卷存储中。

  • 推断服务器

    准备存储在块存储卷(由培训节点处理)中的数据以供用户应用程序使用的计算实例。推断服务器将其处理的数据存储在文件存储中。

  • 用户应用程序 VM

    此 VM 运行用户应用程序并访问由存储在共享文件存储中的推断服务器处理的数据。

  • 负载平衡器

    负载平衡器将传入流量分配给用户应用程序 VM。

  • 文件存储

    文件系统挂载在推断服务器和用户应用程序 VM 上。

  • 对象存储

    对象存储作为数据湖,用于存储培训节点使用的数据。

  • 块存储卷

    通过 Oracle Cloud Infrastructure Block Volume 服务,可以动态预配和管理块存储卷。您可以创建、附加、连接和移动卷,以及更改卷性能来满足存储、性能和应用要求。将卷连接到实例后,您可以像常规硬盘驱动器那样使用卷。还可以断开卷的连接并将其连接到另一个实例,而不会丢失数据。使用块存储来存储日志或日志文件。

  • 虚拟云网络 (VCN) 和子网

    每个计算实例都部署在可以细分到子网中的 VCN 中。

  • 安全列表

    对于每个子网,您可以创建安全规则来指定必须允许进出子网的源、目标和流量类型。

  • 可用性域

    可用性域是区域内的独立数据中心。每个可用性域中的物理资源都与其他可用性域中的资源隔离,从而提供容错能力。可用性域不共用电源或冷却设备等基础设施,也不共享内部可用性域网络。因此,一个可用性域出现故障不太可能影响区域中的其他可用性域。

  • 故障域

    故障域是可用性域内一组硬件和基础设施。每个可用性域都有三个容错域,具有独立电源和硬件。在多个容错域之间分配资源时,您的应用可以在容错域内承受物理服务器故障、系统维护和电源故障。

建议

您的要求可能与此处介绍的体系结构有所不同。可将以下建议作为起点。

  • 堡垒主机

    使用 VM.Standard.1.1 计算配置。此主机用于访问其他计算节点,不涉及数据处理或其他任务。

  • 培训节点

    使用 BM.GPU3.8 配置,可以为数据科学应用程序提供 2x25 Gbps 网络带宽和足够的 GPU (8xV100)。此节点部署并验证应用程序的模型,因此需要增强 GPU 电源。最多可启动三个节点,并根据需要使用自动缩放功能进行扩展或收缩。

  • 推断服务器

    使用 BM.GPU2.2 配置,可以为数据科学应用程序提供 2x25 Gbps 网络带宽和足够的 GPU (2xP100)。由于其角色的性质,此节点所需的 GPU 功率略小。从一个节点开始,然后根据需要使用自动缩放功能进行扩展。

  • 用户应用程序 VM

    使用 VM.Standard.2.2shape。这些节点用于用户应用程序,因此 VM 应足够。从两个 VM 节点开始,然后根据需要使用自动缩放功能进行扩展或收缩。

  • 负载平衡器

    负载平衡器将传入流量分配给用户应用程序 VM。使用 100-Mbps 配置。

  • 文件存储

    文件存储会根据需要自动进行扩展。

  • 对象存储

    对数据湖对象使用具有预先验证链接的单个专用存储桶。

  • 块存储卷

    除了本地连接的存储,还可使用多连接功能至少使用三个块存储卷 (1 TB)。此添加提供了更多存储。

  • VCN
    • 创建 VCN 时,请根据您计划附加到 VCN 中的子网的资源数量确定所需的 CIDR 块数和每个块的大小。使用标准专用 IP 地址空间内的 CIDR 块。

    • 选择与要设置专用连接的任何其他网络(在 Oracle Cloud Infrastructure、内部部署数据中心或其他云提供商中)不重叠的 CIDR 块。

    • 创建 VCN 后,可以更改、添加和删除其 CIDR 块。

    • 设计子网时,请考虑您的功能和安全要求。将同一层或角色中的所有计算实例连接到同一个子网。

    • 使用区域子网。

  • 安全列表

    使用安全列表定义应用于整个子网的入站和出站规则。例如,此体系结构允许内部对整个专用子网执行 ICMP。

考虑事项

部署此引用体系结构时,请考虑以下几点。

  • 性能

    要获得最佳性能,请选择具有相应带宽的正确计算配置。

  • 可用性

    根据您的部署需求和区域考虑使用高可用性选项。选项包括在一个区域和容错域中使用多个可用性域。

  • 成本

    裸金属 GPU 实例可以提供更高成本所需的 CPU 电源。评估需求以选择适当的计算配置。

  • 监视和预警

    为节点设置 CPU 和内存使用情况的监视和警报,以便可以根据需要向上或向下扩展配置。

部署

此引用体系结构的 Terraform 代码在 Oracle Cloud Marketplace 中作为堆栈提供。

  1. 转至 Oracle Cloud Marketplace
  2. 单击获取应用
  3. 按照屏幕上的提示操作。

更改日志

此日志仅列出重大更改: