关于选择用于机器学习的计算配置

如果要选择最适合预期机器学习工作量的计算配置,可以执行一个确定最佳配置的迭代流程。

配置是确定 Cpu 数、gpu 数、内存量以及分配给实例的其他资源的模板。

可用形状涵盖了各种成本和性能选项,并选择最适合您需求的形状。通过首先应用几个指示器规则,然后执行系统性搜索以选择最适合您需求的形状,可以更快地完成该任务。

在选择配置时,您将会用到的其中一个术语是 OCPU。在启用超线程的情况下,Oracle 将 OCPU 定义为 Intel Xeon 处理器的一个物理核心的 CPU 容量。对于 Intel Xeon 处理器,每个 OCPU 对应于两个名为 vCPUs 的硬件执行线程。

Oracle Cloud Infrastructure 上提供的 GPU 配置在裸金属和虚拟机配置中具有基于 nvid 缺口或 nvid 量的 GPU 配置。

先决条件

开始选择适当的配置之前,必须先访问可用的 GPU 配置。您还应该有一个或多个典型机器学习工作量。

GPU 配置最初因服务限制而不可用,这通常与您购买 Oracle Cloud Infrastructure 时的 Oracle 销售代表建立。您可以请求使服务限制引发来包括 GPU 实例。Oracle Cloud Infrastructure 文档包含有关如何执行该操作的说明。

还应该有一些机器学习负载就绪。工作量可以是基准测试,但最好是它们是使用您计划在所选计算实例上部署的数据和方法的机器学习任务。如果数据集非常大,并且您希望加快选择配置的过程,可以对测试使用典型子集并外推结果。

关于必需的服务和产品

您必须具有具有可用 GPU 形状的 Oracle Cloud Infrastructure Compute 访问权限。

如果您尚无权访问 Oracle Cloud Infrastructure Compute,请参阅了解如何为 Oracle 解决方案获取 Oracle Cloud 服务

如果租户中没有可用的 GPU 配置,则必须请求引发服务限制。

要请求提高服务限制,请执行以下操作:

  1. 登录到 Oracle Cloud 控制台。
  2. 打开“帮助”菜单,然后单击请求服务限制增加。
  3. 完成表单。

大多数服务限制请求都在一个业务日内解决。但是,根据请求的资源或数量,分配可能需要更长的时间。