关于体系结构

该架构涉及使用 Google Cloud 和 OCI 的多云解决方案,GKE 在该解决方案中编排整个培训和推断流程,同时将计算密集型部分按需分流到 OCI AI Infrastructure。数据在两个云之间传输,结果将返回到 GKE 进行进一步处理。

下图说明了参考体系结构:


下面是 gke-oci.png 的说明
插图 gke-oci.png 的说明

gke-oci-oracle.zip

体系结构组件

此体系结构包含以下组件:

  • GKE 集群(Google Kubernetes 引擎)

    GKE 集群管理容器化模型训练作业并将训练作业提交到 Kubernetes 集群。

  • 模型训练作业定义

    模型训练作业定义指定训练脚本、数据位置(云存储)、模型参数和所需的工作节点数。

  • 容器化训练脚本

    容器化训练脚本在 worker 节点上运行,使用在 OCI AI 基础设施上运行的模型执行实际模型训练。

  • Kubernetes 运算符(可选)

    Kubernetes Operator 是一个可选参数,可自动部署和管理 GKE 上的训练作业。

  • 云存储

    云存储存储存储培训数据和模型构件。

  • 云监视(可选)

    云监视是用于监视作业状态、资源利用率和培训度量的可选组件。

  • 模型结果

    模型结果将发送回 GKE 进行评估、存储或部署。

  • 可用性域

    可用性域是区域中的独立数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,从而提供容错能力。可用性域不共享电源或冷却设备等基础设施,也不共享内部可用性域网络。因此,一个可用性域出现故障不会影响区域中的其他可用性域。

  • FastConnect

    Oracle Cloud Infrastructure FastConnect 提供了一种在您的数据中心与 Oracle Cloud Infrastructure 之间创建专用私有连接的简便方式。与基于 Internet 的连接相比,FastConnect 提供了更高的带宽选项和更可靠的网络体验。

  • 区域

    Oracle Cloud Infrastructure 区域是包含一个或多个数据中心(称为可用性域)的本地化地理区域。地区独立于其他地区,远距离可以把它们分开(跨越国家甚至大陆)。

  • 虚拟云网络 (VCN) 和子网

    VCN 是一个可定制的软件定义网络,您可以在 Oracle Cloud Infrastructure 区域中设置。与传统的数据中心网络一样,VCN 允许您控制您的网络环境。VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 划分为子网,子网可以限定为区域或可用性域。每个子网都包含一系列不与 VCN 中的其他子网重叠的连续地址。可以在创建后更改子网的大小。子网可以是公共子网,也可以是专用子网。

  • 计算服务

    借助 Oracle Cloud Infrastructure Compute 服务,您可以在云中设置和管理计算主机。您可以通过配置启动计算实例,以满足对 CPU、内存、网络带宽和存储的资源要求。创建计算实例后,可以安全地访问该实例,重新启动该实例,附加和分离卷,并在不再需要时终止该实例。

  • 适用于 Kubernetes 的容器引擎

    Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE) 是完全托管的、可扩展的高可用性服务,您可以使用其将容器化应用部署到云。您可以指定应用所需的计算资源,Container Engine for Kubernetes 在现有租户的 Oracle Cloud Infrastructure 上供应这些资源。适用于 Kubernetes 的容器引擎使用 Kubernetes 自动执行跨主机集群容器化应用的部署、扩展和管理。

  • Oracle Interconnect for Google Cloud

    Oracle Interconnect for Google Cloud 是一项专用的专用互连服务,结合了 OCI FastConnect 合作伙伴连接和 Google Cloud Partner Interconnects,可帮助多云客户跨两个云进行创新,并应用现有和熟悉的工具来支持工作负载。

通信流

在此体系结构中,数据流量因此如下:

  1. 客户通过 GKE 提交模型培训作业定义。
  2. 作业定义指定容器化培训脚本、数据位置和所需 worker 节点。
  3. Worker 节点从云存储中提取培训脚本和数据。培训脚本利用基于 OCI AI Infrastructure 运行的 GPU 来训练模型。
  4. 培训结果将上载到云存储或发送回 GKE 进行进一步处理。
  5. 可选的云监视从培训作业收集度量以进行性能分析。

其他推断用例

除了上述用例外,该架构还支持两种推断用例:

  • 具有低延迟要求的实时推断。
  • 大数据集的批处理推断。

具有低延迟要求的实时推断

在此用例中,客户需要 LLM 模型为聊天机器人、虚拟助手或实时翻译等应用提供即时响应。该解决方案对以下数据流进行工程处理:

  1. 用户输入将发送到 GCP 上运行的 GKE 环境。
  2. GKE 对 OCI AI 基础设施的请求进行编排。
  3. OCI AI Infrastructure 使用部署的 LLM 模型处理输入。
  4. 推断结果将返回给 GKE。
  5. GKE 格式化并将响应发送给用户。
此解决方案的优点有三方面:
  • 它通过 Oracle Interconnect for Google Cloud 提供低延迟推断,从而降低了推断基础设施与应用的距离。
  • 它具有足够的可扩展性,可通过 OCI AI Infrastructure 的弹性功能来处理各种推理负载。
  • 它通过优化推理硬件和软件来节省潜在的成本。

大数据集的批推断

在这种情况下,客户需要以批处理模式通过 LLM 模型处理大量数据,例如对大型数据集进行情感分析或为大型文档库生成摘要。您可以通过实施此数据流来解决此问题:

  1. 数据准备并存储在 Google Cloud 存储桶中。
  2. 批处理作业在 GKE 中启动,由云调度程序或云函数触发。
  3. GKE 编排将数据传输到 OCI AI 基础设施。
  4. OCI AI Infrastructure 使用 LLM 模型批量处理数据。
  5. 推断结果存储在 Google Cloud 存储桶中。
  6. 如果需要,将在 GKE 中执行后处理。
此解决方案的优点有三方面:
  • 它利用 OCI AI Infrastructure 的计算能力,经济高效地处理大型数据集。
  • 与仅对 GKE 运行推断相比,它提供了更好的性能。
  • 它能够处理各种数据格式和大小。