关于体系结构
该架构涉及使用 Google Cloud 和 OCI 的多云解决方案,GKE 在该解决方案中编排整个培训和推断流程,同时将计算密集型部分按需分流到 OCI AI Infrastructure。数据在两个云之间传输,结果将返回到 GKE 进行进一步处理。
下图说明了参考体系结构:
体系结构组件
此体系结构包含以下组件:
- GKE 集群(Google Kubernetes 引擎)
GKE 集群管理容器化模型训练作业并将训练作业提交到 Kubernetes 集群。
- 模型训练作业定义
模型训练作业定义指定训练脚本、数据位置(云存储)、模型参数和所需的工作节点数。
- 容器化训练脚本
容器化训练脚本在 worker 节点上运行,使用在 OCI AI 基础设施上运行的模型执行实际模型训练。
- Kubernetes 运算符(可选)
Kubernetes Operator 是一个可选参数,可自动部署和管理 GKE 上的训练作业。
- 云存储
云存储存储存储培训数据和模型构件。
- 云监视(可选)
云监视是用于监视作业状态、资源利用率和培训度量的可选组件。
- 模型结果
模型结果将发送回 GKE 进行评估、存储或部署。
- 可用性域
可用性域是区域中的独立数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,从而提供容错能力。可用性域不共享电源或冷却设备等基础设施,也不共享内部可用性域网络。因此,一个可用性域出现故障不会影响区域中的其他可用性域。
- FastConnect
Oracle Cloud Infrastructure FastConnect 提供了一种在您的数据中心与 Oracle Cloud Infrastructure 之间创建专用私有连接的简便方式。与基于 Internet 的连接相比,FastConnect 提供了更高的带宽选项和更可靠的网络体验。
- 区域
Oracle Cloud Infrastructure 区域是包含一个或多个数据中心(称为可用性域)的本地化地理区域。地区独立于其他地区,远距离可以把它们分开(跨越国家甚至大陆)。
- 虚拟云网络 (VCN) 和子网
VCN 是一个可定制的软件定义网络,您可以在 Oracle Cloud Infrastructure 区域中设置。与传统的数据中心网络一样,VCN 允许您控制您的网络环境。VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 划分为子网,子网可以限定为区域或可用性域。每个子网都包含一系列不与 VCN 中的其他子网重叠的连续地址。可以在创建后更改子网的大小。子网可以是公共子网,也可以是专用子网。
- 计算服务
借助 Oracle Cloud Infrastructure Compute 服务,您可以在云中设置和管理计算主机。您可以通过配置启动计算实例,以满足对 CPU、内存、网络带宽和存储的资源要求。创建计算实例后,可以安全地访问该实例,重新启动该实例,附加和分离卷,并在不再需要时终止该实例。
- 适用于 Kubernetes 的容器引擎
Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE) 是完全托管的、可扩展的高可用性服务,您可以使用其将容器化应用部署到云。您可以指定应用所需的计算资源,Container Engine for Kubernetes 在现有租户的 Oracle Cloud Infrastructure 上供应这些资源。适用于 Kubernetes 的容器引擎使用 Kubernetes 自动执行跨主机集群容器化应用的部署、扩展和管理。
- Oracle Interconnect for Google Cloud
Oracle Interconnect for Google Cloud 是一项专用的专用互连服务,结合了 OCI FastConnect 合作伙伴连接和 Google Cloud Partner Interconnects,可帮助多云客户跨两个云进行创新,并应用现有和熟悉的工具来支持工作负载。
通信流
在此体系结构中,数据流量因此如下:
- 客户通过 GKE 提交模型培训作业定义。
- 作业定义指定容器化培训脚本、数据位置和所需 worker 节点。
- Worker 节点从云存储中提取培训脚本和数据。培训脚本利用基于 OCI AI Infrastructure 运行的 GPU 来训练模型。
- 培训结果将上载到云存储或发送回 GKE 进行进一步处理。
- 可选的云监视从培训作业收集度量以进行性能分析。
其他推断用例
除了上述用例外,该架构还支持两种推断用例:
- 具有低延迟要求的实时推断。
- 大数据集的批处理推断。
具有低延迟要求的实时推断
在此用例中,客户需要 LLM 模型为聊天机器人、虚拟助手或实时翻译等应用提供即时响应。该解决方案对以下数据流进行工程处理:
- 用户输入将发送到 GCP 上运行的 GKE 环境。
- GKE 对 OCI AI 基础设施的请求进行编排。
- OCI AI Infrastructure 使用部署的 LLM 模型处理输入。
- 推断结果将返回给 GKE。
- GKE 格式化并将响应发送给用户。
- 它通过 Oracle Interconnect for Google Cloud 提供低延迟推断,从而降低了推断基础设施与应用的距离。
- 它具有足够的可扩展性,可通过 OCI AI Infrastructure 的弹性功能来处理各种推理负载。
- 它通过优化推理硬件和软件来节省潜在的成本。
大数据集的批推断
在这种情况下,客户需要以批处理模式通过 LLM 模型处理大量数据,例如对大型数据集进行情感分析或为大型文档库生成摘要。您可以通过实施此数据流来解决此问题:
- 数据准备并存储在 Google Cloud 存储桶中。
- 批处理作业在 GKE 中启动,由云调度程序或云函数触发。
- GKE 编排将数据传输到 OCI AI 基础设施。
- OCI AI Infrastructure 使用 LLM 模型批量处理数据。
- 推断结果存储在 Google Cloud 存储桶中。
- 如果需要,将在 GKE 中执行后处理。
- 它利用 OCI AI Infrastructure 的计算能力,经济高效地处理大型数据集。
- 与仅对 GKE 运行推断相比,它提供了更好的性能。
- 它能够处理各种数据格式和大小。