YellowDog:在 Oracle Cloud Infrastructure 上部署工作量管理平台
体系结构
YellowDog 的多云负载管理平台在 Oracle Cloud Infrastructure (OCI) 上运行其基础设施。该体系结构使用 MicroK8s Kubernetes 集群节点内的 VM。每个集群节点在一个分散在多个可用性域中的子网中都包含三个虚拟机 (VM)。
下图说明了此参考体系结构。

插图 yellowdog-architecture-oci.png 的说明
yellowdog-architecture-oci-oracle.zip
YellowDog 具有许多关键服务,包括数据库服务、事件流处理服务、可观察性和管理服务,并且副本集部署到 worker 节点中的 Microk8s 集群。NGINX 入站网关使用 Oracle Cloud Infrastructure 域名系统 (Domain Name System, DNS) 循环方法管理所有传入流量。长时间运行的请求通过消息传送队列投入使用,该队列可以在集群中进一步分配负载并提供内部的负载平衡。
YellowDog 还具有集群计算环境。其中一个是使用 Oracle Cloud Infrastructure 预配的,另一个是使用内部部署环境配置的。

插图 yellowdog-architecture-context-ap.png 的说明
yellowdog-architecture-context-ap-oracle.zip
该体系结构包含以下组件:
- 区域
Oracle Cloud Infrastructure 区域是一个本地化地理区域,包含一个或多个称为可用性域的数据中心。区域独立于其他区域,大片距离可以分开(跨国家甚至大陆)。
- 可用性域
可用性域是区域内的独立数据中心。每个可用性域中的物理资源都与其他可用性域中的资源隔离,从而提供容错能力。可用性域不共用电源或冷却设备等基础设施,也不共享内部可用性域网络。因此,一个可用性域出现故障不太可能影响区域中的其他可用性域。
- 虚拟云网络 (VCN) 和子网
VCN 是在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义的网络。与传统的数据中心网络类似,VCN 允许您完全控制您的网络环境。VCN 可以有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 细分为多个子网,这些子网可以限定于某个区域或可用性域。每个子网都包含与 VCN 中的其他子网不重叠的连续地址范围。您可以在创建子网后更改其大小。子网可以是公共的,也可以是专用的。
- 计算
通过 Oracle Cloud Infrastructure Compute 服务,您可以在云中预配和管理计算主机。您可以使用配置启动计算实例,以满足您的 CPU、内存、网络带宽和存储资源需求。创建计算实例后,您可以安全地访问它,重新启动,附加和分离卷,并在不再需要时终止。
- 文件存储
Oracle Cloud Infrastructure 文件存储服务提供了持久、可伸缩、安全的企业级网络文件系统。您可以从 VCN 中的任何裸金属、虚拟机或容器实例连接到文件存储服务文件系统。您还可以使用 Oracle Cloud Infrastructure FastConnect 和 IPSec VPN 从 VCN 外部访问文件系统。
- Internet 网关
互联网网关允许 VCN 中的公共子网与公共互联网之间的流量。
- 对象存储
通过对象存储,可以快速访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及图像和视频等丰富内容。您可以安全可靠地存储数据,然后直接从互联网或云平台检索数据。您可以无缝扩展存储,而不会性能或服务可靠性降低。对需要快速、立即和频繁访问的“热”存储使用标准存储。对您长时间保留的“冷”存储使用归档存储,并且很少或很少访问。
- DNS
Oracle Cloud Infrastructure 域名系统 (Domain Name System, DNS) 服务是一个高度可扩展的全局任播域名系统 (Domain Name System, DNS) 网络,可提供增强的 DNS 性能、可恢复性和可扩展性,以便最终用户能够从任何位置尽快连接到客户的应用。
- VM 数据库系统
Oracle VM 数据库系统是 Oracle Cloud Infrastructure (OCI) 数据库服务,可用于在虚拟机上构建、扩展和管理功能完备的 Oracle 数据库。VM 数据库系统使用 OCI 块存储卷存储而不使用本地存储,并且可以运行 Oracle Real Application Clusters (Oracle RAC) 来提高可用性。
考虑事项
部署此体系结构时,YellowDog 考虑了以下几点。
- 性能
Oracle Cloud Infrastructure 提供了 YellowDog 的集群计算环境,具有出色的性价比和规模。由于预配的集群包含数十万个内核,因此预配和取消预配实例的定价和性能对其客户至关重要。YellowDog 根据用户需求使用一系列预配策略,包括即期实例、按需实例、实例池、VM 和裸金属实例。YellowDog 使用瀑布策略,该策略使用客户的计算需求的排序首选项。YellowDog 根据第一桶优先级节点管理要求,然后移至下一级别的优先级节点。未来,YellowDog 还寻求为媒体和娱乐特定客户提供 GPU 配置。
- 安全性
为了确保安全性,YellowDog 的主要顾虑是满足不同客户需求的数据安全性。如果客户具有安全的访问要求,YellowDog 可以使用 IPSec VPN 为客户提供数据。如果安全访问不考虑问题,则通过公共互联网网关为数据提供服务。
- 可用性
YellowDog 使用内部负载平衡的概念。通过此技术,长期运行的请求将进入消息传送队列,内部负载平衡器通过长时间运行的请求进一步在集群中分配负载。
- 存储
YellowDog 选择 Oracle Cloud Infrastructure Object Storage,因为它为它们提供了一致的交互。YellowDog 具有高级服务,可通过该服务访问 Oracle Cloud Infrastructure Object Storage 来推送和拉取客户在其工作量中定义的输入和输出相关性。高性能计算 (High-performance computing, HPC) 负载,尤其是高度互联的任务,通常需要高性能存储服务来协调工作节点之间的协作。YellowDog 使用 Oracle Cloud Infrastructure 文件存储服务满足高性能存储要求。
精选构建和部署
想要显示您在 Oracle Cloud Infrastructure 上构建的内容?想要与我们的全球云架构师社区分享您学到的经验、优秀实践和参考架构让我们帮助您开始。
- 下载模板 (PPTX)
通过将图标拖放到示例线框,说明您自己的参考体系结构。
- 观看架构教程
获取有关如何创建引用体系结构的分步说明。
- 提交图表
请向我们发送一封包含您图表的电子邮件。我们的云架构师将回顾您的图表,并与您联系讨论您的架构。