查看实施此体系结构的建议和注意事项

下面概述的建议和注意事项将帮助您使用 Oracle Interconnect for Google Cloud 确保成功部署多云分布式 AI 工作负载。

推荐

使用 Oracle Interconnect for Google Cloud 部署多云分布式 AI 工作负载时,请使用以下建议作为起点。您的要求可能不同于此处介绍的体系结构。
  • VCN

    创建 VCN 时,请根据您计划附加到 VCN 中子网的资源数量,确定所需的 CIDR 块数和每个块的大小。使用标准专用 IP 地址空间内的 CIDR 块。

    选择不与要设置专用连接的任何其他网络(在 Oracle Cloud Infrastructure 、您的内部部署数据中心或其他云提供商中)重叠的 CIDR 块。

    创建 VCN 后,您可以更改、添加和删除其 CIDR 块。

    设计子网时,请考虑流量和安全要求。将特定层或角色中的所有资源附加到可以用作安全边界的同一子网。

    使用区域子网

  • 安全

    使用 Oracle Cloud Guard 主动监视和维护 Oracle Cloud Infrastructure 中资源的安全性。Cloud Guard 使用检测器配方,您可以定义这些配方来检查资源是否存在安全漏洞,以及监视操作员和用户是否有风险活动。检测到任何配置错误或不安全活动时,Cloud Guard 会根据您可以定义的响应器配方推荐更正操作并协助执行这些操作。

    对于需要最高安全性的资源,Oracle 建议您使用安全区域。安全区域是与 Oracle 定义的基于优秀实践的安全策略配方关联的区间。例如,安全区域中的资源必须无法从公共 Internet 访问,并且必须使用客户管理的密钥对它们进行加密。在安全区域中创建和更新资源时,Oracle Cloud Infrastructure 会根据安全区域配方中的策略验证操作,并拒绝违反任何策略的操作。

  • Cloud Guard

    克隆和定制 Oracle 提供的默认配方,以创建定制检测器和响应器配方。通过这些配方,您可以指定哪种类型的安全违规会生成警告,以及允许对它们执行哪些操作。例如,您可能希望检测可见性设置为公共的对象存储桶。在租户级别应用 Cloud Guard,以涵盖最广泛的范围并减轻维护多个配置的管理负担。还可以使用“托管列表”功能将某些配置应用于检测器。

  • 安全区域

    克隆和定制 Oracle 提供的默认配方,以创建定制检测器和响应器配方。通过这些配方,您可以指定哪种类型的安全违规会生成警告,以及允许对它们执行哪些操作。例如,您可能希望检测可见性设置为公共的对象存储桶。

    在租户级别应用 Cloud Guard,以涵盖最广泛的范围并减轻维护多个配置的管理负担。

    还可以使用“托管列表”功能将某些配置应用于检测器。

  • 网络安全组 (NSG)

    可以使用 NSG 定义一组适用于特定 VNIC 的入站和出站规则。我们建议使用 NSG 而非安全列表,因为 NSG 使您能够将 VCN 的子网体系结构与应用的安全要求分开。

    可以使用 NSG 定义一组适用于特定 VNIC 的入站和出站规则。我们建议使用 NSG 而非安全列表,因为 NSG 使您能够将 VCN 的子网体系结构与应用的安全要求分开。

  • 负载平衡器带宽

    创建负载平衡器时,您可以选择提供固定带宽的预定义配置,也可以指定定制(灵活)配置来设置带宽范围,并允许服务根据流量模式自动扩展带宽。通过任一方法,您都可以在创建负载平衡器后随时更改配置。

注意事项

部署此体系结构时,请考虑以下几点。

  • 数据传输

    优化在 Google Cloud 和 OCI AI Cluster 上运行的 GKE 之间的数据传输,以提高性能和成本效益。考虑使用具有高效传输功能的数据传输服务或存储解决方案。OCI 和 Google Cloud 不对 Oracle Interconnect for Google Cloud 收取入站和出站费用。

  • 网络延迟

    使用 Oracle Interconnect for Google Cloud 将两个平台之间的网络延迟降至最低,以避免性能瓶颈。Oracle Interconnect for Google Cloud 的延迟不到 2 毫秒。

  • 安全

    在传输和处理过程中实施强大的安全措施来保护敏感数据。Oracle Interconnect for Google Cloud 提供专用高带宽网络连接。

  • 成本优化

    分析使用 OCI AI 集群的成本效益并优化资源利用率。

  • 监视和日志记录

    为 GKE 和 OCI AI 集群建立全面的监视和日志记录,以跟踪性能并排除问题。