跨区域实施实时多云数据分析架构

企业通常希望利用现有的分析平台满足云中的所有数据分析需求。

此多云解决方案描述了在美国 Oracle Cloud Infrastructure (OCI) 上具有 Oracle E-Business Suite 应用程序的客户驱动的数据分析体系结构,而 Oracle E-Business Suite 数据将近乎实时地复制到欧洲的 Microsoft Azure,用于 Azure 同步分析。

分析工具和数据源通过专用网络连接,以提供低延迟和高带宽进行数据复制。Oracle Cloud Infrastructure GoldenGate (OCI GoldenGate) 用于数据复制。多云数据分析解决方案通过以下方式满足了客户需求:

  • 将内部部署 Oracle Database 迁移到 Oracle Base Database Service ,从而获得数据库正常运行时间、性能、可扩展性、安全性和生产效率等优势。
  • 因此,在 Microsoft Azure 中保留 Analytics 堆栈,无需对下游使用者的配置/集成进行任何重大更改。
  • 使用 OCI GoldenGate 实时将更改数据从 Oracle Database 复制到 Azure Data Lake Gen2 和 Azure Synapse。

体系结构

此参考架构展示了如何在 Microsoft Azure 区域中的数据分析工具与远程 OCI 区域中的数据资源之间启用专用低延迟连接。

FastConnect 合作伙伴将 Azure ExpressRoute 和 Oracle Cloud Infrastructure FastConnect 连接到两个远程云网络。Microsoft Azure 流量上的虚拟网络 (VNet) 可遍历到 OCI 上的虚拟云网络 (virtual cloud network,VCN) 的专用互连。

例如,Oracle E-Business Suite 生产数据库部署在 Oracle Base Database Service 上。该解决方案适用于作为后端数据库的 Oracle Autonomous Database 和 Exadata 数据库服务。

由于源为 Oracle Database,目标为 Azure Synapse/Azure Data Lake Storage Gen 2,OCI GoldenGate 复制部署在单独的子网中,其中包含以下两个部署:
  1. 用于从 Oracle E-Business Suite 数据库中获取数据的 Oracle 部署。
  2. 大数据部署,用于将从 Oracle E-Business Suite 数据库捕获的数据应用于 Azure 同步。
OCI GoldenGate 捕获 Oracle Database 中的数据,并通过 FastConnect 近乎实时地将该数据复制到 Azure Data Lake Gen2 和 Azure Synapse。要同步的 OCI GoldenGate 复制使用阶段和合并数据流。更改数据暂存在一个临时位置,即微小批中的 Azure Data Lake Storage Gen 2,最终合并到同步目标表中。

下图说明了此参考体系结构。



oci-multicloud-db-analytics-azure-arch-oracle.zip

该体系结构具有以下组成部分:

Oracle Cloud Infrastructure 组件

  • Autonomous Transaction Processing

    Oracle Autonomous Transaction Processing 是一种自我驱动、自我保护和自我修复的数据库服务,针对事务处理负载进行了优化。您不需要配置或管理任何硬件,或安装任何软件。Oracle Cloud Infrastructure 可处理数据库创建以及备份、打补丁、升级和调优数据库。

  • FastConnect

    Oracle Cloud Infrastructure FastConnect 提供了在您的数据中心与 Oracle Cloud Infrastructure 之间创建专用私有连接的简便方式。FastConnect 与基于 Internet 的连接相比,可提供更高的带宽选项和更可靠的网络体验。

  • 可用性域

    可用性域是区域中的独立独立数据中心。每个可用性域中的物理资源与提供容错能力的其他可用性域中的资源隔离。可用性域不共享基础设施(例如电源或冷却设备)或内部可用性域网络。因此,一个可用性域出现故障不会影响区域中的其他可用性域。

  • 虚拟云网络 (VCN) 和子网

    VCN 是您在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义网络。与传统数据中心网络一样,VCN 允许您完全控制您的网络环境。一个 VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后对其进行更改。您可以将 VCN 细分为多个子网,这些子网可以限定到区域或可用性域。每个子网包含一系列不与 VCN 中的其他子网重叠的连续地址。创建后可以更改子网的大小。子网可以是公共子网,也可以是专用子网。

  • 安全列表

    对于每个子网,您可以创建安全规则来指定必须允许进出子网的流量源、目标和类型。

  • 路由表

    虚拟路由表包含将流量从子网路由到 VCN 外部的目标(通常通过网关)的规则。

  • 动态路由网关 (DRG)

    DRG 是虚拟路由器,用于为同一区域中的 VCN 之间、VCN 与区域外的网络(例如另一个 Oracle Cloud Infrastructure 区域中的 VCN、内部部署网络或其他云提供商中的网络)的专用网络流量提供路径。

  • Oracle Cloud Infrastructure GoldenGate

    Oracle Cloud Infrastructure GoldenGate 是一项完全托管的服务,它允许从驻留在内部部署或任何云中的源提取数据,利用 GoldenGate CDC 技术实时和大规模地捕获数据并交付给 Oracle Autonomous Data Warehouse ,从而使相关信息尽快提供给使用者。

Microsoft Azure 组件
  • 虚拟网络 (VNet) 和子网

    VNet 是您在 Azure 中定义的虚拟网络。一个 VNet 可以具有多个不重叠的 CIDR 块子网,您可以在创建 VNet 后添加这些子网。您可以将 VNet 细分到子网中,该子网可以限定到某个区域或可用性区域。每个子网由一组不与 VNet 中的其他子网重叠的连续地址组成。使用 VNet 在网络级别逻辑隔离 Microsoft Azure 资源。

  • ExpressRoute

    通过 Azure ExpressRoute,您可以在 VNet 和其他网络(例如您的内部部署网络或其他云提供商中的网络)之间设置专用连接。ExpressRoute 是比典型互联网连接更可靠、更快的替代方案,因为通过 ExpressRoute 的流量不会通过公共互联网。

  • 虚拟网络网关

    虚拟网络网关允许 Azure VNet 与 Azure 外部的网络之间的通信(通过公共互联网或使用 ExpressRoute),具体取决于您指定的网关类型。

  • 路由表

    在 Azure 子网 VNets 和 Azure 外部的网络之间路由表直接通信。

  • 网络安全组

    网络安全组包含用于控制 VNet 中 Azure 资源之间的网络通信流量的规则。每个规则指定允许或拒绝的网络通信的源或目标、端口、协议和方向。

  • Azure 同步分析

    Azure 同步分析是一项将数据集成、企业数据仓库和大数据分析结合在一起的分析服务。它允许大规模使用无服务器或专用选项查询您的术语数据。Azure Synapse 通过统一的体验收集、探索、准备、转换、管理和提供数据,满足即时 BI 和机器学习需求。

  • Azure 数据湖存储 Gen2

    Azure Data Lake Storage Gen2 是一组专用于大数据分析的功能,这些功能基于 Azure Blob 存储构建。Data Lake Storage Gen2 将 Azure Data Lake Storage Gen1 的功能与 Azure Blob 存储相融合。例如,数据池存储 Gen2 提供文件系统语义、文件级安全性和可扩展性。由于这些功能基于 Blob 存储构建,因此您还可以获得具有高可用性和灾难恢复功能的低成本分层存储。

建议

使用以下建议作为起点。您的要求可能不同于此处所述的体系结构。
  • 预配

    选择合适大小的 Oracle Cloud Infrastructure FastConnect 和 Azure ExpressRoute 虚拟线路以支持负载所需的带宽。

    使用连接到 OCI 动态路由网关 (DRG) 和 OCI FastConnect 的 OCI 虚拟云网络 (VCN)/子网预配 Oracle Database。

    在 OCI 上配置路由和安全/网络安全组 (NSG),以允许 Azure Synapse Analytics 网络流向 Oracle Database。

    对于专用端点中的 Oracle Cloud 数据库,请指定 VCN 配置以仅允许来自指定 VCN 的流量。这将阻止从所有公共 IP 或 VCN 访问数据库。

考虑事项

部署此引用体系结构时,请考虑以下几点。

  • 成本

    Oracle Cloud Infrastructure FastConnect:在所有 Oracle Cloud Infrastructure 区域中,FastConnect 的成本是相同的。没有单独的入站或出站数据费用。

    Azure ExpressRoute:Azure ExpressRoute 成本因区域而异。Azure 有多个可用于快速路线的 SKU;Oracle 建议使用本地设置,因为它没有单独的入站或出站费用,并且从最小带宽 1 Gbps 开始。标准和高级配置提供较低的带宽,但在计量设置中产生单独的出站费用。

    Oracle Autonomous Transaction Processing 中的 Oracle CPU (OCPU) 自动缩放支持在需要时处理峰值负载,并因此大幅降低许可证成本。

  • 性能

    对于此引用体系结构中的客户用例,该要求几乎实时地从 OCI 上的主数据库复制到 Azure 端点。在 OCI GoldenGate 的帮助下,客户的异构和多云大数据存储库始终使用运营和分析生产系统中的实时数据来进行实时分析。

  • 网络

    Oracle Interconnect for Microsoft Azure 也可用作替代网络解决方案。Oracle Interconnect for Microsoft Azure 仅在特定的 Azure-OCI 配对区域上可用。有关详细信息,请参阅浏览更多信息部分中的了解 Azure 和 OCI 区域支持 OracleDB for Azure

    如果 OCI 和 Azure 区域不支持 Oracle Interconnect for Microsoft Azure,则可以使用每个云提供商(OCI 和 Azure)的主干传输通信。如果使用 OCI 主干,则必须创建一个中间区域,其中包括 OCI 中的可用 Oracle Interconnect for Microsoft Azure 区域以及与不支持 Oracle Interconnect for Microsoft Azure 的区域的远程对等连接 (Remote Peering Connection,RPC)。

    注:

    如果在设计中使用带有 RPC 的 OCI 主干,则必须使用动态路由网关 (Dynamic Routing Gateway,DRG) 级别的定制路由将通信从中间区域路由到不包含互连合格区域的另一个区域。要使用 Azure 主干,请考虑 ExpressRoute SKU 本地、标准和高级版,以确保您拥有合适的 SKU 来连接 Azure 中的两个区域。您还可以考虑将 FastConnect 提供商与 Megaport 云路由器等三层服务结合使用。

确认

  • Author: Shrinidhi Kulkarni
  • Contributors: Wei Han, Atefeh Yousefi Attaei