在 OCI 和 Microsoft Azure 之间建立多云数据解决方案

企业可以建立企业数据湖仓一体或数据仓库,在一个集中位置存储实时和归档数据。

这种方法简化了创建集中式数据存储的过程,该存储可用作满足所有数据分析需求的综合解决方案。

通过利用多云数据分析解决方案,企业可以使用与各种数据源(包括 Fusion SaaS、平面文件、内部部署和云数据库、Salesforce 和电子商务网站)集成的中央数据湖仓一体或数据仓库高效执行分析。

最终目标是创建一个由业务单位提取和分析的集中式数据存储库,以增强端到端业务可见性并提供数据驱动的洞察。优点包括:

  • 统一的数据分析管道

    简化从各种云和内部部署来源(例如数据库和对象存储)访问数据。

  • 易于集成

    无缝集成不同系统、格式、API、应用和设备中的数据,确保安全协议的安全协作和合规性,而无需手动编码。

  • 高性能分析

    高效的数据查询可加快决策速度并改善客户服务。

  • 成本、安全性和可用性

    尽可能减少 CapEx 和 OpEx,同时实现卓越的成本效益、性能、安全性和可用性。

体系结构

此参考架构展示了企业多云数据管道,该管道从各种来源收集和格式化数据,并将其传输到企业数据湖或数据仓库。它包括批量集成、数据集成和实时集成方案。

Oracle Interconnect for Microsoft AzureAzure ExpressRouteOracle Cloud Infrastructure FastConnect 连接在一起,以高效连接两个独立的云网络。

Azure 的虚拟网络 (VNet) 流量通过专用互连连接到 OCI 的虚拟云网络 (VCN)。

下图说明了此引用体系结构。



oci-azure-multicloud-data-solution-diagram-oracle.zip

OCI 数据集成使用原生适配器从本地和云源连接和提取数据,使用 BICC 连接器访问 Oracle SaaS 应用,对数据进行转换,并通过适配器将其加载到 OCI 数据湖中(Oracle Autonomous DatabaseOCI Object Storage )。

Oracle 应用集成服务通过原生适配器从各种源系统(例如 Oracle SaaS 应用、物联网 (Internet-of-things,IoT)、流处理服务、社交媒体、内部部署系统和其他云提供商)收集实时数据。然后,它使用适配器(Oracle Autonomous DatabaseOCI Object Storage )将数据加载到 OCI 数据湖中,然后执行转换和编排流程。

OCI GoldenGate 可从 Oracle Autonomous Database 捕获数据,并通过 OCI FastConnect 近乎实时地将其复制到 Azure Data Lake Gen2 和 Azure Synapse Analytics 。复制到 Synapse 涉及在将 Azure Data Lake Storage Gen2 中的微批处理中暂存和合并更改数据,然后再将其合并到 Synapse 目标表中。

事件流程

  1. 数据提取和传输
    • 客户数据将直接或通过特定于源的默认驱动程序从数据源传输到 OCI Object Storage
    • 使用客户的 Python 脚本或通过与 OCI Object Storage 建立 FTP 连接来将内部部署平面文件移至 OCI Object Storage ,以实现与 Oracle Integration Cloud Service 的无缝连接。
    • 数据将以原始形式通过加密安全地上载到 OCI 对象存储存储桶。
  2. 数据摄取和转换
    • OCI 数据集成OCI 对象存储和其他来源检索数据,使用 Apache Spark 和建议的架构流根据业务需求进行转换,然后将转换后的数据与自治数据库一起存储回 OCI 对象存储中。
    • 此过程遵循用于活动 ACID 属性和压缩的 Delta Lake 体系结构。现在,数据是结构化的,可以查询,并准备好进行进一步的分析。
    • OCI Logging 管理所有处理日志。
  3. 编排和调度
    • OCI 数据集成可管理数据流流程,并根据需要安排数据流应用和数据科学笔记本的执行。
    • 开发人员可以从 UI 或数据科学服务记事本运行数据流应用,以获得灵活性。
  4. 数据归档
    • 客户定义和实施的 OCI Object Storage 生命周期策略在数据归档流程自动化方面发挥着至关重要的作用。这些策略有助于将数据无缝转移到更具成本效益的存储层,或者系统地删除过时的信息,所有这些都符合预定义的规则和准则。这种自动化对于确保高效的数据管理以及遵守组织必须遵守的各种保留策略至关重要。
    • 通过利用这些生命周期策略,客户可以优化存储成本,同时保持对数据保留实践的控制,并确保与法律和法规要求保持一致。
  5. 将数据复制到 Azure
    • OCI GoldenGate 用于通过使用 Oracle Interconnect for Microsoft Azure 建立的专用网络将数据复制到 Azure
    • OCI GoldenGateAzure Data Lake 和 Azure Synapse Analytics 紧密集成,实现无缝数据加载。
  6. 数据分析和报告
    • Oracle Analytics Cloud 和 Power BI 是可与 OCI Object StorageOracle Autonomous Database 建立连接的商务智能工具。
    • 这些工具收集已转换的数据,并生成用户友好的仪表盘,其中显示关键业务关键绩效指标 (Key Business Key Performance Indicator,KPI)。
    • 通过这些仪表盘,可以从数据中获取有价值的洞察,从而促进明智的决策。

该体系结构具有以下组件:

  • Tenancy

    租户是 Oracle 在您注册 Oracle Cloud Infrastructure 时在 Oracle Cloud 中设置的安全隔离分区。您可以在您的租户内的 Oracle Cloud 中创建、组织和管理资源。租户是公司或组织的同义词。通常,公司将具有单个租户并反映其在该租户中的组织结构。单个租户通常与单个订阅关联,单个订阅通常只有一个租户。

  • 区域

    Oracle Cloud Infrastructure 区域是包含一个或多个数据中心(称为可用性域)的本地化地理区域。地区独立于其他地区,远距离可以把它们分开(跨越国家甚至大陆)。

  • 区间

    区间是 Oracle Cloud Infrastructure 租户中的跨区域逻辑分区。使用区间在 Oracle Cloud 中组织资源、控制对资源的访问并设置使用限额。要控制对给定区间中资源的访问,您可以定义策略来指定谁可以访问资源以及可以执行哪些操作。

  • 可用性域

    可用性域是区域中的独立数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,从而提供容错能力。可用性域不共享电源或冷却设备等基础设施,也不共享内部可用性域网络。因此,一个可用性域出现故障不会影响区域中的其他可用性域。

  • 虚拟云网络 (VCN) 和子网

    VCN 是一个可定制的软件定义网络,您可以在 Oracle Cloud Infrastructure 区域中设置。与传统的数据中心网络一样,VCN 允许您控制您的网络环境。VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 划分为子网,子网可以限定为区域或可用性域。每个子网都包含一系列不与 VCN 中的其他子网重叠的连续地址。可以在创建后更改子网的大小。子网可以是公共子网,也可以是专用子网。

  • ExpressRoute

    Azure ExpressRoute 支持您在 VNet 与其他网络(例如您的内部部署网络或其他云提供商中的网络)之间设置专用连接。

    Azure ExpressRoute 是典型 Internet 连接的更可靠、更快的替代方案,因为 Azure ExpressRoute 上的流量不会遍历公共 Internet。

  • 自治数据库

    Oracle Autonomous Database 是一个完全托管的预配置数据库环境,可用于事务处理和数据仓库工作负载。您不需要配置或管理任何硬件,或者安装任何软件。Oracle Cloud Infrastructure 可处理数据库创建以及数据库备份、打补丁、升级和调优。

  • 对象存储

    通过对象存储,可以快速访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及图像和视频等丰富内容。您可以安全地存储数据,然后直接从互联网或云平台检索数据。您可以在不降低性能或服务可靠性的情况下扩展存储。将标准存储用于需要快速、立即和频繁访问的“热”存储。将归档存储用于长期保留、很少访问或很少访问的“冷”存储。

  • 数据集成

    Oracle Cloud Infrastructure Data Integration 是一项完全托管的无服务器云原生服务,可将各种数据源中的数据提取、加载、转换、清理和重塑为目标 Oracle Cloud Infrastructure 服务,例如 Autonomous Data WarehouseOracle Cloud Infrastructure Object Storage 。ETL(提取转换负载)利用 Spark 上的完全托管的横向扩展处理,ELT(提取负载转换)利用 Autonomous Data Warehouse 的完整 SQL 下推功能,以尽可能减少数据移动并缩短新摄取数据的价值实现时间。用户可以使用直观、无代码的用户界面设计数据集成流程,优化集成流以生成高效的引擎和编排,并自动分配和扩展执行环境。Oracle Cloud Infrastructure Data Integration 提供交互式探索和数据准备,通过定义规则来处理模式更改,帮助数据工程师防范模式偏差。

  • Oracle GoldenGate Cloud Service

    Oracle GoldenGate Cloud Service 是一项完全托管的服务,它允许从内部部署或任何云中的源摄取数据,并利用 GoldenGate CDC 技术实时、高效地捕获数据并将其交付到 Oracle Autonomous Data Warehouse ,以便尽快向消费者提供相关信息。

  • Oracle Integration

    Oracle Integration 提供与 SaaS 和内部部署应用程序的预构建连接、可运行的流程自动化模板,以及用于 Web 和移动应用程序开发的低代码可视化构建器。它支持您原生访问 Oracle Cloud ERP、HCM 和 CX 中的事件。连接特定于应用的分析孤岛,简化从申请到接收、从招聘到付款、从销售线索到发票以及其他关键流程,为 IT 和业务负责人提供端到端的可见性。

  • Azure Synapse Analytics

    Azure Synapse Analytics 是一项分析服务,可整合数据集成、企业数据仓库和大数据分析。它允许使用无服务器或专用选项大规模查询您的条款数据。Azure Synapse Analytics 将这些概念与统一的体验结合在一起,以摄取、探索、准备、转换、管理和满足即时 BI 和机器学习需求的数据。

  • Azure Data Lake Storage Gen2

    Azure Data Lake Storage Gen2 是一组专用于大数据分析的功能,基于 Azure Blob Storage 构建。Data Lake Storage Gen2 将 Azure Data Lake Storage Gen1 的功能与 Azure Blob Storage 融合在一起。

    例如,Azure Data Lake Storage Gen2 提供了文件系统语义、文件级安全性和可扩展性。由于这些功能是基于 Blob 存储构建的,因此您还可以获得具有高可用性和灾难恢复功能的低成本分层存储。

  • Azure 应用程序网关

    Azure 应用网关是一个 Web 流量(OSI 第 7 层)负载平衡器,可用于管理 Web 应用的流量。传统负载平衡器在传输层(OSI 层 4 - TCP 和 UDP)运行,并基于源 IP 地址和端口将流量路由到目标 IP 地址和端口。Azure 应用程序网关可以根据 HTTP 请求的其他属性(例如 URI 路径或主机标头)做出路由决策。

    例如,您可以基于传入 URL 路由流量。因此,如果 /images 位于传入 URL 中,则可以将流量路由到为映像配置的特定服务器集(称为池)。如果 URL 中有 /video,则该流量将路由到针对视频优化的另一个池。

推荐

使用以下建议作为起点。 您的要求可能与此处描述的体系结构不同。
  • 预配
    • OCI FastConnectAzure ExpressRoute 虚拟线路选择适当的大小,以满足工作负载的带宽要求。
    • 在与 OCI 动态路由网关 (DRG) 和 OCI FastConnect 关联的 OCI VCN 和子网中部署 Oracle Database
    • 在 OCI 上设置路由和安全度量或网络安全组 (NSG),以允许 Azure Synapse Analytics 网络流量访问 Oracle Database。
    • 使用专用端点配置 Oracle Database 时,请定义 VCN 设置以仅允许来自指定 VCN 的流量,从而限制对任何公共 IP 或 VCN 的访问。

注意事项

部署此引用体系结构时,请考虑以下几点。

  • 成本

    OCI FastConnect :在所有 OCI 区域中, OCI FastConnect 的价格保持一致,无需额外支付数据入站或出站费用。

    Azure ExpressRouteAzure ExpressRoute 的定价因区域而异。

  • 性能

    在此参考架构中,客户需要将近乎实时的数据从 OCI 上的主数据库复制到 Azure 端点。通过使用 OCI GoldenGate ,客户可以确保其异构和多云大数据库始终使用运营和分析生产系统的实时数据进行更新,从而促进实时分析。

  • 网络

    Oracle Interconnect for Microsoft Azure 是一种替代网络解决方案,与特定的 Azure -OCI 配对区域兼容。要了解哪些 Azure 和 OCI 区域支持 Oracle Database Service for Microsoft Azure ,请参阅浏览适用于 Oracle Database Service for Azure 区域可用性的更多信息。

    如果 OCI 和 Azure 区域不支持 Oracle Interconnect for Microsoft Azure ,您可以利用每个云提供商的骨干来处理流量。如果选择 OCI 主干,则需要在 OCI 中建立包含 Oracle Interconnect for Microsoft Azure 区域以及与不支持 Oracle Interconnect for Microsoft Azure 的区域的远程对等连接 (RPC) 的中介区域。

确认

  • 授权者GuruDixit Chepuri
  • 贡献者John Sulyok