使用 OCI 数据集成和 Oracle Integration Cloud Services 处理批量数据

处理或集成从外部源到目标系统或应用的批量数据。

考虑到此方案:您可以从外部来源(例如,客户、供应商、员工、产品等)批量接收数据。在达到最终系统或应用之前,需要对数据进行编排、扩充、组合或组织。要实现此目的,您需要与两个或更多个中间应用程序或服务集成,或者对数据应用复杂转换。此流程可以在通过各种第三方应用进行调用或编排(基于 REST、SOAP 等)之后为数据添加其他属性。此事务处理数据可能还需要复杂的转换(JSON 或 XML)、查找或交叉引用。

此方案可通过以下两种云服务轻松实施:OCI 数据集成 (OCI DI) 和 Oracle Integration Cloud (OIC),其中 OCI DI 满足了所有数据集成或“提取、转换、加载”(ETL) 需求,而 OIC 满足了所有应用集成或企业级连接,无论您连接的应用程序或所在位置。

体系结构

此引用体系结构表示使用 OCI DI 和 OIC 服务处理批量数据的用例。

此参考体系结构还解决了通过 OCI DI 在 OIC 中处理 Apache Parquet、Apache Avro 和 Microsoft Excel 文件的难题。例如,要处理财务报告数据(例如应付账款、应收账款、GL、现金流、资产和负债、收入等),OCI DI 会将这些文件格式转换为逗号分隔值 (CSV) 文件,然后 OIC 处理这些文件格式。

下图说明了此参考体系结构。



oci-bulk-data-integration-architecture-diagram-oracle.zip

下面是对上述参考体系结构中显示的步骤的说明:

  1. 外部源(例如,定制应用、非 Oracle 应用、在第三方云上运行的 Oracle 数据库、第三方云服务、内部部署数据库和应用)会将批量数据加载文件上载到 OCI 对象存储桶。
  2. OCI 可观察性和管理服务 - OCI 事件服务查找上载到 OCI 对象存储桶的对象或文件。
  3. OCI 事件服务会触发使用存储桶和文件名调用 OCI 函数的操作。
  4. OCI 函数接收事件并使用输入参数调用 OCI DI 管道:存储桶名称和文件名。
  5. OCI DI 管道从 OCI 对象存储桶读取批量数据加载文件,并将单个大数据文件拆分为多个较小的文件。然后,它将拆分文件上载到 OCI 对象存储桶中。
  6. OCI 事件服务的另一个实例查找上载到 OCI 对象存储桶的拆分文件。
  7. OCI 事件服务会触发一个操作来使用存储桶名称和每个文件名调用 OCI 函数。
  8. OCI 函数接收事件并使用存储桶名称和每个文件名的输入参数调用 OIC 集成流。
  9. OIC 集成从 OCI 对象存储桶读取每个文件。
  10. OIC 集成根据需求,通过调用一个或多个中间应用程序或系统来编排和扩充数据。然后,它执行复杂的转换、查找、交叉引用等,最后将数据处理到下游系统或应用。

该体系结构包含以下组件:

  • 区域

    Oracle Cloud Infrastructure 区域是一个局部地理区域,包含一个或多个称为可用性域的数据中心。区域独立于其他区域,广阔的距离可以将其分开(跨国家甚至大陆)。

  • 数据集成

    OCI 数据集成是一项完全托管的多租户服务,它可以帮助数据工程师以及“提取、转换和加载”(ETL) 开发人员执行常见的 ETL 任务,例如从各种数据资产摄取数据;清理、转换和重新配置这些数据;有效地将其加载到目标数据资产中。

  • Oracle Integration Cloud

    借助 Oracle Integration Cloud,您可以集成云和内部部署应用,实现业务流程自动化,深入了解业务流程,开发可视化应用,使用符合 SFTP 的文件服务器存储和检索文件,以及与 B2B 贸易合作伙伴交换业务文档。

  • 事件

    OCI 事件服务使用符合云原生计算基金会 (Cloud Native Computing Foundation,CNCF) CloudEvents 标准的事件跟踪资源更改。开发人员可以通过使用函数触发代码、写入流处理或使用通知发送预警来实时响应更改。

  • 函数

    OCI 功能是一个无服务器平台,允许开发人员创建、运行和扩展应用,而无需管理任何基础设施。功能与 OCI、平台服务和 SaaS 应用集成。由于函数基于开源 Fn 项目,因此开发人员可以创建可以轻松移植到其他云和内部部署环境的应用。基于函数的代码通常在短期内运行,客户只需为自己使用的资源付费。

  • 虚拟云网络 (VCN) 和子网

    VCN 是您在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义网络。与传统的数据中心网络一样,VCN 允许您完全控制您的网络环境。一个 VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后对其进行更改。您可以将 VCN 细分为多个子网,这些子网可以限定到区域或可用性域。每个子网包含一系列不与 VCN 中的其他子网重叠的连续地址。创建后可以更改子网的大小。子网可以是公共子网,也可以是专用子网。

  • 安全列表

    对于每个子网,您可以创建安全规则来指定必须允许进出子网的流量源、目标和类型。

  • 路由表

    虚拟路由表包含将流量从子网路由到 VCN 外部的目标(通常通过网关)的规则。

确认

  • 作者:Pavan Rajalbandi
  • 贡献者:John Sulyok