使用模板中的预构建任务构建安全的 OCI 数据集成环境

使用 Oracle Cloud Infrastructure Data Integration (OCI 数据集成)服务,构建从外部源到目标 Oracle Autonomous Data Warehouse 数据存储的安全且可扩展的数据处理任务。

在此参考架构中,我们考虑了一个场景,即业务数据分布在内部部署数据存储中,而该公司一直在尝试将某些应用迁移到云。OCI 数据集成可以安全、可扩展地利用 OCI 结构中存在的网络和数据存储连接来扩展任何功能、预先存在的内部部署和其他云。

体系结构

此体系结构描述了上述方案中可能涉及的不同组件。

对于多云策略,您可能会遇到其他云提供商的技术和数据服务,OCI 提供了与其他云提供商连接的架构参考。从存储在文件中的数据到 ERP 中的流程驱动数据集,内部部署数据存储因多种技术而异。

下图说明了参考体系结构和数据历程。



oci-data-integration-flow-oracle.zip

以下是安全摄取、处理和扩充数据的步骤,这些步骤可成为下游数据库或湖仓中存储的一个目标信息。

  1. 通过 Oracle Cloud Infrastructure FastConnect 或站点到站点 VPN,可以使用 OCI 数据集成数据资产连接器摄取内部部署数据源。
  2. 同样,OCI 数据集成数据资产连接器可以访问的数据源可用于提取驻留在其他云中的数据集(例如,定制应用程序、非 Oracle 应用程序、在第三方云上运行的 Oracle 数据库、Oracle Fusion SaaS、第三方云服务和应用程序)。只要 OCI 数据集成数据资产连接器无法直接访问,数据也可以批量将文件上载到 Oracle Cloud Infrastructure Object Storage 存储桶中。

    Oracle 为其他云提供商(例如 Microsoft Azure、Amazon Web Services 和 Google Cloud Platform)开发了特定的云连接解决方案。如果没有垂直云互操作性,可以通过 NAT 网关安全地连接到服务或应用,从而确保只允许传出互联网流量。OCI 通过加密与端点的端到端连接来缓解互联网上的任何数据泄露。然而,在摄取中,OCI 数据集成管道可以编排其他类型的数据摄取,例如使用 Oracle GoldenGate 的高容量实时数据流和数据源副本。调用 REST API 调用 OCI 服务的编排功能可以利用检测 OCI 对象存储桶中的文件更改,以及事件和集成函数的组合,从而欺骗摄取数据流。

  3. 将数据摄取到 OCI 网状结构网络后,将在专用虚拟云网络 (VCN) 上进行处理,以便与互联网访问进一步隔离。通过数据流的数据集成服务(OCI 数据集成)可以在无代码接口中执行多个转换、映射源和目标实体以及相应的转换。同时发生数据转换时,OCI 数据目录服务将进行编目以提供沿袭。Oracle 数据库中的静态数据可能需要遵守隐私和合规性法规。Oracle Data Safe 可评估数据库安全状况,确定风险并对其进行分类,最终屏蔽被认为敏感的信息。数据和信息安全性的另一个资源 OCI Vault 提供用于存储和管理密钥和密钥(例如账户信息和密码)的服务,加密密钥并简化数据保护的整体过程。
  4. 虽然 OCI 数据集成管道和 OCI 数据集成数据流可促进数据资产在其中扩充,但 REST 运营商还可以保护对其他 OCI 服务的访问。通过这种容量,OCI 数据集成编排可以在数据科学中调用记事本来进行机器学习或查询人工智能服务,以便使用预测或异常检测来扩充数据。OCI 数据集成编排可以旋转 Spark 引擎,以使用具有相同安全 OCI 结构的 OCI 数据流来突发广泛的数据处理。所有编排管理(例如监视、日志记录和通知)都通过具体机制进行集成。
  5. OCI 数据集成将写入 OCI 或内部部署中的任意 Oracle 存储,以及 OCI 数据湖组合和 MySQL。通过分析,您可以立即利用各种资源来支持数据可视化、业务建模和像素级完美报告。
  6. 数据使用者、生成者和开发人员可以安全地组织,实施细粒度策略来控制数据和资源访问。

以下体系结构图进一步深入分析了实施,设计了建议的网络子网分离。



oci-data-integration-arch-oracle.zip

OCI 数据集成服务提供与许多数据源的现成连接,而微批可以逐步将数据处理到 OCI 环境中。同样,可以调用其他 OCI 服务来进一步扩充和整理数据集。

  • 批处理从源系统转换大型数据集,利用 OCI 原生服务与 OCI 对象存储无缝集成,并允许您为各种用例(例如数据聚合和扩充、数据仓库摄取以及大规模的机器学习和人工智能数据使用)创建精心策划的数据。
  • OCI 数据集成是一项完全托管的无服务器云原生服务,它从各种数据源提取、加载、转换、清理数据并将其重新配置为目标 Oracle Cloud Infrastructure 服务,例如 Autonomous Data Warehouse 和 OCI 对象存储。
  • OCI 数据集成可编排处理数据流中的依赖项,还可与其他 Oracle Cloud Infrastructure 服务(例如 OCI Artificial Intelligence 和 Oracle Machine Learning )一起使用,以实现数据扩充或进一步的分类,以及数据安全,从而确保数据安全性和合规性。对访问进行精细控制的策略可维护服务到服务的验证和授权。
  • OCI 数据集成应用程序模板提供一组立即可用的 OCI 数据集成任务(REST (API)、SQL、集成(数据流)和管道。任务已完全参数化,允许直接使用。任务还可以保存到新的项目和文件夹中,以便修改设计以适应进一步的实施详细信息。

该体系结构具有以下组成部分:

  • 区域

    Oracle Cloud Infrastructure 区域是一个局部地理区域,包含一个或多个称为可用性域的数据中心。区域独立于其他区域,广阔的距离可以将其分开(跨国家甚至大陆)。

  • 虚拟云网络 (VCN) 和子网

    VCN 是您在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义网络。与传统数据中心网络一样,VCN 允许您完全控制您的网络环境。一个 VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后对其进行更改。您可以将 VCN 细分为多个子网,这些子网可以限定到区域或可用性域。每个子网包含一系列不与 VCN 中的其他子网重叠的连续地址。创建后可以更改子网的大小。子网可以是公共子网,也可以是专用子网。

  • 数据集成

    Oracle Cloud Infrastructure Data Integration 是完全托管的多租户、无服务器原生云服务,可帮助您执行常见的 ETL 任务,例如从不同的源摄取数据;清理、转换和重新配置这些数据;有效地将其加载到 OCI 上的目标数据源。

    在此过程中,首先需要将各种来源(例如 Amazon Redshift、Azure SQL 数据库和 Amazon S3)的数据摄取到对象存储和 Autonomous Data Warehouse。

  • 对象存储

    通过对象存储,可以快速访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及丰富的内容(例如图像和视频)。您可以安全可靠地存储数据,然后直接从互联网或云平台检索数据。您可以无缝扩展存储,而不会降低性能或服务可靠性。将标准存储用于“热”存储,您需要快速、立即和频繁地访问这些存储。将归档存储用于保留很长时间、很少或很少访问的“冷”存储。

  • 数据科学

    Oracle Cloud Infrastructure Data Science 是一个完全托管的无服务器平台,数据科学团队可以使用它来构建、训练和管理 Oracle Cloud Infrastructure (OCI) 上的机器学习 (ML) 模型。它可以轻松地与其他 OCI 服务(例如 Oracle Autonomous Data WarehouseOracle Cloud Infrastructure Object Storage 等)集成。您可以构建和评估高质量的机器学习模型,让企业可信赖的数据快速工作,从而提高业务灵活性;您可以通过更轻松地部署机器学习模型来支持数据驱动的业务目标。

  • Oracle Machine Learning

    Oracle Machine Learning 提供了在数据库中为数据构建、训练和部署模型的功能。Oracle Machine Learning 提供了一个 Zeppelin 笔记本界面,允许数据科学家使用 OML4Py Python 客户机库训练模型。Oracle Machine Learning 还使用 AutoML UI 提供无代码培训模型方法。可以通过 Oracle Machine Learning Services 将模型部署为 REST API。然而,对开源软件的支持有限。

  • AI 服务

    Oracle Cloud Infrastructure AI 服务提供一系列针对语言、视觉、语音、决策和预测等用例的预先训练的可定制模型 API。人工智能服务提供可通过 REST API 端点访问的模型预测。这些服务提供了先进的预训练模型,应该在使用服务 1-6 训练定制机器学习模型之前进行考虑和评估。此外,Oracle Machine Learning 服务还提供一系列针对语言(主题、关键字、摘要、相似性)和愿景的预训练模型。

  • 数据安全

    Oracle Data Safe 是一个完全集成的区域云服务,它提供了一整套功能来保护 Oracle 数据库中的敏感数据和受管制数据。数据安全还支持内部部署数据库、Oracle Exadata Database Service on Cloud@Customer 和多云部署。所有 Oracle Database 客户都可以使用 Oracle Data Safe 评估配置和用户风险、监视和审计用户活动以及发现、分类和屏蔽敏感数据,从而降低数据泄露风险并简化合规性。

  • 自治数据仓库

    Oracle Autonomous Data Warehouse 是一种自我驱动、自我保护和自我修复的数据库服务,针对数据仓库负载进行了优化。您不需要配置或管理任何硬件,或安装任何软件。Oracle Cloud Infrastructure 可处理数据库创建以及备份、打补丁、升级和调优数据库。

建议

使用以下建议作为起点。您的要求可能不同于此处所述的体系结构。
  • VCN

    创建 VCN 时,根据计划附加到 VCN 中的子网中的资源数,确定所需的 CIDR 块数和每个块的大小。使用标准专用 IP 地址空间内的 CIDR 块。

    选择与您打算设置专用连接的任何其他网络(在 Oracle Cloud Infrastructure 、您的内部部署数据中心或其他云提供商中)不重叠的 CIDR 块。

    创建 VCN 后,您可以更改、添加和删除其 CIDR 块。

    设计子网时,请考虑您的流量流和安全要求。将特定层或角色中的所有资源连接到可充当安全边界的同一子网。

  • OCI 数据集成模板

    许多日常管理任务可以使用模板任务或重复使用模板任务轻松实现自动化。此外,模板还提供一组专门为数据工程师量身定制的任务,从而扩展 OCI 数据集成数据处理和管理功能。用于调用其他 OCI 服务(例如 Oracle Cloud Infrastructure AI Services )进行文档分类,用于屏蔽要存储的内容的 Oracle Data Safe ,以及用于对 Autonomous Data Warehouse 的增量馈送的控制和报告是易于使用 OCI 数据集成的模板构建块。

    当前可用的模板列表包括:

    • Oracle 对象存储管理

      对象存储具有 REST 任务的应用程序,用于复制、删除和重命名对象以及创建和删除存储桶。

    • Oracle 愿景映像

      包含用于执行 OCI Vision 映像分析的 REST 任务的应用程序。这些任务包括图像分类、对象检测和图像文本检测。

    • Oracle 愿景文档

      包含用于执行 OCI Vision 文档 AI 的 REST 任务的应用程序。这些任务包括文档分类、文档键值检测、文档语言分类、文档表检测和文档文本检测。

    • Oracle DataSafe 屏蔽

      具有参数化任务的应用程序,用于从目标 Oracle 数据库方案生成 Oracle Data Safe 敏感模型和屏蔽。

    • 将文件从 Oracle 对象存储加载到 ADW

      具有将不同文件类型从 OCI 对象存储加载到 Autonomous Data Warehouse 中的任务:JSON、Parquet、CSV、Avro。

    • Oracle Database 到 Autonomous Data Warehouse 的增量加载(客户管理)

      该应用程序允许基于 Autonomous Data Warehouse 目标方案中存储的元数据表运行增量任务并报告上次执行。

    • 使用 Oracle Business Intelligence Publisher (BIP) 执行 ADW 增量加载的 Oracle Fusion Applications

      该应用程序允许 Oracle Fusion Applications 使用 Oracle Business Intelligence Publisher (BIP) 报表根据存储在 Autonomous Data Warehouse 目标方案中的元数据表运行提取并报告上次执行。

考虑事项

在收集、处理和整理应用程序数据以进行分析和机器学习时,请考虑以下实施选项。

  • 数据处理
    • Oracle Cloud Infrastructure Data Integration 提供了云原生、无服务器、完全托管的 ETL 平台,可扩展且经济高效。
    • Oracle Cloud Infrastructure Data Flow 提供了无服务器 Spark 环境,可通过按使用付费、极具弹性的模型大规模处理数据。
    • Oracle Cloud Infrastructure 大数据服务提供企业级 Hadoop 即服务,具有端到端的安全性、高性能以及易于管理和升级。
  • 数据持久性
    • Oracle Autonomous Data Warehouse 是一个简单易用、完全自治的数据库,可以弹性扩展,提供快速查询性能,并且不需要数据库管理。此外,它还可以直接访问对象存储外部或混合分区表中的数据。
    • Oracle Cloud Infrastructure Object Storage 以原始格式存储无限数据。
  • 数据炼油厂

    Oracle Cloud Infrastructure Data Integration 提供了云原生、无服务器、完全托管的 ETL 平台,可扩展且经济高效。

部署

GitHub 中提供了此引用体系结构的 Terraform 代码。

  1. 转到 GitHub
  2. 将系统信息库克隆或下载到本地计算机。
  3. 按照 README 文档中的说明进行操作。

确认

  • Author: Mario Miola