数据平台 - 数据联盟

功能架构

此架构使用数据湖仓一体来存储和处理数据，无论其配置或形式如何。此架构的核心是部署在 Oracle Autonomous AI Lakehouse 上的数据仓库。

此外，该架构还使用统一的查询引擎将来自所选源的整理数据与数据湖仓一体中的数据联合起来。联合数据是通过使用外部表、数据库链接和数据共享等机制获取的，具体取决于数据存储。

结合了数据湖仓一体数据和现有数据存储的联盟架构允许您：

联接所有数据，而不管数据存储在何处
支持多云和混合云数据平台，将存储在其他云和内部部署中的数据联合起来
简化从不同引擎获取和查询数据的数据消费者体验
增强安全性，因为可以在联合查询引擎中强制实施单个数据安全模型
使用数据目录来统一数据湖仓一体中存储的实体以及与查询引擎联合的元数据，从而加强监管
利用数据实体化和自治数据库缓存提高性能
通过使用分析仪表盘、SQL 接口、API 端点和数据共享，向不同使用者公开统一和精心策划的数据
利用多模型数据库作为联合查询引擎

下图说明了功能体系结构。为了简单起见，并非所有湖仓一体的能力都得到了展示。

后面是 data-platform-federation-functional.png 的说明

插图 data-platform-federation-functional.png 的说明

data-platform-federation-functional-oracle-1.zip#GUID-827999E3-20E0-4D6C-B343-7AD45CF085A9

请注意，此架构描述了一个主要使用批处理功能的联合数据平台，但可以使用数据湖仓一体实时功能来处理流数据。

流数据处理通常需要在其数据管道内使用上下文数据。上下文数据可能存储在不同的数据源上，但为数据管道提供所有上下文数据的数据联盟引擎可以简化这些管道。

该体系结构侧重于以下逻辑划分：

摄取、转换

摄取并细化数据，以便在体系结构中的每个数据层中使用。

从云存储、数据库和数据共享中按需使用联合数据。未在此层上转换数据，因为它已在源数据存储上进行整理。

持久、整理、创建

便于访问和导航数据以显示当前业务视图。对于关系技术，数据可以以简单的关系、纵向、维或 OLAP 形式进行逻辑或物理结构化。对于非关系数据，此层包含一个或多个数据池，这些数据池来自分析流程的输出或针对特定分析任务优化的数据。

该层包含联合服务引擎，可统一数据仓库、数据湖和联合数据源中的数据并为其提供服务。它能够按需查询联合数据并实现联合数据，从而提高查询性能。

联合引擎通过使用 SQL、REST API 或数据共享来为数据提供服务，从而提高互操作性并简化连接，因为数据使用者可以连接到单个服务引擎而不是多个数据存储。

分析、学习、预测

抽象用户的数据的逻辑业务视图。此抽象简化了开发、迁移到目标架构以及从多个联合源提供单个报告层的敏捷方法。

该层利用服务引擎获取联合数据，该数据可以进一步增强该层上可用的数据连接器，并由可视化或数据科学服务提供。

通过使用联合查询引擎，可以从底层数据存储中抽象出数据使用者访问，从而提高数据联合一次并由许多数据使用者使用的生产力。这也使系统更具互操作性，因为任何可以与 SQL、REST API 或数据共享互操作的用户都可以使用并加入数据湖仓一体和联合数据。

该体系结构具有以下功能组件：

批量摄取

批量摄取对于无法实时摄取的数据或难以适应实时摄取的数据来说非常有用。将数据转化为可靠且值得信赖的信息也很重要，这些信息可以经过精心策划和保存，以供定期使用。

批处理摄取补充了数据联盟引擎，因为它可以摄取联盟引擎无法原生访问的数据，或者摄取需要转换数据以符合数据湖仓一体数据模型的特定用例的数据。

您可以同时使用或独立使用以下服务，以实现高度灵活且高效的数据集成和转换工作流。

Oracle Cloud Infrastructure Data Integration 是一个用于设计和执行数据管道的全托管式无服务器服务。它支持将数据无缝提取、转换和加载到 OCI 目标中，例如 Autonomous AI Lakehouse 和 OCI Object Storage 。用户可以通过直观、无代码的界面构建集成流，从而自动扩展执行环境。它既支持基于 Spark 的 ETL 处理，也支持使用 SQL 下推实现性能和效率的 ELT。该服务还提供用于数据准备的工具，并通过基于规则的处理来防止模式偏差。
Oracle Data Integrator 提供全面的数据集成，包括从大容量和高性能批量加载到事件驱动的涓滴集成流程，再到支持 SOA 的数据服务。声明式设计方法可确保更快、更简单的开发和维护，并提供一种独特的方法来提取负载转换 (ELT)，有助于确保数据转换和验证流程尽可能获得最高级别的性能。Oracle 数据转换使用 Web 界面简化 ELT 的配置和执行，并帮助用户使用声明式设计方法构建和调度数据和工作流。
借助 Oracle 数据转换，所选受支持技术可以实现 ELT，用户可以使用 Web 用户界面以声明方式构建和调度数据流和工作流，从而简化数据管道的配置和执行。Oracle Data Transforms 作为 Oracle Autonomous AI Lakehouse 中的全托管环境提供，可将数据从多个数据源加载和转换成 Oracle Autonomous AI Lakehouse 实例。

根据具体使用情况，这些组件可以单独使用或一起使用，以实现高度灵活和高性能的数据集成和转换。

批处理

批处理转换存储在数据湖仓一体中的大型数据集。批处理利用与 Oracle Cloud Infrastructure Object Storage 无缝集成的 Oracle Cloud Infrastructure 原生服务，支持您为数据聚合和扩充、数据仓库摄取以及大规模机器学习和 AI 数据使用等用例创建精选数据。

Oracle Cloud Infrastructure Data Integration 是一个完全托管的无服务器云原生服务，可提取、加载、转换、清理和重塑各种数据源的数据，并将其重塑为目标 Oracle Cloud Infrastructure 服务，例如 Oracle Autonomous AI Lakehouse 和 Oracle Cloud Infrastructure Object Storage 。

Oracle Cloud Infrastructure Data Flow 是一个完全托管的大数据服务，支持您无需部署或管理基础设施即可运行 Apache Spark 应用。它可以帮助您更快地交付大数据和 AI 应用，因为您可以专注于应用，而无需管理运营。数据流应用程序是可重用的模板，由 Spark 应用程序及其依赖项、默认参数和默认运行时资源规范组成。

份量

Oracle Autonomous AI Lakehouse 是一个自治驱动、自我保护和自我修复的数据库服务，针对数据仓库工作负载进行了优化。您不需要配置或管理任何硬件，也不需安装任何软件。OCI 可处理数据库创建、备份、打补丁、升级和调优。

预配后，您可以随时扩展 CPU 核心数或数据库存储容量，而不会影响可用性或性能。

Oracle Autonomous AI Lakehouse 还可以将驻留在对象存储中的数据虚拟化为外部和混合分区表，以便您可以将来自其他来源的数据与仓库数据联接并使用。您还可以将历史数据从仓库移动到对象存储，然后使用混合分区表无缝地使用这些数据。

Oracle Autonomous AI Lakehouse 可以使用 Oracle Cloud Infrastructure Data Catalog 中存储的先前收集的元数据来创建外部表，并自动将 Oracle Cloud Infrastructure Data Catalog 中的元数据更新与外部表定义同步，以保持一致性、简化管理和减少工作量。

分析视图是 Autonomous AI Database 的一项功能，它提供了一种快速高效的方式来创建现有数据库表和视图中存储的数据的分析查询。分析视图使用维模型组织数据。使用这些视图，可以轻松地将聚合和计算添加到数据集，并在视图中呈现可以使用相对简单的 SQL 进行查询的数据。利用此功能，您可以使用内部和外部存储的数据，直接在 Oracle Autonomous AI Lakehouse 中对星型或雪花模式进行语义建模，并允许使用 SQL 和任何符合 SQL 的数据使用者来使用模型。

Oracle Autonomous AI Lakehouse 支持联合和查询存储在第三方云存储（即 AWS S3、Azure Blob 和 GCP CGS）、第三方云数据库（即 AWS Redshift、Azure Synapse Analytics、Google BigQuery 和 Snowflake）、第三方数据库（即 IBM DB2、MongoDB、PostrgreSQL、Hive）甚至 SaaS 应用上的数据。

在单个查询中，Oracle Autonomous AI Lakehouse 可以从云存储、云数据库和其他常用数据库查询和联接数据，从而简化对服务引擎使用者的数据访问，因为它们从多个查询引擎单独查询的复杂性中抽象出来，从而获得统一的结果。它还可以将这些数据与从符合 Delta Sharing 开放协议的生成器提供的数据共享中获取的数据相结合。

云存储

Oracle Cloud Infrastructure Object Storage 是一个互联网级高性能存储平台，可提供可靠且经济高效的数据持久性。Oracle Cloud Infrastructure Object Storage 可存储任意内容类型的无限制非结构化数据，包括分析数据。您可以安全地使用基于互联网或云平台直接存储或检索数据。通过多个管理接口，您可以轻松从小规模开始，无缝扩展，而不会在性能或服务可靠性方面出现任何降级。

Oracle Cloud Infrastructure Object Storage 还可以用作数据仓库的冷存储层，方法是存储不经常使用的数据，然后使用 Oracle Autonomous AI Lakehouse 中的混合表将其与最新数据无缝联接。

可视化/学习

Oracle Analytics Cloud 是一种安全的可扩展公共云服务，可为您、您的工作小组和您的企业提供浏览和执行协作分析的功能。它支持公民数据科学家、高级业务分析师培训和执行机器学习 (ML) 模型。机器学习模型可以在分析服务上执行，也可以直接在 Oracle Autonomous AI Lakehouse 上作为 OML 嵌入式模型执行，以进行大规模批量预测，从而充分利用仓库和 OCI AI 服务（例如 Oracle Cloud Infrastructure Vision）的处理能力、可扩展性和弹性。

借助 Oracle Analytics Cloud ，您还可以获得灵活的服务管理功能，包括快速设置、轻松扩展和打补丁以及自动化生命周期管理。

学习和预测

Oracle Cloud Infrastructure Data Science 为数据科学团队提供基础设施、开源技术、库、程序包和数据科学工具，帮助他们在 Oracle Cloud Infrastructure 中构建、训练和管理机器学习 (ML) 模型。协作式和项目驱动的工作区提供端到端的统一用户体验，并支持预测模型的生命周期。

借助数据科学作业功能，数据科学家可以在完全托管的基础设施上定义和运行可重复的机器学习任务。

借助数据科学模型部署功能，数据科学家可以将训练的模型部署为完全托管的 HTTP 端点，从而实时提供预测，将智能注入到流程和应用中，并允许企业在发生相关事件时对事件做出响应。

Oracle Machine Learning 提供与 Oracle Autonomous AI Database 紧密集成的强大机器学习功能，并支持 Python 和 AutoML。它支持使用开源和可扩展的数据库内算法的模型，从而减少数据准备和移动。AutoML 通过使用自动算法选择、自适应数据采样、自动功能选择和自动模型优化，帮助数据科学家加快实现机器学习计划价值的时间。借助 Oracle Autonomous AI Lakehouse 中的 Oracle Machine Learning 服务，您不仅可以管理模型，还可以将这些模型部署为 REST 端点，以实现企业内部的实时预测民主化，从而让企业能够在发生相关事件时（而非事件发生后）对相关事件做出响应。

AI 服务

Oracle Cloud Infrastructure AI Services 服务提供了一组现成的 AI 服务，可用于支持从文本分析到预测性维护的一系列用例。这些服务具有预构建的微调模型，您可以使用 API 集成到数据管道、分析和应用中。

Oracle Cloud Infrastructure Anomaly Detection 提供了一组丰富的工具来实时识别业务数据中不理想的事件或观察结果，以便您采取措施避免业务中断。

Oracle Cloud Infrastructure Language 可大规模执行复杂的文本分析。借助预训练和定制模型，开发人员无需具备数据科学专业知识即可处理非结构化文本并提取洞察。预训练模型支持情感分析、关键短语提取、文本分类和命名实体识别。您还可以使用特定于域的数据集为命名实体识别和文本分类训练定制模型。翻译服务使您能够跨 21 种不同语言翻译文本。

Oracle Cloud Infrastructure Speech 可帮助您轻松将包含人工语音的媒体文件转换为高度准确的文本转录，从而发挥口语的强大功能。OCI Speech 可用于转录客户服务电话、自动加字幕以及为媒体资产生成的元数据，以创建完全可搜索的归档。

Oracle Cloud Infrastructure Vision 可执行图像识别和文档分析任务，例如对图像进行分类、检测和人脸、提取文本和识别表。您可以利用预先训练的模型，也可以轻松为行业和客户特定的场景创建定制视觉模型。OCI Vision 是一项完全托管的多租户原生云服务，可帮助完成所有常见的计算机视觉任务。

Oracle Cloud Infrastructure Document Understanding 可执行文档分析任务，例如提取文本和识别表。OCI Document Understanding 服务是一个完全托管的多租户原生云服务，可帮助处理所有常见的文档分析任务。

数据扩充

数据扩充可以改善用于训练机器学习模型的数据，从而实现更好、更准确的预测结果。

Oracle Cloud Infrastructure Data Labeling 支持您创建和浏览数据集、查看数据记录（文本或图像）以及应用标签来构建 AI/ML 模型。该服务还提供交互式用户界面，旨在帮助标记过程。在为记录设置标签后，数据集可以导出为行分隔的 JSON，以用于 AI/ML 模型开发。

API

通过 API 层，您可以将来自数据科学和 Oracle Machine Learning 的智能注入到应用、业务流程和事物中，从而影响和改进其运营和功能。通过 API 层，可以安全地使用部署到 Oracle Machine Learning REST 端点的数据科学模型，并可以监管系统以确保运行时环境的可用性。您还可以根据需要利用函数来执行其他逻辑。

借助 Oracle Cloud Infrastructure API Gateway ，您可以发布具有专用端点（可从网络中访问）的 API，并且您可以通过公共 IP 地址公开这些 API（如果您希望它们接受互联网流量）。这些端点支持 API 验证、请求和响应转换、CORS、验证和授权以及请求限制。它允许 API 观测来监视使用情况并保证 SLA。使用量计划还可用于监视和管理访问 API 的 API 使用者和 API 客户端，以及为不同客户设置不同的访问层，以便跟踪使用 API 使用的数据使用情况。使用量计划是支持数据货币化的关键功能。

Oracle Cloud Infrastructure Functions 是一个全托管、多租户、高度可扩展的按需函数即服务平台。它基于企业级 Oracle Cloud Infrastructure 构建，由 Fn Project 开源引擎提供支持。

Oracle REST Data Services (ORDS) 是一个 Java 应用程序，它支持具备 SQL 和数据库技能的开发人员为 Oracle Database 开发 REST API。任何应用开发人员都可以从任何语言环境使用这些 API，而无需安装和维护客户端驱动程序，就像他们使用最广泛使用的 API 技术 REST 访问其他外部服务一样。ORDS 作为完全托管的功能部署在 Oracle Autonomous AI Lakehouse 中，可用于通过使用 API 向数据使用者公开数据湖仓信息。

数据治理

Oracle Cloud Infrastructure Data Catalog 可查看元数据和相应属性等技术资产所在的位置，并支持您维护映射到该技术元数据的业务词汇表。Oracle Cloud Infrastructure Data Catalog 还可以为 Oracle Autonomous AI Lakehouse Warehouse 提供元数据，以便于在数据仓库中创建外部表。

数据安全

数据安全对于充分探索和使用数据湖仓一体数据至关重要。利用具有深度防御和 RBAC 功能的零信任安全模型，并确保遵守最严格的法规，数据安全可提供预防性、检测性和纠正性安全控制，以确保防止数据泄露和泄露。

Oracle Data Safe 是一款全面集成的 Oracle Cloud 服务，专注于数据安全性。它提供一组完整的集成功能，可用于保护 Oracle Cloud 数据库中的敏感数据和受监管数据，例如 Oracle Autonomous AI Lakehouse 。功能包括安全评估、用户评估、数据发现、数据屏蔽和活动审核。

Oracle Cloud Infrastructure Audit 可查看与 Oracle Cloud Infrastructure (OCI) 资源和租户相关的活动。审计日志事件可用于安全审计，以跟踪 OCI 资源的使用情况和更改，并帮助确保符合标准和法规。

Oracle Cloud Infrastructure Logging 可为租户中的所有日志（包括审计日志）提供高度可扩展且完全托管的单一界面。使用 OCI Logging 访问所有 OCI 资源中的日志，以便您启用、管理和搜索日志。

Oracle Cloud Infrastructure Vault 是一项加密管理服务，用于存储和管理加密密钥和密钥，以安全地访问资源。支持将客户管理的密钥用于 Oracle Autonomous AI Lakehouse 和数据湖加密，以增强静态数据保护。它使机密能够安全地存储服务和用户凭据，以改善您的安全状况，并确保凭据不会受到损害和不当使用。

物理体系结构

此数据平台的物理体系结构支持以下各项：

Oracle Autonomous AI Lakehouse 使用 Oracle 托管的异构连接特性从联合数据源获取数据
Oracle Autonomous AI Lakehouse 使用可从公共互联网访问的目标数据库进行配置并允许传入 SSL/TLS 连接，从而确保 Oracle 托管的异构连接能够安全地连接和查询数据
Oracle Autonomous AI Lakehouse 使用数据共享从数据库读取数据
数据库数据共享可通过公共 Internet 访问，但使用 Databricks 提供的身份证明文件进行保护
来自 AWS S3、Azure Blob 和 Google Cloud Storage 的数据要么使用外部表进行联合读取，要么复制到 Oracle Autonomous AI Lakehouse 中，具体取决于使用场景和要求
使用来自非联合数据源的微批处理和来自非联合的关系和非关系数据源的文件，安全摄取非联合数据源中的数据
利用 Oracle Cloud Infrastructure Data Integration 和 Oracle Cloud Infrastructure Data Flow 的组合来处理数据
数据存储在 Oracle Autonomous AI Lakehouse 和 Oracle Cloud Infrastructure Object Storage 中，并根据质量和价值进行组织
Oracle Autonomous AI Lakehouse 可安全地为消费者提供仓库、数据湖和联合数据
Oracle Analytics Cloud 使用可视化向业务用户呈现数据
Oracle Analytics Cloud 通过使用 Oracle Cloud Infrastructure Load Balancer （由 Oracle Cloud Infrastructure Web Application Firewall (WAF) 保护）来公开，以便通过使用 Internet 提供访问
Oracle Cloud Infrastructure Data Science 用于构建、训练和部署机器学习 (ML) 模型
Oracle Cloud Infrastructure API Gateway 用于监管数据科学机器学习模型部署
Oracle Cloud Infrastructure Data Catalog 从 Oracle Autonomous AI Lakehouse 和对象存储中获取元数据
管理员使用 Oracle Cloud Infrastructure Bastion 管理私有云资源

下图说明了体系结构：

后面是 data-platform-federation-physical.png 的说明

插图 data-platform-federation-physical.png 的说明

data-platform-federation-physical-oracle-1.zip#GUID-3A90BC57-5F07-494F-B23D-7E50E7D1ED7A

物理体系结构的设计：

利用 2 个 VCN，一个用于中心，另一个用于工作负载本身
本地连接利用 Oracle Cloud Infrastructure FastConnect 和 Oracle Cloud Infrastructure Site-to-Site VPN 实现冗余
来自内部部署和互联网的所有传入流量首先路由到中心 VCN，然后路由到工作负载 VCN
所有数据在传输中和静态都是安全的
服务随专用端点一起部署，以提高安全状况
VCN 会隔离到多个专用子网中，以提高安全状况
数据湖数据在对象存储中隔离到多个存储桶中，并利用中介架构
通过连接到负载 VCN 的公共连接和 NAT 网关，可以访问联合数据源和云存储

为了简单起见，此部署中未描述的潜在设计改进包括：

利用客户管理的异构连接（使用 Oracle Database Gateway），使用专用连接连接到联合数据源
利用完全符合 CIS 的着陆区
利用网络防火墙来检查所有流量并实施策略，从而改善整体安全状况

注意事项

联合数据进行分析时，请考虑以下实施选项。

指导	推荐	其他选项	原理
Data Refinery	Oracle Cloud Infrastructure 数据集成	Oracle Data Integrator Oracle Autonomous Database 数据转型	Oracle Cloud Infrastructure Data Integration 提供了一个云原生、无服务器、完全托管的 ETL 平台，具有可扩展性和成本效益。
数据持久性	Oracle Autonomous AI Lakehouse Oracle Cloud Infrastructure Object Storage	Oracle Exadata Database Service	Oracle Autonomous AI Lakehouse 是一个易于使用的全自治数据库，可弹性扩展，提供快速的查询性能，无需数据库管理。它还提供了对来自外部或混合分区表的对象存储数据的直接访问。 Oracle Cloud Infrastructure Object Storage 以原始格式存储无限数据。
数据加工	Oracle Cloud Infrastructure 数据集成 Oracle Cloud Infrastructure 数据流	第三方工具	Oracle Cloud Infrastructure Data Integration 提供了一个云原生、无服务器、完全托管的 ETL 平台，具有可扩展性和成本效益。 Oracle Cloud Infrastructure Data Flow 提供了一个无服务器 Spark 环境，可通过按使用付费、高度弹性的模型大规模处理数据。
访问和解释	Oracle Analytics Cloud Oracle Cloud Infrastructure Data Science Oracle Machine Learning Oracle Cloud Infrastructure AI 服务	第三方工具	Oracle Analytics Cloud 完全托管并与 Oracle Autonomous AI Lakehouse 中的整理数据紧密集成。 Data Science 是一个完全托管的自助平台，可帮助数据科学团队在 Oracle Cloud Infrastructure 中构建、训练和管理机器学习 (ML) 模型。数据科学服务提供基础设施和数据科学工具，例如 AutoML 和模型部署功能。 Oracle Machine Learning 是一个全托管式自助数据科学平台，可与 Oracle Autonomous AI Lakehouse 一起使用，利用仓库的处理能力大规模构建、训练、测试和部署机器学习模型，而无需将数据移出仓库。 Oracle Cloud Infrastructure AI 服务是一组服务，可提供专门构建和训练的预构建模型，以执行推断潜在异常或检测情绪等任务。

了解更多

详细了解此体系结构的功能以及相关体系结构。

确认

Author: José Cruz

Contributors: Robert Lies