数据平台—数据湖仓

功能架构

您可以结合数据湖和数据仓库的功能，提供现代数据湖仓一体平台来处理来自各种企业数据资源的流处理和其他类型的数据，以便您可以利用这些数据进行业务分析、机器学习、数据服务和数据产品。

数据湖仓一体架构结合了数据湖和数据仓库的功能，以提高运营效率并提供增强的功能，从而实现：

无缝使用数据和信息，无需在数据湖和数据仓库中复制数据
在增强的多模型和多语言架构中支持多种数据类型
使用实时、流处理、批处理、应用编程接口 (API) 和批量摄取机制从任何消费者无缝摄取数据
使用人工智能 (Artificial Intelligence，AI)、生成式 AI 和机器学习 (Machine Learning，ML) 服务持续从数据中提取智能
通过使用 API、用户界面、流处理和集成机制，向任何数据使用者注入和提供智能
利用零信任安全模型的监管和细粒度数据安全性
能够完全分离存储和计算资源，并且只使用在任何时间点所需的资源
能够利用多个计算引擎（包括开源引擎）为不同的用例处理相同的数据，从而尽可能提高数据重用、流动性和使用率
支持使用不同的打开文件和表格式将数据存储在数据湖中
利用 Oracle 管理的 Oracle Cloud Infrastructure (OCI) 原生服务，降低运营开销
通过自动扩展来调整云资源基础设施以满足实际需求，从而提高云经济性
模块化，服务使用由用例驱动
与符合开放标准的任何系统或云的互操作性
支持各种用例，包括流处理、分析、数据科学和机器学习
支持不同的架构方法，从集中式数据湖仓一体到分散式数据网格

下图说明了功能体系结构。

插图 lakehouse-functional.png 的说明

lakehouse-functional-oracle-1.zip#GUID-43E61AD0-9E20-4DC0-BFB2-EFF8365A6694

该体系结构侧重于以下逻辑划分：

连接、摄取、转换
连接到数据源、摄取和细化数据，以供架构中的每个数据层使用。
持久、整理、创建
便于访问和导航数据以显示当前业务视图。对于关系技术，数据可以以简单的关系、纵向、维或 OLAP 形式进行逻辑或物理结构化。对于非关系数据，此层包含一个或多个数据池，这些数据池来自分析流程的输出或针对特定分析任务优化的数据。
分析、学习、预测
抽象用户的数据的逻辑业务视图。此抽象简化了开发、迁移到目标架构以及从多个联合源提供单个报告层的敏捷方法。

该体系结构具有以下功能组件：

批量摄取
批量摄取对于无法实时摄取或成本过高且无法适应实时摄取的数据非常有用。将数据转换为可靠且值得信赖的信息也很重要，这些信息可以被整理并保存以供定期使用。您可以同时使用或独立使用以下服务，以实现高度灵活且高效的数据集成和转换工作流。
- Oracle Cloud Infrastructure Data Integration 是一个用于设计和执行数据管道的全托管式无服务器服务。它支持将数据无缝提取、转换和加载到 OCI 目标中，例如 Autonomous AI Lakehouse 和 OCI Object Storage 。用户可以通过直观、无代码的界面构建集成流，从而自动扩展执行环境。它支持基于 Spark 的 ETL 处理，以及使用 SQL 下推来提高性能和效率的 ELT。该服务还提供用于数据准备的工具，并通过基于规则的处理来防止模式偏差。
- Oracle Data Integrator 提供全面的数据集成，包括从大容量和高性能批量加载到事件驱动的涓滴集成流程，再到支持 SOA 的数据服务。声明式设计方法可确保更快、更简单的开发和维护，并提供一种独特的方法来提取负载转换 (ELT)，有助于确保数据转换和验证流程具有尽可能高的性能。Oracle 数据转换使用 Web 界面简化 ELT 的配置和执行，并帮助用户使用声明式设计方法构建和调度数据和工作流。
- Oracle Data Transforms 可为选定的受支持技术启用 ELT，使用 Web 用户界面以声明方式构建和调度数据流和工作流，从而简化数据管道的配置和执行。Oracle Data Transforms 作为 Oracle Autonomous AI Lakehouse 中的全托管环境提供，可将数据从多个数据源加载和转换成 Oracle Autonomous AI Lakehouse 实例。
根据具体使用情况，这些组件可以单独使用或一起使用，以实现高度灵活和高性能的数据集成和转换。
基于 API 的摄取
基于 API 的摄取允许应用和系统使用 API 或 Webhook 推送事件数据。
- Oracle Integration 是一个完全托管的预配置环境，允许您集成云和内部部署应用、自动执行业务流程以及开发可视化应用。它使用符合 SFTP 的文件服务器来存储和检索文件，并允许您使用数百个适配器和配方组合与 Oracle 和第三方应用程序连接，以与企业对企业贸易合作伙伴交换文档。
- 借助 Oracle Cloud Infrastructure API Gateway ，您可以发布具有专用端点的 API，这些端点可从您的网络访问，并且您可以根据需要向公共互联网公开。这些端点支持 API 验证、请求和响应转换、CORS、验证和授权以及请求限制。
  
  OCI API Gateway 支持通过 API 观测来监视使用情况并保证 SLA。使用量计划还可以用于监视和管理 API 使用者和客户端，以及为不同的客户设置不同的 API 访问层。使用量计划是支持数据货币化的关键功能。
  
  使用量计划通过创建分层使用计划来管理 API 使用者和客户端并跟踪其数据使用情况，从而支持数据货币化。
- Oracle Cloud Infrastructure Functions 是一个完全托管、多租户、高度可扩展、按需提供的函数即服务 (FaaS) 平台。它由 Fn Project 开源引擎提供支持。使用 OCI Functions ，您可以部署代码，直接调用代码或触发代码以响应事件。OCI Functions 使用 Oracle Cloud Infrastructure Registry 中托管的 Docker 容器。
- Oracle REST Data Services (ORDS) 是一个 Java 应用程序，支持任何具备 SQL 和数据库技能的开发人员为 Oracle Database 开发 REST API。任何应用程序开发人员都可以从任何语言环境使用这些 API，而无需安装和维护客户端驱动程序，就像他们使用 REST（最广泛使用的 API 技术）访问其他外部服务一样。
  
  ORDS 作为完全托管的功能部署在 Oracle Autonomous AI Lakehouse 中，可用于通过使用 API 向数据使用者公开数据湖仓信息。
实时摄取

Oracle Cloud Infrastructure GoldenGate 是一项完全托管的服务，支持从本地或任何云端的源摄取数据。它利用 GoldenGate CDC 技术实时、大规模地向 Oracle Autonomous AI Lakehouse 、Oracle Cloud Infrastructure Object Storage 或 Oracle Cloud Infrastructure Streaming 提供非侵入式、高效的数据捕获和交付，从而尽可能快速地向消费者提供相关信息。
批量转移
通过批量传输，您可以使用不同的方法移动大量的数据。对于大规模数据湖仓一体，我们建议使用 Oracle Cloud Infrastructure FastConnect 和数据传输服务。
- Oracle Cloud Infrastructure FastConnect 可在您的数据中心与 OCI 之间创建专用连接。与基于互联网的连接相比，FastConnect 提供了更高的带宽选项和更可靠、更稳定的网络体验。
- 借助 Oracle Cloud Infrastructure (OCI) 命令行界面 (CLI)，您可以利用 Oracle Cloud Infrastructure FastConnect 专用线路，执行数据从内部部署传输到 OCI 的操作并实现自动化。通过 OCI SDK，您可以编写代码，以利用各种编程语言（例如 Python、Java 或 Go 等）将本地或其他云端的数据和文件复制或同步到 Oracle Cloud Infrastructure Object Storage 。借助 REST API，您可以与 OCI 服务进行接口和控制，例如使用对象存储服务 API 将数据移动到对象存储。
- Oracle Cloud Infrastructure 数据传输是一项离线数据迁移服务，可帮助您安全地将 PB 级数据集从数据中心迁移到 Oracle Cloud Infrastructure Object Storage 或 Archive Storage。由于公共互联网成本高、网络连接不可靠、传输时间长以及安全问题，使用公共互联网将数据迁移到云并非始终可行。数据传输服务克服了这些难题，并且能够显著缩短将数据迁移到云所花费的时间。可通过磁盘或设备进行数据传输。选择一个主要取决于数据量，而 Data Transfer Appliance 支持每台设备更大的数据集。
流摄取
OCI 原生服务支持流摄取，支持从广泛的数据生成器实时摄取大型数据集。流摄取会保留并同步对象存储中的数据，对象存储是数据湖仓一体的核心。通过将数据同步到对象存储，您可以保存可整理和进一步转换的历史数据，从而提取有价值的洞察。
- Oracle Cloud Infrastructure Streaming 提供了一个完全托管、可扩展且持久性的存储解决方案，可以摄取连续的大量数据流以供您实时消费和处理。流式处理可以用于消息传递、海量应用日志、运营遥测、Web 点击流数据或其他发布 - 订阅消息传递模型用例，在这些用例中，数据是连续生成和处理的。数据同步至 Oracle Cloud Infrastructure Object Storage ，可进行整理和进一步转换，以提取有价值的洞察。
- Oracle Cloud Infrastructure Queue 是一项全托管式无服务器服务，可帮助分离系统并启用异步操作。队列可处理需要独立处理消息的大量事务数据，而不会丢失或重复。
- Oracle Cloud Infrastructure Service Connector Hub 是一个云消息总线平台，提供单一平台来描述、执行和监视 Oracle Cloud Infrastructure 中服务之间的数据移动。对于此特定参考架构，它将用于将数据从 Oracle Cloud Infrastructure Streaming 或 OCI Queue 移动到 Oracle Cloud Infrastructure Object Storage 中，以将原始数据和准备好的数据持久保存到数据湖仓一体持久性层中。
流处理

流处理会扩充流数据，检测事件模式，并创建一组持久保存在数据湖仓一体中的不同流。
- Oracle Cloud Infrastructure GoldenGate Stream Analytics 是一项完全托管、可扩展的服务，它使用复杂的关联模式、数据扩充和机器学习来处理和分析大规模的实时信息。用户可以使用实时图表、地图和可视化来浏览实时数据。用户可以使用图形工具构建流处理管道而无需手动编码。
- Oracle Cloud Infrastructure Data Flow 是一个完全托管的大数据服务，支持您运行 Apache Spark 和 Spark Streaming 应用，而无需部署或管理基础设施。它可以帮助您更快地交付大数据和 AI 应用，因为您可以专注于应用，而无需管理运营。数据流应用程序是可重用的模板，由 Spark 应用程序及其依赖项、默认参数和默认运行时资源规范组成。
开源生态系统
您可以使用开源生态系统：
- 利用 Hadoop、Spark、Flink 或 Trino 等几个常用的开源引擎进行批处理和流处理
- 作为生产商和消费者使用 Oracle Cloud Infrastructure Streaming
- 借助 Oracle Cloud Infrastructure Object Storage ，您可以持久保存数据并使用数据
您可以将 Oracle Cloud Infrastructure Object Storage 用作数据湖，以持久保存要在不同时间在不同 Oracle Cloud Infrastructure 服务之间共享的数据集。
大数据服务可按需预配完全配置、安全、高可用性和专用性的 Hadoop、Spark 或 Flink 集群等技术。使用一系列 Oracle Cloud Infrastructure 计算配置来扩展集群，以适应大数据和分析工作负载。这些配置支持从小型测试和开发集群到大型生产集群的所有功能。无论是基于指标还是按计划，都可以利用自动缩放配置来快速适应业务需求并优化成本。利用集群概要信息为特定工作负载或技术创建最佳集群。
批处理
批处理转换存储在数据湖仓一体中的大型数据集。批处理利用与 Oracle Cloud Infrastructure Object Storage 无缝集成的 Oracle Cloud Infrastructure 原生服务，支持您为数据聚合和扩充、数据仓库摄取以及大规模机器学习和 AI 数据使用等用例创建精选数据。
- Oracle Cloud Infrastructure Data Integration 是一个完全托管的无服务器云原生服务，可提取、加载、转换、清理和重塑各种数据源的数据，并将其重塑为目标 Oracle Cloud Infrastructure 服务，例如 Autonomous AI Lakehouse 和 Oracle Cloud Infrastructure Object Storage 。
- Oracle Cloud Infrastructure Data Flow 是一个完全托管的大数据服务，支持您运行 Apache Spark 和 Spark Streaming 应用，而无需部署或管理基础设施。它可以帮助您更快地交付大数据和 AI 应用，因为您可以专注于应用，而无需管理运营。数据流应用程序是可重用的模板，由 Spark 应用程序及其依赖项、默认参数和默认运行时资源规范组成。
- Oracle Data Transforms 可为选定的受支持技术启用提取 - 加载转换 (Extract-load-Transform，ELT)，使用 Web 用户界面以声明方式构建和调度数据流和工作流，从而简化数据管道的配置和执行。Oracle Data Transforms 作为 Oracle Autonomous AI Lakehouse 中的全托管式环境提供，可将数据从多个数据源加载和转换成 Oracle Autonomous AI Lakehouse 实例。
  
  根据具体使用情况，这些组件可以单独使用或一起使用，以实现高度灵活和高性能的数据处理。
份量
Oracle Autonomous AI Lakehouse 是一个自治驱动、自我保护和自我修复的数据库服务，针对数据仓库工作负载进行了优化。您不需要配置或管理任何硬件，也不需安装任何软件。OCI 可处理数据库创建、备份、打补丁、升级和调优。

预配后，您可以随时扩展 CPU 核心数或数据库存储容量，而不会影响可用性或性能。

Oracle Autonomous AI Lakehouse 还可以将驻留在对象存储中的数据虚拟化为外部和混合分区表，以便您可以将来自其他来源的数据与仓库数据联接并使用。您还可以将历史数据从仓库移动到对象存储，然后使用混合分区表无缝地使用这些数据。

Oracle Autonomous AI Lakehouse 可以使用之前收集的存储在数据目录中的元数据来创建外部表，还可以自动将数据目录中的元数据更新与外部表定义同步，以保持一致性、简化管理和减少工作量。

Autonomous Database 支持向量，因为它是支持多种数据类型的多模型数据库，即关系型、JSON、空间型和图形型。Vectors 数据类型允许加载和存储向量嵌入，以及创建向量索引，然后将其用于检索增强生成 (RAG) 应用，所有这些都在一个云自治 AI Lakehouse 实例中。这种多模型功能支持使用可在单个查询中联接的所有数据类型的分析，从而降低每种数据类型的专用孤立数据库的复杂性和风险，同时确保提高安全性、可靠性、可扩展性和分析所有数据的易用性。

选择 Autonomous AI Database 功能 AI，即可使用自然语言查询数据，并使用 LLM 将用户的输入文本转换为 Oracle SQL。选择 AI 将处理自然语言提示，使用元数据补充提示，然后生成并运行 SQL 查询。

Data Sharing 是 Autonomous AI Database 的一项功能，能够安全地提供和使用来自使用 Autonomous AI Database 或符合 Delta 共享技术的其他方的数据和元数据。通过数据共享，可以轻松地无缝地使用来自共享提供方的数据，就像抽象底层共享表的视图一样。此外，当提供商和收件人都使用 Autonomous AI Database 时，可以使用实时共享资源（允许收件人使用实时数据和全新数据）。

分析视图是 Autonomous AI Database 的一项功能，它提供了一种快速高效的方式来创建现有数据库表和视图中存储的数据的分析查询。分析视图使用维模型组织数据。使用这些分析视图，可以轻松地将聚合和计算添加到数据集，并在视图中呈现数据，而这些信息可以使用相对简单的 SQL 进行查询。通过此功能，您可以使用内部和外部存储的数据，直接在 Oracle Autonomous AI Lakehouse 中对星型或雪花模式进行语义建模，并允许使用 SQL 和任何符合 SQL 的数据使用者来使用模型。

此外，自治数据湖加速器是 Autonomous AI Database 的一个组件，它能够无缝使用对象存储数据，通过扩展处理来提供快速查询，在需要时自动缩放数据库计算实例，并通过将对象存储查询与数据库计算实例隔离来减少对数据库工作负载的影响。
云存储
Oracle Cloud Infrastructure Object Storage 是一个互联网级高性能存储平台，可提供可靠且经济高效的数据持久性。Oracle Cloud Infrastructure Object Storage 可存储任意内容类型的无限量非结构化数据，包括分析数据。您可以安全地使用基于互联网或云平台直接存储或检索数据。通过多个管理接口，您可以轻松从小规模开始，无缝扩展，而不会在性能或服务可靠性方面出现任何降级。

Oracle Cloud Infrastructure Object Storage 还可以用作数据仓库的冷存储层，方法是存储不经常使用的数据，然后使用 Oracle Autonomous AI Lakehouse 中的混合表将其与最新数据无缝联接。

可以使用 IAM 策略对对象实施对象级别细粒度访问控制，从而提高数据湖直接访问的数据安全性。
可视化和学习
Oracle Analytics Cloud 是一种安全的可扩展公共云服务，可为您、您的工作组和您的企业提供浏览和执行协作分析的完整功能。它支持公民数据科学家、高级业务分析师培训和执行机器学习 (ML) 模型。机器学习模型可以在分析服务上执行，也可以直接在 Oracle Autonomous AI Lakehouse 上作为 OML 嵌入式模型执行，以进行大规模批量预测，充分利用仓库和 OCI AI 服务（例如 Oracle Cloud Infrastructure Vision）的处理能力、可扩展性和弹性。

借助 Oracle Analytics Cloud ，您还可以获得灵活的服务管理功能，包括快速设置、轻松扩展和打补丁以及自动化生命周期管理。
学习和预测
- Data Science 为数据科学团队提供基础设施、开源技术、库、程序包和数据科学工具，帮助他们在 Oracle Cloud Infrastructure 中构建、训练和管理机器学习 (ML) 模型。协作式和项目驱动的工作区提供端到端的统一用户体验，并支持预测模型的生命周期。
  
  借助数据科学作业功能，数据科学家可以在完全托管的基础设施上定义和运行可重复的机器学习任务。
  
  借助数据科学模型部署功能，数据科学家可以将训练的模型部署为完全托管的 HTTP 端点，从而实时提供预测，将智能注入到流程和应用中，并允许企业在发生相关事件时对事件做出响应。
- Oracle Machine Learning 提供与 Autonomous AI Database 紧密集成的强大机器学习功能，并支持 Python 和 AutoML。它支持使用开源和可扩展的数据库内算法的模型，从而减少数据准备和移动。AutoML 通过使用自动算法选择、自适应数据采样、自动功能选择和自动模型优化，帮助数据科学家加快实现机器学习计划价值的时间。借助 Oracle Autonomous AI Lakehouse 中的 Oracle Machine Learning 服务，您不仅可以管理模型，还可以将这些模型部署为 REST 端点，以实现公司内部的实时预测民主化，从而让企业能够在发生相关事件时（而不是事后）对相关事件做出反应。
AI 和生成式 AI 服务
Oracle Cloud Infrastructure AI 服务提供了一组即用型 AI 服务，可用于支持从文本分析到预测性维护的一系列用例。这些服务具有预构建的微调模型，您可以使用 API 集成到数据管道、分析和应用中。
- Oracle Cloud Infrastructure Language 可大规模执行复杂的文本分析和翻译。借助预训练和定制模型，开发人员无需具备数据科学专业知识即可处理非结构化文本并提取洞察。执行情感分析、关键短语提取、文本分类、命名实体识别和检测文本中的 PII 数据。针对域特定的任务量身定制模型，并轻松跨各种语言翻译文本。Oracle Cloud Infrastructure Language 还支持文档翻译和异步作业，可高效处理大容量工作负载。
- Oracle Cloud Infrastructure Speech 可帮助您轻松将包含人工语音的媒体文件转换为高度准确的文本转录，从而发挥口语的强大功能。OCI Speech 可用于转录客户服务电话、自动加字幕以及为媒体资产生成的元数据，以创建完全可搜索的归档。OCI Speech 支持批处理和实时转录作业。
- Oracle Cloud Infrastructure Vision 是一项基于深度学习的大规模图像分析 AI 服务。OCI Vision 可执行图像识别和视频分析任务，例如对图像进行分类、检测对象和人脸以及提取文本。您可以利用预先训练的模型，也可以轻松为行业特定的场景和客户特定的场景创建定制视觉模型。OCI Vision 是一项完全托管的多租户原生云服务，可帮助完成所有常见的计算机视觉任务。借助现成的预构建模型，开发人员无需具备机器学习 (ML) 专业知识即可轻松将图像识别和文本识别构建到应用中。
- Oracle Cloud Infrastructure Document Understanding 可执行文档分类和文档分析任务，例如提取文本、键值和表。OCI Document Understanding 是一个完全托管的多租户原生云服务，可帮助处理所有常见的文档分析任务。
- Oracle Cloud Infrastructure Generative AI 是一个完全托管的服务，提供一系列先进、可定制的大语言模型 (LLM)，涵盖了广泛的用例，包括聊天、文本生成、汇总和创建文本嵌入。使用操场来试用现成可用的预训练模型，或者根据您自己的数据在专用 AI 集群上创建和托管您自己的微调定制模型。
数据扩充
数据扩充可以改善用于训练机器学习模型的数据，从而实现更好、更准确的预测结果。
Oracle Cloud Infrastructure Data Labeling 支持您创建和浏览数据集、查看数据记录（文本或图像）以及应用标签来构建 AI/ML 模型。该服务还提供交互式用户界面，旨在帮助标记过程。在为记录设置标签后，数据集可以导出为行分隔的 JSON，以用于 AI/ML 模型开发。
搜索
搜索功能可以作为补充功能，向需要预先编制索引并因此具有低延迟的操作分析数据的最终用户公开数据。
Oracle Cloud Infrastructure Search with OpenSearch 是一个分布式、全托管、免维护的全文搜索引擎。借助 OpenSearch，您可以快速存储、搜索和分析大量数据，并缩短响应时间。该服务支持开源 OpenSearch API 和 OpenSearch 仪表盘数据可视化。
流处理分析
流分析提供仪表盘，通过数据湖仓一体中存储的精选数据和主数据，对情境化的流数据进行实时分析，以检测感兴趣的模式，然后将其应用于用户、应用和事物。

Oracle Cloud Infrastructure GoldenGate Stream Analytics 利用复杂的关联模式、数据扩充和机器学习来处理和分析大规模的实时信息。用户可以通过实时图表、地图、可视化来探索实时数据，无需手动编码即可以图形方式构建流式管道。这些管道在完全托管且可扩展的服务中执行，以解决现代企业的关键实时用例。
反向 ETL/回写
反向 ETL（有时称为回写）可将数据激活到操作系统和设备中，从而将来自数据的智能直接注入到用于支持业务流程的应用程序和设备中。

数据使用多种机制提供给消费者，即使用流和队列来支持大量消费者同时提取接近实时且与数据分离的信息。流分析系统，通过使用预构建适配器或通过无服务器函数调用几乎任何应用程序或设备端点来使用应用程序或数据集成来推送数据，以提高弹性和可扩展性。
- Oracle Cloud Infrastructure 流处理服务提供完全托管、可扩展且持久性的存储解决方案，可以摄取连续的大量数据流以供您实时消费和处理。流式处理可以用于消息传递、海量应用日志、运营遥测、Web 点击流数据或其他发布 - 订阅消息传递模型用例，在这些用例中，数据是连续生成和处理的。
- Oracle Cloud Infrastructure Queue 是一个全托管式无服务器服务，可帮助企业分离系统并实现异步操作。队列可处理需要独立处理消息的大量事务数据，而不会丢失或重复。
- Oracle Integration 是一个完全托管的预配置环境，支持集成云和内部部署应用、自动化业务流程、开发可视化应用、使用符合 SFTP 标准的文件服务器存储和检索文件，以及使用数百个适配器和配方组合与 Oracle 应用和第三方应用交换业务文档与 B2B 贸易合作伙伴。
- Oracle Data Transforms 可为选定的受支持技术启用 ELT，使用 Web 用户界面以声明方式构建和调度数据流和工作流，从而简化数据管道的配置和执行。Oracle Data Transforms 作为 Oracle Autonomous AI Lakehouse 中的全托管环境提供，可将数据从多个数据源加载和转换成 Oracle Autonomous AI Lakehouse 实例。
- Oracle Cloud Infrastructure Functions 是一个全托管、多租户、高度可扩展的按需函数即服务平台。它基于企业级 Oracle Cloud Infrastructure 构建，由 Fn Project 开源引擎提供支持。
API
通过 API 层，您可以将来自数据科学和 Oracle Machine Learning 的智能注入到应用、业务流程和事物中，从而影响和改进其运营和功能。通过 API 层，可以安全地使用部署到 Oracle Machine Learning REST 端点的数据科学模型，并可以监管系统以确保运行时环境的可用性。您还可以根据需要利用函数来执行其他逻辑。
- 借助 Oracle Cloud Infrastructure API Gateway，您可以发布具有专用端点（可从网络中访问）的 API，并且如果希望它们接受互联网流量，可以使用公共 IP 地址公开这些 API。这些端点支持 API 验证、请求和响应转换、CORS、验证和授权以及请求限制。它允许 API 观测来监视使用情况并保证 SLA。使用量计划还可用于监视和管理访问 API 的 API 使用者和 API 客户端，以及为不同客户设置不同的访问层，以跟踪使用 API 使用的数据使用情况。使用量计划是支持数据货币化的关键功能。
- Oracle Cloud Infrastructure Functions 是一个全托管、多租户、高度可扩展的按需函数即服务平台。它基于企业级 Oracle Cloud Infrastructure 构建，由 Fn Project 开源引擎提供支持。
- Oracle REST Data Services (ORDS) 是一个 Java 应用，它支持具备 SQL 和数据库技能的开发人员为 Oracle Database 开发 REST API。任何应用开发人员都可以从任何语言环境使用这些 API，而无需安装和维护客户端驱动程序，就像他们使用最广泛使用的 API 技术 REST 访问其他外部服务一样。ORDS 作为完全托管的功能部署在 Oracle Autonomous AI Lakehouse 中，可用于通过使用 API 向数据使用者公开数据湖仓信息。
数据治理
Oracle Cloud Infrastructure Data Catalog 可查看元数据和相应属性等技术资产所在的位置，并支持您维护映射到该技术元数据的业务词汇表。数据目录还可以向 Oracle Autonomous AI Lakehouse 提供元数据，以便于在数据仓库中创建外部表。
数据安全

数据安全对于充分探索和使用数据湖仓一体数据至关重要。利用具有深度防御和 RBAC 功能的零信任安全模型，并确保遵守最严格的法规，数据安全可提供预防性、检测性和纠正性安全控制，以确保防止数据泄露和泄露。
- Oracle Data Safe 是一款全面集成的 Oracle Cloud 服务，专注于数据安全性。它提供一组完整的集成功能，可用于保护 Oracle Cloud 数据库中的敏感数据和受监管数据，例如 Oracle Autonomous AI Lakehouse 。功能包括安全评估、用户评估、数据发现、数据屏蔽和活动审核。
- Oracle Cloud Infrastructure Audit 可查看与 Oracle Cloud Infrastructure (OCI) 资源和租户相关的活动。审计日志事件可用于安全审计，以跟踪 OCI 资源的使用情况和更改，并帮助确保符合标准和法规。
- Oracle Cloud Infrastructure Logging 可为租户中的所有日志（包括审计日志）提供高度可扩展且完全托管的单一界面。使用 OCI Logging 访问所有 OCI 资源中的日志，以便您启用、管理和搜索日志。
- Oracle Cloud Infrastructure Vault 是一项加密管理服务，用于存储和管理加密密钥和密钥，以安全地访问资源。支持将客户管理的密钥用于 Oracle Autonomous AI Lakehouse 和数据湖加密，以增强静态数据保护。使机密能够安全地存储服务和用户凭证，以改善您的安全状况，并确保凭证不会受到损坏和不当使用。

物理体系结构

此数据湖仓的物理体系结构支持以下各项：

使用微批处理、流处理、API 以及来自关系和非关系数据源的文件，安全摄取数据
利用 Oracle Cloud Infrastructure Data Integration 和 Oracle Cloud Infrastructure Data Flow 的组合来处理数据
数据存储在 Oracle Autonomous AI Lakehouse 和 Oracle Cloud Infrastructure Object Storage 中，并根据质量和价值进行组织
Oracle Autonomous AI Lakehouse 可安全地为消费者提供仓库和数据湖数据服务
Oracle Analytics Cloud 使用可视化向业务用户呈现数据
Oracle Analytics Cloud 通过使用 Oracle Cloud Infrastructure Load Balancer 公开，该 Oracle Cloud Infrastructure Web Application Firewall (WAF) 可通过互联网提供访问
Oracle Cloud Infrastructure Data Science 用于构建、训练和部署机器学习 (ML) 模型
Oracle Cloud Infrastructure API Gateway 用于监管数据科学机器学习模型部署
Oracle Cloud Infrastructure Data Catalog 从 Oracle Autonomous AI Lakehouse 和对象存储中获取元数据
Oracle Data Safe 评估数据风险、实施和监视安全控制、评估用户安全性、监视用户活动以及满足数据安全合规性要求
管理员使用 Oracle Cloud Infrastructure Bastion 管理私有云资源

下图说明了此参考体系结构。

插图 lakehouse-architecture.png 的说明

湖仓一体架构 -oracle-1.zip#GUID-EE46F831-C10F-432F-A664-D78609670EB6

物理体系结构的设计：

利用 2 个 VCN，一个用于中心，另一个用于工作负载本身
本地连接利用 Oracle Cloud Infrastructure FastConnect 和站点到站点 VPN 实现冗余
来自内部部署和互联网的所有传入流量首先路由到中心 VCN，然后路由到工作负载 VCN
所有数据在传输中和静态都是安全的
服务随专用端点一起部署，以提高安全状况
VCN 会隔离到多个专用子网中，以提高安全状况
数据湖数据通过 Medallion 架构隔离到对象存储中的多个存储桶中

出于简单考虑，此部署中未描述的潜在设计改进包括：

利用完全符合 CIS 的着陆区
利用网络防火墙来检查所有流量并实施策略，从而改善整体安全状况

注意事项

在收集、处理和整理用于分析和机器学习的应用数据时，请考虑以下实施选项。

指导	推荐	其他选项	原理
Data Refinery	Oracle Cloud Infrastructure 数据集成 Oracle Cloud Infrastructure GoldenGate	Oracle Data Integrator Oracle Autonomous Database 数据转型	Oracle Cloud Infrastructure Data Integration 提供了一个云原生、无服务器、完全托管的 ETL 平台，具有可扩展性和成本效益。 Oracle Cloud Infrastructure GoldenGate 提供了一个云原生、无服务器、完全托管、非侵入式数据复制平台，可伸缩、经济高效，并可在混合环境中部署。
数据持久性	Oracle Autonomous AI Lakehouse Oracle Cloud Infrastructure Object Storage	Oracle Exadata Database Service	Oracle Autonomous AI Lakehouse 是一个易于使用的全自治数据库，可弹性扩展，提供快速的查询性能，无需数据库管理。它还提供了对来自外部或混合分区表的对象存储数据的直接访问。 Oracle Cloud Infrastructure Object Storage 以原始格式存储无限数据。
数据加工	Oracle Cloud Infrastructure 数据集成 Oracle Cloud Infrastructure 数据流 Oracle Cloud Infrastructure 大数据服务	第三方工具	Oracle Cloud Infrastructure Data Integration 提供了一个云原生、无服务器、完全托管的 ETL 平台，具有可扩展性和成本效益。 Oracle Cloud Infrastructure Data Flow 提供了一个无服务器 Spark 环境，可通过按使用付费、高度弹性的模型大规模处理数据。 Oracle Cloud Infrastructure 大数据服务提供企业级 Hadoop 即服务，提供端到端的安全性、高性能以及易管理和可升级性。
访问和解释	Oracle Analytics Cloud Oracle Cloud Infrastructure Data Science Oracle Machine Learning Oracle Cloud Infrastructure AI 服务	第三方工具	Oracle Analytics Cloud 完全托管并与 Oracle Autonomous AI Lakehouse 中的整理数据紧密集成。 Oracle Cloud Infrastructure Data Science 是一个完全托管的自助平台，可帮助数据科学团队在 Oracle Cloud Infrastructure 中构建、训练和管理机器学习 (ML) 模型。数据科学提供基础设施和数据科学工具，例如 AutoML 和模型部署功能。 Oracle Machine Learning 是一个全托管式自助数据科学平台，可与 Oracle Autonomous AI Lakehouse 一起使用，利用仓库的处理能力大规模构建、训练、测试和部署机器学习模型，而无需将数据移出仓库。 Oracle Cloud Infrastructure AI 服务是一组服务，可提供专门构建和训练的预构建模型，以执行推断潜在异常或检测情绪等任务。

部署

GitHub 中提供了此参考架构的 Terraform 代码。只需单击一下即可将代码提取到 Oracle Cloud Infrastructure Resource Manager 中，然后创建堆栈并进行部署。或者，您也可以使用 Terraform CLI 将代码从 GitHub 下载到计算机、定制代码并部署体系结构。

使用 Oracle Cloud Infrastructure Resource Manager 部署：
1. Click
  如果您尚未登录，请输入租户和用户身份证明。
2. 复核并接受条款和条件。
3. 选择要在其中部署堆栈的区域。
4. 按照屏幕上的提示和说明创建堆栈。
5. 创建堆栈后，单击 Terraform 操作，然后选择计划。
6. 等待作业完成，然后复查计划。
  要进行任何更改，请返回到“堆栈详细信息”页，单击编辑堆栈，然后进行所需的更改。然后，再次运行计划操作。
7. 如果不需要进一步更改，请返回到“堆栈详细信息”页，单击 Terraform 操作，然后选择应用。
使用 Terraform CLI 部署：
1. 转至 GitHub 。
2. 将系统信息库克隆或下载到本地计算机。
3. 按照 README 文档中的说明进行操作。

了解更多

详细了解此体系结构的功能以及相关体系结构。

确认

Author: José Cruz

Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies

更改日志

此日志列出了重大更改：

2024 年 10 月 28 日

该架构的功能范围进行了更新，包括扩展的产品和功能产品，包括以下内容：
- 添加了数据共享作为数据源和数据使用者。
- 添加了基于 API 的摄取。
- 添加了 AI（语言、语音、视觉、文档理解）和生成式 AI 服务的扩展产品。
- 添加了反向 ETL/回写功能，可直接向应用程序和设备提供数据派生的智能。
对《建议和注意事项》各节作了相应的更新。
在整个文本中进行了许多与产品相关的更新。

2023 年 6 月 21 日

添加了使用 Oracle Cloud Infrastructure Resource Manager 部署体系结构的说明。
更新了 GitHub 链接。
更新了体系结构图。