数据平台—数据湖仓

您可以有效地收集和分析来自物联网 (IoT) 和社交媒体来源的事件数据和流数据,但如何将其与广泛的企业数据资源相关联,以利用您的投资并获得您想要的洞察?

利用结合了数据湖和数据仓库功能的云数据湖仓一体来处理广泛的企业和流数据,以进行业务分析和机器学习。

该参考架构将技术解决方案定位在整体业务环境中,战略意图推动可衡量的战略成果的产生。这些结果产生新的战略意图,有效地提供持续的数据驱动的业务改进。



通过数据湖,企业可以在经济高效的弹性环境中存储所有数据,同时提供必要的处理、持久性和分析服务来发现新的业务洞察。数据湖存储并整理结构化和非结构化数据,并提供组织来自多个来源的大量高度多样化数据的方法。

使用数据仓库,您可以在将数据提交到仓库之前执行数据转换和清理。借助数据湖,您可以快速摄取数据,并在人们访问数据时即时进行准备。数据湖支持运营报告和业务监视,需要立即访问数据和灵活分析,以了解业务中正在发生的情况。

功能架构

您可以结合数据湖和数据仓库的功能,提供现代数据湖仓一体平台来处理来自各种企业数据资源的流处理和其他类型的数据,以便您可以利用这些数据进行业务分析、机器学习、数据服务和数据产品。

数据湖仓一体架构结合了数据湖和数据仓库的功能,以提高运营效率并提供增强的功能,从而实现:

  • 无缝使用数据和信息,无需在数据湖和数据仓库中复制数据
  • 在增强的多模型和多语言架构中支持多种数据类型
  • 使用实时、流处理、批处理、应用编程接口 (API) 和批量摄取机制从任何消费者无缝摄取数据
  • 使用人工智能 (Artificial Intelligence,AI)、生成式 AI 和机器学习 (Machine Learning,ML) 服务持续从数据中提取智能
  • 通过使用 API、用户界面、流处理和集成机制,向任何数据使用者注入和提供智能
  • 利用零信任安全模型的监管和细粒度数据安全性
  • 能够完全分离存储和计算资源,并且只使用在任何时间点所需的资源
  • 能够利用多个计算引擎(包括开源引擎)为不同的用例处理相同的数据,从而尽可能提高数据重用、流动性和使用率
  • 支持使用不同的打开文件和表格式将数据存储在数据湖中
  • 利用 Oracle 管理的 Oracle Cloud Infrastructure (OCI) 原生服务,降低运营开销
  • 通过自动扩展来调整云资源基础设施以满足实际需求,从而提高云经济性
  • 模块化,服务使用由用例驱动
  • 与符合开放标准的任何系统或云的互操作性
  • 支持各种用例,包括流处理、分析、数据科学和机器学习
  • 支持不同的架构方法,从集中式数据湖仓一体到分散式数据网格

下图说明了功能体系结构。



lakehouse-functional-oracle-1.zip#GUID-43E61AD0-9E20-4DC0-BFB2-EFF8365A6694

该体系结构侧重于以下逻辑划分:

  • 连接、摄取、转换

    连接到数据源、摄取和细化数据,以供架构中的每个数据层使用。

  • 持久、整理、创建

    便于访问和导航数据以显示当前业务视图。对于关系技术,数据可以以简单的关系、纵向、维或 OLAP 形式进行逻辑或物理结构化。对于非关系数据,此层包含一个或多个数据池,这些数据池来自分析流程的输出或针对特定分析任务优化的数据。

  • 分析、学习、预测

    抽象用户的数据的逻辑业务视图。此抽象简化了开发、迁移到目标架构以及从多个联合源提供单个报告层的敏捷方法。

该体系结构具有以下功能组件:

  • 批量摄取

    批量摄取对于无法实时摄取或成本过高且无法适应实时摄取的数据非常有用。将数据转换为可靠且值得信赖的信息也很重要,这些信息可以被整理并保存以供定期使用。您可以同时使用或独立使用以下服务,以实现高度灵活且高效的数据集成和转换工作流。

    • Oracle Cloud Infrastructure Data Integration 是一个用于设计和执行数据管道的全托管式无服务器服务。它支持将数据无缝提取、转换和加载到 OCI 目标中,例如 Autonomous AI LakehouseOCI Object Storage 。用户可以通过直观、无代码的界面构建集成流,从而自动扩展执行环境。它支持基于 Spark 的 ETL 处理,以及使用 SQL 下推来提高性能和效率的 ELT。该服务还提供用于数据准备的工具,并通过基于规则的处理来防止模式偏差。

    • Oracle Data Integrator 提供全面的数据集成,包括从大容量和高性能批量加载到事件驱动的涓滴集成流程,再到支持 SOA 的数据服务。声明式设计方法可确保更快、更简单的开发和维护,并提供一种独特的方法来提取负载转换 (ELT),有助于确保数据转换和验证流程具有尽可能高的性能。Oracle 数据转换使用 Web 界面简化 ELT 的配置和执行,并帮助用户使用声明式设计方法构建和调度数据和工作流。

    • Oracle Data Transforms 可为选定的受支持技术启用 ELT,使用 Web 用户界面以声明方式构建和调度数据流和工作流,从而简化数据管道的配置和执行。Oracle Data Transforms 作为 Oracle Autonomous AI Lakehouse 中的全托管环境提供,可将数据从多个数据源加载和转换成 Oracle Autonomous AI Lakehouse 实例。

    根据具体使用情况,这些组件可以单独使用或一起使用,以实现高度灵活和高性能的数据集成和转换。

  • 基于 API 的摄取

    基于 API 的摄取允许应用和系统使用 API 或 Webhook 推送事件数据。

    • Oracle Integration 是一个完全托管的预配置环境,允许您集成云和内部部署应用、自动执行业务流程以及开发可视化应用。它使用符合 SFTP 的文件服务器来存储和检索文件,并允许您使用数百个适配器和配方组合与 Oracle 和第三方应用程序连接,以与企业对企业贸易合作伙伴交换文档。

    • 借助 Oracle Cloud Infrastructure API Gateway ,您可以发布具有专用端点的 API,这些端点可从您的网络访问,并且您可以根据需要向公共互联网公开。这些端点支持 API 验证、请求和响应转换、CORS、验证和授权以及请求限制。

      OCI API Gateway 支持通过 API 观测来监视使用情况并保证 SLA。使用量计划还可以用于监视和管理 API 使用者和客户端,以及为不同的客户设置不同的 API 访问层。使用量计划是支持数据货币化的关键功能。

      使用量计划通过创建分层使用计划来管理 API 使用者和客户端并跟踪其数据使用情况,从而支持数据货币化。

    • Oracle Cloud Infrastructure Functions 是一个完全托管、多租户、高度可扩展、按需提供的函数即服务 (FaaS) 平台。它由 Fn Project 开源引擎提供支持。使用 OCI Functions ,您可以部署代码,直接调用代码或触发代码以响应事件。OCI Functions 使用 Oracle Cloud Infrastructure Registry 中托管的 Docker 容器。

    • Oracle REST Data Services (ORDS) 是一个 Java 应用程序,支持任何具备 SQL 和数据库技能的开发人员为 Oracle Database 开发 REST API。任何应用程序开发人员都可以从任何语言环境使用这些 API,而无需安装和维护客户端驱动程序,就像他们使用 REST(最广泛使用的 API 技术)访问其他外部服务一样。

      ORDS 作为完全托管的功能部署在 Oracle Autonomous AI Lakehouse 中,可用于通过使用 API 向数据使用者公开数据湖仓信息。

  • 实时摄取

    Oracle Cloud Infrastructure GoldenGate 是一项完全托管的服务,支持从本地或任何云端的源摄取数据。它利用 GoldenGate CDC 技术实时、大规模地向 Oracle Autonomous AI LakehouseOracle Cloud Infrastructure Object StorageOracle Cloud Infrastructure Streaming 提供非侵入式、高效的数据捕获和交付,从而尽可能快速地向消费者提供相关信息。

  • 批量转移

    通过批量传输,您可以使用不同的方法移动大量的数据。对于大规模数据湖仓一体,我们建议使用 Oracle Cloud Infrastructure FastConnect 和数据传输服务。

    • Oracle Cloud Infrastructure FastConnect 可在您的数据中心与 OCI 之间创建专用连接。与基于互联网的连接相比,FastConnect 提供了更高的带宽选项和更可靠、更稳定的网络体验。

    • 借助 Oracle Cloud Infrastructure (OCI) 命令行界面 (CLI),您可以利用 Oracle Cloud Infrastructure FastConnect 专用线路,执行数据从内部部署传输到 OCI 的操作并实现自动化。通过 OCI SDK,您可以编写代码,以利用各种编程语言(例如 Python、Java 或 Go 等)将本地或其他云端的数据和文件复制或同步到 Oracle Cloud Infrastructure Object Storage 。借助 REST API,您可以与 OCI 服务进行接口和控制,例如使用对象存储服务 API 将数据移动到对象存储。
    • Oracle Cloud Infrastructure 数据传输是一项离线数据迁移服务,可帮助您安全地将 PB 级数据集从数据中心迁移到 Oracle Cloud Infrastructure Object Storage 或 Archive Storage。由于公共互联网成本高、网络连接不可靠、传输时间长以及安全问题,使用公共互联网将数据迁移到云并非始终可行。数据传输服务克服了这些难题,并且能够显著缩短将数据迁移到云所花费的时间。可通过磁盘或设备进行数据传输。选择一个主要取决于数据量,而 Data Transfer Appliance 支持每台设备更大的数据集。
  • 流摄取

    OCI 原生服务支持流摄取,支持从广泛的数据生成器实时摄取大型数据集。流摄取会保留并同步对象存储中的数据,对象存储是数据湖仓一体的核心。通过将数据同步到对象存储,您可以保存可整理和进一步转换的历史数据,从而提取有价值的洞察。

    • Oracle Cloud Infrastructure Streaming 提供了一个完全托管、可扩展且持久性的存储解决方案,可以摄取连续的大量数据流以供您实时消费和处理。流式处理可以用于消息传递、海量应用日志、运营遥测、Web 点击流数据或其他发布 - 订阅消息传递模型用例,在这些用例中,数据是连续生成和处理的。数据同步至 Oracle Cloud Infrastructure Object Storage ,可进行整理和进一步转换,以提取有价值的洞察。

    • Oracle Cloud Infrastructure Queue 是一项全托管式无服务器服务,可帮助分离系统并启用异步操作。队列可处理需要独立处理消息的大量事务数据,而不会丢失或重复。

    • Oracle Cloud Infrastructure Service Connector Hub 是一个云消息总线平台,提供单一平台来描述、执行和监视 Oracle Cloud Infrastructure 中服务之间的数据移动。对于此特定参考架构,它将用于将数据从 Oracle Cloud Infrastructure Streaming 或 OCI Queue 移动到 Oracle Cloud Infrastructure Object Storage 中,以将原始数据和准备好的数据持久保存到数据湖仓一体持久性层中。

  • 流处理

    流处理会扩充流数据,检测事件模式,并创建一组持久保存在数据湖仓一体中的不同流。

    • Oracle Cloud Infrastructure GoldenGate Stream Analytics 是一项完全托管、可扩展的服务,它使用复杂的关联模式、数据扩充和机器学习来处理和分析大规模的实时信息。用户可以使用实时图表、地图和可视化来浏览实时数据。用户可以使用图形工具构建流处理管道而无需手动编码。

    • Oracle Cloud Infrastructure Data Flow 是一个完全托管的大数据服务,支持您运行 Apache Spark 和 Spark Streaming 应用,而无需部署或管理基础设施。它可以帮助您更快地交付大数据和 AI 应用,因为您可以专注于应用,而无需管理运营。数据流应用程序是可重用的模板,由 Spark 应用程序及其依赖项、默认参数和默认运行时资源规范组成。

  • 开源生态系统

    您可以使用开源生态系统:

    • 利用 Hadoop、Spark、Flink 或 Trino 等几个常用的开源引擎进行批处理和流处理
    • 作为生产商和消费者使用 Oracle Cloud Infrastructure Streaming
    • 借助 Oracle Cloud Infrastructure Object Storage ,您可以持久保存数据并使用数据

    您可以将 Oracle Cloud Infrastructure Object Storage 用作数据湖,以持久保存要在不同时间在不同 Oracle Cloud Infrastructure 服务之间共享的数据集。

    大数据服务可按需预配完全配置、安全、高可用性和专用性的 Hadoop、Spark 或 Flink 集群等技术。使用一系列 Oracle Cloud Infrastructure 计算配置来扩展集群,以适应大数据和分析工作负载。这些配置支持从小型测试和开发集群到大型生产集群的所有功能。无论是基于指标还是按计划,都可以利用自动缩放配置来快速适应业务需求并优化成本。利用集群概要信息为特定工作负载或技术创建最佳集群。
  • 批处理

    批处理转换存储在数据湖仓一体中的大型数据集。批处理利用与 Oracle Cloud Infrastructure Object Storage 无缝集成的 Oracle Cloud Infrastructure 原生服务,支持您为数据聚合和扩充、数据仓库摄取以及大规模机器学习和 AI 数据使用等用例创建精选数据。

    • Oracle Cloud Infrastructure Data Integration 是一个完全托管的无服务器云原生服务,可提取、加载、转换、清理和重塑各种数据源的数据,并将其重塑为目标 Oracle Cloud Infrastructure 服务,例如 Autonomous AI LakehouseOracle Cloud Infrastructure Object Storage

    • Oracle Cloud Infrastructure Data Flow 是一个完全托管的大数据服务,支持您运行 Apache Spark 和 Spark Streaming 应用,而无需部署或管理基础设施。它可以帮助您更快地交付大数据和 AI 应用,因为您可以专注于应用,而无需管理运营。数据流应用程序是可重用的模板,由 Spark 应用程序及其依赖项、默认参数和默认运行时资源规范组成。

    • Oracle Data Transforms 可为选定的受支持技术启用提取 - 加载转换 (Extract-load-Transform,ELT),使用 Web 用户界面以声明方式构建和调度数据流和工作流,从而简化数据管道的配置和执行。Oracle Data Transforms 作为 Oracle Autonomous AI Lakehouse 中的全托管式环境提供,可将数据从多个数据源加载和转换成 Oracle Autonomous AI Lakehouse 实例。

      根据具体使用情况,这些组件可以单独使用或一起使用,以实现高度灵活和高性能的数据处理。

  • 份量

    Oracle Autonomous AI Lakehouse 是一个自治驱动、自我保护和自我修复的数据库服务,针对数据仓库工作负载进行了优化。您不需要配置或管理任何硬件,也不需安装任何软件。OCI 可处理数据库创建、备份、打补丁、升级和调优。

    预配后,您可以随时扩展 CPU 核心数或数据库存储容量,而不会影响可用性或性能。

    Oracle Autonomous AI Lakehouse 还可以将驻留在对象存储中的数据虚拟化为外部和混合分区表,以便您可以将来自其他来源的数据与仓库数据联接并使用。您还可以将历史数据从仓库移动到对象存储,然后使用混合分区表无缝地使用这些数据。

    Oracle Autonomous AI Lakehouse 可以使用之前收集的存储在数据目录中的元数据来创建外部表,还可以自动将数据目录中的元数据更新与外部表定义同步,以保持一致性、简化管理和减少工作量。

    Autonomous Database 支持向量,因为它是支持多种数据类型的多模型数据库,即关系型、JSON、空间型和图形型。Vectors 数据类型允许加载和存储向量嵌入,以及创建向量索引,然后将其用于检索增强生成 (RAG) 应用,所有这些都在一个云自治 AI Lakehouse 实例中。这种多模型功能支持使用可在单个查询中联接的所有数据类型的分析,从而降低每种数据类型的专用孤立数据库的复杂性和风险,同时确保提高安全性、可靠性、可扩展性和分析所有数据的易用性。

    选择 Autonomous AI Database 功能 AI,即可使用自然语言查询数据,并使用 LLM 将用户的输入文本转换为 Oracle SQL。选择 AI 将处理自然语言提示,使用元数据补充提示,然后生成并运行 SQL 查询。

    Data Sharing 是 Autonomous AI Database 的一项功能,能够安全地提供和使用来自使用 Autonomous AI Database 或符合 Delta 共享技术的其他方的数据和元数据。通过数据共享,可以轻松地无缝地使用来自共享提供方的数据,就像抽象底层共享表的视图一样。此外,当提供商和收件人都使用 Autonomous AI Database 时,可以使用实时共享资源(允许收件人使用实时数据和全新数据)。

    分析视图是 Autonomous AI Database 的一项功能,它提供了一种快速高效的方式来创建现有数据库表和视图中存储的数据的分析查询。分析视图使用维模型组织数据。使用这些分析视图,可以轻松地将聚合和计算添加到数据集,并在视图中呈现数据,而这些信息可以使用相对简单的 SQL 进行查询。通过此功能,您可以使用内部和外部存储的数据,直接在 Oracle Autonomous AI Lakehouse 中对星型或雪花模式进行语义建模,并允许使用 SQL 和任何符合 SQL 的数据使用者来使用模型。

    此外,自治数据湖加速器是 Autonomous AI Database 的一个组件,它能够无缝使用对象存储数据,通过扩展处理来提供快速查询,在需要时自动缩放数据库计算实例,并通过将对象存储查询与数据库计算实例隔离来减少对数据库工作负载的影响。

  • 云存储

    Oracle Cloud Infrastructure Object Storage 是一个互联网级高性能存储平台,可提供可靠且经济高效的数据持久性。Oracle Cloud Infrastructure Object Storage 可存储任意内容类型的无限量非结构化数据,包括分析数据。您可以安全地使用基于互联网或云平台直接存储或检索数据。通过多个管理接口,您可以轻松从小规模开始,无缝扩展,而不会在性能或服务可靠性方面出现任何降级。

    Oracle Cloud Infrastructure Object Storage 还可以用作数据仓库的冷存储层,方法是存储不经常使用的数据,然后使用 Oracle Autonomous AI Lakehouse 中的混合表将其与最新数据无缝联接。

    可以使用 IAM 策略对对象实施对象级别细粒度访问控制,从而提高数据湖直接访问的数据安全性。

  • 可视化和学习

    Oracle Analytics Cloud 是一种安全的可扩展公共云服务,可为您、您的工作组和您的企业提供浏览和执行协作分析的完整功能。它支持公民数据科学家、高级业务分析师培训和执行机器学习 (ML) 模型。机器学习模型可以在分析服务上执行,也可以直接在 Oracle Autonomous AI Lakehouse 上作为 OML 嵌入式模型执行,以进行大规模批量预测,充分利用仓库和 OCI AI 服务(例如 Oracle Cloud Infrastructure Vision)的处理能力、可扩展性和弹性。

    借助 Oracle Analytics Cloud ,您还可以获得灵活的服务管理功能,包括快速设置、轻松扩展和打补丁以及自动化生命周期管理。

  • 学习和预测

    • Data Science 为数据科学团队提供基础设施、开源技术、库、程序包和数据科学工具,帮助他们在 Oracle Cloud Infrastructure 中构建、训练和管理机器学习 (ML) 模型。协作式和项目驱动的工作区提供端到端的统一用户体验,并支持预测模型的生命周期。

      借助数据科学作业功能,数据科学家可以在完全托管的基础设施上定义和运行可重复的机器学习任务。

      借助数据科学模型部署功能,数据科学家可以将训练的模型部署为完全托管的 HTTP 端点,从而实时提供预测,将智能注入到流程和应用中,并允许企业在发生相关事件时对事件做出响应。

    • Oracle Machine Learning 提供与 Autonomous AI Database 紧密集成的强大机器学习功能,并支持 Python 和 AutoML。它支持使用开源和可扩展的数据库内算法的模型,从而减少数据准备和移动。AutoML 通过使用自动算法选择、自适应数据采样、自动功能选择和自动模型优化,帮助数据科学家加快实现机器学习计划价值的时间。借助 Oracle Autonomous AI Lakehouse 中的 Oracle Machine Learning 服务,您不仅可以管理模型,还可以将这些模型部署为 REST 端点,以实现公司内部的实时预测民主化,从而让企业能够在发生相关事件时(而不是事后)对相关事件做出反应。

  • AI 和生成式 AI 服务

    Oracle Cloud Infrastructure AI 服务提供了一组即用型 AI 服务,可用于支持从文本分析到预测性维护的一系列用例。这些服务具有预构建的微调模型,您可以使用 API 集成到数据管道、分析和应用中。

    • Oracle Cloud Infrastructure Language 可大规模执行复杂的文本分析和翻译。借助预训练和定制模型,开发人员无需具备数据科学专业知识即可处理非结构化文本并提取洞察。执行情感分析、关键短语提取、文本分类、命名实体识别和检测文本中的 PII 数据。针对域特定的任务量身定制模型,并轻松跨各种语言翻译文本。Oracle Cloud Infrastructure Language 还支持文档翻译和异步作业,可高效处理大容量工作负载。

    • Oracle Cloud Infrastructure Speech 可帮助您轻松将包含人工语音的媒体文件转换为高度准确的文本转录,从而发挥口语的强大功能。OCI Speech 可用于转录客户服务电话、自动加字幕以及为媒体资产生成的元数据,以创建完全可搜索的归档。OCI Speech 支持批处理和实时转录作业。
    • Oracle Cloud Infrastructure Vision 是一项基于深度学习的大规模图像分析 AI 服务。OCI Vision 可执行图像识别和视频分析任务,例如对图像进行分类、检测对象和人脸以及提取文本。您可以利用预先训练的模型,也可以轻松为行业特定的场景和客户特定的场景创建定制视觉模型。OCI Vision 是一项完全托管的多租户原生云服务,可帮助完成所有常见的计算机视觉任务。借助现成的预构建模型,开发人员无需具备机器学习 (ML) 专业知识即可轻松将图像识别和文本识别构建到应用中。

    • Oracle Cloud Infrastructure Document Understanding 可执行文档分类和文档分析任务,例如提取文本、键值和表。OCI Document Understanding 是一个完全托管的多租户原生云服务,可帮助处理所有常见的文档分析任务。
    • Oracle Cloud Infrastructure Generative AI 是一个完全托管的服务,提供一系列先进、可定制的大语言模型 (LLM),涵盖了广泛的用例,包括聊天、文本生成、汇总和创建文本嵌入。使用操场来试用现成可用的预训练模型,或者根据您自己的数据在专用 AI 集群上创建和托管您自己的微调定制模型。
  • 数据扩充

    数据扩充可以改善用于训练机器学习模型的数据,从而实现更好、更准确的预测结果。

    Oracle Cloud Infrastructure Data Labeling 支持您创建和浏览数据集、查看数据记录(文本或图像)以及应用标签来构建 AI/ML 模型。该服务还提供交互式用户界面,旨在帮助标记过程。在为记录设置标签后,数据集可以导出为行分隔的 JSON,以用于 AI/ML 模型开发。
  • 搜索

    搜索功能可以作为补充功能,向需要预先编制索引并因此具有低延迟的操作分析数据的最终用户公开数据。

    Oracle Cloud Infrastructure Search with OpenSearch 是一个分布式、全托管、免维护的全文搜索引擎。借助 OpenSearch,您可以快速存储、搜索和分析大量数据,并缩短响应时间。该服务支持开源 OpenSearch API 和 OpenSearch 仪表盘数据可视化。
  • 流处理分析

    流分析提供仪表盘,通过数据湖仓一体中存储的精选数据和主数据,对情境化的流数据进行实时分析,以检测感兴趣的模式,然后将其应用于用户、应用和事物。

    Oracle Cloud Infrastructure GoldenGate Stream Analytics 利用复杂的关联模式、数据扩充和机器学习来处理和分析大规模的实时信息。用户可以通过实时图表、地图、可视化来探索实时数据,无需手动编码即可以图形方式构建流式管道。这些管道在完全托管且可扩展的服务中执行,以解决现代企业的关键实时用例。

  • 反向 ETL/回写

    反向 ETL(有时称为回写)可将数据激活到操作系统和设备中,从而将来自数据的智能直接注入到用于支持业务流程的应用程序和设备中。

    数据使用多种机制提供给消费者,即使用流和队列来支持大量消费者同时提取接近实时且与数据分离的信息。流分析系统,通过使用预构建适配器或通过无服务器函数调用几乎任何应用程序或设备端点来使用应用程序或数据集成来推送数据,以提高弹性和可扩展性。

    • Oracle Cloud Infrastructure 流处理服务提供完全托管、可扩展且持久性的存储解决方案,可以摄取连续的大量数据流以供您实时消费和处理。流式处理可以用于消息传递、海量应用日志、运营遥测、Web 点击流数据或其他发布 - 订阅消息传递模型用例,在这些用例中,数据是连续生成和处理的。

    • Oracle Cloud Infrastructure Queue 是一个全托管式无服务器服务,可帮助企业分离系统并实现异步操作。队列可处理需要独立处理消息的大量事务数据,而不会丢失或重复。

    • Oracle Integration 是一个完全托管的预配置环境,支持集成云和内部部署应用、自动化业务流程、开发可视化应用、使用符合 SFTP 标准的文件服务器存储和检索文件,以及使用数百个适配器和配方组合与 Oracle 应用和第三方应用交换业务文档与 B2B 贸易合作伙伴。

    • Oracle Data Transforms 可为选定的受支持技术启用 ELT,使用 Web 用户界面以声明方式构建和调度数据流和工作流,从而简化数据管道的配置和执行。Oracle Data Transforms 作为 Oracle Autonomous AI Lakehouse 中的全托管环境提供,可将数据从多个数据源加载和转换成 Oracle Autonomous AI Lakehouse 实例。

    • Oracle Cloud Infrastructure Functions 是一个全托管、多租户、高度可扩展的按需函数即服务平台。它基于企业级 Oracle Cloud Infrastructure 构建,由 Fn Project 开源引擎提供支持。

  • API

    通过 API 层,您可以将来自数据科学Oracle Machine Learning 的智能注入到应用、业务流程和事物中,从而影响和改进其运营和功能。通过 API 层,可以安全地使用部署到 Oracle Machine Learning REST 端点的数据科学模型,并可以监管系统以确保运行时环境的可用性。您还可以根据需要利用函数来执行其他逻辑。

    • 借助 Oracle Cloud Infrastructure API Gateway,您可以发布具有专用端点(可从网络中访问)的 API,并且如果希望它们接受互联网流量,可以使用公共 IP 地址公开这些 API。这些端点支持 API 验证、请求和响应转换、CORS、验证和授权以及请求限制。它允许 API 观测来监视使用情况并保证 SLA。使用量计划还可用于监视和管理访问 API 的 API 使用者和 API 客户端,以及为不同客户设置不同的访问层,以跟踪使用 API 使用的数据使用情况。使用量计划是支持数据货币化的关键功能。

    • Oracle Cloud Infrastructure Functions 是一个全托管、多租户、高度可扩展的按需函数即服务平台。它基于企业级 Oracle Cloud Infrastructure 构建,由 Fn Project 开源引擎提供支持。

    • Oracle REST Data Services (ORDS) 是一个 Java 应用,它支持具备 SQL 和数据库技能的开发人员为 Oracle Database 开发 REST API。任何应用开发人员都可以从任何语言环境使用这些 API,而无需安装和维护客户端驱动程序,就像他们使用最广泛使用的 API 技术 REST 访问其他外部服务一样。ORDS 作为完全托管的功能部署在 Oracle Autonomous AI Lakehouse 中,可用于通过使用 API 向数据使用者公开数据湖仓信息。

  • 数据治理

    Oracle Cloud Infrastructure Data Catalog 可查看元数据和相应属性等技术资产所在的位置,并支持您维护映射到该技术元数据的业务词汇表。数据目录还可以向 Oracle Autonomous AI Lakehouse 提供元数据,以便于在数据仓库中创建外部表。

  • 数据安全

    数据安全对于充分探索和使用数据湖仓一体数据至关重要。利用具有深度防御和 RBAC 功能的零信任安全模型,并确保遵守最严格的法规,数据安全可提供预防性、检测性和纠正性安全控制,以确保防止数据泄露和泄露。

    • Oracle Data Safe 是一款全面集成的 Oracle Cloud 服务,专注于数据安全性。它提供一组完整的集成功能,可用于保护 Oracle Cloud 数据库中的敏感数据和受监管数据,例如 Oracle Autonomous AI Lakehouse 。功能包括安全评估、用户评估、数据发现、数据屏蔽和活动审核。

    • Oracle Cloud Infrastructure Audit 可查看与 Oracle Cloud Infrastructure (OCI) 资源和租户相关的活动。审计日志事件可用于安全审计,以跟踪 OCI 资源的使用情况和更改,并帮助确保符合标准和法规。

    • Oracle Cloud Infrastructure Logging 可为租户中的所有日志(包括审计日志)提供高度可扩展且完全托管的单一界面。使用 OCI Logging 访问所有 OCI 资源中的日志,以便您启用、管理和搜索日志。

    • Oracle Cloud Infrastructure Vault 是一项加密管理服务,用于存储和管理加密密钥和密钥,以安全地访问资源。支持将客户管理的密钥用于 Oracle Autonomous AI Lakehouse 和数据湖加密,以增强静态数据保护。使机密能够安全地存储服务和用户凭证,以改善您的安全状况,并确保凭证不会受到损坏和不当使用。

物理体系结构

此数据湖仓的物理体系结构支持以下各项:

  • 使用微批处理、流处理、API 以及来自关系和非关系数据源的文件,安全摄取数据
  • 利用 Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure Data Flow 的组合来处理数据
  • 数据存储在 Oracle Autonomous AI LakehouseOracle Cloud Infrastructure Object Storage 中,并根据质量和价值进行组织
  • Oracle Autonomous AI Lakehouse 可安全地为消费者提供仓库和数据湖数据服务
  • Oracle Analytics Cloud 使用可视化向业务用户呈现数据
  • Oracle Analytics Cloud 通过使用 Oracle Cloud Infrastructure Load Balancer 公开,该 Oracle Cloud Infrastructure Web Application Firewall (WAF) 可通过互联网提供访问
  • Oracle Cloud Infrastructure Data Science 用于构建、训练和部署机器学习 (ML) 模型
  • Oracle Cloud Infrastructure API Gateway 用于监管数据科学机器学习模型部署
  • Oracle Cloud Infrastructure Data CatalogOracle Autonomous AI Lakehouse 和对象存储中获取元数据
  • Oracle Data Safe 评估数据风险、实施和监视安全控制、评估用户安全性、监视用户活动以及满足数据安全合规性要求
  • 管理员使用 Oracle Cloud Infrastructure Bastion 管理私有云资源

下图说明了此参考体系结构。



湖仓一体架构 -oracle-1.zip#GUID-EE46F831-C10F-432F-A664-D78609670EB6

物理体系结构的设计:

  • 利用 2 个 VCN,一个用于中心,另一个用于工作负载本身
  • 本地连接利用 Oracle Cloud Infrastructure FastConnect 和站点到站点 VPN 实现冗余
  • 来自内部部署和互联网的所有传入流量首先路由到中心 VCN,然后路由到工作负载 VCN
  • 所有数据在传输中和静态都是安全的
  • 服务随专用端点一起部署,以提高安全状况
  • VCN 会隔离到多个专用子网中,以提高安全状况
  • 数据湖数据通过 Medallion 架构隔离到对象存储中的多个存储桶中

出于简单考虑,此部署中未描述的潜在设计改进包括:

  • 利用完全符合 CIS 的着陆区
  • 利用网络防火墙来检查所有流量并实施策略,从而改善整体安全状况

推荐

使用以下建议作为处理流数据和各种企业数据资源的起点,以进行业务分析和机器学习。

您的要求可能与此处描述的体系结构不同。

  • Oracle Autonomous AI Lakehouse

    此架构在共享基础设施上使用 Oracle Autonomous AI Lakehouse

    • 启用自动扩展,为数据库工作负载提供最多三倍的处理能力。
    • 如果您希望私有数据库云环境中的自助数据库功能在公有云上运行,请考虑在专用基础设施上使用 Oracle Autonomous AI Lakehouse
    • 考虑使用 Autonomous AI Lakehouse 的混合分区表功能,将数据分区移至 Oracle Cloud Infrastructure Object Storage ,并以透明方式为用户和应用提供服务。我们建议您将此功能用于不常使用且无需与自治 AI Lakehouse 中存储的数据具有相同性能的数据。
    • 您可以考虑使用外部表功能实时使用存储在 Oracle Cloud Infrastructure Object Storage 中的数据,而无需将其复制到 Autonomous AI Lakehouse 。此功能可透明、无缝地联接在 Autonomous AI Lakehouse 外部策划的数据集,无论采用何种格式(parquet、avro、orc、json、csv 等),数据均可驻留在 Autonomous AI Lakehouse 中。
    • 考虑使用数据库内存中功能来显著提高实时分析和混合工作负载的性能。将数据湖仓一体数据加载到需要低延迟且位于 Autonomous AI Lakehouse 内部、混合分区或外部表的内存中。
    • 在使用对象存储数据时,请考虑使用 Autonomous AI Lakehouse Accelerator 来为使用和联接数据仓库和数据湖之间的数据的用户提供更好、更快的体验。
    • 您可以考虑将向量嵌入存储在 Autonomous AI Lakehouse 和其他数据类型(例如关系数据或 JSON 数据)中,以简化所有数据的数据工程和分析,并使用所有数据高效地接地 RAG 代理。
    • 考虑使用 Select AI 作为加速器来创建简单而复杂的 SQL,这些 SQL 可用于数据工程、商务智能、应用程序开发或需要创建 SQL 的任何任务。
    • 考虑将 Select AI 与低代码应用结合使用,以进一步简化应用层。
    • 考虑使用分析视图直接在 Autonomous AI Lakehouse 中对 DW 星型架构或雪花底层架构进行语义建模,以便自动聚合细粒度数据,而无需预先聚合数据。使用 SQL 与任何符合 SQL 标准的客户端(包括 Oracle Analytics Cloud )一致地使用语义模型,从而确保事实和 KPI 无论客户端如何,服务始终一致,所有数据都可以在语义模型上使用,无论数据是存储在 Autonomous AI Lakehouse 还是 OCI Object Storage 中,这使此功能成为湖仓一体架构的完美语义建模层,在湖仓一体架构中,事实和维可以遍历数据仓库和数据湖。
    • 如果由于公司或监管政策而需要完全控制 Autonomous AI Lakehouse 加密密钥,请考虑使用客户管理的密钥来利用 OCI Vault
    • 考虑在 Autonomous AI Lakehouse 中使用 Database Vault 来防止未经授权的特权用户访问敏感数据,从而防止数据泄露和数据泄露。
    • 请考虑使用 Oracle Autonomous Data Guard 来支持业务连续性计划,即在同一区域或另一区域中的备用实例上设置和保留复制的数据。
    • 考虑将动态数据屏蔽与数据编写结合使用,根据用户的角色向用户提供屏蔽数据,从而确保适当的数据访问,而无需数据复制和静态屏蔽。
    • 考虑使用 Autonomous AI Lakehouse 克隆来快速创建其他瞬态或非瞬态环境。如果目标环境需要具有最新数据,请使用可刷新克隆。使用 Oracle Data Safe 静态屏蔽克隆中的敏感数据以提高安全性。
    • 考虑使用数据共享作为一种安全、简单的方式来使用和提供数据,例如与其他 Autonomous AI Database 实例一起使用,或者使用任何符合 Delta 共享的技术。
    • 您可以考虑使用 Autonomous AI Database 实例之间的实时数据共享来实时使用和提供数据。
    • 考虑使用版本化数据共享与使用者共享数据。这样可以避免查询数据的成本,因为数据由消费者处理,而不是由提供商处理。
    • 考虑使用预先验证的请求 URL 在 Autonomous AI Lakehouse 上进行只读、有时限的数据访问,以便为消费者不支持 Delta 共享的用例共享非敏感数据。
  • 对象存储/数据湖

    此架构使用 Oracle Cloud Infrastructure Object Storage (一个高度可扩展且持久的云存储)作为数据湖存储。

    • 您可以考虑利用奖牌架构(青铜、银、金)或其他分区逻辑在不同存储桶组中组织数据湖,以根据数据的质量和丰富性对数据进行隔离,对读取数据的消费者实施细粒度安全,并对不同层应用不同的生命周期管理策略。
    • 您可以考虑使用不同的对象存储层和生命周期策略来优化大规模存储数据湖数据的成本。
    • 如果公司或监管策略导致需要完全控制 OCI Object Storage 加密密钥,请考虑使用客户管理的密钥来利用 Vault 服务。
    • 请考虑使用 OCI Object Storage 复制通过设置存储桶复制到其他区域来支持业务连续性计划。由于 OCI Object Storage 具有高持久性,因此无需在单个区域中维护同一对象的多个副本,即可恢复同一区域存储桶复制。
    • 考虑使用对象名称或模式对对象使用 Oracle Cloud Infrastructure Identity and Access Management (IAM) 策略,从而提高数据湖直接访问的数据安全性。
    • 请考虑在 OCI 对象存储中使用专用端点,以确保从数据平台 VCN 对数据湖进行安全和专用访问。
    • 请考虑使用网络源和 IAM 策略来引用它们,以管理有权访问数据湖存储桶和对象的 IP 地址。
    • 考虑使用基于 python 的实用程序 OCIFS 将 OCI Object Storage 存储桶挂载为文件系统,从而支持仅使用 NFS 且需要将文件上载到对象存储的应用。
  • Oracle Machine LearningOracle Cloud Infrastructure Data Science

    此架构利用 Oracle Machine LearningOracle Cloud Infrastructure Data Science 实时运行和向人员和应用提供预测。

    • 考虑在 Oracle Cloud Infrastructure Data ScienceOracle Machine Learning 中使用 AutoML 来加快 ML 模型开发。
    • 考虑使用开放神经网络交换 (ONNX) 实现互操作性。ONNX 第三方模型可以部署到 OML 中并作为 REST 端点公开,也可以部署到数据科学并作为 HTTP 端点公开。
    • 如果需要在实时数据管道中运行评分和预测,以更及时的预测来推动实时业务结果,请考虑将模型保存在数据科学中,并将其导入 OCI GoldenGate 流分析。
    • 考虑使用 Data Science Conda 环境来更好地管理和打包 Jupyter 记事本会话中的 Python 相关项。
    • 考虑使用 Oracle Cloud Infrastructure Data Science AI Quick Actions 在 Data Science 中部署、评估和微调基础模型。使用模型浏览器中提供的精心策划的开源 LLM 或自带模型。
    • 考虑使用 Accelerated Data Science Python 程序包中提供的 Data Science 低代码 AI Operators 来快速高效地执行预测、异常检测或构建推荐功能。
    • 请考虑在 Data Science Jupyter 环境中使用 Oracle Cloud Infrastructure Data Flow ,利用 Spark 横向扩展处理大规模执行探索性数据分析、数据分析和数据准备。
    • 考虑使用 Oracle Cloud Infrastructure Data Labeling 对图像、文本或文档等数据进行标记,并使用它来训练基于 Data ScienceOracle Cloud Infrastructure AI Services 构建的 ML 模型,从而提高预测的准确性。
    • 如果合作伙伴和外部实体正在使用实时预测,请考虑部署 OCI API Gateway 来保护和监管已部署模型的使用。
  • Oracle Cloud Infrastructure 数据集成

    此架构使用 Oracle Cloud Infrastructure Data Integration 来支持声明式、无代码或低代码 ETL 以及数据管道开发。

    • 利用 Oracle Cloud Infrastructure Data Integration 协调和安排 Oracle Cloud Infrastructure Data Flow 应用程序运行,并将声明性 ETL 与定制 Spark 代码逻辑混合和匹配。使用 Oracle Cloud Infrastructure Data Integration 中的函数进一步扩展数据管道的功能。
    • 考虑使用 SQL 下推进行将 Autonomous AI Lakehouse 作为目标的转换,以使用与 ETL 相比更高效、高性能、更安全的 ELT 方法。
    • 考虑允许 OCI Data Integration 处理数据源方案偏差,以便拥有更具弹性和面向未来的数据管道,从而维持数据源方案更改。
  • Oracle Cloud Infrastructure 数据流

    此架构使用 Oracle Cloud Infrastructure Data Flow 支持大规模 Spark 和 Spark 流处理,而无需拥有和管理永久集群。

    • 考虑使用 Oracle Cloud Infrastructure Data Catalog 作为 Oracle Cloud Infrastructure Data Flow 的 Hive Metastore,以安全地存储和检索非结构化和半结构化数据资产(例如 Oracle Cloud Infrastructure Object Storage )中对象的方案定义。
    • 如果数据湖数据需要 ACID 事务处理以及流处理和批处理统一,请考虑在数据流中使用 Delta 数据湖。
  • 大数据服务

    此架构利用 Oracle Cloud Infrastructure Big Data Service 部署具有高可用性和可扩展性的各种开源技术集群,例如 Spark、Hadoop、Trino 或 Flink,这些技术可以处理批处理和流数据。大数据服务在 HDFS 中保留数据,从 OCI Object Storage 中保存和读取数据,并可与其他 Oracle Cloud Infrastructure 服务(例如数据流Oracle Autonomous AI Lakehouse )交换数据集。

    • 您可以考虑使用自动缩放功能,根据指标或计划自动横向或纵向扩展 worker 节点,从而根据资源需求持续优化成本。
    • 考虑使用 OCI HDFS 连接器 OCI Object Storage 来读取和写入 OCI Object Storage 中的数据,从而提供一种机制来生成/使用与其他 OCI 服务共享的数据,而无需复制和复制数据。
    • 如果数据湖数据需要 ACID 事务和统一流处理和批处理,请考虑在 OCI BDS 上使用 Delta Lake。
    • 如果您需要使用其他开源软件,请考虑使用 Oracle Cloud Infrastructure Registry 、容器实例或 Oracle Cloud Infrastructure Kubernetes Engine 来部署任何可以容器化的开源软件。
  • Oracle Cloud Infrastructure 流处理

    此架构利用 Oracle Cloud Infrastructure Streaming 来使用来自源的流数据,并向使用者提供流数据。

    考虑利用 Oracle Cloud Infrastructure Service Connector Hub 从 OCI Streaming 中移动数据,并持续使用 OCI Object Storage 来支持进一步的历史数据分析。

  • Oracle Analytics Cloud

    此架构利用 Oracle Analytics Cloud (OAC) 向最终用户提供增强分析。

    您可以考虑利用 OAC 与 Oracle Cloud Infrastructure AI Services (语言和视觉模型)和 OML(任何模型)的预构建集成,将智能嵌入到最终用户使用的数据流和可视化中,从而实现 AI 和 ML 使用的民主化。

  • Oracle Cloud Infrastructure AI 服务

    此架构可以利用 Oracle Cloud Infrastructure AI Services ,具体取决于部署的用例。

    考虑使用 OCI Data Labeling 为训练数据添加标签,这些数据将用于优化和获取更准确的 Oracle Cloud Infrastructure AI Services 预测,例如 OCI VisionOCI Document Understanding 和。

  • Oracle Cloud Infrastructure Generative AI 服务

    此架构可以利用 Oracle Cloud Infrastructure Generative AI 服务,具体取决于部署的用例。

    • 您可以考虑使用预训练的 LLM 来处理文本生成、对话、数据提取、汇总、分类、样式传输或语义相似性问题,并快速将生成式 AI 嵌入到管道和流程中。
    • 考虑使用专用 AI 集群来高效地对基础 LLM 进行调整和微调,确保完全隔离和数据安全性。
    • 考虑在整个组织内的不同团队中托管专用 AI 集群,以提高成本效率。单个集群可用于托管多个定制模型,所有这些模型都可以与独立端点一起提供,并且可以使用专用 IAM 策略进行保护。
  • OCI API 网关

    此架构利用 OCI API Gateway 安全地向数据使用者公开数据服务和实时推断。

    • 考虑使用 Oracle Cloud Infrastructure Functions 添加最终所需的运行时逻辑,以支持超出数据处理、访问和解释层范围的特定 API 处理。
    • 考虑使用使用量计划来管理用户对 API 的访问,监视和管理 API 使用情况,为不同的使用者设置不同的访问层,并通过跟踪可提供给外部计费系统的使用量指标来支持数据货币化。
  • Oracle Cloud Infrastructure 数据目录

    要对平台上存储和流处理的数据有一个完整而全面的端到端视图,请考虑不仅收集支持数据持久性层的数据存储,还收集源数据存储。通过将此收集的技术元数据映射到业务词汇表并使用定制属性进行扩充,您可以映射业务概念并记录和管理安全性和访问定义。

    • 为了便于创建虚拟化存储在 OCI Object Storage 中的数据的 Oracle Autonomous AI Lakehouse 外部表,请利用之前由数据目录收集的元数据。这样可以简化外部表的创建,在数据存储之间实现元数据的一致性,并且不太容易出现人为错误。
    • 考虑使用 Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure Data Flow 的沿袭跟踪来了解数据摄取、转换和存储方式。为了提高覆盖率,请使用基于 API 的摄取来利用 OpenLineage 开放框架来跟踪任何源和系统的沿袭。
  • Oracle Cloud Infrastructure 数据传输服务

    使用公共互联网连接上载数据不可行时,请使用 Oracle Cloud Infrastructure Data Transfer 服务。如果使用公共互联网上载数据花费的时间将超过 1-2 周,我们推荐您考虑使用数据传输服务。

  • 数据安全和审计

    利用审计和警报功能提高安全态势将有助于防止数据泄露,并能够在发生数据泄露时执行取证分析。

    • 考虑使用 Oracle Data Safe 来审计数据仓库中的活动,并考虑使用 Oracle Cloud Infrastructure Audit 来审计数据湖数据的流量。
    • 考虑使用 Oracle Data SafeAutonomous AI Lakehouse 上发现敏感数据,并在为非生产环境创建 Autonomous AI Lakehouse 克隆时静态屏蔽敏感数据,从而避免安全风险。
    • 考虑将 Oracle Data Safe SQL Firewall 与 Autonomous AI Lakehouse 结合使用,以增强数据安全态势,防范 SQL 注入攻击或账户受损等风险。
  • 部署和自动化

    此物理架构是使用基础设施即代码 (IaC) 自动化部署的,用于创建资源以部署数据湖仓一体

    Oracle Cloud Infrastructure Resource Manager 支持您创建可部署云资源的 Terraform 堆栈,共享和管理基础设施配置,以及跨多个团队和平台状态文件。考虑使用 Oracle Cloud Infrastructure Resource Manager 为非生产环境创建部署堆栈,引导需要额外服务的新团队,以及标准化和嵌入一致的 IAM 策略和安全护栏,这些策略和护栏遵循组织的安全和治理定义策略。

  • 业务连续

    此架构描述了单个区域中的部署,可以扩展到两个区域来支持灾难恢复并实现业务连续性计划。

  • Oracle Cloud Infrastructure Full Stack Disaster Recovery 是灾难恢复编排和管理服务,可为应用程序堆栈的所有层(包括基础结构、中间件、数据库和应用程序)提供全面的灾难恢复功能。

    考虑使用 OCI Full Stack Disaster Recovery 为数据湖仓一体设置切换和故障转移计划,以自动执行灾难恢复任务,并在计划内或计划外迁移到备用区域时减少手动步骤。

  • 成本优化

    考虑使用 Oracle Cloud Infrastructure 成本和使用情况跟踪以及成本优化功能来持续支持您的财务运营。

    • 考虑使用成本和使用情况报告来获取和跟踪云资源使用情况和相应成本。利用生成的行业标准 FOCUS CSV 成本报告与第三方财务运营解决方案集成。
    • 考虑使用成本分析来跟踪不同团队、项目和环境产生的成本。
    • 您可以考虑使用成本跟踪标记来为特定团队、项目或环境标记云资源。
    • 考虑使用预算来设置支出的软限制,并设置警报,以告知您何时可能会超出项目、团队或整体支出的预算。
  • 互用性

    该架构广泛地利用行业标准与任何组织更广泛的 IT 异构环境进行互操作,以便它可以使用任何数据并为任何应用、系统或人员提供服务。

    该架构支持 Parquet 或 Avro 等开放文件格式,因此可以针对每个用例以更合适的格式存储数据。此外,它还支持冰山和三角洲湖等开放式表格格式,以确保 Oracle 技术与其他第三方技术之间的互操作性。
    • 考虑使用 Oracle Autonomous AI Lakehouse Iceberg 支持来读取数据湖中持久存在的 Iceberg 表,并为消费者提供服务。Iceberg 表可以用作外部表,也可以加载到 Autonomous AI Lakehouse 中。
    • 考虑使用 Data Flow Delta Lake Universal Format 支持读取、处理和持久保存数据湖中的数据。在为其他开放表格式(如 Iceberg 和 Hudi)生成元数据时,使用 Delta Lake 可以让不同的处理引擎读取相同的数据。
  • 组织方法

    这种架构是灵活的,可以支持不同类型的组织方法,从集中到完全分散的方法,因此可以由任何想要从数据中提取价值的组织采用和使用。

    此体系结构广泛地利用细粒度控制来通过 OCI Identity and Access Management (IAM) 进行验证和授权。

    考虑使用 IAM 来隔离数据湖仓一体中的不同业务线和团队,从而分散数据产品创建的所有权,并在您的组织希望采用分散的组织方法时强制实施数据域隔离。

    OCI 利用 Terraform 和 Ansible 等框架,提供自动化和基础设施即代码作为成功架构部署的关键功能。

    如果您的组织采用去中心化方法并在该方法下实施数据域,请考虑利用预构建的 Terraform 模板和 OCI 资源管理器将数据域快速一致地加入数据平台。

注意事项

在收集、处理和整理用于分析和机器学习的应用数据时,请考虑以下实施选项。

指导 推荐 其他选项 原理
Data Refinery
  • Oracle Cloud Infrastructure 数据集成
  • Oracle Cloud Infrastructure GoldenGate
  • Oracle Data Integrator
  • Oracle Autonomous Database 数据转型

Oracle Cloud Infrastructure Data Integration 提供了一个云原生、无服务器、完全托管的 ETL 平台,具有可扩展性和成本效益。

Oracle Cloud Infrastructure GoldenGate 提供了一个云原生、无服务器、完全托管、非侵入式数据复制平台,可伸缩、经济高效,并可在混合环境中部署。

数据持久性
  • Oracle Autonomous AI Lakehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous AI Lakehouse 是一个易于使用的全自治数据库,可弹性扩展,提供快速的查询性能,无需数据库管理。它还提供了对来自外部或混合分区表的对象存储数据的直接访问。

Oracle Cloud Infrastructure Object Storage 以原始格式存储无限数据。

数据加工
  • Oracle Cloud Infrastructure 数据集成
  • Oracle Cloud Infrastructure 数据流
  • Oracle Cloud Infrastructure 大数据服务
第三方工具

Oracle Cloud Infrastructure Data Integration 提供了一个云原生、无服务器、完全托管的 ETL 平台,具有可扩展性和成本效益。

Oracle Cloud Infrastructure Data Flow 提供了一个无服务器 Spark 环境,可通过按使用付费、高度弹性的模型大规模处理数据。

Oracle Cloud Infrastructure 大数据服务提供企业级 Hadoop 即服务,提供端到端的安全性、高性能以及易管理和可升级性。

访问和解释
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Oracle Cloud Infrastructure AI 服务
第三方工具

Oracle Analytics Cloud 完全托管并与 Oracle Autonomous AI Lakehouse 中的整理数据紧密集成。

Oracle Cloud Infrastructure Data Science 是一个完全托管的自助平台,可帮助数据科学团队在 Oracle Cloud Infrastructure 中构建、训练和管理机器学习 (ML) 模型。数据科学提供基础设施和数据科学工具,例如 AutoML 和模型部署功能。

Oracle Machine Learning 是一个全托管式自助数据科学平台,可与 Oracle Autonomous AI Lakehouse 一起使用,利用仓库的处理能力大规模构建、训练、测试和部署机器学习模型,而无需将数据移出仓库。

Oracle Cloud Infrastructure AI 服务是一组服务,可提供专门构建和训练的预构建模型,以执行推断潜在异常或检测情绪等任务。

部署

GitHub 中提供了此参考架构的 Terraform 代码。只需单击一下即可将代码提取到 Oracle Cloud Infrastructure Resource Manager 中,然后创建堆栈并进行部署。或者,您也可以使用 Terraform CLI 将代码从 GitHub 下载到计算机、定制代码并部署体系结构。
  • 使用 Oracle Cloud Infrastructure Resource Manager 部署:
    1. Click 部署到 Oracle Cloud

      如果您尚未登录,请输入租户和用户身份证明。

    2. 复核并接受条款和条件。
    3. 选择要在其中部署堆栈的区域。
    4. 按照屏幕上的提示和说明创建堆栈。
    5. 创建堆栈后,单击 Terraform 操作,然后选择计划
    6. 等待作业完成,然后复查计划。

      要进行任何更改,请返回到“堆栈详细信息”页,单击编辑堆栈,然后进行所需的更改。然后,再次运行计划操作。

    7. 如果不需要进一步更改,请返回到“堆栈详细信息”页,单击 Terraform 操作,然后选择应用
  • 使用 Terraform CLI 部署:
    1. 转至 GitHub
    2. 将系统信息库克隆或下载到本地计算机。
    3. 按照 README 文档中的说明进行操作。

确认

  • Author: José Cruz
  • Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies

更改日志

此日志列出了重大更改: