数据平台 - Data Lakehouse
您可以从物联网 (IoT) 和社交媒体来源有效收集和分析事件数据和流数据,但如何将其与各种企业数据资源关联起来,以利用您的投资并获得所需的洞察?
利用结合了数据湖和数据仓库功能的云数据湖仓一体来处理各种企业和流数据,以便进行业务分析和机器学习。
此参考架构将技术解决方案定位在整体业务环境中,战略意图将推动可衡量的战略成果的创建。这些结果会产生新的战略意图,从而有效地提供持续、数据驱动的业务改进。
利用数据湖,企业可以在经济高效的弹性环境中存储所有数据,同时提供必要的处理、持久性和分析服务来发现新的业务洞察。数据湖存储和整理结构化和非结构化数据,并提供组织来自多个来源的大量高度多样化数据的方法。
使用数据仓库,您可以在将数据提交到仓库之前执行数据转换和清理。借助数据湖,您可以快速摄取数据,并在人们访问数据湖时实时准备数据。数据湖支持运营报告和业务监视,需要立即访问数据并进行灵活的分析,以了解业务正在发生的情况。
功能体系结构
您可以结合数据湖和数据仓库的功能,提供一个现代数据湖仓一体平台,该平台处理来自各种企业数据资源的流和其他类型的数据,以便您可以利用这些数据进行业务分析、机器学习、数据服务和数据产品。
数据湖仓一体架构结合了数据湖和数据仓库的功能,可提高运营效率并提供增强功能,从而实现:
- 无缝使用数据和信息,无需在数据湖和数据仓库中复制
- 在增强的多模型和多语言架构中支持多种数据类型
- 使用实时、流处理、批量、应用编程接口 (API) 和批量摄取机制,从任何消费者无缝摄取数据
- 使用人工智能 (AI)、生成式 AI 和机器学习 (ML) 服务从数据中连续提取智能
- 通过 API、用户界面、流处理和集成机制,向任何数据使用者提供智能信息并提供智能服务
- 利用零信任安全模型的监管和细粒度数据安全性
- 能够完全分离存储和计算资源,并且只在任意时间点消耗所需的资源
- 利用多个计算引擎(包括开源引擎)处理不同用例的相同数据,以实现最大程度的数据重用、流动性和使用
- 支持使用不同的打开文件和表格式在数据湖中存储数据
- 利用由 Oracle 管理并降低运营开销的 Oracle Cloud Infrastructure (OCI) 原生服务
- 自动缩放功能可根据实际需求调整云资源基础设施,从而提高云经济性
- 模块化,使服务使用由用例驱动
- 与符合开放标准的任何系统或云的互操作性
- 支持各种用例,包括流处理、分析、数据科学和机器学习
- 支持各种架构方法,从集中式湖仓一体到分散式数据网格
下图说明了功能体系结构。
lakehouse-functional-oracle.zip
该体系结构侧重于以下逻辑划分:
- 连接、摄取、转换
连接到数据源、摄取和优化其数据,以便在体系结构中的每个数据层中使用。
- 持续、整理、创建
便于访问和导航数据以显示当前业务视图。对于关系技术,数据可以逻辑或物理结构化为简单的关系、纵向、维或 OLAP 形式。对于非关系数据,该层包含一个或多个数据池,可以是分析过程的输出,也可以是针对特定分析任务优化的数据。
- 分析、学习、预测
抽象消费者的数据的逻辑业务视图。此抽象有助于敏捷开发方法、迁移到目标架构以及从多个联合源提供单个报告层。
该体系结构具有以下功能组件:
- 批量摄取
批量摄取对于无法实时摄取或成本过高以至于无法适应实时摄取的数据非常有用。将数据转换为可靠且值得信赖的信息也很重要,这些信息可以进行整理并持久保存以供经常使用。您可以结合使用或独立使用以下服务,以实现高度灵活、高效的数据集成和转换工作流。
-
Oracle Cloud Infrastructure Data Integration 是一项完全托管的无服务器云原生服务,可将各种数据源中的数据提取、加载、转换、清理和重塑为目标 Oracle Cloud Infrastructure 服务,例如 Autonomous Data Warehouse 和 Oracle Cloud Infrastructure Object Storage 。用户可以使用直观、无代码的用户界面设计数据集成流程,优化集成流以生成高效的引擎和编排,并自动分配和扩展执行环境。
ETL(提取转换负载)利用 Spark 上的完全托管的横向扩展处理,ELT(提取负载转换)利用 Autonomous Data Warehouse 的完整 SQL 下推功能,以尽可能减少数据移动并缩短新摄取数据的价值实现时间。
Oracle Cloud Infrastructure Data Integration 提供交互式探索和数据准备,通过定义规则来处理模式更改,帮助数据工程师防范模式偏差。
-
Oracle Data Integrator 提供全面的数据集成,从大批量、高性能的批量加载到事件驱动、小费式集成流程到支持 SOA 的数据服务。声明式设计方法可确保更快、更简单的开发和维护,并提供提取负载转换 (ELT) 的独特方法,有助于确保数据转换和验证流程实现最高级别的性能。Oracle 数据转换使用 Web 界面简化 ELT 的配置和执行,并使用声明式设计方法帮助用户构建和调度数据及工作流。
-
Oracle 数据转换使用 Web 用户界面对所选受支持的技术启用 ELT,从而简化数据管道的配置和执行,用户可以使用该界面以声明方式构建和调度数据流和工作流。Oracle Data Transforms 作为 Oracle Autonomous Data Warehouse (ADW) 中的全托管环境提供,可将数据从多个数据源加载和转换到 ADW 实例。
根据用例,这些组件可以单独使用或一起使用,以实现高度灵活和高性能的数据集成和转换。
-
- 基于 API 的摄取
利用基于 API 的摄取,应用和系统可以使用 API 或 Webhook 来推送事件数据。
-
Oracle Integration 是一个完全托管的预配置环境,可用于集成云和内部部署应用、自动执行业务流程以及开发可视化应用。它使用符合 SFTP 标准的文件服务器来存储和检索文件,并允许您通过使用数百个适配器和配方组合来与 Oracle 和第三方应用进行连接,从而与企业对企业贸易合作伙伴交换文档。
-
使用 Oracle Cloud Infrastructure API Gateway ,您可以发布具有可从网络内访问的专用端点的 API,并根据需要向公共互联网公开这些 API。这些端点支持 API 验证、请求和响应转换、CORS、验证和授权以及请求限制。
通过 OCI API 网关,API 可以监视使用情况并保证 SLA。使用计划还可以用于监视和管理 API 使用者与客户端,以及为不同客户设置不同的 API 访问层。使用计划是支持数据货币化的关键功能。
使用计划通过创建分层使用计划来管理 API 使用者和客户端并跟踪其数据使用情况,从而支持数据货币化。
-
Oracle Cloud Infrastructure Functions 是一个完全托管的多租户、高度可扩展的按需函数即服务 (FaaS) 平台。它由 Fn Project 开源引擎提供支持。使用函数可以部署代码,也可以直接调用代码或触发代码以响应事件。Oracle Functions 使用 Oracle Cloud Infrastructure Registry 中托管的 Docker 容器。
-
Oracle REST Data Services (ORDS) 是一款 Java 应用,任何具备 SQL 和数据库技能的开发人员都可以使用它为 Oracle Database 开发 REST API。任何应用开发人员都可以在任何语言环境中使用这些 API,而无需安装和维护客户端驱动程序,就像使用广泛使用的 API 技术 REST 访问其他外部服务一样。
ORDS 作为完全托管的功能部署在 Oracle Autonomous Data Warehouse 中,可用于通过使用 API 向数据使用者公开数据湖仓一体信息。
-
-
实时摄取
Oracle Cloud Infrastructure GoldenGate 是一项完全托管的服务,支持从内部部署或任何云端的源摄取数据。它利用 GoldenGate CDC 技术实时、大规模地捕获和交付 Oracle Autonomous Data Warehouse 、Oracle Cloud Infrastructure Object Storage 或 Oracle Cloud Infrastructure Streaming 的非侵入式高效数据,从而尽可能快速地为消费者提供相关信息。
- 批量转移
通过批量传输,您可以使用不同的方法移动大量批量数据。对于大型数据湖仓一体,我们建议使用 Oracle Cloud Infrastructure FastConnect 和数据传输服务。
-
Oracle Cloud Infrastructure FastConnect 提供了一种在您的数据中心与 Oracle Cloud Infrastructure 之间创建专用私有连接的简便方式。与基于 Internet 的连接相比,FastConnect 提供了更高的带宽选项和更可靠的网络体验。
- 借助 Oracle Cloud Infrastructure (OCI) 命令行界面 (command line interface,CLI),您可以利用 Oracle Cloud Infrastructure FastConnect 专用线路执行数据从内部部署到 OCI 的自动传输。OCI SDK 支持您编写代码,以利用各种编程语言(例如 Python、Java 或 Go)将本地部署或从其他云端的数据和文件复制到 Oracle Cloud Infrastructure Object Storage 。REST API 允许您与 OCI 服务进行接口和控制,例如使用对象存储服务 API 将数据移动到对象存储。
- Oracle Cloud Infrastructure 数据传输是一项脱机数据迁移服务,可让您安全地将 PB 级数据集从数据中心迁移到 Oracle Cloud Infrastructure Object Storage 或 Archive Storage。由于公共互联网成本高、网络连接不可靠、传输时间长以及安全问题,使用公共互联网将数据迁移到云并非始终可行。数据传输服务克服了这些难题,并且能够显著缩短将数据迁移到云所花费的时间。可通过磁盘或设备进行数据传输。选择一个传输设备主要取决于数据量,而数据传输设备支持每个设备更大的数据集。
-
- 流摄取
OCI 原生服务支持流摄取,支持从一组广泛的数据生成器实时摄取大规模数据集。流摄取会永久保留并同步对象存储中的数据,对象存储是数据湖仓一体的核心。通过将数据同步到对象存储,您可以保存可以整理和进一步转换的历史数据,以提取有价值的洞察。
-
Oracle Cloud Infrastructure Streaming 提供了一个完全托管、可扩展且持久的存储解决方案,可以摄取连续的大量数据流,以便您实时使用和处理。流处理可以用于消息传递、大容量应用日志、运行状况遥测、Web 点击流数据,或者其他发布 - 订阅消息传递模式使用场景,在这些场景中,数据是连续生成和处理的。数据将同步到 Oracle Cloud Infrastructure Object Storage ,并且可以进行整理和进一步转换,以提取有价值的洞察。
-
Oracle Cloud Infrastructure Queue 是一项完全托管的无服务器服务,可帮助分离系统并启用异步操作。队列处理需要独立处理的消息的大量事务数据,而不会丢失或重复。
-
Oracle Cloud Infrastructure Service Connector Hub 是一个云消息总线平台,提供单一平台,用于描述、执行和监视 Oracle Cloud Infrastructure 中服务之间的数据移动。对于此特定参考架构,它将用于将数据从 Oracle Cloud Infrastructure Streaming 或 OCI Queue 移动到 Oracle Cloud Infrastructure Object Storage ,以将原始和准备好的数据持久化到数据湖仓一体层。
-
-
流处理
流处理可扩充流数据,检测事件模式,并创建保存在数据湖仓一体中的另一组流。
-
Oracle Cloud Infrastructure GoldenGate Stream Analytics 使用复杂的关联模式、数据扩充和机器学习来处理和分析大规模的实时信息。用户可以通过实时图表、地图和可视化来探索实时数据,并且无需手动编码即可以图形方式构建流式管道。这些管道在完全托管且可扩展的服务中执行,以解决现代企业的关键实时用例。
-
Oracle Cloud Infrastructure Data Flow 是一项完全托管的大数据服务,支持您运行 Apache Spark 和 Spark Streaming 应用,而无需部署或管理基础设施。它可以帮助您更快地交付大数据和 AI 应用,因为您可以专注于您的应用而无需管理运营。数据流应用程序是可重用的模板,由 Spark 应用程序及其依赖项、默认参数和默认运行时资源规范组成。
-
- 开源生态系统
您可以使用开源生态系统:
- 利用多种常用的开源引擎(例如 Hadoop、Spark、Flink 或 Trino)进行批处理和流处理
- 借助 Oracle Cloud Infrastructure Streaming ,无论是生产者还是消费者
- 借助 Oracle Cloud Infrastructure Object Storage ,它可以持久保存数据并使用数据
您可以使用 Oracle Cloud Infrastructure Object Storage 作为数据湖来保存要在不同时间在不同 Oracle Cloud Infrastructure 服务之间共享的数据集。
大数据服务可以按需预配完全配置、安全、高可用性和专用 Hadoop、Spark 或 Flink 集群等技术。使用一系列 Oracle Cloud Infrastructure 计算配置来扩展集群以适应您的大数据和分析工作负载,这些配置支持从小型测试和开发集群到大型生产集群的所有功能。无论是基于指标还是按计划,均可利用自动缩放配置来快速调整业务需求并优化成本。利用集群概要信息为特定工作负载或技术创建最佳集群。 - 批处理
批处理转换存储在数据湖仓一体中的大型数据集。批处理利用 Oracle Cloud Infrastructure 原生服务与 Oracle Cloud Infrastructure Object Storage 无缝集成,并允许您为数据聚合和扩充、数据仓库摄取以及机器学习和 AI 数据等用例创建精选数据。
-
Oracle Cloud Infrastructure Data Integration 是一款完全托管的无服务器云原生服务,可将各种数据源中的数据提取、加载、转换、清理和重塑为目标 Oracle Cloud Infrastructure 服务,例如 Autonomous Data Warehouse 和 Oracle Cloud Infrastructure Object Storage 。
-
Oracle Cloud Infrastructure Data Flow 是一项完全托管的大数据服务,支持您运行 Apache Spark 和 Spark Streaming 应用,而无需部署或管理基础设施。它可以帮助您更快地交付大数据和 AI 应用,因为您可以专注于您的应用而无需管理运营。数据流应用程序是可重用的模板,由 Spark 应用程序及其依赖项、默认参数和默认运行时资源规范组成。
-
Oracle Data Transforms 可为选定的受支持技术启用提取加载转换 (Extract-load-transform,ELT),使用 Web 用户界面以声明方式构建和调度数据流和工作流,从而简化数据管道的配置和执行。Oracle Data Transforms 作为 Oracle Autonomous Data Warehouse (ADW) 中的全托管环境提供,可将数据从多个数据源加载和转换到 ADW 实例。
根据用例,这些组件可以单独使用或一起使用,以实现高度灵活和高性能的数据处理。
-
- 份量
Oracle Autonomous Data Warehouse 是一个自我驱动、自我保护和自我修复的数据库服务,针对数据仓库工作负载进行了优化。您不需要配置或管理任何硬件,或者安装任何软件。Oracle Cloud Infrastructure 负责创建、备份、打补丁、升级和优化数据库。
预配后,您可以随时扩展数据库的 CPU 核心数或存储容量,而不会影响可用性或性能。
Oracle Autonomous Data Warehouse 还可以将驻留在对象存储中的数据虚拟化为外部和混合分区表,以便您可以将来自其他来源的数据与仓库数据联接并使用这些数据。您还可以将历史数据从仓库移动到对象存储,然后使用混合分区表无缝使用它。
Oracle Autonomous Data Warehouse 可以使用数据目录中存储的以前收集的元数据来创建外部表,并且可以将数据目录中的元数据更新与外部表定义自动同步,以保持一致性、简化管理并减少工作量。
Autonomous Database 支持矢量,因为它是支持多种数据类型的多模型数据库,即关系、JSON、空间和图形。向量数据类型允许加载和存储向量嵌入以及创建向量索引,然后这些向量索引可用于检索增强生成 (Retrieval Augmented Generation,RAG) 应用程序,所有这些都在一个 Autonomous Data Warehouse 云实例中。这种多模型功能支持使用所有数据类型进行分析,这些数据类型可以在单个查询中加入,从而降低每种数据类型拥有专用孤立数据库的复杂性和风险,同时确保提高安全性、可靠性、可扩展性和易于分析所有数据。
选择 Autonomous Database 功能 AI,可使用自然语言查询数据,使用 LLM 将用户的输入文本转换为 Oracle SQL。选择 AI 将处理自然语言提示,使用元数据补充提示,然后生成并运行 SQL 查询。
数据共享是一项 Autonomous Database 功能,支持从使用 Autonomous Database 或符合 Delta-Sharing 技术的其他各方安全地提供和使用数据和元数据。通过数据共享,可以轻松地无缝使用共享提供程序中的数据,即抽象基础共享表的视图。此外,当提供者和接收者都使用 Autonomous Database 时,可以使用允许接收者使用实时和新鲜数据的实时共享资源。
分析视图(Autonomous Database 功能)提供了一种快速高效的方式来创建存储在现有数据库表和视图中的数据分析查询。分析视图使用维模型组织数据。使用它们,可以轻松地将聚合和计算添加到数据集,并在可以使用相对简单的 SQL 查询的视图中呈现数据。此功能允许您使用内部和外部存储的数据直接在 ADW 中对星型或雪花模式进行语义建模,并且允许使用 SQL 和任何符合 SQL 的数据使用者来使用模型。
此外,自治数据湖加速器(Autonomous Data Lake Accelerator,Autonomous Database 的一个组件)可以无缝使用对象存储数据,扩展处理以提供快速查询,根据需要自动缩放数据库计算实例,并通过从数据库计算实例隔离对象存储查询来减少对数据库工作负载的影响。
- 云存储
Oracle Cloud Infrastructure Object Storage 是一个互联网规模的高性能存储平台,可提供可靠且经济高效的数据持久性。Oracle Cloud Infrastructure Object Storage 可以存储任意内容类型的无限制非结构化数据,包括分析数据。您可以安全地存储数据,也可以直接从互联网或云平台检索数据。通过多个管理接口,您可以轻松地从小规模开始并无缝扩展,而不会导致性能或服务可靠性下降。
Oracle Cloud Infrastructure Object Storage 还可以用作数据仓库的冷存储层,存储不经常使用的数据,然后使用 Oracle Autonomous Data Warehouse 中的混合表将其与最新数据无缝连接。
可以使用对象的 IAM 策略来实施对象级别的粒度访问控制,从而提高数据湖直接访问的数据安全性。
- 可视化和学习
Oracle Analytics Cloud 是一种安全、可扩展的公共云服务,提供了一整套功能,可为您、您的工作组和您的企业浏览和执行协作分析。它支持公民数据科学家、高级业务分析师培训和执行机器学习 (ML) 模型。机器学习模型可以直接在分析服务上执行,也可以直接在 Oracle Autonomous Data Warehouse 上作为 OML 嵌入式模型执行,以进行大规模批量预测,从而利用仓库和 OCI AI 服务(例如 Oracle Cloud Infrastructure Vision)的处理能力、可扩展性和弹性。
借助 Oracle Analytics Cloud ,您还可以获得灵活的服务管理功能,包括快速设置、轻松扩展和打补丁以及自动化生命周期管理。
-
学习和预测
-
数据科学为数据科学团队提供基础设施、开源技术、库、程序包和数据科学工具,以在 Oracle Cloud Infrastructure 中构建、训练和管理机器学习 (ML) 模型。协作式和项目驱动的工作区提供端到端的统一用户体验,并支持预测模型的生命周期。借助数据科学,数据科学家和机器学习工程师可以免费直接从 Anaconda Repository 下载和安装程序包,并通过机器学习库的精选数据科学生态系统在项目上进行创新。
借助数据科学作业功能,数据科学家可以在完全托管的基础设施上定义和运行可重复的机器学习任务。
借助数据科学模型部署功能,数据科学家可以将训练的模型部署为完全托管的 HTTP 端点,从而实时提供预测,将智能信息注入流程和应用,并允许企业在相关事件发生时做出响应。
-
Oracle Machine Learning 提供与 Autonomous Database 紧密集成的强大机器学习功能,并支持 Python 和 AutoML。它支持使用开源且可扩展的数据库内算法的模型,从而减少数据准备和移动。AutoML 通过使用自动算法选择、自适应数据采样、自动功能选择和自动模型优化,帮助数据科学家加快机器学习计划的价值。借助 Oracle Autonomous Data Warehouse 中提供的 Oracle Machine Learning 服务,您不仅可以管理模型,还可以将这些模型部署为 REST 端点,以实现公司内部实时预测的民主化,从而使企业能够在相关事件发生时(而不是事后)对相关事件做出反应。
-
- AI 和生成式 AI 服务
Oracle Cloud Infrastructure AI 服务提供一组即用型 AI 服务,可用于支持从文本分析到预测性维护的各种用例。这些服务具有预构建的、经过微调的模型,您可以使用 API 集成到数据管道、分析和应用中。
-
Oracle Cloud Infrastructure Language 可大规模执行复杂的文本分析和翻译。借助预训练和定制模型,开发人员无需具备数据科学专业知识即可处理非结构化文本并提取洞察。执行情感分析、关键短语提取、文本分类、命名实体识别并检测文本中的 PII 数据。针对特定域的任务量身定制模型,轻松跨各种语言翻译文本。Oracle Cloud Infrastructure Language 还支持文档翻译和异步作业,可高效处理大量工作负载。
- Oracle Cloud Infrastructure Speech 可帮助您轻松将包含人类语音的媒体文件转换为高度准确的文本转录,从而发挥口语功能。OCI Speech 可用于转录客户服务电话、自动加字幕以及为媒体资产生成元数据,以创建完全可搜索的归档。OCI 语音支持批量和实时转录作业。
-
OCI Vision 可执行图像识别和视频分析任务,例如对图像进行分类、检测对象和面部以及提取文本。您可以利用预训练模型,也可以为行业和客户特定的场景轻松创建定制视觉模型。OCI Vision 是一项完全托管的多租户原生云服务,可帮助执行所有常见的计算机视觉任务。
- Oracle Cloud Infrastructure Document Understanding 可执行文档分类和文档分析任务,例如提取文本、关键值和表。OCI Document Understanding 服务是一项完全托管的多租户原生云服务,可帮助执行所有常见的文档分析任务。
- Oracle Cloud Infrastructure Generative AI 是一个完全托管的平台,它提供了一组先进、可定制的大型语言模型 (LLM),涵盖了各种用例,包括聊天、文本生成、汇总和创建文本嵌入。在练习场中,您可以试用现成可用的预训练模型,或者根据您自己的数据在专用 AI 集群上创建和托管您自己的优化定制模型。
-
- 数据改进
数据扩充可以改进用于训练机器学习模型的数据,从而实现更好、更准确的预测结果。
使用 Oracle Cloud Infrastructure 数据标签,您可以创建和浏览数据集、查看数据记录(文本或图像)以及应用标签来构建 AI/ML 模型。该服务还提供交互式用户界面,旨在帮助标记过程。对记录进行标记后,可以将数据集导出为行分隔的 JSON,以用于 AI/ML 模型开发。 - 搜索
搜索功能可以用作向最终用户公开数据的补充功能,这些用户需要预先编制索引的运营分析数据,因此延迟较低。
Oracle Cloud Infrastructure Search with OpenSearch 是一个分布式、完全托管、免维护的全文搜索引擎。通过 OpenSearch,您可以快速存储、搜索和分析大量数据,并缩短响应时间。该服务支持开源 OpenSearch API 和 OpenSearch 仪表盘数据可视化。 - 流处理分析
流分析提供了仪表盘,它通过存储在数据湖仓一体中的精选数据和主数据将流数据情景化进行实时分析,以检测随后可为用户、应用和事物提供的关注模式。
Oracle Cloud Infrastructure GoldenGate Stream Analytics 使用复杂的关联模式、数据扩充和机器学习来处理和分析大规模的实时信息。用户可以通过实时图表、地图、可视化图形来探索实时数据,并且无需手动编码即可以图形方式构建流式管道。这些管道在完全托管且可扩展的服务中执行,以解决现代企业的关键实时用例。
- 反向 ETL/回写
反向 ETL(有时称为回写)可以将数据激活到操作系统和设备中,允许将来自数据的智能直接注入用于支持业务流程的应用程序和设备中。
数据使用多种机制提供给消费者,即通过流和队列来支持大量消费者同时提取近乎实时且与之分离的信息。流分析系统通过应用程序或数据集成来通过预构建适配器推送数据,或通过无服务器功能来调用几乎任何应用程序或设备端点,从而提高弹性和可扩展性。
-
Oracle Cloud Infrastructure 流处理服务提供了一个完全托管、可扩展、持久的存储解决方案,可以实时摄取和处理连续的大量数据流。流处理可以用于消息传递、大容量应用日志、运行状况遥测、Web 点击流数据,或者其他发布 - 订阅消息传递模式使用场景,在这些场景中,数据是连续生成和处理的。
-
Oracle Cloud Infrastructure Queue 是一项完全托管的无服务器服务,可帮助分离系统并启用异步操作。队列处理需要独立处理的消息的大量事务数据,而不会丢失或重复。
-
Oracle Integration Cloud 是一个完全托管的预配置环境,它支持集成云和内部部署应用,实现业务流程自动化,开发可视化应用,使用符合 SFTP 的文件服务器存储和检索文件,以及使用数百个适配器和配方组合与 B2B 贸易合作伙伴交换业务文档,以连接到 Oracle 和第三方应用。
-
Oracle 数据转换使用 Web 用户界面对所选受支持的技术启用 ELT,从而简化数据管道的配置和执行,用户可以使用该界面以声明方式构建和调度数据流和工作流。Oracle Data Transforms 作为 Oracle Autonomous Data Warehouse (ADW) 中的全托管环境提供,可将数据从多个数据源加载并转换为 ADW 实例。
-
Oracle Cloud Infrastructure Functions 是一个完全托管、多租户、高度可扩展、按需、功能即服务平台。它基于企业级 Oracle Cloud Infrastructure 构建,由 Fn Project 开源引擎提供支持。
-
- API
通过 API 层,您可以将来自数据科学和 Oracle Machine Learning 的智能信息注入到应用程序、业务流程以及影响和改进其操作和功能的内容中。API 层可安全地使用部署到 Oracle Machine Learning REST 端点的数据科学模型,并支持对系统进行监管,以确保运行时环境的可用性。您还可以利用函数根据需要执行其他逻辑。
-
Oracle Cloud Infrastructure API 网关支持您发布具有可从网络内访问的专用端点的 API,如果您希望它们接受互联网流量,则可以使用公共 IP 地址公开 API。这些端点支持 API 验证、请求和响应转换、CORS、验证和授权以及请求限制。它允许 API 观测来监视使用情况并保证 SLA。使用计划还可以用于监视和管理访问 API 的 API 使用者和 API 客户端,以及为不同客户设置不同的访问层,以便跟踪使用 API 使用的数据使用情况。使用计划是支持数据货币化的关键功能。
-
Oracle Cloud Infrastructure Functions 是一个完全托管的多租户、高度可扩展、按需、功能即服务平台。它基于企业级 Oracle Cloud Infrastructure 构建,由 Fn Project 开源引擎提供支持。
-
Oracle REST Data Services (ORDS) 是一款 Java 应用,支持具备 SQL 和数据库技能的开发人员为 Oracle Database 开发 REST API。任何应用开发人员都可以在任何语言环境中使用这些 API,而不必安装和维护客户端驱动程序,就像他们使用广泛使用的 API 技术 REST 访问其他外部服务一样。ORDS 在 ADW 中作为完全托管的功能部署,可用于通过使用 API 向数据使用者公开湖仓一体信息。
-
- 数据监管
Oracle Cloud Infrastructure Data Catalog 支持您查看元数据和相应属性等技术资产所在的位置,并支持您维护映射到该技术元数据的业务词汇表。数据目录还可以为 Oracle Autonomous Data Warehouse 提供元数据,以方便在数据仓库中创建外部表。
-
数据安全
数据安全性对于充分探索和使用数据湖仓一体数据至关重要。利用具有深度防御和 RBAC 功能的零信任安全模型,并确保遵守最严格的法规,数据安全性提供预防性、检测性和纠正性安全控制,以确保防止数据泄漏和违规。
-
Oracle Data Safe 是一项专注于数据安全的完全集成 Oracle Cloud 服务。它提供一组完整的集成功能,可用于保护 Oracle Cloud 数据库(例如 Oracle Autonomous Data Warehouse )中的敏感数据和受管制数据。功能包括安全评估、用户评估、数据发现、数据屏蔽和活动审计。
-
Oracle Cloud Infrastructure Audit 可帮助您了解与 Oracle Cloud Infrastructure (OCI) 资源和租户相关的活动。审计日志事件可用于安全审计,以跟踪 OCI 资源的使用情况和更改,并有助于确保符合标准和法规。
-
Oracle Cloud Infrastructure Logging 为租户中的所有日志(包括审计日志)提供了一个高度可扩展、完全托管的单一界面。使用 OCI Logging 可以访问所有 OCI 资源的日志,以便您启用、管理和搜索日志。
-
Oracle Cloud Infrastructure Vault 是一项加密管理服务,用于存储和管理加密密钥和密钥,以安全地访问资源。允许客户管理的密钥用于 Oracle Autonomous Data Warehouse 和数据湖加密,从而提高静态数据保护。允许密钥安全地存储服务和用户凭据,以改善您的安全状况,并确保凭据不会被泄露和错误使用。
-
物理体系结构
此数据湖仓的物理体系结构支持以下功能:
- 使用关系数据源和非关系数据源中的微批量、流处理、API 和文件,安全地摄取数据
- 利用 Oracle Cloud Infrastructure Data Integration 和 Oracle Cloud Infrastructure Data Flow 的组合来处理数据
- 数据存储在 Oracle Autonomous Data Warehouse 和 Oracle Cloud Infrastructure Object Storage 中,并根据质量和价值进行组织
- Oracle Autonomous Data Warehouse 可安全地为消费者提供仓库和湖泊数据服务
- Oracle Analytics Cloud 使用可视化向业务用户呈现数据
- Oracle Analytics Cloud 通过使用 Oracle Cloud Infrastructure Load Balancing (由 Oracle Cloud Infrastructure Web Application Firewall (WAF) 保护)来公开,以便通过互联网提供访问
- Oracle Cloud Infrastructure Data Science 用于构建、训练和部署机器学习 (ML) 模型
- 利用 Oracle Cloud Infrastructure API Gateway 管理数据科学机器学习模型部署
- Oracle Cloud Infrastructure Data Catalog 从 Oracle Autonomous Data Warehouse 和对象存储中收集元数据
- Oracle Data Safe 评估数据风险、实施和监视安全控制、评估用户安全性、监视用户活动并满足数据安全合规性要求
- 管理员可使用 Oracle Cloud Infrastructure Bastion 管理私有云资源
下图说明了此引用体系结构。
物理体系结构的设计:
- 利用 2 个 VCN,一个用于集线器,另一个用于工作负载本身
- 本地连接利用 Oracle Cloud Infrastructure FastConnect 和站点到站点 VPN 实现冗余
- 来自内部部署和互联网的所有传入流量首先路由到中心 VCN,然后路由到工作负载 VCN
- 所有数据在传输中和静态都是安全的
- 通过专用端点部署服务来提高安全状况
- VCN 分为多个专用子网以增强安全状况
- 利用奖章架构,数据湖数据在对象存储中划分为多个存储桶
为了简单起见,未在此部署中描述的潜在设计改进包括:
- 利用符合 CIS 的完整着陆区
- 通过检查所有流量和执行策略,利用网络防火墙改善整体安全状况
推荐
使用以下建议作为处理流数据的一个起点,以及用于业务分析和机器学习的各种企业数据资源。
您的要求可能与此处描述的体系结构不同。
- Oracle Autonomous Data Warehouse
此架构在共享基础设施上使用 Oracle Autonomous Data Warehouse 。
- 启用自动缩放,使数据库工作负载的处理能力达到数据库工作负载的三倍。
- 如果您希望在公有云上运行的私有数据库云环境中提供自助数据库功能,请考虑在专用基础设施上使用 Oracle Autonomous Data Warehouse 。
- 考虑使用 Autonomous Data Warehouse 的混合分区表功能将数据分区移至 Oracle Cloud Infrastructure Object Storage 并透明地为用户和应用提供服务。我们建议您使用此功能来处理不经常使用的数据,并且对于这些数据,性能与 Autonomous Data Warehouse 中存储的数据不同。
- 考虑使用外部表功能实时使用存储在 Oracle Cloud Infrastructure Object Storage 中的数据,而无需将其复制到 Autonomous Data Warehouse 。此功能透明且无缝地联接在 Autonomous Data Warehouse 外部精心设计的数据集,而不考虑格式(parquet、avro、orc、json、csv 等),并且数据驻留在 Autonomous Data Warehouse 中。
- 考虑使用数据库内存中功能来显著提高实时分析和混合工作负载的性能。将数据湖仓一体加载到内存中,这些数据需要以低延迟提供,并且驻留在 ADW 内部、混合分区或外部表中。
- 在使用对象存储数据时,请考虑使用自治数据湖加速器,以便为使用和联接数据仓库和数据湖之间的数据的用户提供更好、更快的体验。
- 考虑将向量嵌入与关系数据或 JSON 数据等其他数据类型一起存储在 Autonomous Data Warehouse 中,以简化所有数据的数据工程和分析,并高效地使用所有数据构建 RAG 代理。
- 考虑使用 Select AI 作为加速器来创建简单和复杂的 SQL,这些 SQL 可用于数据工程、商务智能、应用程序开发或需要创建 SQL 的任何任务。
- 考虑将 Select AI 与低代码应用结合使用,以进一步简化应用层。
- 考虑使用分析视图直接在 ADW 中对 DW 星型或雪花底层方案进行语义建模,以便自动聚合粒度数据而无需预先聚合,语义模型通过与任何符合 SQL 的客户端(包括 Oracle Analytics Cloud)一致地使用 SQL 来使用,从而确保事实和 KPI 无论客户端如何,都可以始终如一地提供服务,所有数据都可以在语义模型上使用,无论数据存储在 ADW 中还是对象存储中,这都使此功能成为湖仓一体架构的理想语义建模层,其中事实和维可以遍历 DW 和数据湖。
- 如果由于公司或监管策略而需要完全控制 ADW 加密密钥,请考虑使用客户管理的密钥来利用 Vault 服务。
- 考虑在 ADW 中使用 Database Vault,以防止未经授权的特权用户访问敏感数据,从而防止数据泄露和数据泄露。
- 考虑使用 Autonomous Data Guard 通过在同一区域或另一区域上的备用实例上设置并保留复制的数据来支持业务连续性计划。
- 考虑将动态数据屏蔽与数据编写一起使用,以根据用户的角色为屏蔽数据提供服务,从而确保适当的数据访问,而无需数据复制和静态屏蔽。
- 考虑使用 ADW 克隆快速创建其他瞬态或非瞬态环境。如果目标环境需要具有最新数据,请使用可刷新的克隆。使用 Oracle Data Safe 静态屏蔽克隆中的敏感数据,以提高安全性。
- 可以考虑将数据共享作为一种安全、简单的方式来使用和提供数据,也可以与其他 Autonomous Database 实例或任何符合 Delta Sharing 的技术一起使用。
- 考虑在 Autonomous Database 实例之间使用实时数据共享来实时使用和提供数据。
- 考虑使用版本化数据共享与使用者共享数据。这样可以避免查询数据的成本,因为数据由使用者而不是提供商处理。
- 考虑在 ADW 上使用预先验证的请求 URL 进行只读、有时限的数据访问,以便为使用者不支持 Delta 共享的用例共享非敏感数据。
- 对象存储/数据湖
此架构使用 Oracle Cloud Infrastructure Object Storage (一种高度可扩展的持久性云存储)作为数据湖存储。
- 考虑利用奖章架构(铜牌、银牌、金牌)或其他分区逻辑,跨不同的存储桶组织湖,根据数据的质量和丰富程度来隔离数据,为读取数据的消费者实施细粒度安全性,并将不同的生命周期管理策略应用于不同的层级。
- 您可以考虑使用不同的对象存储层和生命周期策略来优化大规模存储数据湖的成本。
- 如果由于公司或监管策略需要对对象存储加密密钥进行完全控制,请考虑使用客户管理的密钥来利用 Vault 服务。
- 您可以考虑使用对象存储复制,通过设置存储桶复制到其他区域来支持业务连续性计划。由于对象存储具有高持久性,并且在单个区域中维护同一对象的多个副本,因此无需在同一区域复制存储桶。
- 考虑对对象使用 Oracle Cloud Infrastructure Identity and Access Management (IAM) 策略(使用对象名称或模式),从而提高数据湖直接访问的数据安全性。
- 考虑在 Oracle Cloud Infrastructure Object Storage 中使用专用端点,以确保从数据平台 VCN 安全而私密地访问数据湖。
- 请考虑使用网络源和 IAM 策略来引用它们,以管理有权访问数据湖存储桶和对象的 IP 地址。
- 考虑使用基于 python 的实用程序 OCIFS 将 Oracle Cloud Infrastructure Object Storage 存储桶作为文件系统进行挂载,从而支持仅使用 NFS 且需要将文件上载到对象存储的应用程序。
- Oracle Machine Learning 和 Oracle Cloud Infrastructure Data Science
此架构利用 Oracle Machine Learning 和 Oracle Cloud Infrastructure Data Science 实时运行预测并向人员和应用提供预测。
- 考虑在 OCI Data Science 或 Oracle Machine Learning 中使用 AutoML 来加快机器学习模型开发。
- 考虑使用开放神经网络交换 (ONNX) 实现互操作性。ONNX 第三方模型可以部署到 OML 中并作为 REST 端点公开,也可以作为 HTTP 端点公开到 OCI 数据科学中。
- 考虑将 OCI Data Science 中的模型另存为 ONNX,并将其导入 OCI GoldenGate Stream Analytics,前提是需要在实时数据管道中运行评分和预测,以获得更及时的预测,从而推动实时业务成果。
- 考虑使用 OCI Data Science Conda 环境来更好地管理和打包 Jupyter 记事本会话中的 Python 相关项。利用 OCI Data Science 中经过 Anaconda 整理的软件包存储库来使用您喜爱的开源工具来构建、训练和部署模型。
- 考虑使用 Oracle Cloud Infrastructure Data Science AI Quick Actions 在 OCI Data Science 中部署、评估和微调基础模型。使用模型浏览器中提供的精心设计的开源 LLM,或者自带模型。
- 考虑使用 Accelerated Data Science Python 程序包中提供的数据科学低代码 AI 运算符来快速高效地执行预测、异常检测或构建推荐功能。
- 考虑在数据科学 Jupyter 环境中使用 OCI 数据流,以利用 Spark 横向扩展处理大规模执行探索性数据分析、数据分析和数据准备。
- 考虑使用数据标签来标记图像、文本或文档等数据,并使用它来训练基于 OCI 数据科学或 OCI AI 服务构建的机器学习模型,从而提高预测的准确性。
- 考虑部署 API 网关,以便在合作伙伴和外部实体使用实时预测时保护和监管已部署模型的使用。
- Oracle Cloud Infrastructure 数据集成
此架构使用 Oracle Cloud Infrastructure Data Integration 支持声明式、无代码或低代码 ETL 和数据管道开发。
- 利用 Oracle Cloud Infrastructure Data Integration 协调和调度 Oracle Cloud Infrastructure Data Flow 应用程序运行,并将声明式 ETL 与定制 Spark 代码逻辑混合和匹配。使用 Oracle Cloud Infrastructure Data Integration 中的函数进一步扩展数据管道的功能。
- 考虑将 SQL 下推用于将 ADW 作为目标的转换,以使用与 ETL 相比更高效、更高性能和更安全的 ELT 方法。
- 考虑允许 OCI 数据集成处理数据源模式偏差,以获得更具弹性和面向未来的数据管道,从而支持数据源模式更改。
- Oracle Cloud Infrastructure 数据流
此架构使用 Oracle Cloud Infrastructure Data Flow 支持大规模 Spark 和 Spark 流处理,无需拥有和管理永久集群。
- 考虑使用 Oracle Cloud Infrastructure Data Catalog 作为 Oracle Cloud Infrastructure Data Flow 的 Hive Metastore,以安全地存储和检索非结构化和半结构化数据资产(例如 Oracle Cloud Infrastructure Object Storage )中对象的模式定义。
- 如果数据湖数据需要 ACID 事务处理以及流处理和批处理统一,请考虑在 OCI 数据流上使用 Delta Lake。
- 大数据服务
此架构利用 Oracle Cloud Infrastructure Big Data Service 部署高可用性和可扩展的集群,其中包含各种开源技术,例如 Spark、Hadoop、Trino 或 Flink,可处理批处理和流数据。大数据服务在 HDFS 中保存数据,从 Oracle Cloud Infrastructure Object Storage 中保存和读取数据,并且可以将数据集与其他 Oracle Cloud Infrastructure 服务(例如 Oracle Cloud Infrastructure Data Flow 和 Oracle Autonomous Data Warehouse )互换。
- 您可以考虑使用自动缩放来根据指标或计划自动横向或纵向扩展员工节点,从而根据资源需求持续优化成本。
- 考虑使用面向对象存储的 OCI HDFS 连接器向对象存储读取和写入数据,从而提供一种机制来生成/使用与其他 OCI 服务共享的数据,而无需复制和复制数据。
- 如果数据湖数据需要 ACID 事务处理以及流处理和批处理统一,请考虑在 OCI BDS 上使用 Delta Lake。
- 如果您需要使用其他开源软件,请考虑使用 Oracle Cloud Infrastructure Registry 、容器实例或 Oracle Cloud Infrastructure Kubernetes Engine 来部署任何可容器化的开源软件。
- Oracle Cloud Infrastructure 流处理
此架构利用 Oracle Cloud Infrastructure Streaming 来使用来自源的流数据,并为使用者提供流数据。
考虑利用 Oracle Cloud Infrastructure Service Connector Hub 从 Oracle Cloud Infrastructure Streaming 移动数据,并在 Oracle Cloud Infrastructure Object Storage 上持久保存数据,以支持进一步的历史数据分析。
- Oracle Analytics Cloud
此架构利用 Oracle Analytics Cloud (OAC) 为最终用户提供增强分析。
您可以考虑利用 OAC 与 OCI AI 服务(语言和视觉模型)和 OML(任何模型)的预构建集成,将智能嵌入最终用户使用的数据流和可视化,从而使 AI 和机器学习的使用民主化。
- Oracle Cloud Infrastructure AI 服务
此架构可以利用 Oracle Cloud Infrastructure AI 服务,具体取决于部署的用例。
考虑使用数据标签来标记训练数据,这些数据将用于优化和获得更准确的 AI 服务预测,例如 Vision、Document Understanding 和 Language。
- Oracle Cloud Infrastructure Generative AI 服务
此架构可以利用 Oracle Cloud Infrastructure Generative AI 服务,具体取决于部署的用例。
- 您可以考虑使用预训练的 LLM 按需游乐场和 API 来处理文本生成、对话、数据提取、汇总、分类、样式传输或语义相似性,并将生成式 AI 快速嵌入到管道和流程中。
- 考虑使用专用 AI 集群高效地根据数据调整基础 LLM,确保完全隔离和数据安全性。
- 考虑在组织中的不同团队内共享托管专用 AI 集群,以提高成本效率。单个集群可用于托管多个定制模型,所有这些模型都可以与独立端点一起使用,并且可以使用专用 IAM 策略进行保护。
- API 网关
此架构利用 API 网关安全地向数据使用者公开数据服务和实时推断。
- 考虑使用 Oracle Cloud Infrastructure Functions 添加最终所需的运行时逻辑,以支持超出数据处理、访问和解释层的特定 API 处理。
- 考虑使用量计划来管理用户对 API 的访问,监视和管理 API 使用量,为不同使用者设置不同的访问层,并通过跟踪可提供给外部计费系统的使用量度量来支持数据货币化。
- Oracle Cloud Infrastructure 数据目录
要全面地查看平台上存储和流动的数据,不仅要考虑收集支持数据持久性层的数据存储,还要收集源数据存储。将此收集的技术元数据映射到业务词汇表,并使用自定义属性对其进行扩充,从而可以映射业务概念以及记录和管理安全性和访问定义。
- 为了便于创建 Oracle Autonomous Data Warehouse 外部表来虚拟化存储在 Oracle Cloud Infrastructure Object Storage 上的数据,请利用 Oracle Cloud Infrastructure Data Catalog 之前收集的元数据。这样可以简化外部表的创建,强制元数据在数据存储之间保持一致,并且不太容易发生人为错误。
- 考虑使用 Oracle Cloud Infrastructure Data Integration 和 Oracle Cloud Infrastructure Data Flow 的沿袭跟踪来了解数据的摄取、转换和存储方式。为了提高覆盖范围,请使用基于 API 的摄取来利用 OpenLineage 开放框架跟踪任何源和系统的沿袭。
- Oracle Cloud Infrastructure 数据传输服务
无法使用公共 Internet 连接上载数据时,请使用 Oracle Cloud Infrastructure 数据传输服务。如果通过公共互联网上载数据花费超过 1-2 周,我们建议您考虑使用数据传输服务。
- 数据安全和审计
利用审计和警报功能提高安全状况,可以防止数据泄露,并在发生数据泄露时执行取证分析。
- 考虑使用 Oracle Data Safe 来审计数据仓库中的活动,并考虑使用 Oracle Cloud Infrastructure Audit 来审计数据湖数据的流量。
- 考虑使用 Oracle Data Safe 在 ADW 上搜索敏感数据,并在为非生产环境创建 ADW 克隆时静态屏蔽敏感数据,从而避免安全风险。
- 考虑将 Oracle Data Safe SQL 防火墙与 ADW 一起使用,以提高数据安全状况,防范 SQL 注入攻击或账户受损等风险。
- 部署和自动化
此物理体系结构是使用基础设施即代码 (IaC) 自动化来部署的,用于创建用于部署数据湖仓一体的资源
Oracle Cloud Infrastructure Resource Manager 支持您创建可部署云资源的 Terraform 堆栈,共享和管理基础设施配置,以及跨多个团队和平台声明文件。考虑使用 Oracle Cloud Infrastructure Resource Manager 为非生产环境创建部署堆栈,为需要额外服务的新团队上岗,并规范和嵌入符合组织安全和治理定义的策略的一致 IAM 策略和安全护栏。
- 业务连续性
此架构描述了在单个区域中的部署,并且可以扩展两个区域以支持灾难恢复并实现业务连续性计划。
- Oracle Cloud Infrastructure Full Stack Disaster Recovery Service 是一个灾难恢复业务流程和管理服务,可为应用程序堆栈的所有层(包括基础结构、中间件、数据库和应用程序)提供全面的灾难恢复功能。
考虑使用全栈灾难恢复为数据湖仓一体设置切换和故障转移计划,以自动执行灾难恢复任务,并在计划内或计划外转换为备用区域时减少手动步骤。
- 成本优化
您可以考虑使用 Oracle Cloud Infrastructure 成本和使用情况跟踪以及成本优化功能来持续支持财务运营。
- 考虑使用成本和使用情况报告来获取和跟踪云资源使用情况以及相应成本。利用生成的行业标准 FOCUS CSV 成本报告来与第三方财务运营解决方案集成。
- 考虑使用成本分析来跟踪不同团队、项目和环境产生的成本。
- 您可以考虑使用成本跟踪标记对特定团队、项目或环境的云资源进行标记。
- 考虑使用预算设置支出软限制,并设置警报以告知您何时可能超出项目、团队或整体支出的预算。
- 互用性
此架构广泛利用行业标准与任何组织更广泛的 IT 异构环境进行互操作,以便它可以消费任何数据并将其提供给任何应用程序、系统或人员。
该架构支持 Parquet 或 Avro 等开放式文件格式,因此数据可以以更适合每个用例的格式存储。此外,它还支持开放表格式(例如 Iceberg 和 Delta Lake),以确保 Oracle 技术与其他第三方技术之间的互操作性。- 考虑使用 Oracle Autonomous Data Warehouse Iceberg 支持读取数据湖上保留的 Iceberg 表,并将其提供给消费者。Iceberg 表可以充当外部表,也可以加载到 ADW 中。
- 考虑使用数据流 Delta Lake Universal Format 支持读取、处理和保留数据湖中的数据。在生成其他开放表格式(如 Iceberg 和 Hudi)的元数据时,使用 Delta Lake 可允许不同的处理引擎读取相同的数据。
- 组织方法
这种架构是灵活的,可以支持不同类型的组织方法,从集中式方法到完全分散的方法,因此任何想要从数据中提取价值的组织都可以采用和使用。
此架构通过 OCI Identity and Access Management (IAM) 广泛地利用细粒度控制进行身份验证和授权。
考虑使用 IAM 隔离不同业务线和团队,使用数据湖仓一体分散数据产品创建的所有权,并在您的组织希望采用分散的组织方法时强制实施数据域隔离。
OCI 利用 Terraform 和 Ansible 等框架,将自动化和基础设施即代码作为成功的架构部署的关键功能。
如果您的组织正在采用去中心化方法并在该方法下实施数据域,请考虑利用预构建的 terraform 模板和 OCI Resource Manager 来快速、一致地将数据域引入数据平台。
注意事项
在收集、处理和整理应用程序数据以进行分析和机器学习时,请考虑以下实施选项。
指南 | 推荐 | 其他选项 | 原理 |
---|---|---|---|
Data Refinery |
|
|
Oracle Cloud Infrastructure Data Integration 提供可扩展且经济高效的云原生、无服务器、完全托管的 ETL 平台。 Oracle Cloud Infrastructure GoldenGate 提供可扩展、经济高效且可部署在混合环境中的云原生、无服务器、全托管、非侵入式数据复制平台。 |
数据持久性 |
|
Oracle Exadata Database Service |
Oracle Autonomous Data Warehouse 是一个易于使用、完全自治的数据库,它能够弹性扩展、提供快速查询性能,并且无需您执行数据库管理。它还提供了从外部对象存储或混合分区表直接访问数据的功能。 Oracle Cloud Infrastructure Object Storage 以原始格式存储无限数据。 |
数据处理 |
|
第三方工具 |
Oracle Cloud Infrastructure Data Integration 提供可扩展且经济高效的云原生、无服务器、完全托管的 ETL 平台。 Oracle Cloud Infrastructure Data Flow 提供了一个无服务器 Spark 环境,可通过按使用付费、极具弹性的模型大规模处理数据。 Oracle Cloud Infrastructure Big Data Service 提供企业级 Hadoop 即服务,提供端到端安全性、高性能以及易于管理和升级。 |
访问和解释 |
|
第三方工具 |
Oracle Analytics Cloud 完全托管,并与 Oracle Autonomous Data Warehouse 中的精选数据紧密集成。 数据科学是一个完全托管的自助平台,可帮助数据科学团队在 Oracle Cloud Infrastructure 中构建、训练和管理机器学习 (ML) 模型。数据科学服务提供基础设施和数据科学工具,例如 AutoML 和模型部署功能。 Oracle Machine Learning 是一个面向数据科学的全托管自助平台,可与 Oracle Autonomous Data Warehouse 一起使用。该平台利用仓库的处理能力大规模构建、训练、测试和部署机器学习模型,而无需将数据移出仓库。 Oracle Cloud Infrastructure AI 服务是一组服务,提供专门构建和训练的预构建模型,可执行推断潜在异常或检测情绪等任务。 |
部署
- 使用 Oracle Cloud Infrastructure Resource Manager 部署:
- 使用 Terraform CLI 部署:
- 转至 GitHub 。
- 将资料档案库克隆或下载到本地计算机。
- 按照
README
文档中的说明进行操作。
更改日志
此日志列出了重大更改:
2024 年 10 月 28 日 |
|
2023 年 6 月 21 日 |
|