数据平台 - 具有复杂集成的数据仓库
企业应用数据通常分布在企业中的多个系统中,难以通过集成和分析来获得具体可行的洞察。
此参考架构提供了一种框架,可用于利用其他来源的原始数据扩充企业应用数据,以及使用机器学习模型对业务流程提供智能和预测性洞察。
此参考架构将技术解决方案定位到整体业务环境中:
随着部门将多个数据源的数据整合到数据集市中以获得有针对性的洞察,企业数据仓库必须发生变化并相应适应变化,以便能够利用可用的数据集和其他结构化和非结构化源。
数据仓库将分析工作量与事务工作量分开,并允许组织整合来自若干源的数据。这有助于以面向业务的格式查询和分析历史数据,以便保留对事务系统的更改。利用稀有数据进行机器学习和预测分析是将智能融入业务流程的关键。智能业务流程有助于主动管理关键业务事件,例如将合适的产品推荐给适当的客户,或检测潜在的欺诈事件。
体系结构
此架构收集并组合应用数据,以便分析和机器学习提供具体可行的洞察。
oci-polyglot-architecture-oracle.zip
下图显示了使用最佳实践将上述体系结构映射到 Oracle Cloud Infrastructure (OCI) 上提供的服务。
oci-polyglot-physical-arch-oracle.zip
该体系结构侧重于以下逻辑分部:
- 摄取、转换
摄取并细化要在体系结构的每个数据层中使用的数据。
- 持久、轮廓、创建
便于访问和导航数据,以显示当前和历史业务视图。它包含原始数据以及粒度和聚合的曲线数据。对于关系技术,数据可以是逻辑的,也可以是物理结构化的,格式为简单的关系、纵向、维度或 OLAP 表单。对于非关系数据,此层包含一个或多个数据池,可以是分析进程的输出,也可以是针对特定分析任务优化的数据。
- 分析、学习、预测
抽象使用者数据的逻辑业务视图。此抽象有助于敏捷开发方法、迁移到目标架构以及从多个联合来源提供单一报告层。
该体系结构包含以下组件:
- 批提取
批量摄取对于无法实时摄取或无法适应实时摄取的数据非常有用。数据转换成可靠、值得信赖的信息也是非常重要的,这些信息可以被卷曲并持久保存,以便定期使用。您可以将以下服务单独使用,以实现高度灵活、高效的数据集成和转换工作流。
-
Oracle Cloud Infrastructure Data Integration is a fully managed, serverless, cloud-native service that extracts, loads, transforms, cleanses, and reshapes data from a variety of data sources into target Oracle Cloud Infrastructure services, such as Autonomous Data Warehouse and Oracle Cloud Infrastructure Object Storage. ETL (extract transform load) leverages fully-managed scale-out processing on Spark, and ELT (extract load transform) leverages full SQL push-down capabilities of the Autonomous Data Warehouse in order to minimize data movement and to improve the time to value for newly ingested data. Users design data integration processes using an intuitive, codeless user interface that optimizes integration flows to generate the most efficient engine and orchestration, automatically allocating and scaling the execution environment. Oracle Cloud Infrastructure Data Integration provides interactive exploration and data preparation and helps data engineers protect against schema drift by defining rules to handle schema changes.
-
Oracle 数据转换基于可以从 Oracle Autonomous Database 数据库操作 (Data Studio) 部署的 Oracle Data Integrator (ODI) 集成工具。它可为构建、部署和管理复杂数据仓库提供一个完全统一的解决方案,也可作为 SOA 或商务智能环境中以数据为中心的体系结构的一部分。此外,它还组合了数据集成、数据移动、数据同步、数据质量和数据管理的所有元素,以确保复杂系统中的信息及时、准确且一致。
Oracle Data Integrator 提供全面的数据集成,包括大批量和高性能的批处理加载,到事件驱动的 trickle-feed 集成流程,再到支持 SOA 的数据服务。声明性设计方法可确保更快、更简便的开发和维护,并提供独特的提取负载平衡 (ELT) 方法,帮助您保证数据转换和验证流程性能尽可能高。Oracle 数据转换使用 Web 界面简化 ELT 的配置和执行,并帮助用户使用声明性设计方法构建和调度数据和工作流。
根据具体用例,这些组件可以独立使用,也可以一起使用来实现高度灵活、高性能的数据集成和转换。
-
-
实时摄取
Oracle Cloud Infrastructure GoldenGate 是一项完全托管的服务,它利用 GoldenGate CDC 技术实时、大规模地捕获数据和交付到 Oracle Autonomous Data Warehouse,以便向消费者提供相关信息,从而允许他们从内部部署或任何云中提取数据。
- Autonomous Data Warehouse
Oracle Autonomous Data Warehouse 是一种针对数据仓库负载进行了优化的自治驱动、自治安全、自治修复的数据库服务。您不需要配置或管理任何硬件,也不需要安装任何软件。Oracle Cloud Infrastructure 处理数据库创建以及备份、修补、升级和优化数据库。
位于对象存储中的批量或冷存储数据可以与仓库数据作为外部表和混合分区表进行联接。
Autonomous Data Warehouse 可以使用以前存储在数据目录中的元数据创建外部表,还可以自动将数据目录中的元数据更新与外部表定义同步,以保持一致性、简化管理和减少工作量。
此外,数据湖加速器是 Oracle Autonomous Database 的一个组件,它能够无缝使用对象存储数据,扩展处理以提供快速查询,根据需要自动缩放数据库计算实例,并通过从数据库计算实例隔离对象存储查询来减少对数据库负载的影响。
- 对象存储
通过对象存储,可以快速访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及图像和视频等丰富内容。您可以安全可靠地存储数据,然后直接从互联网或云平台检索数据。您可以无缝扩展存储,而不会性能或服务可靠性降低。对需要快速、立即和频繁访问的“热”存储使用标准存储。对您长时间保留的“冷”存储使用归档存储,并且很少或很少访问。
- 分析
Oracle Analytics Cloud 是一个可扩展、安全的公共云服务,可为您、您的工作组和您的企业提供一组完整的功能来浏览和执行协作分析。它支持市民数据科学家、高级业务分析师培训和机器学习 (ML) 模型。机器学习模型可以在分析服务上执行,也可以直接在 Oracle Autonomous Data Warehouse 作为 OML 嵌入式模型执行,从而利用仓库的处理能力、可扩展性和弹性进行大规模的批量预测。
借助 Oracle Analytics Cloud,您还可以获得灵活的服务管理功能,包括快速设置、轻松扩展和打补丁以及自动化生命周期管理。
-
机器学习
Oracle Machine Learning 提供了紧密集成在 Oracle Autonomous Database 中的强大机器学习功能,并支持 Python 和 AutoML。它支持使用开源和可扩展的数据库内算法来减少数据准备和移动的模型。AutoML 通过使用自动算法选择、自适应数据采样、自动功能选择和自动模型调优,帮助数据科学家更快地实现公司的机器学习计划价值。
借助 Oracle Autonomous Data Warehouse 中提供的 Oracle Machine Learning 服务,您不仅可以管理模型,而且还可以将这些模型部署为 REST 端点,以便在公司内实现实时预测的民主化,从而允许企业在发生相关事件时而不是事后作出反应。
-
数据科学 100Matched
数据科学为数据科学团队提供基础设施、开源技术、库、程序包和数据科学工具,以便在 Oracle Cloud Infrastructure 中构建、训练和管理机器学习 (ML) 模型。协作式和项目驱动的工作区可提供端到端的统一用户体验,并支持预测模型的生命周期。
数据科学模型部署功能允许数据科学家将训练有素的模型部署为完全托管的 HTTP 端点,这些端点可以实时提供预测,将智能融入流程和应用,并允许企业在发生相关事件时响应。
- 数据目录
Oracle Cloud Infrastructure 数据目录提供了元数据和元数据属性等技术资产的可见性,允许您维护映射到该技术元数据的业务词汇表。Oracle Cloud Infrastructure 数据目录还向 Autonomous Data Warehouse 提供元数据,以便于在数据仓库中创建外部表。
建议
可将以下建议作为起点来收集和组合应用数据,用于分析和机器学习。
您的要求可能与此处介绍的体系结构有所不同。
- Oracle Autonomous Data Warehouse
此体系结构对共享基础结构使用 Oracle Autonomous Data Warehouse。启用自动扩展,使数据库负载的处理能力达到三次。
如果您希望在公有云上运行的专用数据库云环境中,可以考虑在专用基础设施上使用 Oracle Autonomous Data Warehouse。
请考虑使用 Autonomous Data Warehouse 的混合分区表功能,以获取不经常使用且您不需要相同性能的数据。使用此功能,您可以将数据分区移动到对象存储,然后将分区与存储在 Autonomous Data Warehouse 中的分区结合使用,以便实现无缝传送。
考虑使用外部表功能实时使用存储在对象存储中的数据,而无需将其复制到 Autonomous Data Warehouse。这允许数据仓库使用受限数据,而不考虑格式(parquet、avro、orc、json、csv 等)。
在使用对象存储数据时,可以考虑使用数据池加速器,从而为用户提供更出色、更快速的用户体验,并在数据仓库和数据资源池之间联接数据。
- Oracle Machine Learning 和 Oracle Cloud Infrastructure 数据科学模型部署
此体系结构利用 Oracle Machine Learning 和 Oracle Cloud Infrastructure Data Science 实时运行预测,以便为人员和应用程序提供结果。
如果合作伙伴和外部实体正在使用实时预测来保护和控制已部署模型的消耗,请考虑部署 API 网关。
- 数据目录
要全面、全面的平台上存储和流式数据端到端视图,不仅要考虑对支持数据持久性层的数据存储进行收集,还要考虑源数据存储进行收集。通过将此收集的技术元数据映射到业务词汇表并使用自定义属性进行扩充,您可以映射业务概念并记录和监管安全性和访问定义。
为了便于在 Autonomous Data Warehouse 中创建虚拟化存储在对象存储中的数据的外部表,请利用以前收集的 Oracle Cloud Infrastructure 数据目录中存储的元数据。这简化了外部表的创建,增强了数据存储中元数据的一致性,并且不太容易导致人为错误。
考虑事项
收集和组合应用程序数据和流式事件数据以进行分析和机器学习时,请考虑以下实施选项。
指南 | 数据葡萄园 | 数据持久性平台 | 访问和解释 |
---|---|---|---|
推荐 |
|
|
|
其他选项 |
|
Oracle Exadata Database Service | 第三方工具 |
原理 |
Oracle Cloud Infrastructure Data Integration 提供了一个云原生、无服务器、完全托管的 ETL 平台,该平台可扩展且经济高效。 Oracle Cloud Infrastructure GoldenGate 提供了一个云原生、无服务器、完全托管且非侵入式数据复制平台,该平台可扩展、经济高效,并且可以部署在混合环境中。 |
Oracle Autonomous Data Warehouse 是一个简单易用的完全自治数据库,可弹性扩展,具有出色的查询性能,且无需管理数据库。还可以使用外部或混合分区表直接访问对象存储中的数据。 Oracle Cloud Infrastructure Object Storage 以原始格式存储无限制数据。 |
Oracle Analytics Cloud 是完全托管且与 Oracle Autonomous Data Warehouse 中的受限数据紧密集成的。 Oracle Cloud Infrastructure 数据科学是一个完全托管的自助平台,可供数据科学团队在 Oracle Cloud Infrastructure 中构建、训练和管理机器学习 (ML) 模型。数据科学服务提供了基础设施和数据科学工具,例如 AutoML 和模型部署功能。 Oracle Machine Learning 是一个完全托管的自助平台,它支持 Autonomous Data Warehouse(自治数据仓库)提供的数据科学,它利用仓库的处理能力大规模构建、训练、测试和部署 ML 模型,而无需将数据移到仓库外。 |
部署
GitHub 上提供了此引用体系结构的 Terraform 代码。只需单击一下即可将代码拉入 Oracle Cloud Infrastructure Resource Manager,创建堆栈并部署它。或者,将代码从 GitHub 下载到您的计算机,定制代码并使用 Terraform CLI 部署代码。
- 使用 Oracle Cloud Infrastructure Resource Manager 部署:
- 使用 Terraform CLI 部署:
- 转到 GitHub。
- 将代码下载或克隆到本地计算机。
- 按照自述文件中的说明进行操作。