了解如何在 Oracle Cloud 中设计数据湖
OCI 提供了一个强健、全面的基础设施、云平台数据和 AI 服务组合,可用于访问、存储和处理来自任何来源的各种数据类型。OCI 支持您在云中实施端到端的企业级数据和 AI 架构。此解决方案手册概述了有助于在 OCI 上构建和处理数据池的关键服务。您还可以了解其他可用服务,并根据我们查看的一些模式和专家指导来设计数据湖解决方案。
体系结构
此架构将数据湖和数据仓库的能力相结合,可以处理各种类型的企业数据资源中的数据。使用此架构可在 OCI 中设计端到端的数据湖架构。
此图显示了 Oracle 数据和 AI 服务的高级体系结构。

插图 data-lakes.png 的说明
在此体系结构中,数据将进入以下阶段:
- 数据葡萄园
嵌入并调整数据,以便在体系结构的每个数据层中使用。
- 数据持久性和处理(递归信息层)
便于访问和导航数据,以显示当前业务视图。对于关系技术,数据可能以逻辑或物理方式以简单的关系、纵向、维度或 OLAP 表单进行组织。对于非关系数据,此层包含一个或多个数据池,可以是分析进程的输出,也可以是针对特定分析任务优化的数据。
- 访问和解释
提取使用者的数据的逻辑业务视图。此抽象有助于敏捷开发、迁移到目标体系结构以及从多个联合源提供单个报告层。
此体系结构具有以下组件:
- 大数据服务
Oracle Big Data Service (BDS) 是完全托管的自动化云服务,它为集群提供 Hadoop 环境。BDS 可以让客户轻松部署各种规模的 Hadoop 集群,并简化 Hadoop 集群在高可用性和安全性的过程。根据 Oracle 的优秀实践,BDS 可实现高可用性和安全性,同时减少对 Hadoop 高级技能的需求。BDS 提供常用 Hadoop 组件,让企业能够轻松将负载迁移到云,并确保与内部部署解决方案兼容。
Oracle Cloud SQL 是一项可用的附加服务,可帮助客户对 HDFS、Kafka 和 Oracle 对象存储中的数据启动 Oracle SQL 查询。任何用户、应用或分析工具都可以与数据存储协同工作,从而尽可能减少数据移动和加快查询速度。BDS 可与数据集成、数据科学和分析服务进行互操作,让开发人员能够使用 Oracle SQL 轻松访问数据。企业可以消除数据孤岛,确保数据湖不会与其他企业数据源隔离。
- 数据目录
Oracle Cloud Infrastructure 数据目录是适用于您的企业数据的完全托管的自助数据发现和监管解决方案。数据目录对于组织的搜索和查找要分析的数据的能力至关重要。它们可以帮助数据专业人员发现数据并支持数据治理。
使用数据目录作为单个协作式环境管理技术、业务和运营元数据。您可以从各种受支持数据源获取技术元数据,这些数据源可以使用公共或专用 IP 地址进行访问。您可以组织、查找、访问、了解、扩充和激活此元数据。利用按需或基于计划的自动收集功能,确保数据目录始终具有最新信息。学生将受益于 Oracle Cloud 的所有安全性、可靠性、性能和规模。
-
数据流
Oracle Cloud Infrastructure Data Flow 是用于运行 Apache Spark 应用程序的完全托管服务。数据流应用程序是可重用模板,由 Spark 应用程序、其依赖项、默认参数和默认运行时资源规范组成。您可以通过 API 网关和可用功能管理数据流和应用开发生命周期的所有方面,使用 REST API 跟踪和执行 Apache Spark 作业。
数据流允许开发人员专注于应用开发,从而支持快速交付应用。它提供日志管理和运行时环境来执行应用程序。您可以通过用户界面集成应用程序和工作流以及访问 API。无需设置基础设施、集群预配、软件安装、存储和安全性。
- Autonomous Data Warehouse
Oracle Autonomous Data Warehouse 是一种针对数据仓库负载进行了优化的自治驱动、自治安全、自治修复的数据库服务。您不需要配置或管理任何硬件,也不需要安装任何软件。Oracle Cloud Infrastructure 处理数据库创建以及备份、修补、升级和优化数据库。
- 数据集成
Oracle Cloud Infrastructure 数据集成是一项完全托管的无服务器云服务,可用于摄取和转换数据以便进行数据科学和分析。数据集成支持 Oracle 数据流设计器,将复杂的数据提取、转换和加载流程 (ETL/E-LT) 简化为数据科学和分析工作的仓库。它提供了基于规则的集成流,可帮助您避免集成流中断,并随着数据模式的发展减少维护。
-
数据科学 100Matched
Oracle Cloud Infrastructure 数据科学是一个完全托管的无服务器平台,让数据科学家可以在 Oracle Cloud Infrastructure 上构建、训练和管理机器学习模型。数据科学家可以使用 Oracle 为自动化机器学习 (AutoML) 增强的 Oracle 加速数据科学 (ADS) 库、模型评估以及模型说明。
ADS 是一个 Python 库,包含一组全面的数据连接,让数据科学家能够访问和使用来自多个不同数据存储的数据来生成更好的模型。ADS 库支持 Oracle 自己的 AutoML 以及开源工具,例如 H2O.ai 和 Auto-Sklearn。
数据科学家和基础设施管理员可以在 OCI 上轻松部署数据科学模型,作为 Oracle Functions 是一种高度可扩展的按需和无服务器架构。团队成员可以使用模型目录来保留和共享已完成的机器学习模型以及重现、测试和部署这些模型所需的工件。
关于数据湖
数据湖是一个可扩展的集中式资料档案库,它可以存储原始数据,并使企业能够将其所有数据存储在经济高效的弹性环境中。数据湖为存储原始数据提供了灵活的存储机制。要使数据湖有效,组织必须审查其特定的治理需求、工作流和工具。围绕这些核心元素构建一个强大的数据湖,可以无缝集成到现有架构中并轻松将数据连接到用户。
- 利用分析和机器学习加快决策
- 为数据科学家、分析师和开发人员收集和挖掘大数据
要使存储在数据湖中的非结构化数据非常有用,必须进行处理并准备进行分析。如果您缺少大量的数据工程资源,这通常很有挑战性。
下面列出了维护内部部署数据池的技术难题。
- 前期成本和缺乏灵活性:当组织构建自己的内部部署基础设施时,他们必须规划、采购和管理硬件基础设施、启动服务器以及处理停机和停机时间。
- 持续维护成本:在运营内部部署数据湖时,大多数数据湖显示在 IT 和工程成本中,组织必须考虑持续维护成本。这还包括底层硬件和软件基础结构的打补丁、维护、升级和支持成本。
- 缺乏敏捷性和管理任务:IT 组织必须预配资源,大规模处理不均衡的负载,跟上快速变化的社区驱动的开源软件创新的步伐。
- 构建数据管道的复杂性:数据工程师必须处理集成各种工具以摄取、组织、预处理或编排批量 ETL 作业以及查询湖中存储的数据的复杂性。
-
可扩展性和优化资源利用率:随着用户群的增长,组织必须手动管理资源利用率并创建额外服务器来按需扩展。Hadoop 和 Spark 的大多数内部部署直接将计算和存储资源绑定到创建灵活模型的同一服务器。
下面列出了将您的数据湖迁移至云的业务优势。
- Lower engineering costs and managed services: Build preintegrated data pipelines more efficiently with cloud-based tools and reduce data engineering costs. Transfer scaling management to your cloud provider using cloud services such as Object Storage and Autonomous Data Warehouse (ADW) that provide transparent scaling. You don't need to add machines or manage clusters on cloud-based data lakes.
- 利用 Agile 基础设施和最新技术:通过灵活、敏捷和按需云基础设施为新用例设计数据湖。您可以快速升级到新技术,并在新的云服务推出后添加新的云服务,而无需重新设计您的架构。