基于云的数据湖的建议模式
根据您的用例,可以在对象存储或 Hadoop 上构建数据湖。两者均可扩展,并与现有的企业数据和工具无缝集成。考虑组织的字段或迁移模式。选择 Greenfield 或 Migration 模式,具体取决于您是制定全新的实施计划,还是要将现有 Big Data 解决方案迁移到 Oracle Cloud。
以下工作流根据您的要求显示建议的模式。

插图 data-lake-solution-pattern.png 的说明
注意:
在本文档中,我们重点讲解了大数据一体机 (BDA) 和 Big Data Cloud Services (BDCS) 集群如何基于 Hadoop (CDH) 的 Cloudera Distribution 将 OCI 迁移到 OCI。但是,此处的建议适用于其他内部部署和云 Hadoop 分发。
在 Oracle Cloud 上构建新数据平台 (Greenfield)
您可以在 Oracle Cloud 中为 Greenfield 项目构建数据湖的两个选项。将 Big Data Service(大数据服务) (BDS) 用于基于 HDFS 的数据湖。无需使用 HDFS,即可将 OCI 云原生数据服务用于基于对象存储的数据湖。
云原生数据服务
在 OCI 对象存储中构建数据湖,并使用云原生数据和 AI 服务。这些服务包括数据流、数据集成、Autonomous Data Warehouse、数据目录和数据科学以及一些其他服务。
Oracle 建议使用以下服务来构建新的数据湖:
- 对象存储作为数据存储,适用于各种原始数据
- Spark 批处理和临时 Spark 集群的数据流服务
- 数据集成服务,用于摄取数据和 ETL 作业
- 用于提供和显示层数据的 Autonomous Data Warehouse (ADW)
- 用于数据搜索和监管的数据目录
Oracle 建议使用以下附加服务来构建新的数据湖:
- 流处理服务,提供托管的实时数据摄取
- 用于一次性批量传输数据的数据传输设备 (Data Transfer Appliance, DTA) 服务
- 用于更改数据捕获 (CDC) 数据和流分析的 GoldenGate 服务
- 数据科学服务,满足机器学习需求
- 针对 BI、分析和报告需求的 Oracle Analytics Cloud (OAC) 服务
大数据服务
使用 Oracle Big Data Service (BDS) 在 HDFS 中构建数据湖。BDS 提供了最常用的 Hadoop 组件,包括 HDFS、Hive、HBase、Spark 和 Oozie。
Oracle 建议以下服务使用 Hadoop 集群构建新数据湖:
- 数据集成服务,用于摄取数据和 ETL 作业
- 用于一次性批量传输数据的数据传输设备 (Data Transfer Appliance, DTA) 服务
- 用于 CDC 数据和流分析的 GoldenGate 服务
- 用于数据搜索和监管的数据目录服务
- 数据科学服务,满足机器学习需求
- 针对 BI、分析和报告需求的 OAC 服务
- 适用于 HDFS 和其他 Hadoop 组件的 BDS
在 Oracle Cloud 上迁移现有数据平台
重建模式
如果您不想使用 Hadoop 集群并希望在 Oracle Cloud Infrastructure (OCI) 中迁移到云原生服务,请使用“重建”模式。从一块干净的斜杠开始设计,然后在 OCI 中从头开始实施。将托管的云原生服务应用于体系中的所有主要组件。例如,使用数据流、数据目录、数据集成、流式处理、数据科学、ADW 和 OAC 构建堆栈。
Oracle 建议将这些服务迁移到没有 Hadoop 集群的基于云的数据湖:
- 对象存储服务作为数据存储,适用于各种原始数据
注意:
可以将对象存储与 HDFS 连接器配合使用,将其作为 HDFS 存储(代替 Hadoop 或 Spark 集群中的 HDFS)。 - 数据集成服务,用于摄取数据和 ETL 作业
- 流式处理服务,支持托管式摄取实时数据,从而取代自主管理的 Kafka 或 Flume 服务
- 数据传输设备可一次性批量传输数据
- GoldenGate,用于 CDC 数据和流分析
- Spark 批处理和临时 Spark 集群的数据流服务
- 提供和表示层数据的 ADW
- 用于数据搜索和监管的数据目录服务
- 数据科学服务,满足机器学习需求
- 针对 BI、分析和报告需求的 OAC 服务
重新平台模式
如果您想要在云中使用 Hadoop 集群并将某些组件替换为云原生服务,请使用重新平台迁移模式。将 Big Data Service(大数据服务)用于 HDFS 和其他 Hadoop 组件,然后使用其他托管云原生服务重新设计堆栈的一部分。
您可能需要重新设计堆栈以使用重新平台模式。
- 在 OCI 中包含无服务器云原生服务以及 BDS
- 尽可能利用托管云原生服务
您可以根据需要替换其中的某些组件。
- 适用于 HDFS 和其他 Hadoop 组件(例如 Hive、HBase、Kafka 和 Oozie)的 BDS
- 数据集成服务,用于摄取数据和 ETL 作业
- 用于一次性批量传输数据的数据传输设备服务
- 用于 CDC 数据和流分析的 GoldenGate 服务
- 用于数据搜索和监管的数据目录服务
- 数据科学服务,满足机器学习需求
- 针对 BI、分析和报告需求的 OAC 服务
重新主机模式
迁移 BDA、BDCS 和其他 Hadoop 集群,使用 Big Data Service (BDS) 在 HDFS 中构建数据湖。使用重新主机模式时,可以使用升降和移位方法。BDS 提供的托管 Hadoop 集群中提供了所有常用的 Hadoop 组件,包括 HDFS、Hive、HBase、Spark 和 Oozie。
迁移模式工作流
将数据湖迁移到 Oracle Cloud 时,请按照此工作流的要求切换到新环境。
- 搜索和要求:搜索并编目当前系统,列出新的 OCI 环境的要求
- 评估:评估所需的 OCI 服务和工具
- 设计:为 OCI 设计解决方案体系结构和大小
- 计划:创建时间与资源的详细计划映射
- 预配:在 OCI 中预配和配置必需资源
- 迁移数据:将数据与元数据传输到选定的 OCI 服务数据存储中
- 迁移负载:使用您选择的迁移模式将负载和应用迁移到 OCI 服务
- 实现管道自动化:为自动化编排和调度工作流管道
- 测试和验证:为最终 OCI 环境规划功能测试和性能测试与验证
- 剪切:关闭源环境,然后切换到仅使用基于 OCI 的新环境