基于云的数据湖的建议模式

根据您的用例,可以在对象存储或 Hadoop 上构建数据湖。两者均可扩展,并与现有的企业数据和工具无缝集成。考虑组织的字段迁移模式。选择 Greenfield 或 Migration 模式,具体取决于您是制定全新的实施计划,还是要将现有 Big Data 解决方案迁移到 Oracle Cloud。

以下工作流根据您的要求显示建议的模式。

以下是 data-lake-solution-pattern.png 的说明
插图 data-lake-solution-pattern.png 的说明

注意:

在本文档中,我们重点讲解了大数据一体机 (BDA) 和 Big Data Cloud Services (BDCS) 集群如何基于 Hadoop (CDH) 的 Cloudera Distribution 将 OCI 迁移到 OCI。但是,此处的建议适用于其他内部部署和云 Hadoop 分发。

在 Oracle Cloud 上构建新数据平台 (Greenfield)

您可以在 Oracle Cloud 中为 Greenfield 项目构建数据湖的两个选项。将 Big Data Service(大数据服务) (BDS) 用于基于 HDFS 的数据湖。无需使用 HDFS,即可将 OCI 云原生数据服务用于基于对象存储的数据湖。

云原生数据服务

在 OCI 对象存储中构建数据湖,并使用云原生数据和 AI 服务。这些服务包括数据流数据集成Autonomous Data Warehouse数据目录数据科学以及一些其他服务。

Oracle 建议使用以下服务来构建新的数据湖:

  • 对象存储作为数据存储,适用于各种原始数据
  • Spark 批处理和临时 Spark 集群的数据流服务
  • 数据集成服务,用于摄取数据和 ETL 作业
  • 用于提供和显示层数据的 Autonomous Data Warehouse (ADW)
  • 用于数据搜索和监管的数据目录

Oracle 建议使用以下附加服务来构建新的数据湖:

  • 流处理服务,提供托管的实时数据摄取
  • 用于一次性批量传输数据的数据传输设备 (Data Transfer Appliance, DTA) 服务
  • 用于更改数据捕获 (CDC) 数据和流分析的 GoldenGate 服务
  • 数据科学服务,满足机器学习需求
  • 针对 BI、分析和报告需求的 Oracle Analytics Cloud (OAC) 服务

大数据服务

使用 Oracle Big Data Service (BDS) 在 HDFS 中构建数据湖。BDS 提供了最常用的 Hadoop 组件,包括 HDFS、Hive、HBase、Spark 和 Oozie。

Oracle 建议以下服务使用 Hadoop 集群构建新数据湖:

  • 数据集成服务,用于摄取数据和 ETL 作业
  • 用于一次性批量传输数据的数据传输设备 (Data Transfer Appliance, DTA) 服务
  • 用于 CDC 数据和流分析的 GoldenGate 服务
  • 用于数据搜索和监管的数据目录服务
  • 数据科学服务,满足机器学习需求
  • 针对 BI、分析和报告需求的 OAC 服务
  • 适用于 HDFS 和其他 Hadoop 组件的 BDS

Greenfield 模式工作流

构建新数据湖时,请按照要求通过测试和验证执行以下工作流:

  1. 要求:列出 OCI 中新环境的要求
  2. 评估:评估所需的 OCI 服务和工具
  3. 设计:为 OCI 设计解决方案体系结构和大小
  4. 计划:创建时间与资源的详细计划映射
  5. 预配:在 OCI 中预配和配置必需资源
  6. 实施:实施数据和应用负载
  7. 实现管道自动化:为自动化编排和调度工作流管道
  8. 测试和验证:对端到端解决方案执行验证、功能和性能测试

在 Oracle Cloud 上迁移现有数据平台

您可以将现有 BDA、BDCS 和其他 Hadoop 集群从内部部署环境或云环境迁移到 Oracle Cloud Infrastructure (OCI)。选择以下已否决的迁移模式之一:重新构建、恢复平台或重新主机,将现有 Hadoop 集群迁移到基于 Oracle 云的数据池。

重建模式

如果您不想使用 Hadoop 集群并希望在 Oracle Cloud Infrastructure (OCI) 中迁移到云原生服务,请使用“重建”模式。从一块干净的斜杠开始设计,然后在 OCI 中从头开始实施。将托管的云原生服务应用于体系中的所有主要组件。例如,使用数据流数据目录数据集成、流式处理、数据科学、ADW 和 OAC 构建堆栈。

Oracle 建议将这些服务迁移到没有 Hadoop 集群的基于云的数据湖:

  • 对象存储服务作为数据存储,适用于各种原始数据

    注意:

    可以将对象存储与 HDFS 连接器配合使用,将其作为 HDFS 存储(代替 Hadoop 或 Spark 集群中的 HDFS)。
  • 数据集成服务,用于摄取数据和 ETL 作业
  • 流式处理服务,支持托管式摄取实时数据,从而取代自主管理的 Kafka 或 Flume 服务
  • 数据传输设备可一次性批量传输数据
  • GoldenGate,用于 CDC 数据和流分析
  • Spark 批处理和临时 Spark 集群的数据流服务
  • 提供和表示层数据的 ADW
  • 用于数据搜索和监管的数据目录服务
  • 数据科学服务,满足机器学习需求
  • 针对 BI、分析和报告需求的 OAC 服务

重新平台模式

如果您想要在云中使用 Hadoop 集群并将某些组件替换为云原生服务,请使用重新平台迁移模式。将 Big Data Service(大数据服务)用于 HDFS 和其他 Hadoop 组件,然后使用其他托管云原生服务重新设计堆栈的一部分。

您可能需要重新设计堆栈以使用重新平台模式。

  • 在 OCI 中包含无服务器云原生服务以及 BDS
  • 尽可能利用托管云原生服务

您可以根据需要替换其中的某些组件。

  • 适用于 HDFS 和其他 Hadoop 组件(例如 Hive、HBase、Kafka 和 Oozie)的 BDS
  • 数据集成服务,用于摄取数据和 ETL 作业
  • 用于一次性批量传输数据的数据传输设备服务
  • 用于 CDC 数据和流分析的 GoldenGate 服务
  • 用于数据搜索和监管的数据目录服务
  • 数据科学服务,满足机器学习需求
  • 针对 BI、分析和报告需求的 OAC 服务

重新主机模式

迁移 BDA、BDCS 和其他 Hadoop 集群,使用 Big Data Service (BDS) 在 HDFS 中构建数据湖。使用重新主机模式时,可以使用升降和移位方法。BDS 提供的托管 Hadoop 集群中提供了所有常用的 Hadoop 组件,包括 HDFS、Hive、HBase、Spark 和 Oozie。

迁移模式工作流

将数据湖迁移到 Oracle Cloud 时,请按照此工作流的要求切换到新环境。

  1. 搜索和要求:搜索并编目当前系统,列出新的 OCI 环境的要求
  2. 评估:评估所需的 OCI 服务和工具
  3. 设计:为 OCI 设计解决方案体系结构和大小
  4. 计划:创建时间与资源的详细计划映射
  5. 预配:在 OCI 中预配和配置必需资源
  6. 迁移数据:将数据与元数据传输到选定的 OCI 服务数据存储中
  7. 迁移负载:使用您选择的迁移模式将负载和应用迁移到 OCI 服务
  8. 实现管道自动化:为自动化编排和调度工作流管道
  9. 测试和验证:为最终 OCI 环境规划功能测试和性能测试与验证
  10. 剪切:关闭源环境,然后切换到仅使用基于 OCI 的新环境