选择解决方案模式时的注意事项

在云中实施数据湖时,请考虑向 Oracle Cloud 迁移当前数据湖的建议设计模式。

准备迁移项目

将数据迁移到 Oracle Cloud 时,您应该规划项目和人员配备。在选择解决方案模式之前,收集有关网络和存储的信息并衡量优势和劣势。为迁移范围内的系统和应用程序创建高级说明。

根据您的环境、时间表和团队的技能水平考虑我们的建议。

计划项目和范围。确定您的项目团队,包括项目经理、应用程序所有者、大数据工程师、面向基础设施和安全性的 OCI 工程师和开发人员。确保包括应用程序开发人员、性能和测试工程师。确定关键日期和项目里程碑。

使用以下示例创建系统和应用程序的高级说明。

组件 说明
大数据设备 (BDA)

运行具有 CDH 分发功能的 BDA 设备

24 节点 BDA(6 个开发工具,6 个 DR,12 个产品)

  • 2 个 22 核 Xeon
  • 2x40 IB,4x10 以太网
  • 96 TB 磁盘和 256 GB RAM
使用情况
  • 300TB HDFS(每天 500 GB)
  • CPU 30%
  • 1 TB RAM
  • 在线 24x7
环境

生产、开发、灾难恢复

解决方案组件
  • Hive
  • HBase
  • HDFS
  • Spark (Scala)
  • Kerberos 和 Active Directory
  • Sqoop
  • Oozie
  • 分析:OBIEE
  • 用于连接到外部源的 JDBC 驱动程序

网络和存储的注意事项

在规划数据湖迁移时,请收集有关所有网络和存储资产的信息,并确定将数据迁移到 OCI 的最合适方法。

下表提供了 OCI 的数据迁移选项的一般高级指导。

迁移源 数据卷 < 1 TB 数据卷介于 1 和 50 TB 之间 数据卷 > 50 TB
大数据一体机 (BDA) 或内部部署自我管理的 Hadoop 集群

硬件 VPN 隧道

(如果 FastConnect 不可用)

FastConnect(首选)

如果带宽 > 100 Mbps,可以使用硬件 VPN 隧道
数据传输设备
Big Data Cloud Service (BDCS) 软件 VPN 隧道

根据组织要求和约束,选择其中一个选项。数据传输所需的时间取决于您选择的迁移方法。

  • 对于通过单个数据传输设备进行脱机传输,一次至多可以传输 150 TB 数据,每个数据传输作业可以部署多个设备。包括发运时间,迁移需要几天才能完成。
  • 对于使用 VPN 隧道或 FastConnect 通过互联网进行的在线数据传输,可以使用此公式获取所需的大致时间:

    Number of days = (Total Bytes)/(Megabits per second * 125 * 1000 * Network Utilization * 60 seconds * 60 minutes * 24 hours)

    使用此公式,通过 1 Gbps FastConnect 连接的网络利用率高达 50 TB 数据,数据传输将在 6 天内完成。如果配置了 FastConnect,也可以使用 FastConnect 来支持更低的卷。对于 10 Gbps FastConnect,时间将是 1/10。

  • 对于通过 10 Mbps 连接和 80% 的网络利用率传输 1 TB 的 VPN 隧道,数据传输需要 13 天左右的时间。或者,如果网络连接低于此连接或者不是很可靠,请使用数据传输设备。

下表根据连接带宽以及数据集大小,对 OCI 的大致数据上载时间进行了估计。

数据集大小 10 Mbps 100 Mbps 1 Gbps 10 Gbps 数据传输服务
10 TB 92 天 9 天 22 小时 2 小时 1 周
100 TB 1,018 天 101 天 10 天 24 小时 1 周
500 TB 5,092 天 509 天 50 天 5 天 1 周
1 PB 10,185 天 1,018 天 101 天 10 天 2 周

设计解决方案体系结构

在计划解决方案模式时,请先考虑下表中的优缺点,然后再做决策。

解决方案模式 优点 缺点
云原生 (Greenfield)
  • 您可以过渡到现代和面向未来的堆栈
  • 不少正在进行的操作和管理开销
  • 大多数客户的最高投资回报 (ROI) 和最低成本选项
  • 在需要您自己实施某些组件的功能上,可能会存在一些差异
  • 与其他一些模式相比,执行所需的工作更多
大数据服务 (Greenfield)
  • 利用托管数据和 AI 服务降低成本和运营开销,让您受益匪浅
  • 在您迁移到 Oracle Cloud 时,可以作为长期和短期的解决方案运行
  • 与其他一些模式相比,执行所需的工作更多
重建(迁移)
  • 您可以过渡到现代和面向未来的堆栈
  • 不少正在进行的操作和管理开销
  • 大多数客户的 ROI 和最低成本选项
  • 在可能要求您自己实施某些组件的功能方面,可能会有一些不足之处
  • 与其他一些模式相比,执行所需的工作更多
重新平台(迁移)
  • 利用托管数据和 AI 服务降低成本和运营开销,让您受益匪浅
  • 作为长期解决方案以及您迁移到 Oracle Cloud 的短期解决方案而有效
  • 与其他一些模式相比,执行所需的工作更多
Rehost (Migration)
  • 功能中断最小
  • 从使用角度看没有新知识
  • 您的运营和支持责任得到了提升
  • 现有许可可能无效

解决方法模式选择的复核标准

当您决定最适合组织的模式时,请考虑这些标准。考虑以下标准:相对现代化程度、投资回报率 (ROI) 和总拥有成本 (TCO) 节省、实施轻松性和持续时间、持续成本、运营效率、弹性、可扩展性、可用性和对现有代码的相对更改。

下表列出了一些高级别标准,以帮助您确定哪些模式符合组织的需要。

解决方案模式 现代化的相对度 保存 ROI 和 TCO 的相对潜力 相对易于实施和持续时间 相对持续成本节省、运营效率 相对弹性、可扩展性和可用性 相对于现有代码和工作流的更改
云原生 (Greenfield) 高(最佳) 高(最佳) 中(更好) 高(最佳) 高(最佳) 不适用
大数据服务 (Greenfield) 中(更好) 中(更好) 中(更好) 中(更好) 中(更好) 不适用
重建(迁移) 高(最佳) 高(最佳) 低(良好) 高(最佳) 高(最佳) 高(良好)
重新平台(迁移) 中(更好) 中(更好) 中(更好) 中(更好) 中(更好) 中(更好)
Rehost (Migration) 低(良好) 低(良好) 高(最佳) 低(良好) 低(良好) 低(最佳)

Oracle 建议使用最符合您需求的模式,具体取决于您的环境要求、时间表和团队技能。

在为组织决定最合适的解决方案时,请考虑以下几点。

  • 许多客户在采用云的过程中使用了多种模式。
  • 实际分级取决于特定的客户环境和用例。
  • 没有一种符合客户需求的模式。
  • 其他标准包括客户偏好、专业知识和独特要求。