选择解决方案模式时的注意事项
在云中实施数据湖时,请考虑向 Oracle Cloud 迁移当前数据湖的建议设计模式。
准备迁移项目
将数据迁移到 Oracle Cloud 时,您应该规划项目和人员配备。在选择解决方案模式之前,收集有关网络和存储的信息并衡量优势和劣势。为迁移范围内的系统和应用程序创建高级说明。
根据您的环境、时间表和团队的技能水平考虑我们的建议。
计划项目和范围。确定您的项目团队,包括项目经理、应用程序所有者、大数据工程师、面向基础设施和安全性的 OCI 工程师和开发人员。确保包括应用程序开发人员、性能和测试工程师。确定关键日期和项目里程碑。
使用以下示例创建系统和应用程序的高级说明。
组件 | 说明 |
---|---|
大数据设备 (BDA) |
运行具有 CDH 分发功能的 BDA 设备 24 节点 BDA(6 个开发工具,6 个 DR,12 个产品)
|
使用情况 |
|
环境 |
生产、开发、灾难恢复 |
解决方案组件 |
|
网络和存储的注意事项
在规划数据湖迁移时,请收集有关所有网络和存储资产的信息,并确定将数据迁移到 OCI 的最合适方法。
下表提供了 OCI 的数据迁移选项的一般高级指导。
迁移源 | 数据卷 < 1 TB | 数据卷介于 1 和 50 TB 之间 | 数据卷 > 50 TB |
---|---|---|---|
大数据一体机 (BDA) 或内部部署自我管理的 Hadoop 集群 |
硬件 VPN 隧道 (如果 FastConnect 不可用) |
FastConnect(首选) 如果带宽 > 100 Mbps,可以使用硬件 VPN 隧道 |
数据传输设备 |
Big Data Cloud Service (BDCS) | 软件 VPN 隧道 |
根据组织要求和约束,选择其中一个选项。数据传输所需的时间取决于您选择的迁移方法。
- 对于通过单个数据传输设备进行脱机传输,一次至多可以传输 150 TB 数据,每个数据传输作业可以部署多个设备。包括发运时间,迁移需要几天才能完成。
-
对于使用 VPN 隧道或 FastConnect 通过互联网进行的在线数据传输,可以使用此公式获取所需的大致时间:
Number of days = (Total Bytes)/(Megabits per second * 125 * 1000 * Network Utilization * 60 seconds * 60 minutes * 24 hours)
使用此公式,通过 1 Gbps FastConnect 连接的网络利用率高达 50 TB 数据,数据传输将在 6 天内完成。如果配置了 FastConnect,也可以使用 FastConnect 来支持更低的卷。对于 10 Gbps FastConnect,时间将是 1/10。
- 对于通过 10 Mbps 连接和 80% 的网络利用率传输 1 TB 的 VPN 隧道,数据传输需要 13 天左右的时间。或者,如果网络连接低于此连接或者不是很可靠,请使用数据传输设备。
下表根据连接带宽以及数据集大小,对 OCI 的大致数据上载时间进行了估计。
数据集大小 | 10 Mbps | 100 Mbps | 1 Gbps | 10 Gbps | 数据传输服务 |
---|---|---|---|---|---|
10 TB | 92 天 | 9 天 | 22 小时 | 2 小时 | 1 周 |
100 TB | 1,018 天 | 101 天 | 10 天 | 24 小时 | 1 周 |
500 TB | 5,092 天 | 509 天 | 50 天 | 5 天 | 1 周 |
1 PB | 10,185 天 | 1,018 天 | 101 天 | 10 天 | 2 周 |
设计解决方案体系结构
在计划解决方案模式时,请先考虑下表中的优缺点,然后再做决策。
解决方案模式 | 优点 | 缺点 |
---|---|---|
云原生 (Greenfield) |
|
|
大数据服务 (Greenfield) |
|
|
重建(迁移) |
|
|
重新平台(迁移) |
|
|
Rehost (Migration) |
|
|
解决方法模式选择的复核标准
当您决定最适合组织的模式时,请考虑这些标准。考虑以下标准:相对现代化程度、投资回报率 (ROI) 和总拥有成本 (TCO) 节省、实施轻松性和持续时间、持续成本、运营效率、弹性、可扩展性、可用性和对现有代码的相对更改。
下表列出了一些高级别标准,以帮助您确定哪些模式符合组织的需要。
解决方案模式 | 现代化的相对度 | 保存 ROI 和 TCO 的相对潜力 | 相对易于实施和持续时间 | 相对持续成本节省、运营效率 | 相对弹性、可扩展性和可用性 | 相对于现有代码和工作流的更改 |
---|---|---|---|---|---|---|
云原生 (Greenfield) | 高(最佳) | 高(最佳) | 中(更好) | 高(最佳) | 高(最佳) | 不适用 |
大数据服务 (Greenfield) | 中(更好) | 中(更好) | 中(更好) | 中(更好) | 中(更好) | 不适用 |
重建(迁移) | 高(最佳) | 高(最佳) | 低(良好) | 高(最佳) | 高(最佳) | 高(良好) |
重新平台(迁移) | 中(更好) | 中(更好) | 中(更好) | 中(更好) | 中(更好) | 中(更好) |
Rehost (Migration) | 低(良好) | 低(良好) | 高(最佳) | 低(良好) | 低(良好) | 低(最佳) |
Oracle 建议使用最符合您需求的模式,具体取决于您的环境要求、时间表和团队技能。
在为组织决定最合适的解决方案时,请考虑以下几点。
- 许多客户在采用云的过程中使用了多种模式。
- 实际分级取决于特定的客户环境和用例。
- 没有一种符合客户需求的模式。
- 其他标准包括客户偏好、专业知识和独特要求。