Oracle® ZFS Storage Appliance 管理指南,发行版 2013.1.5.0

退出打印视图

更新时间: 2016 年 2 月
 
 

群集优点和缺点

了解 Oracle ZFS Storage Appliance 群集实施的范围非常重要。“群集”一词在业内用于指用途多种多样的多项不同技术。本文中的群集指这样一种元系统:由两个设备机头和共享存储组成,用于在其中一个机头发生某些硬件或软件故障的情况下提高可用性。一个群集只包含两个设备或存储控制器,为简洁起见,本文档中通篇将其称为机头。可以从群集可用的资源集合中为每个机头分配一组存储、网络和其他资源,以便构建两个主要拓扑之一。许多人使用主动-主动一词描述这样一种群集:包含两个(或更多)存储池,为每个机头分配其中一个存储池以及客户机用于连接到该池中所存储数据的网络资源。而主动-被动是指将单个存储池以及关联的网络接口分配给指定为主动的机头。这两个拓扑都受 Oracle ZFS Storage Appliance 支持。两者之间的区别是人为的,没有软件或硬件差别,只需添加或销毁存储池即可随意转换。在这两种情况下,如果一个机头发生故障,另一个(其对等设备)将控制所有已知资源,并提供与这些资源关联的服务。

通过群集,对等设备可在执行修复或更换时提供服务,而不会在修复机头时停机数小时甚至数天时间。此外,群集还支持软件的滚动升级,这样可减少迁移到较新的软件时对业务的中断。除可用性增强之外,一些群集技术还具备某些其他功能。Oracle ZFS Storage Appliance 群集子系统目的并不在于提供这些功能。特别需要指出的是,它不具备以下功能:在多个机头之间实现负载平衡、在发生存储故障时提高可用性、为客户机提供多个设备之间统一的文件系统名称空间,或为了灾难恢复目的而在广泛的地理区域内划分服务职责。这些功能同样不在本文档论述范围之内,但是 Oracle ZFS Storage Appliance 和它提供的数据协议支持可提高可用性的多种其他功能和策略:

  • 数据的复制,可用于一个或多个远程站点(从地理位置上讲)的灾难恢复

  • 数据的客户端镜像,可使用多个任意位置的存储服务器提供的冗余 iSCSI LUN 执行

  • 负载平衡,内置到 NFS 协议中,可由外部硬件或软件为其他某些协议提供(仅适用于只读数据)

  • 冗余硬件组件,包括电源、网络设备和存储控制器

  • 故障管理软件,可识别发生故障的组件、将其从服务中删除,以及指导技术人员修复或更换适当的硬件

  • 由 LACP 和 IPMP 功能提供的网络结构冗余

  • 冗余存储设备 (RAID)

有关其他可用性功能的其他信息可在本文档相应章节中找到。

在群集与单机 Oracle ZFS Storage Appliance 配置之间选择时,权衡群集操作的利与弊非常重要。整个 IT 行业的常见做法是将群集视为自动化架构决策,但这种想法反映了该领域内某些供应商推崇的群集风险和回报理想化的观点。除与第二个机头关联的显著提高的前期和持续硬件与支持成本之外,群集还具有其他技术和操作风险。其中某些风险可通过确保对所有人员进行有关群集操作的全面培训来减轻,而其他一些则是群集操作概念固有的风险。此类风险包括:

  • 接管期间应用程序可能无法容忍依赖于协议的行为

  • 群集软件自身可能会发生故障或导致另一个子系统发生故障,这种情况在单机操作中不会发生

  • 提高管理复杂性以及执行管理任务时操作员出错的可能性

  • 多种故障或严重的操作员错误可能会导致数据丢失或损坏,这种情况在单机配置中不会发生

  • 增加从意外的软件和/或硬件状态恢复的难度

这些是基本的成本和风险,以某种形式存在于市场上所有群集产品或支持群集的产品(包括 Oracle ZFS Storage Appliance)中,无法减轻或完全消除。存储架构师必须将其与群集的以下主要优势进行权衡:发生相当少见的灾难性硬件或软件故障事件时,可将不可用期限从数小时或数天缩短到几分钟甚至更短时间。这种成本/优势分析是否表明在 Oracle ZFS Storage Appliance 部署中使用群集更有利取决于一些局部因素,例如 SLA 条款、现有支持人员及其资格、预算限制、认为发生各种可能故障的可能性,以及增强可用性的备选策略的适用性。这些因素高度依赖于站点、应用和业务,必须逐个进行评估。了解本节中其余部分的内容有助于您在设计和实施统一存储基础结构期间做出适当的选择。