Go to main content

Oracle® ZFS Storage Appliance 管理指南,发行版 OS8.8.0

退出打印视图

更新时间: 2018 年 11 月
 
 

估计和降低接管影响

接管和故障恢复期间有一段时间间隔,在此期间客户机无法访问存储。这段时间间隔的长度因配置而异,并且对客户机的具体影响取决于客户机用于访问数据的协议。是否了解和降低这些影响关乎是成功地部署群集,还是在最糟糕的时刻发生故障而损失大量的资金。

NFS(所有版本)客户机通常不让应用程序软件发现中断,导致 I/O 操作延迟而服务器不可用。NFSv2 和 NFSv3 是无状态协议,在服务恢复后几乎能够立即恢复。NFSv4.0 和 NFSv4.1 在启动时有客户机宽限期,在此期间通常无法执行 I/O。此宽限期的持续时间可在 Oracle ZFS Storage Appliance 中进行调整,缩短这段时间可降低接管和/或故障恢复的明显影响。对于计划内中断,设备为 NFSv4.0 和 NFSv4.1 客户机提供无宽限期恢复,这样可避免宽限期延迟。有关无宽限期恢复的更多信息,请参见NFS 服务属性

图 9  群集宽限期

image:群集宽限期

服务中断期间的 iSCSI 行为取决于启动器,但是如果服务在特定于客户机的超时期限内恢复,启动器通常会恢复。有关其他详细信息,请参见启动器的相关文档。iSCSI 目标通常能够在接管完成后立即提供服务,而不会出现进一步的延迟。

SMB、FTP 和 HTTP/WebDAV 是面向连接的协议。由于与这些服务关联的会话状态无法随底层存储和网络连接传输,因此使用其中一个协议的所有客户机都将在接管或故障恢复期间断开,并且必须在操作完成后重新连接。

尽管有多个因素会影响接管时间(以及与其密切相关的故障恢复时间),但是在大多数配置中,这些时间都由导入磁盘集资源所需的时间控制。每个磁盘集的导入时间范围通常为 15 到 20 秒,总时间与磁盘集数量线性相关。以前读过,磁盘集由一个磁盘机框的一半组成,前提是该一半磁盘机框中的磁盘托架已填充并分配到某个存储池。未分配的磁盘和空磁盘托架对接管时间没有任何影响。导入磁盘集资源所需的时间不受可由管理员调整或更改的任何参数的影响,因此规划群集部署的管理员应执行以下任一操作:

  • 限制安装的存储,以使客户机能够容许相关的接管时间,或者

  • 调整超过预期最长接管时间的客户端超时值。

请注意,尽管磁盘集导入通常占接管时间的一大部分,但是这并不是唯一的因素。池导入过程中,必须重放所有意图日志记录,并且必须通过相应的服务共享每个共享资源和 LUN。对于单个共享资源或 LUN,执行这些活动所需的时间非常少(约几十毫秒),但是如果共享资源数量非常大,这会导致接管时间明显增加。因此,确保共享资源数量相对较少(几千甚至更少)可显著缩短这些时间。

对于任何指定配置,故障恢复时间通常都比接管时间长。这是因为故障恢复操作分为两个步骤:首先源设备导出其不是分配的所有者的所有资源,然后目标设备只对为其自己分配的资源执行标准的接管过程。因此,如果发生了故障,从控制器 A 故障恢复到控制器 B 始终比从控制器 B 接管控制器 A 所需时间长。导出的磁盘集数量对较长的故障恢复时间的决定作用比对接管时间的决定作用小得多,因此确保共享资源和 LUN 数量较少对故障恢复的影响比对接管的影响要大。另请切记,故障恢复始终由管理员启动,而其导致的服务中断较长,因此可安排在适当的时间执行,确保由此造成的业务中断时间最短。


注 -  本节引用的估计时间指的是软件/固件版本 2009.04.10,1-0。其他版本的执行方式可能有所不同,实际性能也可能不同。在生产环境中部署群集设备之前,测试接管及其对客户机应用程序的具体影响非常重要。

相关主题