Go to main content

Oracle® ZFS Storage Appliance 管理指南,发行版 OS8.8.0

退出打印视图

更新时间: 2018 年 11 月
 
 

群集互连 I/O

所有的控制器间通信都包含通过 CLUSTRON 硬件提供的三个群集 I/O 链路之一传输的一个或多个消息(请参见Oracle ZFS Storage Appliance 布线指南中的控制器群集 I/O 端口)。该设备提供两条低速串行链路和一条以太网链路。使用串行链路可提高可靠性;系统负荷极其繁重时,可能无法足够快速地为以太网链路提供服务。要使群集系统响应负荷,执行误报故障检测和不需要的接管效果最差。接管期间不会处理请求,而是由客户机将其加入队列,导致接管后除已经非常繁重的负荷之外,还会存在大量延迟的请求。这些设备使用的串行链路不易受这种故障模式的影响。以太网链路可以为非心跳消息提供性能较高的传输(例如重新链接同步),并提供备份心跳。

三条链路全部使用普通的直通 EIA/TIA-568B(8 线,千兆位以太网)电缆构成。要允许在两个完全相同的控制器之间使用直通电缆,这些电缆必须用于连接这两个控制器上的对向插槽,如Oracle ZFS Storage Appliance 布线指南中的连接群集电缆中所示。

群集控制器只通过由群集互连建立的安全专用网络互相通信,从不通过打算用于服务或管理的网络接口进行通信。消息归为两大类:一类是用于检测远程控制器故障的定期心跳,另一类是与资源管理器和群集管理子系统关联的较高级别的流量。心跳要在全部三条链路上发送,它们以固定的时间间隔持续传送,从不对其进行确认或重新传送,因为所有心跳均完全相同而不包含任何唯一的信息。其他流量可通过任何链路发送,通常是传送时可用的速度最快的链路,并且为使较高级别的软件保持可靠的传输,要对这些流量进行确认、验证和重新传送。

无论类型或来源为何,每条消息都作为单个 128 字节的数据包发送,并包含 1 到 68 字节的数据有效载荷和 20 字节的验证散列,以确保数据完整性。串行链路以 115200 bps 的速率运行(包含 9 个数据位以及 1 个起始位和停止位);以太网链路以 1 Gbps 的速率运行。因此,串行链路上的有效消息延迟约为 12.2 毫秒。以太网延迟差别很大,通常延迟约为几微秒,但设备管理软件上的有效延迟可能会因系统负荷而高得多。

通常,每台控制器都在全部三条群集 I/O 链路上以 50 毫秒的时间间隔发送心跳消息。如果 200 毫秒(串行链路)或 500 毫秒(以太网链路)后未能收到任何消息,将视为发生了链路故障。如果全部三条链路都发生了故障,则认为对等设备发生了故障,将执行接管仲裁。如果发生紧急情况,紧急状况下的控制器将通过每条串行链路传送一条通知消息;无论其他任何链路处于哪种状态,对等设备都会立即开始接管。考虑到这些特征,群集子系统通常可以在以下时间内检测到对等设备发生故障:

  • 550 毫秒,如果对等设备已停止响应或断电,或者

  • 30 毫秒,如果对等设备遇到致命的软件错误而导致操作系统发生紧急情况。

本节中列出的所有值都是固定值,设备不提供用来调整这些参数的功能(也没有任何需要)。这些值作为实施详细信息,在此处提供仅供参考。随时可能更改,恕不另行通知。


注 -  为了避免在群集物理重新定位后造成数据损坏,应验证在新位置是否正确执行了所有群集布线。有关更多信息,请参见防止“记忆分裂“情况

相关主题