Oracle® ZFS Storage Appliance 管理指南,发行版 2013.1.5.0

退出打印视图

更新时间: 2016 年 2 月
 
 

群集互连 I/O

所有机头间通信都是通过 CLUSTRON 硬件提供的三条群集 I/O 链路中的一条链路发送一条或多条消息(参见下图)。该设备提供两条低速串行链路和一条以太网链路。使用串行链路可提高可靠性;系统负荷极其繁重时,可能无法足够快速地为以太网链路提供服务。要使群集系统响应负荷,执行误报故障检测和不需要的接管效果最差。接管期间不会处理请求,而是由客户机将其加入队列,导致接管后除已经非常繁重的负荷之外,还会存在大量延迟的请求。Oracle ZFS Storage Appliance 使用的串行链路不易受这种故障模式的影响。以太网链路可以为非心跳消息提供性能较高的传输(例如重新链接同步),并提供备份心跳。

三条链路全部使用普通的直通 EIA/TIA-568B(8 线,千兆位以太网)电缆构成。为了能够在两个完全相同的控制器之间使用直通电缆,必须使用电缆连接两个连接器上相反的插槽,如下面有关布线的一节中所示。

图 20  ZS3-2 控制器群集 I/O 端口

image:设备控制器群集 I/O 端口 表 43  ZS3-2 控制器群集 I/O 端口
图例
1 串行端口 0
2 串行活动 LED 指示灯
3 串行状态 LED 指示灯
4 以太网端口
5 串行端口 1
6 以太网状态 LED 指示灯
7 以太网活动 LED 指示灯

图 21  ZS4-4、ZS3-4 和 7x20 控制器群集 I/O 端口

image:ZS4-4、ZS3-4 和 7x20 控制器群集 I/O 端口

图 2.ZS4-4、ZS3-4 和 7x20 控制器群集 I/O 端口

表 44  ZS4-4、ZS3-4 和 7x20 控制器群集 I/O 端口
图例
1 串行端口 1
2 串行端口 0
3 串行活动 LED 指示灯
4 以太网活动 LED 指示灯
5 以太网端口
6 以太网状态 LED 指示灯
7 串行状态 LED 指示灯

群集机头只通过由群集互连建立的安全专用网络互相通信,从不通过打算用于服务或管理的网络接口进行通信。消息归为两大类:一类是用于检测远程机头故障的定期心跳,另一类是与资源管理器和群集管理子系统关联的较高级别的流量。心跳要在全部三条链路上发送,它们以固定的时间间隔持续传送,从不对其进行确认或重新传送,因为所有心跳均完全相同而不包含任何唯一的信息。其他流量可通过任何链路发送,通常是传送时可用的速度最快的链路,并且为使较高级别的软件保持可靠的传输,要对这些流量进行确认、验证和重新传送。

无论类型或来源为何,每条消息都作为单个 128 字节的数据包发送,并包含 1 到 68 字节的数据有效载荷和 20 字节的验证散列,以确保数据完整性。串行链路以 115200 bps 的速率运行(包含 9 个数据位以及 1 个起始位和停止位);以太网链路以 1 Gbps 的速率运行。因此,串行链路上的有效消息延迟约为 12.2 毫秒。以太网延迟差别很大,通常延迟约为几微秒,但设备管理软件上的有效延迟可能会因系统负荷而高得多。

通常,每个机头都在全部三条群集 I/O 链路上以 50 毫秒的时间间隔发送心跳消息。如果 200 毫秒(串行链路)或 500 毫秒(以太网链路)后未能收到任何消息,将视为发生了链路故障。如果全部三条链路都发生了故障,则认为对等设备发生了故障,将执行接管仲裁。如果发生紧急情况,紧急状况下的机头将通过每条串行链路传送一条通知消息;无论其他任何链路处于哪种状态,对等设备都会立即开始接管。考虑到这些特征,群集子系统通常可以在以下时间内检测到对等设备发生故障:

  • 550 毫秒,如果对等设备已停止响应或断电,或者

  • 30 毫秒,如果对等设备遇到致命的软件错误而导致操作系统发生紧急情况。

本节中列出的所有值都是固定值,Oracle ZFS Storage Appliance 作为一个设备,不提供调整这些参数的功能(也没有任何需要)。这些值作为实施详细信息,在此处提供仅供参考。随时可能更改,恕不另行通知。


注 -  为了避免在群集物理重新定位后造成数据损坏,应验证在新位置是否正确执行了所有群集布线。有关更多信息,请参见Preventing 'Split-Brain' Conditions