群集系统中常见的故障模式称为记忆分裂 (split-brain)。在这种情况下,每个群集控制器的行为表现就好像其对等设备已发生故障,并尝试接管。这种情况最常见的原因是控制器共享的通信介质出现故障。在 Oracle ZFS Storage Appliance 中,共享通信介质为群集 I/O 链路。但是,Oracle ZFS Storage Appliance 群集 I/O 链路具有内置的链路冗余:对于 ZS9-2 控制器,只需要单个群集 I/O 以太网链路,以避免触发接管。对于所有其他控制器,只需要单个群集 I/O 串行链路,以避免触发接管。
设备软件将执行仲裁程序以确定哪个控制器应继续接管。
Oracle ZFS Storage Appliance 群集解决方案设计用于确保不会发生单点故障,保护数据和可用性不受故障的影响。通过正确安装硬件并采用群集设置和管理最佳做法,大多数故障都可以避免。确保:
所有群集 I/O 链路(两个用于 ZS9-2 控制器,三个用于所有其他控制器)都已连接且正常运行,如群集配置 BUI 视图和检查群集链路状态 (CLI)中所示。
所有存储布线都已连接,如设备随附的设置文档所示。
特别重要的一点是,将群集投入生产环境前以及此后必须能检测到每个磁盘机框有两个路径(如下图所示),临时更改布线来支持容量增加或更换故障组件除外。使用警报来监视群集互连链路和磁盘机框路径的状态,并即时解决所有故障。通过确保维持正确的连接,可在硬件或软件组件发生故障时保证可用性和数据完整性。
图 8 群集中每个硬盘机框的两个路径
相关主题