控制器故障转移和故障恢复

控制器发生故障或者通过引导式维护使控制器脱机时,Oracle FS System 将使用故障转移和故障恢复使 Oracle FS System 返回正常状态。故障转移会将脱机节点的所有资源转移到保持联机的节点。当脱机的节点重新联机后,故障恢复会将这些资源转移回该节点。

控制器故障转移

在正常情况下,一个对中的每个控制器节点使用其资源主动地为到达数据路径的 I/O 请求提供服务。控制器节点作为主动-主动对交叉连接。这种交叉连接可使每个节点在一个节点发生故障时支持另一个节点。

当一个控制器节点发生故障时,导向器和伙伴控制器节点都会检测到并确认故障。接下来,伙伴控制器节点接管发生故障的控制器节点的所有 I/O 请求,包括将数据高速缓存刷新到存储中,以及将控制器数据操作转换为保守运行模式。

如果发生了意外的控制器节点故障,或者您需要更换现场可更换单元 (field replaceable unit, FRU) 或客户可更换单元 (customer replaceable unit, CRU),但要求关闭控制器节点,则会发生控制器节点故障转移。对于要求您在维护之前关闭控制器节点电源的组件,引导式维护会针对需要维修的控制器节点启动故障转移过程。

故障转移过程将执行以下任务:

维护或控制器故障处理完成后,控制器节点开始引导周期。在引导周期内,系统会验证控制器节点的运行状态,然后执行故障恢复以恢复修复的控制器节点的服务。

控制器故障恢复

控制器节点故障转移到其伙伴节点后,当控制器节点经过修复或恢复并引导时,系统会执行故障恢复操作。在故障恢复期间,处理所有服务和资源负荷的伙伴控制器节点会将相应的服务和资源转移回已修复的控制器节点。

控制器节点重新联机后,该节点将经过几种状态。当控制器节点重新联机时,可使用 Oracle FS System 管理器 (GUI) 中的 "Event Log"(事件日志)屏幕跟踪其状态。