Sun Cluster 3.0 12/01 概念

PNM 故障检测和故障转移过程

PNM 有规律地检查活动适配器的包计数,并假定运行良好的适配器的包计数会因通过适配器的正常网络流量而变化。 如果一段时间包计数没有变化,那么 PNM 就进入一个 ping 序列,它加强了该通过活动适配器的流量。 PNM 在每个序列结束时检查包计数的任何变化。如果在 ping 序列重复几次后包计数仍保持不变,它就宣告适配器出现故障。 这些事件触发了备份适配器的故障转移,只要有一个备份适配器可用,就转移到它。

输入和输出包计数由 PNM 监视,因此如果两者(之一或全部)在一段时间内保持不变,则将启动 ping 序列。

ping 序列由对 ALL_ROUTER 多址广播地址 (224.0.0.2)、ALL_HOST 多址广播地址 (224.0.0.1) 和本地子网广播地址的 ping 组成。

Ping 是以最低成本优先的方式构建的,因此如果有一个较低成本的 ping 可以成功运行,就不会运行较高成本的 ping。 而且,ping 只作为在适配器上产生流量的一种方法使用。 它们的退出状态不会影响对适配器功能或故障的判定。

在这一算法中有四个可以微调的参数: inactive_timeping_timeoutrepeat_testslow_network。这些参数在故障检测的速度和正确性之间提供了一种可调整的平衡。 有关这些参数以及如何更改它们的详细信息,请参阅《Sun Cluster 3.0 12/01 系统管理指南》中关于更改公共网络参数的步骤。

在 NAFO 组的活动适配器上检测到故障后,如果没有备份适配器可用,该组就被宣告关闭,同时继续对其所有备份适配器的测试。 然而,如果有备份适配器可用,就会进行故障转移,切换到该适配器。 当故障活动适配器被关闭并且不可查明时,逻辑地址和它们相关的标志被"转移"到备份适配器上。

一旦 IP 地址的故障转移成功完成之后,就会发送未经请求的 ARP 广播。 通过这种方法保持了与远程客户机的连通性。