Sun Cluster 3.0 概念

PNM 故障检测和失败切换过程

PNM 有规律地检查活动适配器的包计数,并假定运行良好的适配器的包计数会因通过适配器的正常网络 流量而变化。如果一段时间包计数没有变化,那么 PNM 就进入一个 ping 序列,它加强了该通过活动 适配器的流量。PNM 在每个序列结束时检查包计数的任何变化,并且如果在 ping 序列重复数后包计数仍保持不变,就 宣告适配器出现故障。这些时间触发了备份适配器的失败切换,只要有一个备份适配器可用,就切换到它。

输入和输出包计数都由 PNM 监视,因此只要其中一个在一段时间内保持不变,ping 序列就启动。

ping 序列由对 ALL_ROUTER 多址广播地址 (224.0.0.2)、ALL_HOST 多址广播 地址 (224.0.0.1) 和本地子网广播地址的 ping 组成。

Ping 是以“最低成本优先”的方式构建的,因此如果有一个较低成本的 ping 可以成功运行,就不会运行较高 成本的 ping。而且,ping 只作为在适配器上产生流量的一种方法使用。它们的退出状态不会影响对适配器功能或故障的判定。

在这一算法中有四个可以微调的 参数:inactive_timeping_timeoutrepeat_testslow_network。这些参数在 故障检测的速度和正确性之间提供了一种可调整的平衡。有关参数及如何更改它们的详细信息,请参见 Sun Cluster 3.0 系统管理指南 中关于更改 公共网络参数的步骤。

在 NAFO 组的活动适配器上检测到故障后,如果没有备份适配器可用,该组就被宣告“关闭”,同时继续对其所有备份 适配器的测试。然而,如果有备份适配器可用,就会进行失败切换,切换到该适配器。当故障活动适配器被关闭并且 不可查明时,逻辑地址和它们相关的标志被“转移”到备份适配器上。

当 IP 地址的失败切换成功完成时,就发送出无必要的 ARP 广播。因而也保持与远程客户机的连通。