为了最大程度地减少资源的瞬态故障导致的中断,故障监视器在响应此类故障时会重新启动资源。对于永久性故障,需要采取比重新启动资源更具破坏性的操作:
对于故障转移资源,故障监视器会将资源故障转移到其他节点。
对于可伸缩资源,故障监视器会将资源脱机。
如果资源的完全故障次数在指定的重试间隔内超过了指定的阈值,则故障监视器将该故障视为永久性故障。通过定义永久性故障的条件,可以设置阈值和重试间隔以适应群集的性能特征和可用性要求。
故障监视器将有些故障视为资源的完全故障。完全故障通常会导致服务完全中断。例如,以下故障就是完全故障:
数据服务服务器的进程意外终止
故障监视器无法连接到数据服务服务器
完全故障会导致故障监视器在重试间隔内将完全故障的计数加 1。
故障监视器将其他故障视为资源的部分故障。部分故障的严重性比完全故障低,并且通常会导致服务降级,但不会导致服务完全中断。例如,在故障监视器探测超时之前,数据服务服务器的响应不完整,这就是部分故障。
部分故障会导致故障监视器在重试间隔内按一定比例增加完全故障计数。部分故障仍会在重试间隔中累计。
部分故障的以下特征与数据服务有关:
故障监视器视为部分故障的故障类型
每种部分故障计入完全故障数的比例
有关数据服务的故障监视器检测的故障的信息,请参见该数据服务的文档。
单次重新启动有故障的资源所需的最大时间长度是以下属性值求和的结果:
Thorough_probe_interval 系统属性
Probe_timeout 扩展属性
为了确保留出足够的时间在重试间隔内达到阈值,请使用以下表达式来计算重试间隔的值和阈值:
系数 2 针对不会立即导致资源故障转移或脱机的部分探测故障。
要设置阈值和重试间隔,可设置资源的以下系统属性: