为了尽可能地降低由于资源中的瞬态故障引起的中断所带来的影响,故障监视器将重新启动资源以响应这类故障。对于持久性故障,需要比重新启动资源更具破坏性的操作:
对于故障转移资源,故障监视器将把资源故障转移到其他节点。
对于可伸缩资源,故障监视器将使该资源脱机。
如果在指定的重试间隔内资源的完全故障次数超出了指定阈值,故障监视器将该故障视为持久性故障。为持久性故障定义标准使您能够根据群集的性能特点和可用性要求来设置阈值和重试间隔。
故障监视器将资源的某些故障视为完全故障。通常,完全故障会导致服务完全丢失。以下故障为完全故障的示例:
数据服务服务器的进程的意外终止
故障监视器不能连接到数据服务服务器
每发生一次完全故障,故障监视器会将重试间隔中的完全故障计数增加 1。
故障监视器将资源的其他故障视为部分故障。部分故障没有完全故障严重,它通常会导致服务降级,但不会导致服务完全丢失。例如,在故障监视器探测超时之前来自数据服务服务器的不完整响应,便是一个部分故障的例子。
每发生一次部分故障,故障监视器会将重试间隔内的完全故障计数增加一个分数值。部分故障在重试间隔内将继续累积。
部分故障的以下特性取决于数据服务:
故障监视器视为部分故障的故障类型
每个部分故障添加到完全故障计数中的分数值
有关数据服务的故障监视器检测到的故障的信息,请参见数据服务的文档。
重新启动一次出现故障的资源所需的最长时间是以下特性的值的总和:
Thorough_probe_interval 系统特性
Probe_timeout 扩展特性
为了确保在重试间隔内达到阈值之前您具有足够的时间,请使用以下表达式来计算重试间隔和阈值:
retry-interval ≥ threshold × (thorough-probe-interval + probe-timeout)
要设置阈值和重试间隔,请设置资源的以下系统特性: