用于 Solaris OS 的 Sun Cluster 数据服务规划和管理指南

定义持久性故障的标准

为了尽可能地降低由于资源中的瞬态故障引起的中断所带来的影响,故障监视器将重新启动资源以响应这类故障。对于持久性故障,需要比重新启动资源更具破坏性的操作:

如果在指定的重试间隔内资源的完全故障次数超出了指定阈值,故障监视器将该故障视为持久性故障。为持久性故障定义标准使您能够根据群集的性能特点和可用性要求来设置阈值和重试间隔。

资源的完全故障和部分故障

故障监视器将资源的某些故障视为完全故障。通常,完全故障会导致服务完全丢失。以下故障为完全故障的示例:

每发生一次完全故障,故障监视器会将重试间隔中的完全故障计数增加 1。

故障监视器将资源的其他故障视为部分故障。部分故障没有完全故障严重,它通常会导致服务降级,但不会导致服务完全丢失。例如,在故障监视器探测超时之前来自数据服务服务器的不完整响应,便是一个部分故障的例子。

每发生一次部分故障,故障监视器会将重试间隔内的完全故障计数增加一个分数值。部分故障在重试间隔内将继续累积。

部分故障的以下特性取决于数据服务:

有关数据服务的故障监视器检测到的故障的信息,请参见数据服务的文档。

阈值和重试间隔与其他特性的依赖性

重新启动一次出现故障的资源所需的最长时间是以下特性的值的总和:

为了确保在重试间隔内达到阈值之前您具有足够的时间,请使用以下表达式来计算重试间隔和阈值:

retry-intervalthreshold × (thorough-probe-interval + probe-timeout)

用来设置阈值和重试间隔的系统特性

要设置阈值和重试间隔,请设置资源的以下系统特性: