Sun Cluster 数据服务开发者指南(适用于 Solaris OS)

Stop 方法

当使包含 HA-DNS 资源的资源组在群集节点上脱机时,或当该资源组处于联机状态但资源已被禁用时,将对该群集节点调用 Stop 方法。 此方法将停止该节点上的 in.named (DNS) 守护程序。

本小节介绍了应用程序样例中的 Stop 方法的重要方面, 但未介绍所有回叫方法都通用的功能,例如 parse_args() 函数和获取 syslog 工具,这些在为所有方法提供通用功能中介绍。

有关 Stop 方法的完整列表,请参阅Stop 方法

Stop 概述

当尝试停止数据服务时,需要考虑以下两个主要方面。 第一方面是进行顺序停机。 完成顺序停机的最佳方法是通过 pmfadm 发送 SIGTERM 信号。

第二方面是要确保数据服务确实已停止,以避免使其处于 Stop_failed 状态。 完成此项操作最好的方法是通过 pmfadm 发送 SIGKILL 信号。

数据服务样例中的 Stop 方法已考虑到了这两方面。 该方法首先会发送 SIGTERM 信号。 如果此信号无法停止该数据服务,该方法将发送 SIGKILL 信号。

在尝试停止 DNS 之前,此 Stop 方法将检验该进程是否确实正在运行。 如果该进程正在运行,Stop 将使用进程监视工具 (pmfadm) 停止该进程。

确保此 Stop 方法具有幂等性。 虽然如果不先通过调用数据服务的 Start 方法来启动该数据服务,RGM 不应对 Stop 方法进行两次调用,但是即使是在资源从未启动或主动停止运行的情况下,也可以对该资源调用 Stop 方法。 因此,即使 DNS 未运行,此 Stop 方法也可以在成功状态下退出。

停止应用程序

Stop 方法提供了用来停止数据服务的双重方法: 一是通过 pmfadm 使用 SIGTERM 信号,二是使用 SIGKILL 信号,前者柔和、平滑,后者突然、强硬。 Stop 方法获取 Stop_timeout 值(Stop 方法可以运行的最长时间)。 Stop 然后将该时间的 80% 分配给平滑停止并将时间的 15% 分配给突然停止(保留 5% ),如以下样例所示。

STOP_TIMEOUT=`scha_resource_get -O STOP_TIMEOUT -R $RESOURCE_NAME
\

-G $RESOURCEGROUP_NAM?
((SMOOTH_TIMEOUT=$STOP_TIMEOUT * 80/100))

((HARD_TIMEOUT=$STOP_TIMEOUT * 15/100))

Stop 方法将使用 pmfadm -q 检验 DNS 守护程序是否正在运行。 如果正在运行,Stop 首先将使用 pmfadm -s 发送 TERM 信号,以终止 DNS 进程。 如果此信号无法在超时值的 80% 时间内终止该进程,Stop 将发送 SIGKILL 信号。 如果此信号也无法在超时值的 15% 时间内终止该进程,该方法将记录一条错误消息并在错误状态下退出。

如果 pmfadm 终止了该进程,该方法将记录一条说明该进程已停止并在成功状态下退出的消息。

如果 DNS 进程未运行,该方法将记录一条说明该进程未运行并仍在成功状态下退出的消息。 以下代码样例说明了 Stop 是如何使用 pmfadm 停止 DNS 进程的。

# See if in.named is running, and if so, kill it. 
if pmfadm -q $PMF_TAG; then 
   # Send a SIGTERM signal to the data service and wait for 80% of
the
   # total timeout value.
   pmfadm -s $RESOURCE_NAME.named -w $SMOOTH_TIMEOUT TERM
   if [ $? -ne 0 ]; then 
      logger -p ${SYSLOG_FACILITY}.err \
          -t [$RESOURCETYPE_NAME,$RESOURCEGROUP_NAME,$RESOURCE_NAME] \
          “${ARGV0} Failed to stop HA-DNS with SIGTERM; Retry with \
           SIGKILL”
      
      # Since the data service did not stop with a SIGTERM signal, use 
      # SIGKILL now and wait for another 15% of the total timeout value.
      pmfadm -s $PMF_TAG -w $HARD_TIMEOUT KILL
      if [ $? -ne 0 ]; then
          logger -p ${SYSLOG_FACILITY}.err \
          -t [$SYSLOG_TAG]
          “${ARGV0} Failed to stop HA-DNS; Exiting UNSUCCESFUL”
          
          exit 1
      fi   
fi
else 
   # The data service is not running as of now. Log a message and 
   # exit success.
   logger -p ${SYSLOG_FACILITY}.err \
           -t [$SYSLOG_TAG] \
           “HA-DNS is not started”

   # Even if HA-DNS is not running, exit success to avoid putting
   # the data service resource in STOP_FAILED State.

   exit 0

fi

# Could successfully stop DNS. Log a message and exit success.
logger -p ${SYSLOG_FACILITY}.err \
    -t [$RESOURCETYPE_NAME,$RESOURCEGROUP_NAME,$RESOURCE_NAME]
\
    “HA-DNS successfully stopped”
exit 0

Stop 退出状态

在基础应用程序确实停止之前(尤其是在其它数据服务依赖于该程序的情况下),Stop 方法不应在成功状态下退出。 如果未做到这一点,可能会导致数据毁坏。

对于复杂的应用程序(例如数据库),请确保在 RTR 文件中设置了足够大的 Start_timeout 特性值,使应用程序有足够长的时间在停止时进行清除。

如果此方法无法停止 DNS 并在失败状态下退出,RGM 将检查用来确定如何作出反应的 Failover_mode 特性。 数据服务样例未明确设置 Failover_mode 特性,因此此特性使用缺省值 NONE(除非群集管理员已经覆盖了该缺省值并指定了其它值)。 在这种情况下,RGM 仅执行将数据服务状态设置为 Stop_failed 的操作。 需要用户干预以强制停止应用程序并清除 Stop_failed 状态。