通过在公共网络中使用心跳,Sun Cluster Geographic Edition 软件使得各个参与伙伴关系的群集可检测伙伴站点的群集故障。心跳监视器使用插件模块来查询其伙伴的心跳状态。
本章包含以下几节:
Sun Cluster Geographic Edition 中的心跳是一种收集心跳插件的容器。每个心跳都有一个名称和一个可调属性(即 Query_interval)。Query_interval 属性用于指定心跳状态请求之间的延迟。
心跳插件的使用可简化实际的物理监视活动。心跳插件由以下元素进行定义:查询命令或查询库(必需)、插件类型(必需)、请求程序代理和响应程序代理(可选)、Plugin_properties 字符串(可选)。
Sun Cluster Geographic Edition 产品提供了以下几个默认插件:
tcp_udp_plugin — 对群集逻辑主机 IP 地址进行简单的心跳检查。如果 tcp_udp_plugin 无法使用 UDP 端口 2084,则插件将会尝试使用 TCP 端口 2084。
互联网号码分配机构 (Internet Assigned Numbers Authority, IANA) 官方指定的用于 Sun Cluster Geographic Edition 心跳的端口号为 2084。
ping_plugin — 对远程群集上的群集逻辑主机名执行 Ping 操作。
每当您在未指定自定义心跳的情况下运行 geops create 或 geops join 时,系统都会创建一个使用默认心跳插件的默认心跳。默认心跳的名称为 hb_ localclustername~remoteclustername。有关 geops 命令的更多信息,请参阅 geops(1M) 手册页。
您可以创建自定义的心跳插件,并使其与现有默认心跳或新的自定义心跳相关联。
仅为特定的环境提供自定义的心跳,所以需要仔细配置。如果您的系统需要使用自定义心跳,请咨询 Sun 专家以便获得帮助。
如果要创建自定义心跳,必须至少添加一个插件,以防止伙伴关系仍处于降级模式。
本节介绍了创建心跳的过程。
使用此过程创建新的心跳。要在伙伴关系中使用心跳,必须在创建伙伴关系之前先创建心跳。如果在创建自定义心跳之前创建伙伴关系,则该伙伴关系所使用的默认心跳将阻止创建自定义心跳。
如果要创建自定义心跳,必须至少添加一个插件,以防止伙伴关系仍处于降级模式。
自定义心跳可阻止在创建伙伴关系的过程中使用默认心跳。如果您希望为伙伴关系使用默认心跳,必须在运行 geops create 命令之前删除自定义心跳。
登录到一个群集节点。
要完成此过程,必须为您指定 Geo Management RBAC 权限配置文件。有关 RBAC 的更多信息,请参见Sun Cluster Geographic Edition 软件和 RBAC。
创建心跳。
# geohb create -r remoteclustername \ [-p propertysetting [-p...]] heartbeatname |
指定远程的辅助伙伴群集的名称。
指定一个使用 name=statement 语句赋值的心跳属性。可通过使用多个语句实现一次设置多个属性。
有关可设置的属性的更多信息,请参见附录 A,标准 Sun Cluster Geographic Edition 属性。
指定心跳的标识符。
如果要创建自定义心跳,必须至少添加一个插件,以防止伙伴关系仍处于降级模式。
相同伙伴关系中各群集上的自定义心跳不能相同。选择一个可唯一标识心跳的名称,如在群集 cluster-paris 上选用 paris-to-newyork 而在群集 cluster-newyork 上选用 newyork-to-paris。
有关 geohb 命令的更多信息,请参阅 geohb(1M) 手册页。
此示例创建了一个名为 paris-to-newyork 的心跳。
# geohb create -r cluster-newyork paris-to-newyork |
本节介绍了创建心跳插件的过程。
登录到一个群集节点。
要完成此过程,必须为您指定 Geo Management RBAC 权限配置文件。有关 RBAC 的更多信息,请参见Sun Cluster Geographic Edition 软件和 RBAC。
将心跳插件添加到现有心跳。
# geohb add-plugin heartbeatname pluginname \ [-p propertysetting [-p...]] |
指定本地群集上心跳的标识符。
指定心跳插件的名称。
指定一个使用 name=statement 语句赋值的心跳插件属性。可通过使用多个语句实现一次设置多个属性。
有关可设置的属性的更多信息,请参见附录 A,标准 Sun Cluster Geographic Edition 属性。
有关 geohb 命令的更多信息,请参阅 geohb(1M) 手册页。
此示例创建了一个名为 command1 的心跳插件。
# geohb add-plugin paris-to-newyork command1 -p Query_cmd=/usr/bin/hb/ |
本节介绍了修改心跳插件属性的过程。修改插件属性后,属性更改将立即生效。
登录到一个群集节点。
要完成此过程,必须为您指定 Geo Management RBAC 权限配置文件。有关 RBAC 的更多信息,请参见Sun Cluster Geographic Edition 软件和 RBAC。
修改心跳插件的属性。
# geohb modify-plugin -p propertysetting \ [-p...] pluginname heartbeatname |
指定心跳的标识符。
指定心跳插件的名称。
指定一个使用 name=statement 语句赋值的心跳插件属性。可通过使用多个语句实现一次设置多个属性。
有关可设置的属性的更多信息,请参见附录 A,标准 Sun Cluster Geographic Edition 属性。
您不能编辑默认插件的某些属性。
有关 Sun Cluster Geographic Edition 软件支持的名称和值的信息,请参见附录 B,Sun Cluster Geographic Edition 实体合法的名称和值。
有关 geohb 命令的更多信息,请参阅 geohb(1M) 手册页。
本示例将默认 TCP/UDP 插件 tcp_udp_plugin 的设置修改为仅使用 TCP。
# geohb modify-plugin -p Plugin_properties=paris-cluster/TCP/2084 \ tcp_udp_plugin hb_cluster-paris~cluster-newyork |
本节介绍了删除心跳和心跳插件的过程。
登录到一个群集节点。
要完成此过程,必须为您指定 Geo Management RBAC 权限配置文件。有关 RBAC 的更多信息,请参见Sun Cluster Geographic Edition 软件和 RBAC。
删除心跳。
# geohb delete heartbeatname |
指定心跳设置的标识符。
有关 geohb 命令的更多信息,请参阅 geohb(1M) 手册页。
此示例删除了一个名为 paris-to-newyork 的心跳。
# geohb delete paris-to-newyork |
登录到一个群集节点。
要完成此过程,必须为您指定 Geo Management RBAC 权限配置文件。有关 RBAC 的更多信息,请参见Sun Cluster Geographic Edition 软件和 RBAC。
从心跳中删除插件。
# geohb remove-plugin pluginname heartbeatname |
请勿删除默认心跳插件 tcp_upd_plugin 和 ping_plugin。
指定自定义心跳插件的名称
指定包含此插件的心跳的标识符
有关 Sun Cluster Geographic Edition 软件支持的名称和值的信息,请参见附录 B,Sun Cluster Geographic Edition 实体合法的名称和值。
有关 geohb 命令的更多信息,请参阅 geohb(1M) 手册页。
本示例将从名为 paris-to-newyork 的心跳中删除名为 command1 的插件。
# geohb remove-plugin command1 paris-to-newyork |
本节介绍了用来显示心跳配置信息的步骤。
登录到一个群集节点。
要完成此过程,必须为您指定 Geo Management RBAC 权限配置文件。有关 RBAC 的更多信息,请参见Sun Cluster Geographic Edition 软件和 RBAC。
显示特定心跳或整个心跳子系统的当前配置信息。
# geohb list [heartbeatnamelist] |
指定本地群集上要显示配置信息的心跳的名称。
如果不指定心跳名称列表,此命令将显示所有已配置心跳的信息。
有关 geohb 命令的更多信息,请参阅 geohb(1M) 手册页。
本示例显示了 paris-to-newyork 心跳的相关信息。
# geohb list paris-to-newyork |
创建伙伴关系时也创建默认心跳。如果计划使用自定义心跳,则需要在创建伙伴关系之前创建自定义心跳。您可以使用 geohb set-prop 命令修改默认心跳和自定义心跳的属性。有关此命令的更多信息,请参阅 geohb(1M) 手册页。
仅为特定的环境提供自定义的心跳,所以需要仔细配置。如果您的系统需要使用自定义心跳,请咨询 Sun 专家以便获得帮助。
如果要修改 Query_interval 属性的默认值,请确保足够长的时间间隔。时间间隔过短会导致在逻辑主机名资源可用之前发生超时和心跳丢失事件。只要有两次未响应的心跳请求,即导致故障转移。如果将 query_interval 的默认值设置为 120 秒,将 heartbeat.retries 参数的默认值设置为 3,则对等群集可在 6 分钟 (120 * 3 ) 内保持未响应状态,且不会误报故障消息。
heartbeat.retries 参数在 com.sun.cluster.agent.geocontol.xml 文件中指定。
如果调节 Query_interval 属性的延迟设置,请确保满足以下条件:
Query_interval > worst-case logical-host failover time / 2 |
必须依靠经验确定故障主机的逻辑主机故障转移的时间。
为避免报告假故障,以下内容必须为真:
Query_interval > worst-case logical-host failover time / 3 |
您不能更改 heartbeat.retries 值。如果要更改 heartbeat.retries 属性的默认值,请与 Sun 服务代表联系。
登录到一个群集节点。
要完成此过程,必须为您指定 Geo Management RBAC 权限配置文件。有关 RBAC 的更多信息,请参见Sun Cluster Geographic Edition 软件和 RBAC。
修改心跳属性。
# geohb set-prop -p propertysetting \ [-p...] heartbeatname |
设置心跳的默认属性。
心跳属性由 name=statement 对赋值。使用多个语句可以一次设置多种属性。
有关可设置的属性的更多信息,请参见附录 A,标准 Sun Cluster Geographic Edition 属性。
指定心跳设置的标识符。
有关 Sun Cluster Geographic Edition 软件支持的名称和值的信息,请参见附录 B,Sun Cluster Geographic Edition 实体合法的名称和值。
有关 geohb 命令的更多信息,请参阅 geohb(1M) 手册页。
此示例修改了 cluster-paris 与 cluster-newyork 之间默认心跳的设置。
# geohb set-prop -p Query_interval=60 hb_cluster-paris~cluster-newyork |
您可以创建一个自定义的心跳插件,然后将现有的默认心跳或新的自定义心跳配置为使用此自定义心跳插件。
仅为特定的环境提供自定义的心跳,所以需要仔细配置。如果您的系统需要使用自定义心跳,请咨询 Sun 专家以便获得帮助。
如果您计划配置自定义心跳,请确保您自定义心跳的名称不同于伙伴群集上自定义心跳的名称。
自定义心跳的存在可以阻止在创建伙伴关系的过程中使用默认心跳。如果您希望为伙伴关系使用默认心跳,必须在运行 geops create 命令之前删除自定义心跳。
创建心跳后,Sun Cluster Geographic Edition 软件会向您的自定义心跳插件传输以下参数:
Query-interval 属性的值,用于定义延迟时间(以秒为单位),超过该时间即报告心跳状态请求发生故障。
插件启动模式,可以是 Normal 或 Emergency。
给心跳插件(如果有)配置的 Plugin-properties 属性的值。
有关可设置的属性的更多信息,请参见附录 A,标准 Sun Cluster Geographic Edition 属性。
自定义心跳插件会检测辅助群集上的心跳,并返回以下值之一:
零 — 如果成功,将返回零值,表示辅助群集处于活动状态
非零 — 如果失败,将返回非零值,表示辅助群集未对心跳检查作出响应
登录到主群集上的一个节点。
要完成此过程,必须为您指定 Geo Management RBAC 权限配置文件。有关 RBAC 的更多信息,请参见Sun Cluster Geographic Edition 软件和 RBAC。
将自定义心跳插件添加至默认心跳。
# geohb add-plugin -p propertysetting [-p...] \ pluginname hb_localclustername-remoteclustername |
使用 name=statement 对指定心跳插件的属性。
使用 Query_cmd 属性指定自定义心跳插件的路径。
有关可设置的属性的更多信息,请参见附录 A,标准 Sun Cluster Geographic Edition 属性。
指定自定义心跳插件的名称。
指定要向其中添加自定义心跳插件的默认心跳的名称。
验证您的更改是否正确。
# geoadm status |
在辅助群集的某个节点上重复以上步骤。
本示例会将自定义心跳插件 command1 添加到默认心跳 hb_cluster-paris~cluster-newyork 中。
# geohb add-plugin -p query_cmd=/usr/bin/hb command1 \ hb_cluster-paris~cluster-newyork # geoadm status |
登录到一个群集节点。
要完成此过程,必须为您指定 Geo Management RBAC 权限配置文件。有关 RBAC 的更多信息,请参见Sun Cluster Geographic Edition 软件和 RBAC。
创建新的自定义心跳。
# geohb create -r remoteclustername \ [-p propertysetting [-p...]] heartbeatname |
指定远程的辅助伙伴群集的名称。
设置心跳的默认属性。
心跳属性由 name=statement 对赋值。
有关可设置的属性的更多信息,请参见附录 A,标准 Sun Cluster Geographic Edition 属性。
指定心跳设置的标识符。
相同伙伴关系中各群集上的自定义心跳不能相同。选择一个可唯一标识心跳的名称,如在群集 cluster-paris 上选用 paris-to-newyork 而在群集 cluster-newyork 上选用 newyork-to-paris。
有关 geohb 命令的更多信息,请参阅 geohb(1M) 手册页。
将自定义心跳插件添加至心跳。
# geohb add-plugin -p propertysetting [-p...] \ pluginname heartbeatname |
使用 name=statement 对指定心跳插件的属性。
使用 Query_cmd 属性指定自定义心跳插件的路径。
有关可设置的属性的更多信息,请参见附录 A,标准 Sun Cluster Geographic Edition 属性。
指定自定义心跳插件的名称。
指定心跳的标识符。
创建将使用您在以上步骤所创建心跳的伙伴关系。
# geops create -c remoteclustername -h heartbeatname \ [-p propertysetting [-p...]] partnershipname |
指定要加入伙伴关系的远程群集的名称。
此名称必须与远程群集上 Sun Cluster Geographic Edition 基础结构所使用的逻辑主机名相匹配。
指定要在伙伴关系中使用的自定义心跳,以便监视伙伴群集的可用性。
使用 name=statement 语句设置伙伴关系属性的值。
有关可设置的属性的更多信息,请参见附录 A,标准 Sun Cluster Geographic Edition 属性。
指定伙伴关系的名称。
有关使用 geops create 命令创建伙伴关系的更多信息,请参见 如何创建伙伴关系。
验证您的更改是否正确。
# geoadm status |
本示例将创建一个使用自定义心跳插件的心跳 paris-to-newyork,并将该心跳与一个新的伙伴关系关联。
# geohb create -r cluster-newyork paris-to-newyork # geohb add-plugin -p query_cmd=/usr/bin/hb/ command1 paris-to-newyork # geops create -c cluster-newyork -h paris-to-newyork paris-newyork-ps # geoadm status |
您可以配置 Sun Cluster Geographic Edition 软件在遇到心跳丢失时发送电子邮件通知并运行一个操作脚本。可使用可选的 Notification_emailaddrs 和 Notification_actioncmd 属性来配置心跳丢失通知。
如果在您使用心跳的 Query_interval 属性配置的时间间隔后,心跳仍然出现故障,系统将会发出心跳丢失通知。每隔 Query_interval 时间,心跳监视器都会向逻辑主机上的响应程序发送心跳请求。如果在 Query_interval 时间段内未收到响应,内部计数将增加。如果重新计数达到了 heartbeat.retries 属性中指定的数值,则该心跳将被视为失败。
例如,您可以使用 Query_interval 的默认值 120 秒和 heartbeat.retries 的默认值 3。这样,心跳丢失事件可最迟在收到最后一条来自伙伴群集的心跳响应的 10 分钟后发出。
120sec (delay since last query) + 3*120sec (wait for normal response) + 120 sec (wait for retry response) |
在生成心跳丢失事件与触发心跳丢失通知之间可能会有延迟。
心跳丢失事件并不一定表明远程群集已崩溃。
以下几节将介绍如何配置心跳丢失通知属性,以及如何创建在发生心跳丢失事件后 Sun Cluster Geographic Edition 软件所运行的自定义操作脚本。
您可以使用 Notification_emailaddrs 和 Notification_actioncmd 这两个伙伴关系属性来配置心跳丢失通知。这两个属性可通过 geops 命令指定。
您可以在创建伙伴关系的过程中给默认心跳指定这两个属性。有关更多信息,请参见如何创建伙伴关系。此外,您也可以按照如何修改心跳属性中介绍的步骤修改这些属性。
如果您希望通过电子邮件接收心跳丢失事件的通知,请设置 Notification_emailaddrs 属性。您可以逗号分隔指定电子邮件地址的列表。如果要使用电子邮件通知,则必须将群集节点配置为电子邮件客户机。有关配置电子邮件服务的更多信息,请参见 Solaris System Administration Guide: Network Services。
如果您希望执行一条命令以便对心跳丢失作出响应,请设置 Notification_actioncmd 属性。
本示例将为伙伴关系 paris-newyork-ps 指定一个通知电子邮件地址和一个自定义通知脚本。
phys-paris-1# geops set-prop \ -p Notification_emailaddrs=ops@paris.com,ops@newyork.com \ -p Notification_actioncmd=/opt/hb_action.sh paris-newyork-ps |
您可以创建一个操作 shell 脚本,以便在本地群集检测出伙伴群集中的心跳丢失事件时运行该脚本。该脚本在运行时具有超级用户权限。因此,该文件必须具有超级用户所有权和执行权限,但脚本不应具有写权限。
如果您已配置 Notification_actioncmd 属性,该操作命令运行时会在以下命令行中附带一些可提供事件信息的参数:
# customactioncommandpath -c localclustername -r remoteclustername -e 1 \ -n nodename -t time |
指定您已创建的操作命令的路径。
指定本地群集的名称。
指定远程伙伴群集的名称。
指定 HBLOST=1,这表示发生了心跳丢失事件。由于 Sun Cluster Geographic Edition 软件仅支持心跳丢失通知,因此 -e 1 是唯一可以传递到操作 shell 脚本中的值。
指定发出心跳丢失事件通知的群集节点的名称。
从 1970 年 1 月 1 日 00:00:00 (GMT) 算起,以毫秒为单位指定心跳丢失事件发生的时间。
您可以使用该脚本在辅助群集上执行自动接管操作。不过此类自动操作存在风险如果心跳丢失通知由主群集和辅助群集上所有心跳连通性全部丢失所致,此类自动操作可能导致存在两个主群集的情况。
此示例显示了正在通知操作 shell 脚本中解析的命令行中所提供的的事件信息。
#!/bin/sh set -- `getopt abo: $*` if [ $? != 0] then echo $USAGE exit 2 fi for i in $* do case $i in -p) PARTNER_CLUSTER=$1; shift;; -e) HB_EVENT=$2; shift;; -c) LOCAL_CLUSTER=$3; shift;; -n) EVENT_NODE=$4; shift;; esac done |