定额和定额设备 (Sun Cluster 3.0 U1 概念)

Sun Cluster 3.0 U1 概念

定额和定额设备

由于群集节点能共享数据和资源，所以千万不要将群集分割为同时处于活动状态的独立分区。CMM 保证任何时候最多只有一个群集是有效的，即使已对群集互连进行了分区。

群集分区会引起两类问题：群集分割和失忆。如果在节点间失去群集互连并且将群集划分为若干子群集，每个分区都认为自己是唯一分区，此时即会发生群集分割。这是由群集节点之间的通信问题引起的。在群集关闭后又重新启动的情况下会发生失忆，此时的群集数据的版本要早于群集关闭时记录的信息的版本。如果磁盘上存储有多个版本的框架数据，而在尚未获得最新的版本的情况下启动新的群集，则可能发生这种情况。

可以通过以下方法来避免群集分割和失忆的发生：赋予每个节点一个选票，并规定只有获得多数选票才能成为有效群集。获得多数选票的分区拥有定额，因此允许其运行。只要群集中有两个以上的节点，这种多数选票机制就非常有效。在双节点群集中，多数为二。如果这样的群集分为两个分区，则需要使用外部选票才能使其中一个分区获得定额。此外部选票由 定额设备提供。定额设备可以是这两个节点所共享的任一磁盘。用作定额设备的磁盘可以包含用户数据。

表 3-3 说明 Sun Cluster 软件如何使用定额来避免群集分割和失忆。

表 3-3 群集定额及群集分割和失忆问题


分区类型	定额解决方案
群集分割	仅允许获得多数选票的分区（子群集）作为群集（其中最多仅能有一个拥有多数选票的分区）
失忆	在群集引导时，保证至少有一个节点是最新的群集成员之一（因而有最新的配置数据）

定额算法动态执行：当群集事件触发计算时，计算的结果可以随群集生存期的不同而改变。

定额选票计数

群集节点和定额设备都会获得选票以形成定额。缺省情形下，群集节点在引导并成为群集成员时获取其中一个的定额选票计数。节点的选票数可以是零，例如当正在安装节点或管理员将节点置于维护状态时便是如此。

定额设备获取定额选票计数基于设备的节点连接数。在设置定额设备时，它需获取一个最大选票数 N-1，其中 N 是有非零选票数的节点数，并且这些节点有到定额设备的端口。例如，连接到两个选票数非零的节点的定额设备有其中一个的定额数（二减一）。

您要在群集安装期间，或以后通过使用在《Sun Cluster 3.0 U1 系统管理指南》中描述的过程来配置定额设备。

注意：

仅在当前连接的节点中至少有一个是群集成员时，定额设备才对选票数起作用。同时，在群集引导期间，仅在当前连接的至少一个节点正在引导，并且在关闭时它是最近刚刚引导的群集成员的情况下，定额设备才对选票数起作用。

定额配置

定额配置依赖于群集中节点的数目：

双节点群集 - 要形成双节点群集，需要两个定额选票。这两个选票可以来自于两个群集节点，或者只来自一个节点和一个定额设备。然而，在双节点群集中，必须配置一个定额设备，以确保在一个节点发生故障时另一单个节点可以继续工作。
多于两个节点的群集 - 您应在共享对磁盘存储器群组访问的每对节点间指定一个定额设备。例如，假定您有一个由三个节点组成的如图形 3-3 中所示的群集。在此图中，nodeA 和 nodeB 共享对同一磁盘群组的访问权，而 nodeB 和 nodeC 共享对另一磁盘群组的访问权。总共会有五个定额选票，其中三个来自节点，两个来自节点共享的定额设备。一个群集需要获得多数定额选票（即三个）才能生成。

Sun Cluster 软件不要求也不强制在共享对磁盘存储器群组访问的每对节点间指定一个定额设备。但是，对于 N+1 配置降级为一个双节点群集并且紧接着对两个磁盘群组都有访问权的节点也发生故障的情况，它可以提供所需要的定额选票。如果您在每对节点之间配置了定额设备，则其余的节点仍可作为一个群集来运行。

有关这些配置的示例，请参见图形 3-3。

图形 3-3 定额设备配置示例

定额准则

在设置定额设备时，请使用下列准则：

在连接到同一个共享的磁盘存储器群组的所有节点间建立定额设备。在共享群组内添加一个磁盘作为定额设备以确保在任何节点发生故障时，其他节点可以维持定额并可以控制共享群组上的磁盘设备组。
必须将定额设备连接到至少两个节点上。
定额设备可以是用作双端口定额设备的任何 SCSI-2 或 SCSI-3 磁盘。连接到超过两个节点的磁盘必须支持 SCSI-3 持久性组保留 (PGR)，而不论磁盘是否用作定额设备。有关详细信息，请参见《Sun Cluster 3.0 U1 安装指南》中有关计划的章节。
您可以使用包含用户数据的磁盘作为定额设备。

提示：

要防止个别定额设备出现故障，请在节点集之间配置一个以上的定额设备。使用来自不同群组的磁盘，并在每个节点集之间配置奇数的定额设备。

故障防护

群集的一个主要问题是引起群集分区的故障（称作群集分割）。当此故障发生时，并不是所有节点都可以通信，所以个别节点或节点子集可能会尝试组成个体或群集子集。每个子集或分区都可能以为它对多主机磁盘具有唯一访问权和所有权。多个节点试图写入磁盘会导致数据损坏。

故障防护通过以物理方式防止对磁盘的访问，限制了节点对多主机磁盘的访问。当节点脱离群集时（它或是发生故障，或是分区），故障防护确保了该节点不再能访问磁盘。只有当前成员节点有权访问磁盘，以保持数据的完整性。

磁盘设备服务为使用多主机磁盘的服务提供了故障转移能力。在当前担当磁盘设备组主节点（属主）的群集成员发生故障或变得无法访问时，一个新的主节点会被选中，在极短时间的中断后重又恢复对磁盘设备组的访问，。在此过程中，旧的主节点必须放弃对设备的访问，然后新的主节点才能启动。然而，当一个成员从群集断开并变得无法访问时，群集无法通知该节点释放那些将它作为主节点的设备。因而，需要一种方法来使群集中存活的成员能够接替发生故障的成员来控制并访问全局设备。

SunPlex 系统使用 SCSI 磁盘保留来实现故障防护。使用 SCSI 保留，可将故障节点与多主机磁盘"隔离"，使其无法访问那些磁盘。

SCSI-2 磁盘保留支持一种保留形式，它或者授予客户机对连接到磁盘的所有节点的访问权限（当没有保留上时），或者只授予客户机对某一单个节点（即拥有该保留的节点）的访问权限。

当群集成员检测到另一个节点不再通过群集互连进行通信时，它启动故障防护措施来阻止另一个节点访问共享磁盘。当发生此故障防护时，通常将防护的节点处于应急状态，并在其控制台上显示"保留冲突"的消息。

发生保留冲突是因为在节点已被检测到不再是群集成员后，一个 SCSI 保留被置于在此节点与其他节点间共享的所有磁盘上。防护节点可能不会意识到它正在被防护，并且如果它试图访问这些共享磁盘之中的一个，它会检测到保留和应急状态。

故障防护的故障快速防护机制

群集框架通过一种机制确保故障节点无法重新引导并开始写入共享存储器，这种机制被称为故障快速防护。

属于群集成员的节点对它们可以访问的磁盘（包括定额磁盘）持续启用一个特定 ioctl，MHIOCENFAILFAST。该 ioctl 是对磁盘驱动程序的指令，如果某磁盘被其它节点保留而无法由该节点访问，该指令使该节点能够将自身处于应急状态。

MHIOCENFAILFAST ioctl 指示驱动程序检查节点对磁盘发出的每个读写操作所返回的错误，查看是否返回 Reservation_Conflict 错误代码。ioctl 定期在后台向磁盘发出一个测试操作，检查是否出现 Reservation_Conflict。如果系统返回 Reservation_Conflict 消息，前台和后台控制流路径均进入应急状态。

对于 SCSI-2 磁盘，保留不是永久性的－它们无法免于节点重新引导。对于具有持久性组保留 (PGR) 的 SCSI-3 磁盘，保留信息存储在磁盘上，并在多次节点重新引导后仍保持有效。无论使用 SCSI-2 磁盘还是 SCSI-3 磁盘，故障快速防护机制的工作方式都是一样的。

如果某节点与群集中其它节点失去连接，并且它不属于可获取定额的分区的一部分，它将被另一节点强行从该群集中删除。属于可获取定额的分区一部分的另一节点将保留放置在共享磁盘上，当不具备定额的节点试图访问共享磁盘时，它将接到保留冲突消息，并在故障快速防护机制的作用下进入应急状态。

进入应急状态之后，节点可能重新引导，试图重新连接群集；也可能停留在 OpenBoot PROM (OBP) 提示符状态下。所采取的措施取决于 OBP 中 auto-boot? 参数的设置。