本章介绍了维护中常用的服务迁移信息或群集故障所产生的服务迁移信息。本章包括以下各节:
本节介绍了当主群集或辅助群集上检测到故障时发生的内部进程。
当保护组的主群集出现故障时,伙伴关系中的辅助群集会检测到该故障。出现故障的群集可能是多个伙伴关系的成员,这将导致进行多个故障检测。
当主群集上出现故障时,系统会执行以下操作。出现故障期间,群集上的相应保护组处于 Unknown 状态。
伙伴群集检测到心跳故障。
以紧急模式激活心跳以验证心跳丢失是否不是瞬态以及主群集是否已出现故障。在此默认的超时时间间隔内,心跳将保持 Online 状态,同时,心跳机制会继续重试主群集。
使用 Query_interval 心跳属性可设置此查询时间间隔。如果经过配置的时间间隔之后心跳仍然存在故障,则将会生成心跳丢失事件并将其记录在系统日志中。使用默认的时间间隔时,紧急模式的重试操作可能会使心跳丢失通知延迟大约九分钟。多条消息将显示在图形用户界面 (GUI) 和 geoadm status 命令的输出中。
有关日志记录的更多信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Viewing the Sun Cluster Geographic Edition Log Messages”。
如果为伙伴关系配置了心跳丢失通知,则将执行以下的一种或两种操作:
向通过 Notification_emailaddrs 属性所配置的地址发送一封电子邮件。
执行 Notification_actioncmd 中所定义的脚本。
有关配置心跳丢失通知的更多信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Configuring Heartbeat-Loss Notification”。
当保护组的辅助群集出现故障时,同一伙伴关系中的另一个群集会检测到该故障。出现故障的群集可能是多个伙伴关系的成员,这将导致进行多个故障检测。
在故障检测过程中,将会发生以下操作:
伙伴群集检测到心跳故障。
以紧急模式激活心跳以验证辅助群集是否已停用。
当 Sun Cluster Geographic Edition 产品确认发生故障后,群集将通知管理员。系统会检测将故障群集作为辅助群集的所有保护组。相应保护组的状态将标记为 Unknown。
如果您希望将服务依次迁移到伙伴群集,可以对 EMC Symmetrix Remote Data Facility 保护组执行切换操作。基本的 Sun Cluster Geographic Edition 操作(如 geopg switchover)均会执行 symrdf swap 操作。静态 RDF 执行 symrdf swap 操作需要的时间远远多于动态 RDF。因此,使用静态 RDF 时,您可能需要增加保护组的超时时间这一属性的值。
切换操作包括以下内容:
在原来的主群集 cluster-paris 上使应用程序服务脱机。
有关哪个群集是 cluster-paris 的提示信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Example Sun Cluster Geographic Edition Cluster Configuration”。
颠倒数据复制的角色,然后从新的主群集 cluster-newyork 到原先的主群集 cluster-paris 继续进行数据复制。
使应用程序服务在新的主群集 cluster-newyork 上进入联机状态。
如果您正在执行 EMC Symmetrix Remote Data Facility/异步数据复制,则不能执行角色交换 (personality swap)。
本节介绍了有关以下主题的信息:
使用 geopg switchover 命令启动 switchover 操作时,数据复制子系统将在两个群集上运行几个验证。只有当两个群集上均成功完成验证步骤后,才会执行切换操作。
首先,复制子系统会检查 EMC Symmetrix Remote Data Facility 设备组是否处于有效的聚合 RDF 设备对状态。然后,该子系统将检查目标主群集 cluster-newyork 上的本地设备组类型是否为 RDF2。symrdf -g device-group-name -query 命令将返回本地设备组的状态。这些值对应于 RDF1 或 RDF2 状态。下表介绍了在新的主群集 cluster-newyork 上运行的 EMC Symmetrix Remote Data Facility 命令。
表 3–1 在新主群集上执行的 EMC Symmetrix Remote Data Facility 切换验证
RDF 设备对状态 |
在 cluster-newyork 上运行的 EMC Symmetrix Remote Data Facility 切换命令 |
---|---|
Synchronized |
暂停 RDF 链接。 |
R1Updated、Failedover、Suspended |
执行 symrdf swap 命令来切换角色。 |
其他 RDF 设备对状态 |
不运行任何命令。 |
切换操作成功执行之后,在数据复制级别主卷和辅助卷的角色已完成切换。切换之前的 RDF1 卷将变为 RDF2 卷。而切换之前的 RDF2 卷将变为 RDF1 卷。然后继续从新的 RDF1 卷到新的 RDF2 卷进行数据复制。
此外,作为切换操作的一部分,系统还会切换保护组的 Local-role 属性,不管应用程序是否在新的主群集上联机。在保护组的 Local role 为 Secondary 的群集上,该保护组的 Local-role 属性将变为 Primary。而在保护组的 Local-role 为 Primary 的群集上,该保护组的 Local-role 属性将变为 Secondary。
成功的切换操作意味着,主群集和辅助群集之间的数据复制一定要处于活动状态,而且两个群集上的数据卷一定要同步。
将保护组从主群集切换到辅助群集前,请确保满足以下条件:
两个群集上均已启动并运行 Sun Cluster Geographic Edition 软件。
辅助群集是伙伴关系的成员。
两个群集伙伴均可访问。
保护组处于 OK 状态。
如果您已配置了 Cluster_dgs 属性,则只有属于保护组的应用程序可以写入 Cluster_dgs 属性所指定的设备组。
登录到一个群集节点。
要完成此过程,必须为您指定 Geo Management RBAC 权限配置文件。有关 RBAC 的更多信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Sun Cluster Geographic Edition Software and RBAC”。
执行切换操作。
在切换操作期间启动和停止属于该保护组的应用程序资源组。
# geopg switchover [-f] -m newprimarycluster protectiongroupname |
在不经您确认的情况下强制命令执行该操作
指定将成为该保护组新主群集的群集的名称
指定保护组的名称
以下示例执行了到辅助群集的切换操作。
# geopg switchover -f -m cluster-newyork srdfpg |
当需要在辅助群集上使应用程序进入联机状态时,请执行接管操作,无论主卷和辅助卷上的数据是否完全一致。本节中介绍的信息均假定保护组已经启动。
启动接管操作后将执行以下步骤:
如果可以访问原来的主群集 cluster-paris,并且出于通知处理或其他某种原因并未锁定保护组,则在原来的主群集上应用程序服务将会进入脱机状态。
有关哪个群集是 cluster-paris 的提示信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Example Sun Cluster Geographic Edition Cluster Configuration”。
以前的主群集 cluster-paris 的数据卷将由新的主群集 cluster-newyork 接管。
此数据可能与最初的主卷不一致。执行接管操作后,从新的主群集 cluster-newyork 到原来的主群集 cluster-paris 的数据复制将停止。
使应用程序服务在新的主群集 cluster-newyork 上进入联机状态。
有关接管操作以及 geopg takeover 命令结果的详细信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Overview of Disaster Recovery Administration”。
有关主群集和辅助群集在接管操作前后可能出现哪些状况的详细信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的附录 C “Takeover Postconditions”。
以下几节介绍了强制辅助群集执行接管操作时必须执行的步骤。
使用 geopg takeover 命令启动接管操作时,数据复制子系统将在两个群集上运行几个验证。仅在可访问主群集的情况下,才会在最初的主群集上执行这些步骤。如果在原来的主群集上验证失败,则仍会执行接管操作。
首先,复制子系统会检查 EMC Symmetrix Remote Data Facility 设备组是否处于有效的聚合 RDF 设备对状态。下表介绍了用于进行接管操作的 EMC Symmetrix Remote Data Facility 命令。
表 3–2 在新的主群集上执行的 EMC Symmetrix Remote Data Facility 接管验证
聚合 RDF 设备对状态 |
保护组的本地角色 |
在 cluster-newyork 上运行的 EMC Symmetrix Remote Data Facility 接管命令 |
---|---|---|
FailedOver |
主 |
symrdf $option $dg write_disable r2 symrdf -g dg suspend symrdf $option $dg rw_enable r1 |
FailedOver |
辅助 |
不运行任何命令。 |
Synchronized、Suspended、R1 Updated、Partitioned |
所有 |
symrdf -g dg failover |
从复制的角度来看,成功执行接管操作之后,作为接管操作的一部分,无论在新的主群集上应用程序是否会进入联机状态,系统均会更改保护组的 Local-role 属性以反映新的角色。在保护组的 Local-role 为 Secondary 的 cluster-newyork 群集上,该保护组的 Local-role 属性将变为 Primary。在保护组的 Local-role 为 Primary 的 cluster-paris 群集上,可能出现以下情况:
如果可以访问该群集,则保护组的 Local-role 属性将变为 Secondary。
如果无法访问该群集,则保护组的 Local-role 属性将仍为 Primary。
如果接管操作执行成功,则应用程序将进入联机状态。您无需再单独运行 geopg start 命令。
成功执行接管操作后,新的主群集 cluster-newyork 和原来的主群集 cluster-paris 之间的数据复制将停止。如果要运行 geopg start 命令,您必须使用 -n 选项来防止复制操作继续进行。
在强制辅助群集承担主群集的活动前,请确保满足以下条件:
已在该群集上启动和运行 Sun Cluster Geographic Edition 软件。
该群集是伙伴关系的成员。
在辅助群集上保护组的 Configuration 状态为 OK。
登录到一个辅助群集中的节点。
要完成此过程,必须为您指定 Geo Management RBAC 权限配置文件。有关 RBAC 的更多信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Sun Cluster Geographic Edition Software and RBAC”。
启动接管操作。
# geopg takeover [-f] protectiongroupname |
在不经您确认的情况下强制该命令执行操作
指定保护组的名称
本示例将强制辅助群集 cluster-newyork 对 srdfpg 执行接管。
phys-newyork-1 是辅助群集中的第一个节点。有关哪一个节点是 phys-newyork-1 的提示信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Example Sun Cluster Geographic Edition Cluster Configuration”。
phys-newyork-1# geopg takeover -f srdfpg |
有关主群集和辅助群集在接管操作完成后的状态信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的附录 C “Takeover Postconditions”。
成功执行接管操作后,辅助群集 cluster-newyork 将成为保护组的主群集,并且服务将在辅助群集上处于联机状态。恢复原来的主群集 cluster-paris 后,可使用故障恢复过程重新使服务在原来的主群集上联机。
Sun Cluster Geographic Edition 软件支持以下两种故障恢复:
故障恢复-切换。在故障恢复-切换期间,当使用辅助群集 cluster-newyork 上的数据对原主群集 cluster-paris 上的数据进行重新同步之后,应用程序将重新在原来的主群集上联机。
有关哪个群集是 cluster-paris 以及哪个群集是 cluster-newyork 的提示信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Example Sun Cluster Geographic Edition Cluster Configuration”。
故障恢复-接管。在故障恢复-接管期间,应用程序将在原来的主群集 cluster-paris 上重新联机,并使用原主群集上的当前数据。在辅助群集 cluster-newyork 作为主群集时,在它的上面进行的任何更新均将被放弃。
当原来的主群集重新启动后,如果要使新的主群集 cluster-newyork 保持为主群集并使原来的主群集 cluster-paris 作为辅助群集,您可以重新同步和重新验证保护组配置,而无需执行切换或接管操作。
本节介绍了有关以下主题的信息:
可通过执行以下过程用当前主群集 cluster-newyork 上的数据重新同步和重新验证最初的主群集 cluster-paris 上的数据。
重新同步和重新验证保护组的配置之前,cluster-newyork 上已执行了接管操作。这些群集现在具有以下角色:
如果最初的主群集 cluster-paris 已关闭,请确认是否已引导该群集以及是否已在该群集上启用 Sun Cluster Geographic Edition 基础结构。有关引导群集的更多信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Booting a Cluster”。
cluster-newyork 上的保护组具有 primary 角色。
cluster-paris 上的保护组具有 primary 角色或 secondary 角色,这取决于在执行接管操作期间是否可以访问该保护组。
将最初的主群集 cluster-paris 与当前的主群集 cluster-newyork 进行重新同步。
cluster-paris 将放弃自己的配置,并在本地复制 cluster-newyork 的配置。重新同步伙伴关系和保护组配置。
在 cluster-paris 上重新同步伙伴关系。
phys-paris-1# geops update partnershipname |
指定伙伴关系的名称。
此步骤只需执行一次即可,即使是要重新同步多个保护组亦是如此。
有关对伙伴关系进行同步的更多信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Resynchronizing a Partnership”。
在 cluster-paris 上重新同步每个保护组。
由于在 cluster-newyork 上保护组的角色为 primary,因此此步骤可确保在 cluster-paris 上保护组的角色为 secondary。
phys-paris-1# geopg update protectiongroupname |
指定保护组的名称
有关如何同步保护组的更多信息,请参见重新同步 EMC Symmetrix Remote Data Facility 保护组。
在 cluster-paris 上,验证每个保护组的群集配置。
phys-paris-1# geopg validate protectiongroupname |
指定标识单个保护组的唯一名称
有关更多信息,请参见如何验证 EMC Symmetrix Remote Data Facility 保护组。
在 cluster-paris 上激活每个保护组。
由于 cluster-paris 上的保护组具有辅助角色,因此 geopg start 命令不会在 cluster-paris 上重新启动应用程序。
phys-paris-1# geopg start -n -e local protectiongroupname |
指定命令的范围。
指定 local 范围后,该命令将仅在本地群集上有效。
指定不能对该保护组进行数据复制。如果省略该选项,则数据复制将与保护组同时启动。
指定保护组的名称。
由于保护组具有辅助角色,因此将从当前主群集 cluster-newyork 到当前辅助群集 cluster-paris 对数据进行同步。
有关 geopg start 命令的更多信息,请参见如何激活 EMC Symmetrix Remote Data Facility 保护组。
确认保护组配置是否正常。
首先,确认在 cluster-newyork 上保护组的状态为 OK。当 cluster-newyork 上的 EMC Symmetrix Remote Data Facility 设备组的 EMC Symmetrix Remote Data Facility 设备对状态为 Synchronized 时,保护组的本地状态为 OK。
phys-newyork-1# geoadm status |
参阅输出的 Protection Group 部分。
接下来,确认复制资源组 protectiongroupname-rep-rg 中的所有资源是否均报告其状态为 OK。
phys-newyork-1# clresource status -g protectiongroupname-rep-rg |
当使用当前主群集 cluster-newyork 上的数据重新同步原主群集 cluster-paris 上的数据后,可执行本过程在原主群集上重新启动应用程序。
故障恢复过程仅适用于处在伙伴关系中的群集。对于每个伙伴关系而言,以下过程只需执行一次。
在执行“故障恢复-切换”前,在 cluster-newyork 上已进行了接管操作。群集具有以下角色:
如果最初的主群集 cluster-paris 已关闭,请确认是否已引导该群集以及是否已在该群集上启用 Sun Cluster Geographic Edition 基础结构。有关引导群集的更多信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Booting a Cluster”。
cluster-newyork 上的保护组具有 primary 角色。
cluster-paris 上的保护组具有 primary 角色或 secondary角色,这取决于从 cluster-newyork 进行接管期间,是否可以访问 cluster-paris。
将最初的主群集 cluster-paris 与当前的主群集 cluster-newyork 进行重新同步。
cluster-paris 将放弃自己的配置,并在本地复制 cluster-newyork 的配置。重新同步伙伴关系和保护组配置。
在 cluster-paris 上重新同步伙伴关系。
phys-paris-1# geops update partnershipname |
指定伙伴关系的名称。
对于每个伙伴关系而言,即使是要对该伙伴关系中的多个保护组执行“故障恢复-切换”操作,也只需为该伙伴关系执行一次此步骤即可。
有关对伙伴关系进行同步的更多信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Resynchronizing a Partnership”。
确定原始主群集 cluster-paris 上的保护组是否处于活动状态。
phys-paris-1# geoadm status |
如果原始主群集上的保护组处于活动状态,则将其停止。
phys-paris-1# geopg stop -e local protectiongroupname |
检验保护组是否已停止。
phys-paris-1# geoadm status |
在 cluster-paris 上重新同步每个保护组。
由于保护组在 cluster-newyork 上的本地角色现在为 primary 角色,因而此步骤可确保它在 cluster-paris 上成为 secondary 角色。
phys-paris-1# geopg update protectiongroupname |
指定保护组的名称
有关如何同步保护组的更多信息,请参见重新同步 EMC Symmetrix Remote Data Facility 保护组。
在 cluster-paris 上,验证每个保护组的群集配置。
因此,请确保保护组不处于错误状态。由于保护组处于错误状态时是无法启动的,
phys-paris-1# geopg validate protectiongroupname |
指定标识单个保护组的唯一名称
有关更多信息,请参见如何验证 EMC Symmetrix Remote Data Facility 保护组。
在 cluster-paris 上激活每个保护组。
由于 cluster-paris 上的保护组具有辅助角色,因此 geopg start 命令不会在 cluster-paris 上重新启动应用程序。
phys-paris-1# geopg start -e local protectiongroupname |
指定命令的范围。
指定 local 范围后,该命令将仅在本地群集上有效。
指定保护组的名称。
执行“故障恢复-切换”操作时,因为需要在当前的主群集 cluster-newyork 和当前的辅助群集 cluster-paris 之间进行数据同步,所以请不要使用 -n 选项。
由于保护组具有辅助角色,因此将从当前主群集 cluster-newyork 到当前辅助群集 cluster-paris 对数据进行同步。
有关 geopg start 命令的更多信息,请参见如何激活 EMC Symmetrix Remote Data Facility 保护组。
确认数据已完全同步。
cluster-newyork 上保护组的状态为 OK 时,数据已完全同步。当 cluster-newyork 上 EMC Symmetrix Remote Data Facility 设备组的 RDF 设备对状态为 Synchronized 时,保护组的本地状态应为 OK。
要确认 cluster-newyork 上保护组的状态是否为 OK,请使用以下命令:
phys-newyork-1# geoadm status |
参阅输出的 Protection Group 部分。
确保两个伙伴群集上的保护组处于激活状态。
# geoadm status |
在任一个群集上,为每个保护组从 cluster-newyork 到 cluster-paris 执行切换操作。
# geopg switchover [-f] -m clusterparis protectiongroupname |
有关更多信息,请参见如何将 EMC Symmetrix Remote Data Facility 保护组从主群集切换到辅助群集。
cluster-paris 承担其作为保护组主群集的最初角色。
确保成功执行了切换操作。
检验保护组此时在 cluster-paris 上是否为主角色,在 cluster-newyork 上是否为辅助角色,并检验其在两个群集上的“数据复制”状态和“资源组”状态是否均为 OK。
# geoadm status |
检查每个 EMC Symmetrix Remote Data Facility 保护组的应用程序资源组和数据复制的运行时状态。
# clresourcegroup status -v protectiongroupname |
请参阅针对您要检查的数据复制设备组所显示的 Status 和 Status Message 字段。有关这些字段的更多信息,请参见表 2–1。
有关数据复制的运行时状态的更多信息,请参见检查 EMC Symmetrix Remote Data Facility 数据复制的运行时状态。
执行本过程可在原来的主群集 cluster-paris 上重新启动应用程序,并使用该群集上当前的数据。在辅助群集 cluster-newyork 作为主群集时,在它的上面进行的任何更新均将被放弃。
故障恢复过程仅适用于处在伙伴关系中的群集。对于每个伙伴关系而言,以下过程只需执行一次。
如果要继续使用原主群集 cluster-paris 上的数据,则当您在 cluster-newyork 上进行接管以后,任何时候都不要执行从新主群集 cluster-newyork 到原主群集 cluster-paris 的数据复制。为避免在新主群集和原主群集之间进行数据复制,您必须在每次使用 geopg start 命令时都使用 -n 选项。
确保群集具有以下角色:
如果最初的主群集 cluster-paris 已关闭,请确认是否已引导该群集以及是否已在该群集上启用 Sun Cluster Geographic Edition 基础结构。有关引导群集的更多信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Booting a Cluster”。
cluster-newyork 上的保护组具有 primary 角色。
cluster-paris 上的保护组具有 primary 角色或 secondary角色,这取决于从 cluster-newyork 进行接管期间,是否可以访问 cluster-paris。
将最初的主群集 cluster-paris 与最初的辅助群集 cluster-newyork 进行重新同步。
cluster-paris 将放弃自己的配置,并在本地复制 cluster-newyork 的配置。
在 cluster-paris 上重新同步伙伴关系。
phys-paris-1# geops update partnershipname |
指定伙伴关系的名称。
对于每个伙伴关系而言,即使是要对该伙伴关系中的多个保护组执行“故障恢复-接管”操作,也只需为该伙伴关系执行一次此步骤即可。
有关对伙伴关系进行同步的更多信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Resynchronizing a Partnership”。
确定原始主群集 cluster-paris 上的保护组是否处于活动状态。
phys-paris-1# geoadm status |
如果原始主群集上的保护组处于活动状态,则将其停止。
phys-paris-1# geopg stop -e local protectiongroupname |
检验保护组是否已停止。
phys-paris-1# geoadm status |
在 cluster-paris 上重新同步每个保护组。
由于保护组在 cluster-newyork 上的本地角色现在为 primary 角色,因而此步骤可确保它在 cluster-paris 上成为 secondary 角色。
phys-paris-1# geopg update protectiongroupname |
指定保护组的名称
有关重新同步保护组的更多信息,请参见如何重新同步保护组。
在 cluster-paris 上,验证每个保护组的配置。
因此,请确保保护组不处于错误状态。由于保护组处于错误状态时是无法启动的,
phys-paris-1# geopg validate protectiongroupname |
指定标识单个保护组的唯一名称
有关更多信息,请参见如何验证 EMC Symmetrix Remote Data Facility 保护组。
在 cluster-paris 上,在没有进行数据复制的情况下激活辅助角色中的每个保护组。
由于 cluster-paris 上保护组的角色为 secondary,因此 geopg start 命令不会在 cluster-paris 上重新启动应用程序。
必须使用 -n 选项以指定不对此保护组进行数据复制。如果省略该选项,则数据复制将与保护组同时启动。
phys-paris-1# geopg start -e local -n protectiongroupname |
指定命令的范围。
指定 local 范围后,该命令将仅在本地群集上有效。
指定不能对该保护组进行数据复制。如果省略该选项,则数据复制将与保护组同时启动。
指定保护组的名称
有关更多信息,请参见如何激活 EMC Symmetrix Remote Data Facility 保护组。
由于在 cluster-paris 上使用了 -n 选项,因此从 cluster-newyork 到 cluster-paris 的复制不会启动。
在 cluster-paris 上,为每个保护组执行接管操作。
phys-paris-1# geopg takeover [-f] protectiongroupname |
在不经您确认的情况下强制该命令执行操作
指定保护组的名称
有关 geopg takeover 命令的更多信息,请参见如何强制辅助群集对 EMC Symmetrix Remote Data Facility 服务立即执行接管操作。
cluster-paris 上的保护组现在具 primary 角色,而 cluster-newyork 上的保护组则具 secondary 角色。在 cluster-paris 上,应用程序服务现在已处于联机状态。
在 cluster-paris 上激活每个保护组。
完成步骤 4 后,cluster-newyork 上保护组的本地状态为 Offline。要启动对保护组的本地状态的监视,您必须在 cluster-newyork 上激活保护组。
由于 cluster-newyork 上的保护组具有 secondary 角色,因此 geopg start 命令不会在 cluster-newyork 上重新启动应用程序。
phys-newyork-1# geopg start -e local [-n] protectiongroupname |
指定命令的范围。
指定 local 范围后,该命令将仅在本地群集上有效。
防止在启动保护组时启动数据复制。
如果省略此选项,则在启动保护组时会启动数据复制子系统。
指定保护组的名称。
有关 geopg start 命令的更多信息,请参见如何激活 EMC Symmetrix Remote Data Facility 保护组。
确保已成功执行接管操作。
检验保护组此时在 cluster-paris 上是否为主角色,在 cluster-newyork 上是否为辅助角色,并检验其在两个群集上的“数据复制”状态和“资源组”状态是否均为 OK。
# geoadm status |
如果在步骤 5 中使用了 -n 选项以防止启动数据复制,则“数据复制”状态将不会是 OK。
检查每个 EMC Symmetrix Remote Data Facility 保护组的应用程序资源组和数据复制的运行时状态。
# clresourcegroup status -v protectiongroupname |
请参阅针对您要检查的数据复制设备组所显示的 Status 和 Status Message 字段。有关这些字段的更多信息,请参见表 2–1。
有关数据复制的运行时状态的更多信息,请参见检查 EMC Symmetrix Remote Data Facility 数据复制的运行时状态。
基本的 Sun Cluster Geographic Edition 操作(如 geopg switchover)均会在 EMC Symmetrix Remote Data Facility 数据复制级别执行 symrdf swap 操作。在 EMC Symmetrix Remote Data Facility 术语中,切换被称为交换。静态 RDF 执行 symrdf swap 操作需要的时间远远多于动态 RDF。因此,使用静态 RDF 时,您可能需要增加保护组的超时时间这一属性的值。
如果所有 EMC Symmetrix Remote Data Facility 命令返回的值均为 0,则表明切换操作成功。在某些情况下,命令可能会返回错误代码(即 0 以外的值)。这些情况都被视为切换故障。
如果发生切换故障,辅助卷可能未与主卷完全同步。在切换操作失败的情况下,Sun Cluster Geographic Edition 软件不会在预期的新主群集上启动应用程序。
本节的其余部分介绍了导致切换故障的初始情况以及如何从切换故障中恢复。
本节介绍了有关以下主题的信息:
本节介绍了一种切换故障情形。在此情形中,cluster-paris 是原来的主群集,而 cluster-newyork 是原来的辅助群集。
经过切换,使服务从 cluster-paris 切换到了 cluster-newyork,如下所示:
phys-newyork-1# geopg switchover -f -m cluster-newyork srdfpg |
在处理 geopg switchover 命令期间,运行了 symrdf swap,该命令返回 EMC Symmetrix Remote Data Facility 设备组 devgroup1 的错误。因此,geopg switchover 命令返回以下故障消息:
Processing operation.... this may take a while .... "Switchover" failed for the following reason: Switchover failed for SRDF DG devgroup1 |
显示此故障消息后,这两个群集将处于以下状态:
cluster-paris: srdfpg role: Secondary cluster-newyork: srdfpg role: Secondary phys-newyork-1# symdg list D E V I C E G R O U P S Number of Name Type Valid Symmetrix ID Devs GKs BCVs VDEVs devgroup1 RDF1 Yes 000187401215 2 0 0 0 devgroup2 RDF2 Yes 000187401215 6 0 0 0 |
本节描述了从上节所述的故障情形中进行恢复的过程。这些过程可使应用程序在相应群集上联机。
将 EMC Symmetrix Remote Data Facility 设备组 devgroup1 置于 Split 状态。
使用 symrdf split 命令使 cluster-paris 和 cluster-newyork 上保护组中的设备组都处于 Split 状态。
phys-newyork-1# symrdf -g devgroup1 split |
使其中一个群集成为保护组的 Primary 群集。
如果您想在原来的主群集 cluster-paris 上启动应用程序,请使该群集成为保护组的 Primary 群集。应用程序将使用原主群集上的当前数据。
如果您想在原来的辅助群集 cluster-newyork 上启动应用程序,请使该群集成为保护组的 Primary 群集。应用程序将使用原辅助群集上的当前数据。
由于 symrdf swap 命令没有执行交换,因此 cluster-newyork 上的数据卷可能没有与 cluster-paris 上的数据卷同步。如果您想要使用原主群集上的数据来启动应用程序,则不能使原辅助群集成为 Primary 角色。
在原来的主群集上取消激活该保护组。
phys-paris-1# geopg stop -e Local srdfpg |
重新同步该保护组的配置。
此命令使用 cluster-newyork 上的保护组的配置信息来更新 cluster-paris 上的保护组配置。
phys-paris-1# geopg update srdfpg |
geopg update 命令运行成功后,srdfpg 在每个群集上具有以下角色:
cluster-paris: srdfpg role: Primary cluster-newyork: srdfpg role: secondary |
确定在原来的主群集上设备组是否具有 RDF1 角色。
phys-paris-1# symdg list | grep devgroup1 |
如果在原来的主群集上设备组不具有 RDF1 角色,请运行 symrdf swap 命令使设备组 devgroup1 具有 RDF1 角色。
phys-paris-1# symrdf -g devgroup1 failover phys-paris-1# symrdf -g devgroup1 swap |
使用 symrdf list 命令查看设备组信息,确认交换是否成功。
phys-paris-1# symdg list D E V I C E G R O U P S Number of Name Type Valid Symmetrix ID Devs GKs BCVs VDEVs devgroup1 RDF1 Yes 000187401215 6 0 0 0 devgroup2 RDF1 Yes 000187401215 2 0 0 0 |
在伙伴关系中的两个群集上激活该保护组。
phys-paris-1# geopg start -e Global srdfpg |
此命令将在 cluster-paris 上启动应用程序。从 cluster-paris 到 cluster-newyork 的数据复制将启动。
重新同步该保护组的配置。
此命令使用 cluster-paris 上的保护组的配置信息来更新 cluster-newyork 上的保护组配置。
phys-newyork-1# geopg update srdfpg |
geopg update 命令运行成功后,srdfpg 在每个群集上具有以下角色:
cluster-paris: srdfpg role: Secondary cluster-newyork: srdfpg role: Primary |
运行 symrdf swap 命令使设备组 devgroup2 具有 RDF2 角色。
phys-paris-1# symrdf -g devgroup2 failover phys-paris-1# symrdf -g devgroup2 swap |
使用 symrdf list 命令查看设备组信息,确认交换是否成功。
phys-paris-1# symdg list D E V I C E G R O U P S Number of Name Type Valid Symmetrix ID Devs GKs BCVs VDEVs devgroup1 RDF2 Yes 000187401215 6 0 0 devgroup2 RDF2 Yes 000187401215 2 0 0 0 |
在伙伴关系中的两个群集上激活该保护组。
phys-newyork-1# geopg start -e Global srdfpg |
此命令将在 cluster-newyork 上启动应用程序。从 cluster-newyork 到 cluster-paris 的数据复制将启动。
此命令将覆写 cluster-paris 上的数据。
在数据复制级别发生错误时,该错误反映在相关设备组的复制资源组中资源的状态中。对该保护组执行 geoadm status 命令后,更改后的状态将显示在“数据复制”状态字段中。
本节介绍了有关以下主题的信息:
使用 scstat -g 命令检查复制资源的状态。
# clresource status -v sc_geo_dr-SRDF-protectiongroupname-srdf dgname |
有关不同的 Resource status 值如何映射到实际的复制对状态的信息,请参见表 2–4。
运行 clresource status 命令可能会返回以下内容:
… -- Resources -- Resource Name Node Name State Status Message ------------- --------- ----- -------------- Resource: sc_geo_dr-SRDF-srdfpg-devgroup1 pemc1 Online Online - Partitioned Resource: sc_geo_dr-SRDF-srdfpg-devgroup1 pemc2 Offline Offline … |
使用 geoadm status 命令可显示保护组中所有设备组的聚合资源状态。
例如,在前面的示例中,clresource status 命令的输出表明 EMC Symmetrix Remote Data Facility 设备组 devgroup1 在 cluster-paris 上处于 Suspended 状态。表 2–4 表明 Suspended 状态对应于资源状态 FAULTED。因此,保护组的数据复制状态也是 FAULTED。此状态反映在 geoadm status 命令的输出中,该命令会将保护组的状态显示为 Error。
phys-paris-1# geoadm status Cluster: cluster-paris Partnership "paris-newyork-ps" : OK Partner clusters : cluster-newyork Synchronization : OK ICRM Connection : OK Heartbeat "paris-to-newyork" monitoring "cluster-newyork": OK Heartbeat plug-in "ping_plugin" : Inactive Heartbeat plug-in "tcp_udp_plugin" : OK Protection group "srdfpg" : Error Partnership : paris-newyork-ps Synchronization : OK Cluster cluster-paris : Error Role : Primary PG activation state : Activated Configuration : OK Data replication : Error Resource groups : OK Cluster cluster-newyork : Error Role : Secondary PG activation state : Activated Configuration : OK Data replication : Error Resource groups : OK |
要从错误状态中恢复,您可能需要执行以下过程中的部分或全部步骤。
使用 EMC Symmetrix Remote Data Facility 文档中的相应过程来确定导致 FAULTED 状态的原因。
通过相应的 EMC Symmetrix Remote Data Facility 过程从故障状态中恢复。
如果恢复过程更改了设备组状态,则资源将自动检测此状态并将其作为新的保护组状态来报告。
重新验证保护组的配置
phys-paris-1# geopg validate protectiongroupname |
指定 EMC Symmetrix Remote Data Facility 保护组的名称
如果使用 geopg validate 命令确定了配置是否有效,保护组的状态将会变化以反映实际情况。如果配置无效,geopg validate 会返回一条故障消息。
查看保护组配置的状态。
phys-paris-1# geopg list protectiongroupname |
指定 EMC Symmetrix Remote Data Facility 保护组的名称
查看该保护组的运行时状态。
phys-paris-1# geoadm status |