Sun Cluster Geographic Edition 系统管理指南

第 11 章 迁移使用 Hitachi TrueCopy 数据复制的服务

本章介绍了维护中常用的服务迁移信息,这些信息也可能是由群集故障产生的。本章包括以下内容:

检测使用 Hitachi TrueCopy 数据复制的系统上的群集故障

本节介绍在主群集或辅助群集上检测到故障时发生的内部进程。

检测主群集故障

特定保护组的主群集出现故障时,伙伴关系中的辅助群集将检测到故障。出现故障的群集可能是多个伙伴关系的成员,这将导致进行多个故障检测。

当主群集上出现故障时,系统会执行以下操作。在故障期间,相应的保护组将处于 Unknown 状态。

检测辅助群集故障

特定保护组的辅助群集出现故障时,同一伙伴关系中的另一个群集将检测到故障。出现故障的群集可能是多个伙伴关系的成员,这将导致进行多个故障检测。

故障检测过程中,将会发生以下操作:

使用切换操作来迁移使用 Hitachi TrueCopy 数据复制的服务

当您希望将服务依次迁移到伙伴群集上时,可对 Hitachi TrueCopy 保护组执行切换操作。切换操作包括以下内容:

发生在切换操作之前的验证

使用 geopg switchover 命令启动切换操作时,数据复制子系统将在两个群集上运行几项验证。只有在两个群集上均成功完成验证步骤时,才会执行切换操作。

首先,复制子系统将检查 Hitachi TrueCopy 设备组是否处于有效的聚集设备组状态。然后,它将检查目标主群集 cluster-newyork 上的本地设备组状态是否为 23、33、43 或 53。本地设备组状态是由 pairvolchk -g device-group-name -ss 命令返回的。这些值对应于 PVOL_PAIRSVOL_PAIR 状态。下表介绍了在新主群集 cluster-newyork 上发出的 Hitachi TrueCopy 命令。

表 11–1 在新主群集上执行的 Hitachi TrueCopy 切换验证

聚集设备组状态 

本地群集上有效的设备组状态 

cluster-newyork 上发出的 Hitachi TrueCopy 切换命令

SMPL 

无 

无 

Regular primary 

23,43 

不发出任何命令,原因是 Hitachi TrueCopy 设备组已处于 PVOL_PAIR 状态。

Regular secondary 

33,53 

horctakeover -g dg [-t]

当 Hitachi TrueCopy 设备组的 fence_levelasync 时给出 -t 选项。该值可以算为保护组 Timeout 属性值的 80%。例如,如果保护组的 Timeout 值为 200 秒,则该命令的 -t 值可以是 200 秒的 80%,即 160 秒。

Takeover primary 

无 

无 

Takeover secondary 

无 

无 

从复制的角度看切换的结果

切换操作成功执行之后,在数据复制级别主卷和辅助卷的角色已完成切换。执行切换操作之前的 PVOL_PAIR 卷成为 SVOL_PAIR 卷。执行切换操作之前的 SVOL_PAIR 卷成为 PVOL_PAIR 卷。数据复制将继续从新的 PVOL_PAIR 卷到新的 SVOL_PAIR 卷进行。

作为切换操作的一部分,无论在新的主群集上应用程序是否会进入联机状态,系统均会切换保护组的 Local-role 属性。对于 Local-role 原先为 Secondary 的保护组所在的群集,该保护组的 Local-role 变为 Primary。而对于 Local-role 原先为 Primary 的保护组所在的群集,该保护组的 Local-role 变为 Secondary

Procedure如何将 Hitachi TrueCopy 保护组由主群集切换为辅助群集

开始之前

对于成功的切换操作来说,主群集和辅助群集之间的数据复制一定要处于活动状态,而且两个群集上的数据卷一定要同步。

将保护组从主群集切换到辅助群集前,请确保已满足以下条件:


注意 – 注意 –

如果您已配置了 Cluster_dgs 属性,则只有属于保护组的应用程序可以写入 Cluster_dgs 属性所指定的设备组。


步骤
  1. 登录到一个群集节点。

    要完成此过程,必须为您指定 Geo Management RBAC 权限配置文件。有关 RBAC 的更多信息,请参见Sun Cluster Geographic Edition 软件和 RBAC

  2. 执行切换操作。

    属于保护组一部分的应用程序资源组是在切换操作执行期间停止和启动的。


    # geopg switchover [-f] -m new-primary-cluster protection-group-name
    
    -f

    在不经您确认的情况下强制命令执行该操作。

    -m new-primary-cluster

    指定将成为该保护组新的主群集的群集的名称。

    protection-group-name

    指定保护组的名称。


示例 11–1 强制从主群集切换到辅助群集

以下示例说明了如何执行到辅助群集的切换操作。


# geopg switchover -f -m cluster-newyork tcpg

在使用 Hitachi TrueCopy 数据复制的系统上强制执行接管操作

在辅助群集上需要使应用程序进入联机状态时,您可以执行接管操作(而无论在主卷和辅助卷之间数据是否完全一致)。启动接管操作后将执行以下步骤:

有关在执行接管操作前后主群集和辅助群集的各种可能情况的详细信息,请参见附录 C,接管执行后的情况

以下各节介绍了为使辅助群集强制执行接管操作您必须执行的步骤。

发生在接管之前的验证

使用 geopg takeover 命令启动接管操作时,数据复制子系统将在两个群集上运行几个验证。仅在可访问主群集的情况下,才会在最初的主群集上执行这些步骤。如果在最初的主群集上验证失败,则仍会执行接管操作。

首先,复制子系统将检查 Hitachi TrueCopy 设备组是否处于有效的聚集设备组状态。然后,复制子系统将检查目标主群集 cluster-newyork 上的本地设备组状态是否为 32 或 52。这些值对应于 SVOL_COPY 状态,此时 horctakeover 命令将失败。下表介绍了用于接管操作的 Hitachi TrueCopy 命令。

表 11–2 在新主群集上执行的 Hitachi TrueCopy 接管验证

聚集设备组状态 

有效的本地状态设备组状态 

cluster-newyork 上发出的 Hitachi TrueCopy 接管命令

SMPL 

全部 

不发出任何命令。 

Regular primary 

全部 

不发出任何命令。 

Regular secondary 

除 32 或 52 之外的所有常规辅助状态 

有关常规辅助状态的列表,请参考表 10–1表 10–2

horctakeover -S -g dg [-t]

当 Hitachi TrueCopy 设备组的 fence_levelasync 时给出 -t 选项。该值可以算为保护组 Timeout 属性值的 80%。例如,如果保护组的 Timeout 值为 200 秒,则此命令的 -t 值将为 200 秒的 80%,即 160 秒。

Takeover primary 

全部 

不发出任何命令。 

Takeover secondary 

全部 

pairsplit -R-g dgpairsplit -S-g dg

从复制的角度看接管的结果

从复制的角度来看,成功执行接管操作之后,作为接管操作的一部分,无论在新的主群集上应用程序是否会进入联机状态,系统均会更改保护组的 Local-role 属性以反映新的角色。对于 Local-role 原先为 Secondary 的保护组所在的群集 cluster-newyork,该保护组的 Local-role 变为 Primary。而对于 Local-role 原先为 Primary 的保护组所在的群集 cluster-paris,可能会出现以下情况:

如果接管操作执行成功,则应用程序将进入联机状态。您无需单独发出 geopg start 命令


注意 – 注意 –

成功执行接管操作后,新的主群集 cluster-newyork 和以前的主群集 cluster-paris 之间的数据复制将停止。如果您希望执行 geopg start 命令,则必须使用 -n 选项以防止复制操作继续进行。


Procedure如何强制辅助群集对 Hitachi TrueCopy 服务立即执行接管操作

开始之前

在强制辅助群集进行主群集的活动前,请确保满足以下条件:

步骤
  1. 登录到一个辅助群集上的节点。

    要完成此过程,必须为您指定 Geo Management RBAC 权限配置文件。有关 RBAC 的更多信息,请参见Sun Cluster Geographic Edition 软件和 RBAC

  2. 启动接管操作。


    # geopg takeover [-f] protection-group-name
    
    -f

    在不经您确认的情况下强制该命令执行操作

    protection-group-name

    指定保护组的名称


示例 11–2 强制辅助群集执行接管操作

以下示例说明了如何强制辅助群集 cluster-newyorktcpg 执行接管操作。

phys-newyork-1 是辅助群集上的第一个节点。有关哪一个节点是 phys-paris-1 的提示信息,请参见Sun Cluster Geographic Edition 群集配置示例


phys-newyork-1# geopg takeover -f tcpg

在使用 Hitachi TrueCopy 复制的系统上将服务故障恢复到最初的主群集

成功地执行接管操作后,辅助群集 (cluster-newyork) 将成为保护组的主群集,并且辅助群集上的服务将处于联机状态。在最初的主群集cluster-paris 恢复以后,使用所谓的故障恢复进程可以使服务再次进入联机状态。

Sun Cluster Geographic Edition 软件支持以下两种故障恢复:

Procedure如何在使用 Hitachi TrueCopy 复制的系统上执行“故障恢复-切换”操作

当最初的主群集上的数据与当前主群集 cluster-newyork 上的数据重新同步之后,使用此过程可重新启动最初的主群集 cluster-paris 上的应用程序。

开始之前

在执行“故障转移-切换”前,在 cluster-newyork 上已进行了接管操作。这些群集现在具有以下角色:

步骤
  1. 将最初的主群集 cluster-paris 与当前的主群集 cluster-newyork 进行重新同步。

    cluster-paris 放弃自己的配置,从本地复制 cluster-newyork 配置。重新同步伙伴关系和保护组配置。

    1. cluster-paris 上重新同步伙伴关系。


      # geops update partnership-name
      
      partnership-name

      指定伙伴关系的名称。


      注 –

      即使您在为多个保护组执行“故障恢复-切换”操作,您也仅需要执行一次此步骤。


      有关同步伙伴关系的更多信息,请参见重新同步伙伴关系

    2. cluster-paris 上重新同步每个保护组。

      由于 cluster-newyork 上的保护组角色为 primary,因此该步骤可确保在 cluster-paris 上的保护组角色为 secondary


      # geopg update protection-group-name
      
      protection-group-name

      指定保护组的名称

      有关同步保护组的更多信息,请参见重新同步 Hitachi TrueCopy 保护组

  2. cluster-paris 上,验证每个保护组的群集配置。


    # geopg validate protection-group-name
    
    protection-group-name

    指定标识单个保护组的唯一名称

    有关更多信息,请参见如何验证 Hitachi TrueCopy 保护组

  3. cluster-paris 上激活每个保护组。

    由于 cluster-paris 上的保护组具辅助角色,因此 geopg start 命令不会重新启动 cluster-paris 上的应用程序。


    # geopg start -e local protection-group-name
    
    -e local

    指定命令的范围

    指定 local 范围后,该命令将仅在本地群集上有效。

    protection-group-name

    指定保护组的名称


    注 –

    进行“故障转移-切换”操作时,请不要使用 -n 选项,原因是需要从当前的主群集 cluster-newyork 到当前的辅助群集 cluster-paris 对数据进行同步。


    由于保护组具有辅助角色,因此将从当前主群集 cluster-newyork 到当前辅助群集 cluster-paris 对数据进行同步。

    有关 geopg start 命令的更多信息,请参见如何激活 Hitachi TrueCopy 保护组

  4. 在执行切换操作前,请等待数据完全同步。

    如果 cluster-newyork 上保护组的状态为 OK,表示数据已完全同步。cluster-newyork 上 Hitachi TrueCopy 设备组状态为 PVOL_PAIR,并且 cluster-paris 上 Hitachi TrueCopy 设备组状态为 SVOL_PAIR 时,保护组的本地状态为 OK

    为了确认 cluster-newyork 上保护组的状态是否为 OK,请使用以下命令:


    phys-newyork-1# geoadm status

    参考输出内容中的 Protection Group 部分

  5. 在任一个群集上,为每个保护组从 cluster-newyorkcluster-paris 执行切换操作。


    # geopg switchover [-f] -m cluster-paris protection-group-name
    

    有关更多信息,请参见如何将 Hitachi TrueCopy 保护组由主群集切换为辅助群集

    cluster-paris 承担其作为保护组主群集的最初角色。

Procedure如何在使用 Hitachi TrueCopy 复制的系统上执行“故障恢复-接管”操作

使用此过程在最初的主群集 cluster-paris 上重新启动应用程序,并使用最初主群集上的当前数据。当辅助群集 cluster-newyork 充当主群集时,它上面发生的任何更新都将被废弃。


注 –

此外,您还可以在最初的主群集 cluster-paris 上继续使用数据。在 cluster-newyork 上执行接管操作后,肯定没有从新的主群集 cluster-newyork 向最初的主群集 cluster-paris 复制数据。为避免在新的主群集和最初的主群集之间进行数据复制,您必须在使用 geopg start 命令时使用 -n 选项。


开始之前

执行“故障转移-接管”操作前,群集具有以下角色:

步骤
  1. 将最初的主群集 cluster-paris 与最初的辅助群集 cluster-newyork 进行重新同步。

    cluster-paris 放弃自己的配置,并从本地复制 cluster-newyork 的配置。

    1. cluster-paris 上重新同步伙伴关系。


      # geops update partnership-name
      
      partnership-name

      指定伙伴关系的名称。


      注 –

      即使您在为多个保护组执行“故障恢复-接管”操作,您也仅需要执行一次此步骤。


      有关同步伙伴关系的更多信息,请参见重新同步伙伴关系

    2. 使 Hitachi TrueCopy 设备组 devgroup1 处于 SMPL 状态。

      使用 pairsplit 命令使 cluster-pariscluster-newyork 上的保护组中的 Hitachi TrueCopy 设备组处于 SMPL 状态。您使用的 pairsplit 命令取决于 Hitachi TrueCopy 设备组的配对状态。下表列出了针对部分典型配对状态,需要您在 cluster-paris 上使用的一些命令示例。

      cluster-paris 上的配对状态

      cluster-newyork 上的配对状态

      cluster-paris 上使用的 pairsplit 命令

      PSUSPSUE

      SSWS

      pairsplit -R -g dgname

      pairsplit -S -g dgname

      SSUS

      PSUS

      pairsplit -S -g dgname

      有关 pairsplit 命令的更多信息,请参见《Sun StorEdge SE 9900 V Series Command and Control Interface User and Reference Guide》

      如果命令成功,则 pairdisplay 命令的输出将显示 devgroup1 的状态,如下所示:


      phys-paris-1# pairdisplay -g devgroup1
      Group PairVol(L/R) (Port#,TID,LU),Seq#,LDEV#,P/S,Status,Fence,Seq#,P-LDEV# M
      devgroup1 pair1(L) (CL1-A , 0, 1) 12345   1..SMPL ----  ----,-----  ----   -
      devgroup1 pair1(R) (CL1-C , 0, 20)54321 609..SMPL ----  ----,-----  ----   -
      devgroup1 pair2(L) (CL1-A , 0, 2) 12345   2..SMPL ----  ----,-----  ----   -
      devgroup1 pair2(R) (CL1-C , 0,21) 54321 610..SMPL ----  ----,-----  ----   -

      .

    3. cluster-paris 上重新同步每个保护组。

      由于 cluster-newyork 上的保护组的本地角色现在为 primary,因此该步骤可确保 cluster-paris 上的保护组的本地角色为 secondary


      # geopg update protection-group-name
      
      protection-group-name

      指定保护组的名称

      有关重新同步保护组的更多信息,请参见如何重新同步保护组

  2. cluster-paris 上,验证每个保护组的群集配置。


    # geopg validate protection-group-name
    
    protection-group-name

    指定标识单个保护组的唯一名称

    有关更多信息,请参见如何验证 Hitachi TrueCopy 保护组

  3. cluster-paris 上,在不使用数据复制的情况下激活处于辅助角色的每个保护组。

    由于 cluster-paris 上的保护组具 secondary 角色,因此 geopg start 命令不会重新启动 cluster-paris 上的应用程序。


    # geopg start -e local -n protection-group-name
    
    -e local

    指定命令的范围

    指定 local 范围后,该命令将仅在本地群集上有效。

    -n

    防止在启动保护组时启动数据复制


    注 –

    您必须使用 -n 选项。


    protection-group-name

    指定保护组的名称

    有关更多信息,请参见如何激活 Hitachi TrueCopy 保护组

    系统不会启动从 cluster-newyorkcluster-paris 的复制,因为 cluster-paris 上已指定 -n 选项。

  4. cluster-paris 上,为每个保护组执行接管操作。


    # geopg takeover [-f] protection-group-name
    
    -f

    在不经您确认的情况下强制该命令执行操作

    protection-group-name

    指定保护组的名称

    有关 geopg takeover 命令的更多信息,请参见如何强制辅助群集对 Hitachi TrueCopy 服务立即执行接管操作

    cluster-paris 上的保护组现在具 primary 角色,而 cluster-newyork 上的保护组则具 secondary 角色。在 cluster-paris 上,应用程序服务现已处于联机状态。

  5. cluster-paris 上激活每个保护组。

    完成步骤 4 后,cluster-newyork 上保护组的本地状态为 Offline。要启动对保护组的本地状态的监视,您必须在 cluster-newyork 上激活保护组。

    由于 cluster-newyork 上的保护组具 secondary 角色,因此 geopg start 命令不会重新启动 cluster-newyork 上的应用程序。


    # geopg start -e local [-n] protection-group-name
    
    -e local

    指定命令的范围

    指定 local 范围后,该命令将仅在本地群集上有效。

    -n

    防止在启动保护组时启动数据复制

    如果省略此选项,则在启动保护组时会启动数据复制子系统。

    protection-group-name

    指定保护组的名称

    有关 geopg start 命令的更多信息,请参见如何激活 Hitachi TrueCopy 保护组

在使用 Hitachi TrueCopy 复制的系统上从切换故障中恢复

执行 geopg switchover 命令时,将在 Hitachi TrueCopy 数据复制级别执行 horctakeover 命令。如果 horctakeover 命令返回的值为 1,则表明切换操作成功。

在 Hitachi TrueCopy 的术语中,switchover(切换)被称为 swap-takeover(交换-接管)。在某些情况下,horctakeover 命令可能无法执行“交换-接管”操作。此时,系统将会返回 1 以外的返回值,这视为切换操作的故障。


注 –

如果出现故障,horctakeover 命令的返回值通常为 5,这表明 SVOL-SSUS-接管。


horctakeover 命令未能执行“交换-接管”操作的可能原因之一是数据复制链接 ESCON/FC 已关闭。

“交换-接管”以外的结果表明辅助卷可能没有与主卷完全同步。在切换操作出现故障的情况下,Sun Cluster Geographic Edition 软件不会在计划中的新主群集上启动应用程序。

本节的提示信息介绍了导致切换故障的初始情况以及如何从切换故障中恢复。

切换故障情况

本节提供了一个切换故障情形示例。在此情形中,cluster-paris 是最初的主群集,而 cluster-newyork 是最初的辅助群集。

执行切换操作使服务从 cluster-paris 切换到 cluster-newyork,如下所示:


phys-newyork-1# geopg switchover -f -m cluster-newyork tcpg

处理 geopg switchover 命令时,horctakeover 命令执行 SVOL-SSUS-接管并向 Hitachi TrueCopy 设备组 devgroup1 返回 5。作为结果,geopg switchover 命令将返回以下故障消息:


Processing operation.... this may take a while ....
"Switchover" failed for the following reason:
			Switchover failed for Truecopy DG devgroup1

显示此故障消息后,这两个群集将处于以下状态:


cluster-paris:
		tcpg role: Secondary
cluster-newyork:
		tcpg role: Secondary

phys-newyork-1# pairdisplay -g devgroup1 -fc
Group  PairVol(L/R) (Port#,TID,LU),Seq#,LDEV#.P/S, Status,Fence,%, P-LDEV# M
devgroup1 pair1(L) (CL1-C , 0, 20)12345 609..S-VOL SSWS  ASYNC,100   1    -
devgroup1 pair1(R) (CL1-A , 0, 1) 54321   1..P-VOL PSUS  ASYNC,100  609   -

从切换故障中恢复

本节描述了从上节所述的故障情形中进行恢复的过程。这些过程将使应用程序在正确的群集上进入联机状态。

  1. 使 Hitachi TrueCopy 设备组 devgroup1 处于 SMPL 状态。

    使用 pairsplit 命令使 cluster-pariscluster-newyork 上的保护组中的设备组处于 SMPL 状态。对于上节所示的配对状态,应执行以下的 pairsplit 命令:


    phys-newyork-1# pairsplit -R -g devgroup1
    phys-newyork-1# pairsplit -S -g devgroup1
  2. 使其中一个群集成为保护组的 Primary 群集。

    如果您希望在最初的主群集上启动应用程序,请使最初的主群集 cluster-paris 成为保护组的 Primary 群集。该应用程序将使用最初的主群集上当前的数据。

    如果您希望在最初的辅助群集上启动应用程序,请使最初的辅助群集 cluster-newyork 成为保护组的 Primary 群集。该应用程序将使用最初的辅助群集上当前的数据。


    注意 – 注意 –

    由于 horctakeover 命令没有执行“交换-接管”,因此 cluster-newyork 上的数据卷可能没有与 cluster-paris 上的数据卷同步。如果您希望使用与最初的主群集相同的数据来启动应用程序,请不要使最初的辅助群集成为 Primary


Procedure如何使最初的主群集成为 Hitachi TrueCopy 保护组的主群集

步骤
  1. 在最初的主群集上取消激活该保护组。


    phys-paris-1# geopg stop -e Local tcpg
  2. 重新同步该保护组的配置。

    此命令使用 cluster-newyork 上的保护组的配置信息来更新 cluster-paris 上的保护组配置。


    phys-paris-1# geopg update tcpg

    geopg update 命令成功执行后,tcpg 在每个群集上具有以下角色:


    cluster-paris:
    		tcpg role: Primary
    cluster-newyork:
    		tcpg role: secondary
  3. 在伙伴关系中的两个群集上激活该保护组。


    phys-paris-1# geopg start -e Global tcpg

    此命令将在 cluster-paris 上启动应用程序。从 cluster-pariscluster-newyork 的数据复制将启动。

Procedure如何使最初的辅助群集成为 Hitachi TrueCopy 保护组的主群集

步骤
  1. 重新同步该保护组的配置。

    此命令使用 cluster-paris 上的保护组的配置信息来更新 cluster-newyork 上的保护组配置。


    phys-newyork-1# geopg update tcpg

    geopg update 命令成功执行后,tcpg 在每个群集上具有以下角色:


    cluster-paris:
    		tcpg role: Secondary
    cluster-newyork:
    		tcpg role: Primary
  2. 在伙伴关系中的两个群集上激活该保护组。


    phys-newyork-1# geopg start -e Global tcpg

    此命令将在 cluster-newyork 上启动应用程序。从 cluster-newyorkcluster-paris 的数据复制将启动。


    注意 – 注意 –

    此命令将覆写 cluster-paris 上的数据。


从 Hitachi TrueCopy 数据复制错误中恢复

在数据复制级别发生错误时,该错误反映在相关设备组的复制资源组中资源的状态中。

如何检测数据复制错误

在数据复制级别发生错误时,该错误反映在相关设备组的复制资源组中资源的状态中。

有关不同的 Resource status 值如何映射到实际的复制配对状态的信息,请参见表 10–6

使用 scstat -g 命令可以查看复制资源的状态,如下所示:


phys-paris-1# scstat -g

运行 scstat -g 命令可能会返回以下内容:


...

--Resources --
            Resource Name       Node Name           State         Status Message
            -------------       ---------           -----         --------------
Resource: r-tc-tcpg1-devgroup1  phys-paris-2        Offline       Offline
Resource: r-tc-tcpg1-devgroup1  phys-paris-1        Online        Faulted - P-VOL:PSUE

Resource: hasp4nfs              phys-paris-1        Offline       Offline
Resource: hasp4nfs              phys-paris-2        Offline       Offline

...

使用 geoadm status 命令可以显示保护组中的所有设备组的聚集资源状态。例如,前面示例中的 scstat -g 命令的输出表明 Hitachi TrueCopy 设备组 devgroup1cluster-paris 上处于 PSUE 状态。表 10–6 显示 PSUE 状态对应于资源状态 FAULTED。因此,保护组的数据复制状态也是 FAULTED。此状态反映在 geoadm status 命令的输出中,该命令显示保护组的状态为 Error


phys-paris-1# geoadm status
Cluster: cluster-paris

Partnership "paris-newyork-ps"  : OK
   Partner clusters             : cluster-newyork
   Synchronization              : OK

   Heartbeat "paris-to-newyork" monitoring "cluster-newyork": OK
      Heartbeat plug-in "ping_plugin"             : Inactive
      Heartbeat plug-in "icrm_plugin"             : OK
      Heartbeat plug-in "tcp_udp_plugin"          : OK

Protection group "tcpg"   : Error
      Partnership         : paris-newyork-ps
      Synchronization     : OK

      Cluster cluster-paris    : Error
         Role                  : Primary
         PG activation state   : Activated
         Configuration         : OK
         Data replication      : Error
         Resource groups       : OK

      Cluster cluster-newyork  : Error
         Role                  : Secondary
         PG activation state   : Activated
         Configuration         : OK
         Data replication      : Error
         Resource groups       : OK

Pending Operations
      Protection Group         : "tcpg"
      Operations               : start        

Procedure如何从 Hitachi TrueCopy 数据复制错误中恢复

要从错误状态中恢复,您可能需要执行以下过程中的部分或全部步骤。

步骤
  1. 使用 Hitachi TrueCopy 文档中的过程来确定导致 FAULTED 状态的原因。此状态显示为 PSUE

  2. 使用 Hitachi TrueCopy 过程从故障状态中恢复。

    如果恢复过程更改了设备组状态,则资源将自动检测此状态并将其作为新的保护组状态报告。

  3. 重新验证保护组的配置


    phys-paris-1# geopg validate protection-group-name 
    
    protection-group-name

    指定 Hitachi TrueCopy 保护组的名称

  4. 查看保护组配置的状态。


    phys-paris-1# geopg list protection-group-name 
    
    protection-group-name

    指定 Hitachi TrueCopy 保护组的名称

  5. 查看该保护组的运行时状态。


    phys-paris-1# geoadm status