Sun Cluster Geographic Edition 3.1 8/05 发行说明

已知问题和错误

以下已知问题和错误会影响 Sun Cluster Geographic Edition 3.1 8/05 发行版的运行。

扩展的 SunPlex Manager GUI 限制

问题摘要：无法删除包含设备组的保护组。

解决方法：要使用 GUI 删除包含设备组的保护组，请首先将各个设备组分别删除。然后，删除该保护组。

写入 `java.util.logging.ErrorManager` 导致通用代理容器日志记录错误 (5081674)

问题摘要：记录通用代理容器日志文件 java.util.logging.ErrorManager 时，出现 java.io.InterruptedIOException 错误消息。

解决方法：此异常没有危害，可以安全地忽略。

在重新引导群集后，Sun Cluster Geographic Edition 基础结构可能会保持脱机状态 (6218200)

问题摘要：在重新引导群集后，Sun Cluster Geographic Edition 基础结构可能会保持脱机状态。

解决方法：

重新引导群集后，如果 Sun Cluster Geographic Edition 基础结构处于脱机状态，请使用 geoadm start 命令重新启动 Sun Cluster Geographic Edition 基础结构。

GUI 不支持 RBAC (6226493)

问题摘要：GUI 不支持 RBAC。

解决方法：在本地群集中作为超级用户调用 GUI。

GUI 要求伙伴群集具有相同的超级用户密码 (6260505)

问题摘要：要使用超级用户密码访问 SunPlex Manager GUI，在两个群集的所有节点上超级用户密码必须相同。

解决方法：确保在两个群集的每个节点上超级用户密码都相同。

不同域中的伙伴群集不能包含具有群集名称的域名 (6260506)

问题摘要：不同域中的伙伴群集不能包含具有群集名称的域名。

解决方法：在本地群集内每个节点的 /etc/hosts 文件中将伙伴群集名称指定为伙伴群集逻辑主机名的 IP。另请参见错误 6252467。

注 –

手动更新 /etc/hosts 文件可能会导致与具有相同名称的本地域计算机发生冲突。

在自定义心跳加入伙伴关系之前，它必须存在于远程和本地群集 (6263692)

问题摘要：如果使用自定义心跳在远程群集上创建了伙伴关系，则具有相同名称的心跳在加入伙伴关系之前，必须存在于本地群集。您无法使用 GUI 创建心跳，因此在“加入伙伴关系”页面中没有适当的心跳可供选择。

解决方法：使用 CLI 创建自定义心跳，然后使用 CLI 或 GUI 加入伙伴关系。

节点和存储设备之间的通信丢失可能会导致错误状态 (6269186)

问题摘要：sysevent 守护进程崩溃时，群集状态变为错误并且心跳状态变为无响应。

解决方法：按照以下步骤，重新启动 sysevent 守护进程和 Sun Cluster Geographic Edition 基础结构。

如何重新启动 Sun Cluster Geographic Edition 基础结构

禁用 Sun Cluster Geographic Edition 软件。
phys-paris-1# geoadm stop

在群集的一个节点上，启用 Sun Cluster Geographic Edition 基础结构。
phys-paris-1# geoadm start

另请参见

有关 geoadm 命令的更多信息，请参见 geoadm(1M) 手册页。

`sysevent` 守护进程崩溃时，群集的状态为`错误` (6276483)

问题摘要：sysevent 守护进程崩溃时，群集状态变为错误并且心跳状态变为无响应。

解决方法：按照以下步骤，重新启动 sysevent 守护进程和 Sun Cluster Geographic Edition 基础结构。

如何重新启动 Sun Cluster Geographic Edition 基础结构

禁用 Sun Cluster Geographic Edition 软件。
phys-paris-1# geoadm stop

在群集的一个节点上，启用 Sun Cluster Geographic Edition 基础结构。
phys-paris-1# geoadm start

另请参见

有关 geoadm 命令的更多信息，请参见 geoadm(1M) 手册页。

保护组启动超时会显示不明确的错误消息 (6284278)

问题摘要：geopg start 命令超时会显示以下消息：“等待响应超时：100000。”此消息没有明确表明操作已超时。此外，所显示的超时时间是以毫秒为单位，而不是以秒为单位。

解决方法：无。

`geo-failovercontrol` 资源的状态变为 `STOP_FAILED` 时资源超时 (6288257)

问题摘要：当通用代理容器挂起或响应非常慢（例如，由于系统负荷过高）时，geo-failovercontrol stop 方法会超时。此超时会导致 geo-failovercontrol 资源变为 STOP_FAILED 状态。

解决方法：这一问题应该是很少见的，原因是 stop_timeout 时限相对较长，为 10 分钟。但是，如果 geo-failovercontrol 资源处于 STOP_FAILED 状态，请恢复和启用 Sun Cluster Geographic Edition 基础结构。

重新引导群集后，已激活的保护组被取消激活并且资源组处于`错误`状态 (6289463)

问题摘要：在主群集中，保护组被激活并且资源组处于正常状态。重新引导主群集后，群集恢复时保护组处于取消激活状态并且资源组处于错误状态。

解决方法：在故障恢复-切换过程中，按照过程中的步骤 1a 对伙伴关系进行同步之前，必须取消激活保护组：

# geopg stop -e Local protection-group-name

-e Local

指定命令的范围

指定 local 范围后，该命令将仅在本地群集上有效。

保护组名称

指定保护组的名称

如果已取消激活该保护组，则保护组中资源组的状态可能为错误。状态为错误，原因是应用程序资源组处于被管理和脱机状态。

取消激活保护组将导致应用程序资源组不再受到管理，并且清除错误状态。

有关完整过程，请参见《Sun Cluster Geographic Edition 系统管理指南》中的“如何在使用 Sun StorEdge Availability Suite 3.2.1 复制的系统上执行故障恢复-切换操作”一节。

向保护组添加资源组时显示不正确的消息 (6290256)

问题摘要：将应用程序资源组添加到保护组时，您可能会看到一则消息，其中指出应用程序资源组和轻量资源组必须处于同一个保护组中。该消息表明应用程序资源组与轻量资源组控制的设备组必须处于同一个保护组中。

忽略此消息，请勿将轻量资源组添加到保护组，原因是轻量资源组由 Sun Cluster Geographic Edition 软件进行管理。

解决方法：无。

使节点（此节点管理由 Sun StorEdge Availability Suite 3.2.1 和 Sun Cluster Geographic Edition 基础结构资源组控制的设备组）断开与公共网络的连接，导致该节点异常中止 (6291382)

问题摘要：使节点（此节点管理由 Sun StorEdge Availability Suite 3.2.1 和 Sun Cluster Geographic Edition 基础结构资源组和资源控制的设备组）断开与公共网络的连接，这导致该节点失去公共网络并被异常中止。

解决方法：无。

Hitachi TrueCopy 的切换操作失败导致 `dev_group` 中对的卷状态不匹配 (6295537)

问题摘要：Hitachi TrueCopy CCI 指南中当前包含的切换过程是正确的；但当切换操作因 SVOL-SSUS 接管操作而失败时，dev_group 可能会导致卷状态不匹配，这会使 pairvolchk 和 pairsplit 命令失败。

解决方法：要使 dev_group 进入卷匹配状态，请将 dev_group 中的对置于卷匹配状态。用于使对进入卷匹配状态的命令取决于当前的对状态以及用户希望将哪个群集的卷作为主卷（在其上运行应用程序）。有关 Hitachi TrueCopy 命令集，请参阅 Hitachi TrueCopy CCI 指南。然后，完成《Sun Cluster Geographic Edition 系统管理指南》中“在使用 Hitachi TrueCopy 复制的系统上从切换故障中恢复”的过程。

Hitachi TrueCopy CCI 命令和 Hitachi TrueCopy 资源报告远程 `horcmd` 没有处于活动状态，即使它处于活动状态并且能够进行响应 (6297384)

问题摘要：如果一个群集节点在不同子网上将两个或两个以上的网络地址用于通信，则必须将 /etc/horcm.conf 文件中的 IP_addres 设置为 NONE。即使这些网络地址属于同一子网，也必须将 IP_address 字段设置为 NONE。

如果未将 IP_address 字段设置为 NONE，则即使远程进程 horcmd 处于活动状态并且能够进行响应，Hitachi TrueCopy 命令也会做出意外的响应并出现超时错误 ENORMT。

解决方法：如果 /etc/horcm.conf 文件中 Hitachi TrueCopy 的默认超时值发生了变化，请更新 SUNW.GeoCtlTC 资源超时值。/etc/horcm.conf 中 Hitachi TrueCopy 的默认超时值为 3000(10ms)，即 30 秒。

通过 Sun Cluster Geographic Edition 环境创建的 SUNW.GeoCtlTC 资源的默认超时值也被设置为 3000(10ms)。

如果 /etc/horcm.conf 中 Hitachi TrueCopy 的默认超时值发生了变化，则必须按照下面讨论的算法对资源超时值进行更新。除非情况需要，否则请勿更改 /etc/horcm.conf 和 Hitachi TrueCopy 资源的默认超时值。

基于各种因素，以下的等式确立了 Hitachi TrueCopy 命令超时的时间上限：

注 –

以下等式中的单位是秒。

将 horctimeout 设置为在 /etc/horcm.conf 中配置的超时值
将 numhosts 设置为远程群集中的主机数目。对于对命令，horcmd 命令尝试与每个远程主机进行联系。
将 numretries 设置为 2。numretries 指定 horcmd 命令尝试与每个远程主机进行联系的最大次数。
将 Upper-limit-on-timeout 设置为 (horctimeout * numhosts * numretries)。

例如，如果 horctimeout 被设置为 30，numhosts 被设置为 2，numretries 被设置为 2，则 Upper-limit-on-timeout 将为 120。

基于 Upper-limit-on-timeout 的值，应设置以下资源超时值。为了处理其他命令，应至少指定 60 秒的缓冲时间。

Validate_timeout = Upper-limit-on-timeout + 60
Update_timeout = Upper-limit-on-timeout + 60
Monitor_Check_timeout = Upper-limit-on-timeout + 60
Probe_timeout = Upper-limit-on-timeout + 60
Retry_Interval = (Prote_timeout + Thorough_probe_interval) + 60

资源中的其他超时参数应包含默认值。

要更改超时值，请完成以下步骤：

使用 scswitch 命令使资源组脱机。
使用 scrgadm 命令更新所需的超时属性。
使用 scswitch 命令使资源组联机。

横向相关消耗系统资源 (6297751)

问题摘要：横向相关消耗了大量系统资源。

解决方法：无。

在没有明显原因的情况下保护组的切换操作失败，并且没有报告故障原因 (6299103)

问题摘要：有时 geopg switchover 命令会失败，并且没有说明故障原因。

解决方法：请按照《Sun Cluster Geographic Edition 系统管理指南》的“在使用 Hitachi TrueCopy 复制的系统上从切换故障中恢复”中的过程进行操作。

GUI 有时不返回为保护组创建或添加设备组的结果 (6300168)

问题摘要：如果为保护组创建或添加设备组的时间超出了浏览器所允许的超时时间，则该操作结束时 GUI 可能不会进行刷新。

解决方法：您可以在 GUI 中导航至伙伴关系页面或使用 geopg list 命令查看操作结果。

如果在 CLI 命令运行时重新引导 Geocontrol 模块处于活动状态的节点，则该命令将挂起 (6300616)

问题摘要：如果服务器端套接字被部分关闭或中断，则进程 cacaocsc 有时会挂起。另请参见错误 6304065。

解决方法：按下 Ctrl+C 或使用 kill 命令退出该命令。

在切换操作进行时重新启动通用代理容器导致 `CRITICAL INTERNAL ERROR` 错误 (6302009)

问题摘要：在切换过程中，群集发生故障时（例如，管理基础结构资源组的节点断电）会返回一则不明确的消息。

解决方法：无。

GUI 没有刷新保护组的状态更改 (6302217)

问题摘要：在 GUI 中显示的页面上，实体的配置和状态更改后，页面应该自动进行刷新。但有时刷新并没有发生。

解决方法：使用导航树导航至另一页面，然后返回最初的页面。在重新装入时会刷新页面。

同时执行两个或更多个更新 Sun StorEdge Availability Suite 3.2.1 配置数据库的操作可能会破坏配置数据库 (6303883)

问题摘要：在 Sun Cluster 环境中，您不能同时执行两个或更多个更新 Sun StorEdge Availability Suite 3.2.1 配置数据库的操作。

运行 Sun Cluster Geographic Edition 软件时，不能在具有 Sun StorEdge Availability Suite 3.2.1 复制的数据的不同保护组上同时执行以下命令中的两个或更多个命令：

geopg add-device-group
geopg remove-device-group
geopg get
geopg delete
geopg update
geopg validate
geopg start
geopg stop
geopg switchover
geopg takeover

例如，同时运行 geopg start pg1 和 geopg switchover pg2 命令可能会破坏 Sun StorEdge Availability Suite 3.2.1 配置数据库。

注 –

Solaris OS 10 上不支持 Sun StorEdge Availability Suite 3.2.1。如果运行的是 Solaris OS 10，请勿安装用于支持 Sun StorEdge Availability Suite 3.2.1 的 Sun Cluster Geographic Edition 软件包。

解决方法：对于包含两个或两个以上节点的 Sun Cluster 配置，您必须在两个伙伴群集上的所有节点上启用 Sun StorEdge Availability Suite 3.2.1 dscfglockd 守护进程。对于仅包含单个节点的 Sun Cluster 配置，则无需启用此守护进程。

要启用 dscfglockd 守护进程，请在两个伙伴群集的所有节点上完成以下过程。

如何启用 Sun StorEdge Availability Suite 3.2.1 `dscfglockd` 守护进程

确保已按照 Sun StorEdge Availability Suite 3.2.1 产品文档中的指导安装了 Sun StorEdge Availability Suite 3.2.1 产品。

确保 Sun StorEdge Availability Suite 3.2.1 产品已应用了 SunSolve (http://sunsolve.sun.com) 上提供的最新的修补程序。

创建 /etc/init.d/scm 文件的副本。

# cp /etc/init.d/scm /etc/init.d/scm.original

编辑 /etc/init.d/scm 文件。

从以下行中删除注释符号 (#) 和注释 "(turned off for 3.2)"。
# do_stopdscfglockd (turned off for 3.2) # do_dscfglockd (turned off for 3.2)

保存已编辑的文件。

如果您无需重新引导所有的 Sun Cluster 节点，则具有超级用户权限的系统管理员必须在每个节点上运行以下命令。
# /usr/opt/SUNWscm/lib/dscfglockd \ -f /var/opt/SUNWesm/dscfglockd.cf

接下来的操作

如果需要进一步的帮助，请与 Sun 服务代表联系。

在活动的主群集上执行保护组接管和切换操作导致应用程序资源组再循环 (6304781)

问题摘要：在已激活保护组的主群集上运行 geopg takeover 或 geopg switchover 命令，导致该保护组中的应用程序资源组脱机且不受管理，然后在同一群集上重新进入联机状态。

解决方法：无。

在 `geops create` 或 `geops join` 操作的运行过程中关闭节点后，无法启动 Sun Cluster Geographic Edition 基础结构 (6305780)

问题摘要：如果在运行 geops create 或 geops join 命令时关闭节点，则将无法重新启动 Sun Cluster Geographic Edition 基础结构。

解决方法：请与 Sun 服务代表联系。

保护组的切换操作超时时，保护组角色和数据复制角色不匹配 (6306759)

问题摘要：如果 geopg switchover 命令超时，则保护组角色与数据复制角色可能不匹配。尽管存在不匹配，但 geoadm status 命令仍然将配置状态显示为“正常”，而不是“错误”。

解决方法：在切换或接管操作超时后，请使用 geopg validate 命令在两个群集上重新验证保护组。

在保护组执行接管操作失败后，同步状态将会为`错误` (6307131)

问题摘要：如果接管操作无法更改初始主群集的角色，则同步状态将会为错误。

解决方法：使用 geopg update 命令重新同步保护组，然后使用 geopg validate 命令验证初始主群集上的保护组。

接管操作未能将原先的主角色更改为辅助角色时并不显示错误消息 (6309228)

问题摘要：geopg takeover 命令成功返回，但保护组在两个群集上仍保持主角色。

解决方法：无。

通用代理容器可能会在运行了一段时间之后挂起 (6383202)

问题摘要：通用代理容器可能会在运行了较长的时间之后挂起。

解决方法：无。

已知问题和错误

扩展的 SunPlex Manager GUI 限制

写入 java.util.logging.ErrorManager 导致通用代理容器日志记录错误 (5081674)

在重新引导群集后，Sun Cluster Geographic Edition 基础结构可能会保持脱机状态 (6218200)

GUI 不支持 RBAC (6226493)

GUI 要求伙伴群集具有相同的超级用户密码 (6260505)

不同域中的伙伴群集不能包含具有群集名称的域名 (6260506)

在自定义心跳加入伙伴关系之前，它必须存在于远程和本地群集 (6263692)

节点和存储设备之间的通信丢失可能会导致错误状态 (6269186)

如何重新启动 Sun Cluster Geographic Edition 基础结构

另请参见

sysevent 守护进程崩溃时，群集的状态为错误 (6276483)

如何重新启动 Sun Cluster Geographic Edition 基础结构

另请参见

保护组启动超时会显示不明确的错误消息 (6284278)

geo-failovercontrol 资源的状态变为 STOP_FAILED 时资源超时 (6288257)

重新引导群集后，已激活的保护组被取消激活并且资源组处于错误状态 (6289463)

向保护组添加资源组时显示不正确的消息 (6290256)

使节点（此节点管理由 Sun StorEdge Availability Suite 3.2.1 和 Sun Cluster Geographic Edition 基础结构资源组控制的设备组）断开与公共网络的连接，导致该节点异常中止 (6291382)

Hitachi TrueCopy 的切换操作失败导致 dev_group 中对的卷状态不匹配 (6295537)

Hitachi TrueCopy CCI 命令和 Hitachi TrueCopy 资源报告远程 horcmd 没有处于活动状态，即使它处于活动状态并且能够进行响应 (6297384)

横向相关消耗系统资源 (6297751)

在没有明显原因的情况下保护组的切换操作失败，并且没有报告故障原因 (6299103)

GUI 有时不返回为保护组创建或添加设备组的结果 (6300168)

如果在 CLI 命令运行时重新引导 Geocontrol 模块处于活动状态的节点，则该命令将挂起 (6300616)

在切换操作进行时重新启动通用代理容器导致 CRITICAL INTERNAL ERROR 错误 (6302009)

GUI 没有刷新保护组的状态更改 (6302217)

同时执行两个或更多个更新 Sun StorEdge Availability Suite 3.2.1 配置数据库的操作可能会破坏配置数据库 (6303883)

如何启用 Sun StorEdge Availability Suite 3.2.1 dscfglockd 守护进程

接下来的操作

在活动的主群集上执行保护组接管和切换操作导致应用程序资源组再循环 (6304781)

在 geops create 或 geops join 操作的运行过程中关闭节点后，无法启动 Sun Cluster Geographic Edition 基础结构 (6305780)

保护组的切换操作超时时，保护组角色和数据复制角色不匹配 (6306759)

在保护组执行接管操作失败后，同步状态将会为错误 (6307131)

接管操作未能将原先的主角色更改为辅助角色时并不显示错误消息 (6309228)

通用代理容器可能会在运行了一段时间之后挂起 (6383202)

写入 `java.util.logging.ErrorManager` 导致通用代理容器日志记录错误 (5081674)

`sysevent` 守护进程崩溃时，群集的状态为`错误` (6276483)

`geo-failovercontrol` 资源的状态变为 `STOP_FAILED` 时资源超时 (6288257)

重新引导群集后，已激活的保护组被取消激活并且资源组处于`错误`状态 (6289463)

Hitachi TrueCopy 的切换操作失败导致 `dev_group` 中对的卷状态不匹配 (6295537)

Hitachi TrueCopy CCI 命令和 Hitachi TrueCopy 资源报告远程 `horcmd` 没有处于活动状态，即使它处于活动状态并且能够进行响应 (6297384)

在切换操作进行时重新启动通用代理容器导致 `CRITICAL INTERNAL ERROR` 错误 (6302009)

如何启用 Sun StorEdge Availability Suite 3.2.1 `dscfglockd` 守护进程

在 `geops create` 或 `geops join` 操作的运行过程中关闭节点后，无法启动 Sun Cluster Geographic Edition 基础结构 (6305780)

在保护组执行接管操作失败后，同步状态将会为`错误` (6307131)