已知问题和错误

以下已知问题和错误会影响 Oracle Solaris Cluster 3.3 5/11 发行版的运行。这些错误和问题分为以下几个类别：

管理
数据服务
开发者环境
安装
本地化
运行时
升级

管理

在公共接口故障期间，如果将 Failover_mode 设置为 SOFT，资源组不会进行故障转移 (7038727)

问题概述：如果以 ScalMountpoint 资源配置故障转移数据服务（例如，HA for Oracle）来探测和检测 NAS 存储访问故障，并且网络接口断开（例如，由于缺少电缆连接），那么监视器探测将挂起。如果将 Failover_mode 属性设置为 SOFT，会导致处于“停止失败”状态，且资源不进行故障转移。相关的错误消息类似如下：

SC[SUNW.ScalMountPoint:3,scalmnt-rg,scal-oradata-11g-rs,
/usr/cluster/lib/rgm/rt/scal_mountpoint/
scal_mountpoint_probe]: Probing thread for mountpoint /oradata/
11g is hanging for timeout period 300 seconds

解决方法：将资源的 Failover_mode 属性更改为 HARD

# clresource set -p Failover_mode=HARD ora-server-rs
# clresource show -v ora-server-rs | grep Failover_mode
   Failover_mode:                                HARD

无法在区域群集中注册资源类型 SUNW.scalable_acfs_proxy (7023590)

问题概述：当前实现要求 /usr/cluster/lib/rgm/rtreg 中存在 RTR 文件（而不是指向该文件的链接）。

解决方法：以超级用户身份在全局群集的其中一个节点上执行以下命令。

# cp /opt/SUNWscor/oracle_asm/etc/SUNW.scalable_acfs_proxy /usr/cluster/lib/rgm/rtreg/
# clrt register -Z zoneclustername SUNW.scalable_acfs_proxy
# rm /usr/cluster/lib/rgm/rtreg/SUNW.scalable_acfs_proxy

在重新引导期间，Oracle SPARC T3-4 会失败 (6993321)

问题概述：在重新引导期间，具有四个处理器的 Oracle SPARC T3-4 服务器无法连接到 Oracle Solaris Cluster 框架。将显示类似下面的错误消息：

Sep 20 15:18:53 svc.startd [8]: svc:/system/pools:default: Method or service exit timed out. 
Killing contract 29. 
Sep 20 15:18:53 svc.startd [8]: svc:/system/pools:default: Method "/lib/svc/method/svc-pools start" 
failed due to signal KILL. 
…
Sep 20 15:20:55 solta svc.startd [8]: system/pools:default failed: transitioned to 
maintenance (see 'svcs -xv' for details) 
…
Sep 20 15:22:12 solta INITGCHB: Given up waiting for rgmd. 
…
Sep 20 15:23:12 solta Cluster.GCHB_resd: GCHB system error: scha_cluster_open
failed with 18 Sep 20 15:23:12 solta : No such process

解决方法：使用 svccfg 命令将服务超时值增加到 300 秒。引导至非群集模式，并执行以下命令：

# svccfg -s svc:/system/pools setprop start/timeout_seconds = 300
# svcadm refresh svc:/system/pools

执行这些命令后，引导至群集模式。

删除保存区域群集的最后一个节点时不会从群集配置中删除区域群集 (6969605)

问题概述：删除全局群集节点时，如果该节点是全局群集中保存区域群集的最后一个节点，将不会从群集配置中删除区域群集。

解决方法：运行 clnode remove -F 命令以删除全局群集节点之前，先使用 clzonecluster 命令删除区域群集。

当策略为 pathcount 时，缺少 /dev/rmt 会导致预留空间的使用不正确 (6920996)

问题概述：将新的存储设备添加到群集并为其配置三个或更多 DID 路径时，运行 cldevice populate 命令的节点可能无法在设备上注册它的 PGR 密钥。

解决方法：在所有群集节点上运行 cldevice populate 命令，或者从同一节点运行两次 cldevice populate 命令。

global_fencing 属性代码在其值更改为 prefer3 时受到破坏 (6879360)

问题概述：Oracle Solaris Cluster 在允许用户将其隔离属性设置为 prefer3 之前，会尝试验证存储设备是否完全支持 SCSI-3 PGR。此验证在应该失败时可能会成功。

解决方法：在将隔离设置更改为 prefer3 之前，确保 Oracle Solaris Cluster 已证实存储设备可用于 SCSI-3 PGR。

自动搜索在使用混合 I/O 的 LDoms 上无法工作 (6870171)

问题概述：在使用混合 I/O 的 LDoms 上进行群集配置期间，自动搜索不会报告任何群集互连的路径。

解决方法：当运行交互式 scinstall 实用程序时，可以选择在单独操作中配置发起节点和其他节点，而不是在单个操作中配置所有节点。当实用程序提示“是否要使用自动搜索？”时，回答“否”。然后可以从 scinstall 实用程序提供的列表中选择传输适配器。

当复制的设备组状态会导致切换和切换回操作失败，EMC SRDF 和HitachiTrueCopy 拒绝执行切换操作(6798901)

问题概述：如果 Hitachi TrueCopy 设备组副本对处于 COPY 状态，或者如果 EMC SRDF 设备组副本对分离，则尝试将设备组切换到另一个节点时，切换操作将失败。另外，在副本对返回成对状态之前，原始节点上的设备组无法恢复联机。

解决方法：在尝试将相关 Oracle Solaris Cluster 全局设备组切换到另一个群集节点之前，需要先验证 TrueCopy 副本未处于 COPY 状态，或者 SRDF 副本未分离。

使用 clsetup 配置采用 LB_STICKY_WILD 负载平衡策略的可伸缩资源会失败 (6773401)

问题概述：不能使用 clsetup 实用程序配置采用负载平衡策略 LB_STICKY_WILD 的资源。策略会改而设置为 LB_WILD。

解决方法：配置资源后，使用 clresource create 命令将负载平衡策略更改为 LB_STICKY_WILD。

从群集配置中删除节点可能会导致节点出现紧急情况 (6735924)

问题概述：将群集配置从三节点群集更改为两节点群集时，如果剩余节点之一离开群集或从群集配置中删除，则可能会导致群集完全丢失。

解决方法：从三节点群集配置中删除节点后，立即在剩余群集节点之一上运行 cldevice clear 命令。

如果在群集节点上配置 Solaris 安全工具包，则 scstat -i 会产生 RPC 绑定失败错误 (6727594)

问题概述：如果在群集节点上配置 Solaris 安全工具包，scstat -i 命令会产生 RPC 绑定失败错误。错误消息类似如下：

scrconf: RPC: Rpcbind failure - RPC: Authentication error

Other Sun Cluster commands that use RPC, such as clsnmpuser, might also fail.

解决方法：将群集专用主机名或与群集专用主机名相关的 IP 地址添加到 /etc/hosts.allow 文件。

合并 DID 时需要进行更多次验证检查 (6605101)

问题概述：scdidadm 和 cldevice 命令无法验证要合并到单个 DID 设备中的已复制 SRDF 设备是否确实互为副本以及是否属于指定的复制组。

解决方法：合并 DID 设备以用于 SRDF 时要格外小心。确保指定的 DID 设备实例互为副本并且属于指定的复制组。

Solaris Cluster Manager 在 16 节点群集中无法使用 (6594485)

问题概述：对于 16 节点群集，Oracle Solaris Cluster Manager GUI 不可用。

解决方法：改用 clsetup 实用程序或 Oracle Solaris Cluster 维护命令。

数据服务

在区域群集重新引导后但在 RGM 重新配置前创建资源组会导致 RGM 内产生不一致状态 (7041222)

问题概述：如果在重新引导区域群集后立即创建、编辑或删除资源组，资源组管理器 (Resource Group Manager, RGM) 将进入不一致状态，在这种状态下继续对资源组执行操作可能会失败。在最坏的情况下，上述故障会导致全局群集的节点出现紧急情况并重新引导。

同时重新引导区域群集的所有节点后可能发生该问题。如果仅重新引导部分节点而其他节点保持运行状态，则不会发生该问题。重新引导整个物理群集时也会发生该问题（如果在区域群集启动后立即执行资源组更新）。

以下是可能导致此类错误的命令：

clresource create
clresource delete
clresource set
clresourcegroup create
clresourcegroup delete
clresourcegroup set

解决方法：要避免该问题，请在重新引导区域群集后等待一分钟左右，以使区域群集达到稳定状态，然后再执行任何上述命令。

如果重新引导物理群集的所有节点，在看到表明所有区域群集节点均已加入群集的控制台消息后，请多等一分钟，然后再执行任何上述命令。控制台消息类似如下：

May  5 17:30:49 phys-schost-4 cl_runtime: NOTICE: Membership : Node 'zc-host-2' 
(node id 2) of cluster 'schost' joined.

如果仅重新引导部分节点而其他节点保持运行，则不需要额外的延迟。

Apache Tomcat 由于缺少脚本而无法启动 (7022690)

问题概述：为 Oracle Solaris Cluster HA for Apache Tomcat 安装并创建资源组和资源后，如果未在故障转移区域的顶端配置 HA for Apache Tomcat，那么服务将无法启动。

解决方法：请与 Oracle 支持代表联系，以获取缺少的脚本。

终止分发程序后，SAP Web Application Server 主实例无法在同一节点上联机 (7018400)

问题概述：如果终止以 SAP kernel 7.11 运行的对话实例的分发程序，SAP Web Application Server 代理将无法在同一节点上重新启动对话实例。经过两次重试后，该代理会进行故障转移，在其他节点上成功启动。根本原因是：使用 SAP Kernel 7.11 时，cleanipc 命令要求在执行 cleanipc 前先设置 LD_LIBRARY_PATH。

解决方法：在 Webas_Startup_Script 中针对 webas 资源插入 LD_LIBRARY_PATH 设置和 cleanipc 操作。例如，假设 SAP SID 为 FIT、实例为 03，则应向属性 Webas_Startup_script 中针对 webas 资源所注册的启动脚本插入的代码如下所示：

LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/sap/FIT/SYS/exe/run
export LD_LIBRARY_PATH 
/usr/sap/FIT/SYS/exe/run/cleanipc 03 remove

可伸缩资源组中配置有群集文件系统的 HAStoragePlus 资源长时间内处于 "Starting" 状态 (6960386)

问题概述：当群集文件系统的 /etc/vfstab 文件条目的 mount-at-boot 值为 no 且在属于可伸缩资源组的 SUNW.HAStoragePlus 资源中配置群集文件系统时，SUNW.HAStoragePlus 资源无法联机。该资源将一直处于 Starting 状态，直到 prenet_start_method 超时为止。

解决方法：在群集文件系统的 /etc/vfstab 文件条目中，将 mount-at-boot 值设置为 yes。

如果无法访问数据库侦听器，网关探测将进入乒乓状态 (6927071)

问题概述：在 Siebel 8.1.1 中，网关服务器对数据库有依赖性。如果无法访问承载数据库侦听器的计算机，那么网关探测将导致资源组进入乒乓状态，直到达到乒乓间隔为止。

解决方法：使数据库侦听器与网关共存可缓解该问题。或者，如果数据库的运行不受群集控制，请确保承载数据库侦听器的计算机已启动且正在运行。

可伸缩应用程序在区域群集间未被隔离 (6911363)

问题概述：如果配置为在不同区域群集中运行的可伸缩应用程序绑定到 INADDR_ANY 并使用同一端口，则可伸缩服务将无法对不同区域群集中运行的这些应用程序的实例进行区分。

解决方法：不要将要绑定到 INADDR_ANY 的可伸缩应用程序配置为本地 IP 地址，或者将它们绑定到不会与其他可伸缩应用程序相冲突的端口。

同时在多个节点上运行 clnas add 或 clnas remove 命令会出现问题 (6791618)

添加或删除 NAS 设备时，同时在多个节点上运行 clnas add 或 clnas remove 命令可能会损坏 NAS 配置文件。

解决方法：一次只在一个节点上运行 clnas add 或 clnas remove 命令。

执行 clresourcegroup add-node 会触发 HAStoragePlus 资源进入 "Faulted" 状态 (6547896)

问题概述：将 native 标记非全局区域添加到包含 HAStoragePlus 资源（已配置 ZFS 池）的资源组节点列表时，HAStoragePlus 资源可能会进入 Faulted 状态。仅在承载 native 区域的物理节点属于资源组节点列表时，才会发生该问题。

解决方法：重新启动包含有故障的 HAStoragePlus 资源的资源组。

# clresourcegroup restart faulted-resourcegroup

开发者环境

对于非 PMF 服务，GDS 会在 STOP 方法中返回不正确的退出状态 (6831988)

问题概述：Generic Data Service (GDS) 数据服务 Stop 脚本无法强制 Stop 方法失败。如果 Stop 脚本为非零退出状态，GDS Stop 方法将尝试终止资源守护进程。如果成功终止，则即使 Stop 脚本已失败，Stop 方法也能成功退出。因此，Stop 脚本无法以编程方式强制 Stop 方法失败。

解决方法：使 GDS Stop 脚本执行 clresourcegroup quiesce -k rgname 命令，其中 rgname 是包含 GDS 资源的资源组名称。-k 选项将导致 rgmd 守护进程终止当前正在执行的 GDS Stop 方法。这样会使 GDS 资源进入 STOP_FAILED 状态，且资源组将进入 ERROR_STOP_FAILED 状态。

以下为该解决方法的限制：

clresourcegroup quiesce 命令会导致节点无法重新引导，即使将资源的 Failover_mode 设置为 HARD 也是如此。如果需要重新引导行为，GDS Stop 脚本可以查询 Failover_mode 属性，如果该属性设置为 HARD，那么 Stop 脚本可以直接重新引导在其中执行脚本的节点或非全局区域。
该解决方法最适合故障转移资源组，此类资源组一次只能在一个节点上停止。对于多主资源组，可以同时在多个节点上停止 GDS 资源。在该情况下执行 clresourcegroup quiesce -k 命令将终止所有在多个节点上执行的 Stop 方法，而不只是终止在本地节点上执行的该方法。

安装

使用 installer 会删除与 Ops Center Agent JavaDB 数据库对应的现有软件包。(6956479)

问题概述：Oracle Enterprise Manager Ops Center Agent for Oracle Solaris 10 会在其配置数据库中使用 JavaDB 软件。当使用 installer 实用程序安装 Oracle Solaris Cluster 软件时，会重新安装 JavaDB 软件数据包，从而导致现有的代理配置数据库被删除。

软件包被删除会导致 Ops Center Agent 报告以下错误消息：

java.sql.SQLException: Database '/var/opt/sun/xvm/agentdb' not found.
        at org.apache.derby.impl.jdbc.SQLExceptionFactory40.getSQLException(Unknown Source)
        at org.apache.derby.impl.jdbc.Util.newEmbedSQLException(Unknown Source)
        at org.apache.derby.impl.jdbc.Util.newEmbedSQLException(Unknown Source)

代理现已中断，需要取消配置或进行配置。

解决方法：在所有群集节点上手动安装 Oracle Solaris Cluster 介质中的以下其他 JavaDB 软件包：

SUNWjavadb-demo
SUNWjavadb-javadoc
SUNWjavadb-docs
SUNWjavadb-client

运行 installer 实用程序不会删除现有的 JavaDB 数据库软件包。

本地化

系统要求的检查结果出现错误 (6495984)

问题概述：当您在简体中文和繁体中文语言环境下使用 installer 实用程序安装 Oracle Solaris Cluster 软件时，检查系统要求的软件错误地报告交换空间为 0 MB。

解决方法：忽略该报告信息。在这些语言环境中，可以运行以下命令来确定正确的交换空间：

# df -h | grep swap

运行时

cldevicegroup status 始终将在 vucmm 框架上配置的多属主 Solaris Volume Manager 磁盘集显示为 "offline" (6962196)

问题概述：在 vucmm 框架上配置多属主 Solaris Volume Manager 磁盘集时，不管磁盘集的实际状态为何，cldevicegroup status 命令都会始终显示磁盘集为 offline。

解决方法：使用 metastat -s diskset 命令检查多属主磁盘集的状态。

ssm_start 会由于无关的 IPMP 关闭而失败 (6938555)

问题概述：依赖于 SUNW.SharedAddress 资源的可伸缩资源因子集上共享地址资源不使用的 IPMP 组出现故障而无法联机。群集节点的系统日志中会显示类似下面的消息：

Mar 22 12:37:51 schost1 SC SUNW.gds:5,Traffic_voip373,Scal_service_voip373,SSM_START: ID 639855
daemon.error IPMP group sc_ipmp1 has status DOWN. 
Assuming this node cannot respond to client requests.

解决方法：修复失败的 IPMP 组，并重新启动失败的可伸缩资源。

升级

升级之后，使用 ip-type=exclusive 的区域无法承载 SUNW.LogicalHostname 资源 (6702621)

问题概述：在版本 2（使用 clresourcetype list 命令显示版本）中注册资源类型 SUNW.LogicalHostname 时会出现该问题。升级后，可以为使用 ip-type=exclusive 的非全局区域创建逻辑主机名资源，但是对逻辑主机名的网络访问（例如，telnet 或 rsh）无法工作。

解决方法：执行以下步骤：

删除所含节点列表中包含以下区域的所有资源组：承载逻辑主机名资源的使用 ip-type=exclusive 的非全局区域。
将 SUNW.LogicalHostname 资源类型至少升级到版本 3：
```
# clresourcetype register SUNW.LogicalHostname:3
```

跳过导航链接
退出打印视图
	Oracle Solaris Cluster 3.3 5/11 发行说明 Oracle Solaris Cluster (简体中文)