JavaScript is required to for searching.
跳过导航链接
退出打印视图
Oracle Solaris Cluster 3.3 5/11 发行说明     Oracle Solaris Cluster (简体中文)
search filter icon
search icon

文档信息

前言

Oracle Solaris Cluster 3.3 5/11 发行说明

Oracle Solaris Cluster 3.3 5/11 软件的新增功能

对群集验证工具cluster check 命令的增强功能

Sun ZFS Storage Appliance 用作 NAS 设备时提供隔离支持

支持将 Oracle ACFS 用作群集文件系统

通过 HAStoragePlus 使用 ZFS 的区域群集支持回送挂载

具有 HA-Oracle 和 Oracle RAC 的 Oracle 11g R2 的配置向导支持

支持没有 IP 地址的区域群集

支持 SWIFTAlliance Access 7.0 和 SWIFTAlliance Gateway 7.0

限制

将 Oracle ACFS 用作群集文件系统

不再支持 Veritas Volume Manager 群集功能

本发行版中已修改的命令

产品名称变更

兼容性问题

调用 rename(2) 以将 Oracle ACFS 目录重命名为其父目录时会导致节点出现紧急情况 (11828617)

在出现紧急(uadmin 5 1) 故障后,节点无法启动 Oracle Clusterware (11828322)

需要 Oracle ACFS 提供对群集化 fcntl 的支持 (11814449)

非全局区域内存在 Oracle ASM 就无法启动 Oracle ACFS (11707611)

Oracle Solaris Cluster 项目共享工作流应返回 r/w 项目下的所有共享 (7041969)

如果 startsrv 没有运行,SAP startsap 就无法启动应用程序实例 (7028069)

通过光纤信道或 iSCSI 将 Sun ZFS Storage Appliance 用作法定设备时出现问题 (6966970)

在 ZFS 根文件系统上进行实时升级后,群集区域不进行引导 (6955669)

Solaris Volume Manager GUI

可访问性信息

支持的产品

数据服务

文件系统

SPARC 上的 Oracle Solaris 10

x86 上的 Oracle Solaris 10

内存要求

Oracle Solaris 操作系统

Oracle VM Server for SPARC

Sun Management Center

Sun StorageTek Availability Suite

卷管理器

SPARC 上的 Oracle Solaris 10

x86 上的 Oracle Solaris 10

产品本地化

已知问题和错误

管理

在公共接口故障期间,如果将 Failover_mode 设置为 SOFT,资源组不会进行故障转移 (7038727)

无法在区域群集中注册资源类型 SUNW.scalable_acfs_proxy (7023590)

在重新引导期间,Oracle SPARC T3-4 会失败 (6993321)

删除保存区域群集的最后一个节点时不会从群集配置中删除区域群集 (6969605)

当策略为 pathcount 时,缺少 /dev/rmt 会导致预留空间的使用不正确 (6920996)

global_fencing 属性代码在其值更改为 prefer3 时受到破坏 (6879360)

自动搜索在使用混合 I/O 的 LDoms 上无法工作 (6870171)

当复制的设备组状态会导致切换和切换回操作失败,EMC SRDF 和HitachiTrueCopy 拒绝执行切换操作(6798901)

使用 clsetup 配置采用 LB_STICKY_WILD 负载平衡策略的可伸缩资源会失败 (6773401)

从群集配置中删除节点可能会导致节点出现紧急情况 (6735924)

如果在群集节点上配置 Solaris 安全工具包,则 scstat -i 会产生 RPC 绑定失败错误 (6727594)

合并 DID 时需要进行更多次验证检查 (6605101)

Solaris Cluster Manager 在 16 节点群集中无法使用 (6594485)

数据服务

在区域群集重新引导后但在 RGM 重新配置前创建资源组会导致 RGM 内产生不一致状态 (7041222)

Apache Tomcat 由于缺少脚本而无法启动 (7022690)

终止分发程序后,SAP Web Application Server 主实例无法在同一节点上联机 (7018400)

可伸缩资源组中配置有群集文件系统的 HAStoragePlus 资源长时间内处于 "Starting" 状态 (6960386)

如果无法访问数据库侦听器,网关探测将进入乒乓状态 (6927071)

可伸缩应用程序在区域群集间未被隔离 (6911363)

同时在多个节点上运行 clnas add 或 clnas remove 命令会出现问题 (6791618)

执行 clresourcegroup add-node 会触发 HAStoragePlus 资源进入 "Faulted" 状态 (6547896)

开发者环境

对于非 PMF 服务,GDS 会在 STOP 方法中返回不正确的退出状态 (6831988)

安装

使用 installer 会删除与 Ops Center Agent JavaDB 数据库对应的现有软件包。(6956479)

本地化

系统要求的检查结果出现错误 (6495984)

运行时

cldevicegroup status 始终将在 vucmm 框架上配置的多属主 Solaris Volume Manager 磁盘集显示为 "offline" (6962196)

ssm_start 会由于无关的 IPMP 关闭而失败 (6938555)

升级

升级之后,使用 ip-type=exclusive 的区域无法承载 SUNW.LogicalHostname 资源 (6702621)

修补程序和所需的固件级别

应用 Oracle Solaris Cluster 3.3 5/11 核心修补程序

如何应用 Oracle Solaris Cluster 3.3 5/11 核心修补程序

删除 Oracle Solaris Cluster 3.3 5/11 核心修补程序

如何删除 Oracle Solaris Cluster 3.3 5/11 核心修补程序

修补程序管理工具

适用于 Sun StorageTek 2530 阵列的群集支持修补程序

My Oracle Support

Oracle Solaris Cluster 3.3 5/11 文档集

文档补充资料

手册页

clnasdevice(1CL)

clzonecluster(1CL)

SUNW.oracle_server(5)

SUNW.scalable_acfs_proxy(5)

A.  文档附录

已知问题和错误

以下已知问题和错误会影响 Oracle Solaris Cluster 3.3 5/11 发行版的运行。这些错误和问题分为以下几个类别:

管理

在公共接口故障期间,如果将 Failover_mode 设置为 SOFT,资源组不会进行故障转移 (7038727)

问题概述:如果以 ScalMountpoint 资源配置故障转移数据服务(例如,HA for Oracle)来探测和检测 NAS 存储访问故障,并且网络接口断开(例如,由于缺少电缆连接),那么监视器探测将挂起。如果将 Failover_mode 属性设置为 SOFT,会导致处于“停止失败”状态,且资源不进行故障转移。相关的错误消息类似如下:

SC[SUNW.ScalMountPoint:3,scalmnt-rg,scal-oradata-11g-rs,
/usr/cluster/lib/rgm/rt/scal_mountpoint/
scal_mountpoint_probe]: Probing thread for mountpoint /oradata/
11g is hanging for timeout period 300 seconds 

解决方法:将资源的 Failover_mode 属性更改为 HARD

# clresource set -p Failover_mode=HARD ora-server-rs
# clresource show -v ora-server-rs | grep Failover_mode
   Failover_mode:                                HARD 

无法在区域群集中注册资源类型 SUNW.scalable_acfs_proxy (7023590)

问题概述:当前实现要求 /usr/cluster/lib/rgm/rtreg 中存在 RTR 文件(而不是指向该文件的链接)。

解决方法:以超级用户身份在全局群集的其中一个节点上执行以下命令。

# cp /opt/SUNWscor/oracle_asm/etc/SUNW.scalable_acfs_proxy /usr/cluster/lib/rgm/rtreg/
# clrt register -Z zoneclustername SUNW.scalable_acfs_proxy
# rm /usr/cluster/lib/rgm/rtreg/SUNW.scalable_acfs_proxy

在重新引导期间,Oracle SPARC T3-4 会失败 (6993321)

问题概述:在重新引导期间,具有四个处理器的 Oracle SPARC T3-4 服务器无法连接到 Oracle Solaris Cluster 框架。将显示类似下面的错误消息:

Sep 20 15:18:53 svc.startd [8]: svc:/system/pools:default: Method or service exit timed out. 
Killing contract 29. 
Sep 20 15:18:53 svc.startd [8]: svc:/system/pools:default: Method "/lib/svc/method/svc-pools start" 
failed due to signal KILL. 
…
Sep 20 15:20:55 solta svc.startd [8]: system/pools:default failed: transitioned to 
maintenance (see 'svcs -xv' for details) 
…
Sep 20 15:22:12 solta INITGCHB: Given up waiting for rgmd. 
…
Sep 20 15:23:12 solta Cluster.GCHB_resd: GCHB system error: scha_cluster_open
failed with 18 Sep 20 15:23:12 solta : No such process  

解决方法:使用 svccfg 命令将服务超时值增加到 300 秒。引导至非群集模式,并执行以下命令:

# svccfg -s svc:/system/pools setprop start/timeout_seconds = 300
# svcadm refresh svc:/system/pools

执行这些命令后,引导至群集模式。

删除保存区域群集的最后一个节点时不会从群集配置中删除区域群集 (6969605)

问题概述:删除全局群集节点时,如果该节点是全局群集中保存区域群集的最后一个节点,将不会从群集配置中删除区域群集。

解决方法:运行 clnode remove -F 命令以删除全局群集节点之前,先使用 clzonecluster 命令删除区域群集。

当策略为 pathcount 时,缺少 /dev/rmt 会导致预留空间的使用不正确 (6920996)

问题概述:将新的存储设备添加到群集并为其配置三个或更多 DID 路径时,运行 cldevice populate 命令的节点可能无法在设备上注册它的 PGR 密钥。

解决方法:在所有群集节点上运行 cldevice populate 命令,或者从同一节点运行两次 cldevice populate 命令。

global_fencing 属性代码在其值更改为 prefer3 时受到破坏 (6879360)

问题概述:Oracle Solaris Cluster 在允许用户将其隔离属性设置为 prefer3 之前,会尝试验证存储设备是否完全支持 SCSI-3 PGR。此验证在应该失败时可能会成功。

解决方法:在将隔离设置更改为 prefer3 之前,确保 Oracle Solaris Cluster 已证实存储设备可用于 SCSI-3 PGR。

自动搜索在使用混合 I/O 的 LDoms 上无法工作 (6870171)

问题概述:在使用混合 I/O 的 LDoms 上进行群集配置期间,自动搜索不会报告任何群集互连的路径。

解决方法:当运行交互式 scinstall 实用程序时,可以选择在单独操作中配置发起节点和其他节点,而不是在单个操作中配置所有节点。当实用程序提示“是否要使用自动搜索?”时,回答“否”。然后可以从 scinstall 实用程序提供的列表中选择传输适配器。

当复制的设备组状态会导致切换和切换回操作失败,EMC SRDF 和HitachiTrueCopy 拒绝执行切换操作(6798901)

问题概述:如果 Hitachi TrueCopy 设备组副本对处于 COPY 状态,或者如果 EMC SRDF 设备组副本对分离,则尝试将设备组切换到另一个节点时,切换操作将失败。另外,在副本对返回成对状态之前,原始节点上的设备组无法恢复联机。

解决方法:在尝试将相关 Oracle Solaris Cluster 全局设备组切换到另一个群集节点之前,需要先验证 TrueCopy 副本未处于 COPY 状态,或者 SRDF 副本未分离。

使用 clsetup 配置采用 LB_STICKY_WILD 负载平衡策略的可伸缩资源会失败 (6773401)

问题概述: 不能使用 clsetup 实用程序配置采用负载平衡策略 LB_STICKY_WILD 的资源。策略会改而设置为 LB_WILD

解决方法:配置资源后,使用 clresource create 命令将负载平衡策略更改为 LB_STICKY_WILD

从群集配置中删除节点可能会导致节点出现紧急情况 (6735924)

问题概述:将群集配置从三节点群集更改为两节点群集时,如果剩余节点之一离开群集或从群集配置中删除,则可能会导致群集完全丢失。

解决方法:从三节点群集配置中删除节点后,立即在剩余群集节点之一上运行 cldevice clear 命令。

如果在群集节点上配置 Solaris 安全工具包,则 scstat -i 会产生 RPC 绑定失败错误 (6727594)

问题概述:如果在群集节点上配置 Solaris 安全工具包,scstat -i 命令会产生 RPC 绑定失败错误。错误消息类似如下:

scrconf: RPC: Rpcbind failure - RPC: Authentication error

Other Sun Cluster commands that use RPC, such as clsnmpuser, might also fail.

解决方法:将群集专用主机名或与群集专用主机名相关的 IP 地址添加到 /etc/hosts.allow 文件。

合并 DID 时需要进行更多次验证检查 (6605101)

问题概述scdidadmcldevice 命令无法验证要合并到单个 DID 设备中的已复制 SRDF 设备是否确实互为副本以及是否属于指定的复制组。

解决方法:合并 DID 设备以用于 SRDF 时要格外小心。确保指定的 DID 设备实例互为副本并且属于指定的复制组。

Solaris Cluster Manager 在 16 节点群集中无法使用 (6594485)

问题概述:对于 16 节点群集,Oracle Solaris Cluster Manager GUI 不可用。

解决方法:改用 clsetup 实用程序或 Oracle Solaris Cluster 维护命令。

数据服务

在区域群集重新引导后但在 RGM 重新配置前创建资源组会导致 RGM 内产生不一致状态 (7041222)

问题概述:如果在重新引导区域群集后立即创建、编辑或删除资源组,资源组管理器 (Resource Group Manager, RGM) 将进入不一致状态,在这种状态下继续对资源组执行操作可能会失败。在最坏的情况下,上述故障会导致全局群集的节点出现紧急情况并重新引导。

同时重新引导区域群集的所有节点后可能发生该问题。如果仅重新引导部分节点而其他节点保持运行状态,则不会发生该问题。重新引导整个物理群集时也会发生该问题(如果在区域群集启动后立即执行资源组更新)。

以下是可能导致此类错误的命令:

解决方法:要避免该问题,请在重新引导区域群集后等待一分钟左右,以使区域群集达到稳定状态,然后再执行任何上述命令。

如果重新引导物理群集的所有节点,在看到表明所有区域群集节点均已加入群集的控制台消息后,请多等一分钟,然后再执行任何上述命令。控制台消息类似如下:

May  5 17:30:49 phys-schost-4 cl_runtime: NOTICE: Membership : Node 'zc-host-2' 
(node id 2) of cluster 'schost' joined.

如果仅重新引导部分节点而其他节点保持运行,则不需要额外的延迟。

Apache Tomcat 由于缺少脚本而无法启动 (7022690)

问题概述:为 Oracle Solaris Cluster HA for Apache Tomcat 安装并创建资源组和资源后,如果未在故障转移区域的顶端配置 HA for Apache Tomcat,那么服务将无法启动。

解决方法:请与 Oracle 支持代表联系,以获取缺少的脚本。

终止分发程序后,SAP Web Application Server 主实例无法在同一节点上联机 (7018400)

问题概述:如果终止以 SAP kernel 7.11 运行的对话实例的分发程序,SAP Web Application Server 代理将无法在同一节点上重新启动对话实例。经过两次重试后,该代理会进行故障转移,在其他节点上成功启动。根本原因是:使用 SAP Kernel 7.11 时,cleanipc 命令要求在执行 cleanipc 前先设置 LD_LIBRARY_PATH

解决方法:在 Webas_Startup_Script 中针对 webas 资源插入 LD_LIBRARY_PATH 设置和 cleanipc 操作。例如,假设 SAP SID 为 FIT、实例为 03,则应向属性 Webas_Startup_script 中针对 webas 资源所注册的启动脚本插入的代码如下所示:

LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/sap/FIT/SYS/exe/run
export LD_LIBRARY_PATH 
/usr/sap/FIT/SYS/exe/run/cleanipc 03 remove

可伸缩资源组中配置有群集文件系统的 HAStoragePlus 资源长时间内处于 "Starting" 状态 (6960386)

问题概述:当群集文件系统的 /etc/vfstab 文件条目的 mount-at-boot 值为 no 且在属于可伸缩资源组的 SUNW.HAStoragePlus 资源中配置群集文件系统时,SUNW.HAStoragePlus 资源无法联机。该资源将一直处于 Starting 状态,直到 prenet_start_method 超时为止。

解决方法:在群集文件系统的 /etc/vfstab 文件条目中,将 mount-at-boot 值设置为 yes

如果无法访问数据库侦听器,网关探测将进入乒乓状态 (6927071)

问题概述:在 Siebel 8.1.1 中,网关服务器对数据库有依赖性。如果无法访问承载数据库侦听器的计算机,那么网关探测将导致资源组进入乒乓状态,直到达到乒乓间隔为止。

解决方法:使数据库侦听器与网关共存可缓解该问题。或者,如果数据库的运行不受群集控制,请确保承载数据库侦听器的计算机已启动且正在运行。

可伸缩应用程序在区域群集间未被隔离 (6911363)

问题概述:如果配置为在不同区域群集中运行的可伸缩应用程序绑定到 INADDR_ANY 并使用同一端口,则可伸缩服务将无法对不同区域群集中运行的这些应用程序的实例进行区分。

解决方法:不要将要绑定到 INADDR_ANY 的可伸缩应用程序配置为本地 IP 地址,或者将它们绑定到不会与其他可伸缩应用程序相冲突的端口。

同时在多个节点上运行 clnas add 或 clnas remove 命令会出现问题 (6791618)

添加或删除 NAS 设备时,同时在多个节点上运行 clnas addclnas remove 命令可能会损坏 NAS 配置文件。

解决方法:一次只在一个节点上运行 clnas addclnas remove 命令。

执行 clresourcegroup add-node 会触发 HAStoragePlus 资源进入 "Faulted" 状态 (6547896)

问题概述:将 native 标记非全局区域添加到包含 HAStoragePlus 资源(已配置 ZFS 池)的资源组节点列表时,HAStoragePlus 资源可能会进入 Faulted 状态。仅在承载 native 区域的物理节点属于资源组节点列表时,才会发生该问题。

解决方法:重新启动包含有故障的 HAStoragePlus 资源的资源组。

# clresourcegroup restart faulted-resourcegroup

开发者环境

对于非 PMF 服务,GDS 会在 STOP 方法中返回不正确的退出状态 (6831988)

问题概述:Generic Data Service (GDS) 数据服务 Stop 脚本无法强制 Stop 方法失败。如果 Stop 脚本为非零退出状态,GDS Stop 方法将尝试终止资源守护进程。如果成功终止,则即使 Stop 脚本已失败,Stop 方法也能成功退出。因此,Stop 脚本无法以编程方式强制 Stop 方法失败。

解决方法:使 GDS Stop 脚本执行 clresourcegroup quiesce -k rgname 命令,其中 rgname 是包含 GDS 资源的资源组名称。-k 选项将导致 rgmd 守护进程终止当前正在执行的 GDS Stop 方法。这样会使 GDS 资源进入 STOP_FAILED 状态,且资源组将进入 ERROR_STOP_FAILED 状态。

以下为该解决方法的限制:

安装

使用 installer 会删除与 Ops Center Agent JavaDB 数据库对应的现有软件包。(6956479)

问题概述:Oracle Enterprise Manager Ops Center Agent for Oracle Solaris 10 会在其配置数据库中使用 JavaDB 软件。当使用 installer 实用程序安装 Oracle Solaris Cluster 软件时,会重新安装 JavaDB 软件数据包,从而导致现有的代理配置数据库被删除。

软件包被删除会导致 Ops Center Agent 报告以下错误消息:

java.sql.SQLException: Database '/var/opt/sun/xvm/agentdb' not found.
        at org.apache.derby.impl.jdbc.SQLExceptionFactory40.getSQLException(Unknown Source)
        at org.apache.derby.impl.jdbc.Util.newEmbedSQLException(Unknown Source)
        at org.apache.derby.impl.jdbc.Util.newEmbedSQLException(Unknown Source)

代理现已中断,需要取消配置或进行配置。

解决方法:在所有群集节点上手动安装 Oracle Solaris Cluster 介质中的以下其他 JavaDB 软件包:

运行 installer 实用程序不会删除现有的 JavaDB 数据库软件包。

本地化

系统要求的检查结果出现错误 (6495984)

问题概述:当您在简体中文和繁体中文语言环境下使用 installer 实用程序安装 Oracle Solaris Cluster 软件时,检查系统要求的软件错误地报告交换空间为 0 MB。

解决方法:忽略该报告信息。在这些语言环境中,可以运行以下命令来确定正确的交换空间:

# df -h | grep swap

运行时

cldevicegroup status 始终将在 vucmm 框架上配置的多属主 Solaris Volume Manager 磁盘集显示为 "offline" (6962196)

问题概述:在 vucmm 框架上配置多属主 Solaris Volume Manager 磁盘集时,不管磁盘集的实际状态为何,cldevicegroup status 命令都会始终显示磁盘集为 offline

解决方法:使用 metastat -s diskset 命令检查多属主磁盘集的状态。

ssm_start 会由于无关的 IPMP 关闭而失败 (6938555)

问题概述:依赖于 SUNW.SharedAddress 资源的可伸缩资源因子集上共享地址资源不使用的 IPMP 组出现故障而无法联机。群集节点的系统日志中会显示类似下面的消息:

Mar 22 12:37:51 schost1 SC SUNW.gds:5,Traffic_voip373,Scal_service_voip373,SSM_START: ID 639855
daemon.error IPMP group sc_ipmp1 has status DOWN. 
Assuming this node cannot respond to client requests.

解决方法:修复失败的 IPMP 组,并重新启动失败的可伸缩资源。

升级

升级之后,使用 ip-type=exclusive 的区域无法承载 SUNW.LogicalHostname 资源 (6702621)

问题概述:在版本 2(使用 clresourcetype list 命令显示版本)中注册资源类型 SUNW.LogicalHostname 时会出现该问题。升级后,可以为使用 ip-type=exclusive 的非全局区域创建逻辑主机名资源,但是对逻辑主机名的网络访问(例如,telnetrsh)无法工作。

解决方法:执行以下步骤:

  1. 删除所含节点列表中包含以下区域的所有资源组:承载逻辑主机名资源的使用 ip-type=exclusive 的非全局区域。

  2. SUNW.LogicalHostname 资源类型至少升级到版本 3:

    # clresourcetype register SUNW.LogicalHostname:3