Sun Cluster 3.1 8/05 发行说明(适用于 Solaris OS)

已知问题和错误

以下已知问题和错误会影响 Sun Cluster 3.1 8/05 发行版的运行。

当引导设备采用多路径时,scvxinstall 所创建的 vfstab 条目不正确 (4639243)

问题摘要:当引导设备采用多路径时,scvxinstall 所创建的 /etc/vfstab 条目不正确。

解决方法:运行 scvxinstall 并选择封装。系统显示以下消息时,键入 Ctrl-C 异常中止重新引导:


This node will be re-booted in 20 seconds. Type Ctrl-C to abort.

编辑 vfstab 条目,使 /global/.devices 使用 /dev/{r}dsk/cXtXdX 名称而非 /dev/did/{r}dsk 名称。这个经过修改的条目使 VxVM 将其识别为根磁盘。重新运行 scvxinstall 并选择封装。vfstab 文件具有所需的更新,允许系统重新进行引导。封装将照常进行。

Procedure如何更正多路径引导设备的 /etc/vfstab 错误

步骤
  1. 运行 scvxinstall 并选择封装。

    系统将显示以下消息:


    This node will be re-booted in 20 seconds.  Type Ctrl-C to abort.
  2. 异常中止重新引导。


    Ctrl-C
  3. 编辑 /etc/vfstab 条目,以便 /global/.devices 使用名称 /dev/{r}dsk/cXtXdX 而非名称 /dev/did/{r}dsk

    这个经过修改的条目使 VxVM 将其识别为根磁盘。

  4. 重新运行 scvxinstall 并选择封装。

    /etc/vfstab 文件具有所需的更新,允许系统重新进行引导。封装将照常进行。

SAP liveCache 停止方法超时 (4836272)

问题摘要:Sun Cluster HA for SAP liveCache 数据服务使用 dbmcli 命令来启动和停止 liveCache。如果运行的是 Solaris 9,则当群集节点的公共网络出现故障时,网络服务可能会不可用。

解决方法:在可以成为 liveCache 资源主节点的每个节点上的 /etc/nsswitch.conf 文件中包含 publickey 数据库的以下条目之一:

publickey: 
publickey:  files
publickey:  files [NOTFOUND=return] nis 
publickey:  files [NOTFOUND=return] nisplus

除了《用于 SAP liveCache 的 Sun Cluster 数据服务指南(适用于 Solaris OS)》中介绍的更新之外,添加上述条目之一可确保 su 命令和 dbmcli 命令不引用 NIS/NIS+ 名称服务。绕过 NIS/NIS+ 名称服务可确保在网络发生故障期间数据服务可以正常启动和停止。

nsswitch.conf 要求不应用于 passwd 数据库 (4904975)

问题摘要《Sun Cluster Data Service for SAP liveCache Guide for Solaris OS》中的“Preparing the Nodes and Disks”中对 nsswitch.conf 文件的要求不适用于 passwd 数据库中的条目。如果满足了这些要求,则在公共网络关闭时,su 命令可能会在可以控制 liveCache 资源的每个节点上都挂起。

解决方法:在可以控制 liveCache 资源的每个节点上,确保 passwd 数据库的 /etc/nsswitch.conf 文件中的条目为:

passwd: files nis [TRYAGAIN=0]

sccheck 挂起 (4944192)

问题摘要:如果同时从多个节点启动,则 sccheck 可能挂起。

解决方法:不要从任何用于将命令传递给多个节点的多控制台启动 scchecksccheck 可以重叠运行,但不应同时启动。

Java 二进制链接到不正确的 Java 版本会导致 HADB 代理出现故障 (4968899)

问题摘要:目前,HADB 数据服务并未使用 JAVA_HOME 环境变量。因此,当从 HADB 数据服务调用 HADB 时,HADB 将从 /usr/bin/ 获取 Java 二进制文件。需要将 /usr/bin/ 中的 Java 二进制文件链接到 Java 的适当版本(Java 1.4 或更高版本)才能使 HADB 数据服务正常运行。

解决方法:如果您同意更改可用的默认版本,请执行以下过程。作为示例,此解决方法假定了 /usr/j2se 目录是最新的 Java 版本(例如 1.4 和更高版本)所在的目录。

  1. 如果 /usr/ 目录中已有名为 java/ 的目录,请将其移到一个临时位置。

  2. 通过 /usr/ 目录将 /usr/bin/java 和所有其他与 Java 相关的二进制文件链接到适当的 Java 版本。


    # ln -s j2se java
    

如果不想更改可用的缺省版本,请在 /opt/SUNWappserver7/SUNWhadb/4/bin/hadbm 脚本中将 JAVA_HOME 环境变量赋予适当的 Java 版本(J2SE 1.4 和更高版本)。

添加新群集节点时需要重新引导群集 (4971299)

问题摘要: 将某个节点添加到运行 Sun Cluster Support for Oracle Real Application Clusters 使用 VxVM 群集特性的群集中时,在其他节点上运行的这一群集特性不识别该新节点。

解决方法:对此问题的修复可以通过 VxVM 3.5 MP4 和 VxVM 4.0 MP2 中的 VERITAS 获得。目前也提供了针对 VxVM 4.1 的修复。

要在代码修复仍不可用的情况下解决问题,请重新启动 Oracle 数据库并重新引导群集节点。此步骤将同步 Oracle UDLM 并更新 VxVM 群集特性以识别已添加的节点。


注 –

在执行完此步骤之前,请不要在新节点上安装和配置 Sun Cluster Support for Oracle Real Application Clusters。


  1. 从刚添加的节点以外的其他群集节点上关闭 Oracle Real Application Clusters 数据库。

  2. 重新引导关闭 Oracle 数据库时所在的节点。


    # scswitch -S -h thisnode
    # shutdown -g0 -y -i6
    

    等到该节点完全重新引导回群集之后,再继续执行下一步。

  3. 重新启动 Oracle 数据库。

  4. 在运行 Sun Cluster Support for Oracle Real Application Clusters 的剩余节点上均重复执行步骤 1 至步骤 3。

    • 如果单个节点能够处理 Oracle 数据库的工作量,您可以同时在多个节点上执行这些步骤。

    • 如果需要多个节点处理数据库的工作量,则一次在一个节点上执行这些步骤。

HA-DB 重新初始化且没有备用设备 (4973982)

问题摘要:由于错误 4974875,导致只要执行自动恢复,数据库就会自动重新初始化且没有任何备用设备。所提到的错误已被修正并集成到 HA-DB 4.3 版中。对于 HA-DB 4.2 和更低版本,请按照以下过程之一更改 HA-DB 节点的角色。

解决方法:完成以下过程之一以更改 HA-DB 节点的角色:

  1. 在自动恢复成功之后,标识其角色发生更改的 HA-DB 节点。

  2. 在步骤 1 中标识的所有节点上,禁用当前 HA-DB 资源的故障监视器(一次一个节点)。


    # cladm noderole -db dbname -node nodeno -setrole role-before-auto_recovery
    
  3. 启用当前 HA-DB 资源的故障监视器。

  1. 在自动恢复成功之后,标识其角色发生更改的 HA-DB 节点。

  2. 在托管数据库的所有节点上,禁用当前 HA-DB 资源的故障监视器。

  3. 在任一节点上,对需要更改其角色的每个 HA-DB 节点执行以下命令。


    # cladm noderole -db dbname -node nodeno -setrole role-before-auto_recovery
    

滚动升级期间其他节点无法访问 pnmd (4997693)

问题摘要:如果并未在所有节点上完成滚动升级,则尚未升级的节点将无法查看已升级节点上的 IPMP 组。

解决方法:完成对群集中所有节点的升级。

“高级过滤器”面板上的日期字段只接受 mm/dd/yyyy 格式 (5075018)

问题摘要:SunPlex Manager 的“高级过滤器”面板上的日期字段只接受 mm/dd/yyyy 格式。但是,在非英语语言环境中,日期格式不是 mm/dd/yyyy 格式,从“日历”面板返回的日期格式也不是 mm/dd/yyyy 格式。

解决方法:在“高级过滤器”面板中以 mm/dd/yyyy 格式键入日期范围。请不要使用“设置...” 按钮来显示日历和选择日期。

在日文语言环境中,来自 scrgadm 的错误消息包含乱码 (5083147)

问题摘要:在日文语言环境中,来自 scrgadm 的错误消息显示得不正确。消息中包含乱码。

解决方法:运行英文系统语言环境以显示英文错误消息。

/usr/cluster/lib/cmass/ipmpgroupmanager.sh 脚本取消检测 IPv6 接口 (6174170)

问题摘要:SunPlex Manager 使用 /usr/cluster/lib/cmass/ipmpgroupmanager.sh 来删除 IPMP 组和 IPMP 组中的适配器。该脚本正确更新 /etc/hostname6.adaptername 文件以仅删除组名,但运行以下 ifconfig 命令取消检测 IPv6 接口:


ifconfig adaptername inet6 unplumb

解决方法:重新引导节点以检测接口。另外,也可在节点上运行以下 ifconfig 命令。此备用解决方法不需要重新引导节点。


ifconfig adaptername inet6 plumb up

IPMP 组页面应当根据用户选择的 IP 版本填充适配器列表 (6174805)

问题摘要:IPMP 组页面中显示的适配器列表不依赖于用户选择的 IP 版本。页面将显示未配置组的所有适配器列表。在选择“IP 版本”单选按钮后,该列表在下列情况中应相应地更新为:

解决方法:选择 IP 版本后,请确保从列表中仅选择为选定 IP 版本启用的适配器。

在将适配器从 IPv4 和 IPv6 仅移给 IPv4 时,未删除 IPv4 版本 (6179721)

问题摘要:IPMP 组页面中显示的适配器列表依赖于用户选择的 IP 版本。目前的 SunPlex Manager 中有一个错误:不管 IP 版本是什么,始终显示适配器的完整列表。SunPlex Manager 不应允许用户将为 IPv4 和 IPv6 启用的适配器仅移给 IPv4。

解决方法:用户不应尝试将为 IPv4 和 IPv6 配置的适配器仅移给 IPv4。

如果未安装 SUNWasvr 软件包,将无法配置 Sun Java System Administration Server (6196005)

问题摘要:如果未安装 Sun Java System Administration Server,则尝试为 Sun Java System Administration Server 配置数据服务将失败。尝试失败的原因是 SUNW.mps 资源类型要求 /etc/mps/admin/v5.2/cluster/SUNW.mps 目录存在。仅当安装了 SUNWasvr 软件包,此目录才存在。

解决方法:要解决此问题,请完成以下过程。

Procedure如何安装 SUNWasvr 软件包

步骤
  1. 以超级用户身份或以等效角色身份登录到群集节点上。

  2. 确定 SUNWasvr 软件包是否已安装。


    # pkginfo SUNWasvr
    
  3. 如果尚未安装 SUNWasvr 软件包,请通过完成以下步骤从 Sun Cluster CD-ROM 安装软件包:

    1. 将 Sun Cluster 2 of 2 CD-ROM 放入适当的驱动器中。

    2. 转至包含 SUNWasvr 软件包的目录。


      # cd /cdrom/cdrom0/Solaris_sparc/Product/administration_svr/Packages
      
    3. 键入以下命令以安装软件包。


      # pkgadd -d . SUNWasvr
      
    4. 从驱动器中取出 CD-ROM。

startd/duration 的更改不会立即生效 (6196325)

问题摘要:自 Solaris 10 起,对于服务管理工具 (SMF) 服务 /network/nfs/server/network/nfs/status/network/nfs/nlockmgr,Sun Cluster HA for NFS 数据服务会将 /startd/duration 属性设置为 transient。此属性设置可以使 SMF 在出现任何故障时不重新启动这些服务。尽管进行了此属性设置,SMF 中存在的一个错误还是会使 SMF 在第一次出现故障后重新启动 /network/nfs/status/network/nfs/nlockmgr

解决方法:要使 Sun Cluster HA for NFS 正常运行,请在创建第一个 Sun Cluster HA for NFS 资源之后并在使 Sun Cluster HA for NFS 资源联机之前,在所有节点上运行以下命令。


# pkill -9 -x 'startd|lockd'

如果是首次引导 Sun Cluster,请在创建第一个 Sun Cluster HA for NFS 资源之后并在使 Sun Cluster HA for NFS 资源联机之前,在所有潜在主节点上运行以上命令。

scinstall 没有复制所有通用代理容器安全文件 (6203133)

问题摘要:在将节点添加到群集时,scinstall 实用程序将检查您要添加的节点上是否存在网络安全服务 (NSS) 文件。这些文件和安全密钥都是通用代理容器所必需的。如果 NSS 文件存在,则该实用程序将把通用代理容器安全文件从起始节点复制到添加的节点上。但如果起始节点尚未安装 NSS 安全密钥,则复制将失败并将退出 scinstall 进程。

解决方法:在现有群集节点上执行以下过程以安装 NSS 软件,重新创建安全密钥,并重新启动通用代理容器。

Procedure向群集添加节点时如何安装 NSS 软件

以超级用户身份或具有适当访问权限的角色身份在所有现有群集节点上执行以下过程。

开始之前

准备好 Sun Cluster 1 of 2 CD-ROM。NSS 软件包位于 /cdrom/cdrom0/Solaris_arch/Product/shared_components/Packages/,其中 archsparcx86ver8(对于 Solaris 8)、9(对于 Solaris 9)或 10(对于 Solaris 10)。

步骤
  1. 在每个节点上停止 Sun Web Console 代理。


    # /usr/sbin/smcwebserver stop
    
  2. 在每个节点上停止安全文件代理。


    # /opt/SUNWcacao/bin/cacaoadm stop
    
  3. 在每个节点上确定 NSS 软件包是否已安装以及安装的版本(如果已安装)。


    # cat /var/sadm/pkg/SUNWtls/pkginfo | grep SUNW_PRODVERS
    SUNW_PRODVERS=3.9.4
  4. 如果安装的版本低于 3.9.4,则删除现有 NSS 软件包。


    # pkgrm packages
    

    下表列出了每个硬件平台适用的软件包。

    硬件平台 

    NSS 软件包名称 

    SPARC 

    SUNWtls SUNWtlsu SUNWtlsx

    x86 

    SUNWtls SUNWtlsu

  5. 在每个节点上,如果您删除了 NSS 软件包或者没有安装任何 NSS 软件包,请通过 Sun Cluster 1 of 2 CD-ROM 安装最新的 NSS 软件包。

    • 对于 Solaris 8 或 Solaris 9 操作系统,请使用以下命令:


      # pkgadd -d . packages
      
    • 对于 Solaris 10 操作系统,请使用以下命令:


      # pkgadd -G -d . packages
      
  6. 切换到 CD-ROM 中的目录,然后弹出 CD-ROM。


    # eject cdrom
    
  7. 在每个节点上创建 NSS 安全密钥。


    # /opt/SUNWcacao/bin/cacaoadm create-keys
    
  8. 在每个节点上启动安全文件代理。


    # /opt/SUNWcacao/bin/cacaoadm start
    
  9. 在每个节点上启动 Sun Web Console 代理。


    # /usr/sbin/smcwebserver start
    
  10. 在要添加到群集的节点上,重新启动 scinstall 实用程序,并按照安装新节点的过程进行操作。

有时无法从 SunPlex Manager 删除具有 IPv4 和 IPv6 适配器的公共接口组 (6209229)

问题摘要:尝试从组中删除 IPv6 适配器时,有时无法删除具有为 IPv4 和 IPv6 启用的适配器的公共接口组。将显示以下错误消息:


ifparse: Operation netmask not supported for inet6
/sbin/ifparse
/usr/cluster/lib/cmass/ipmpgroupmanager.sh[8]:
/etc/hostname.adaptname.tmpnumber: cannot open

解决方法:编辑 /etc/hostname6.adaptername 文件使其包含以下行:


plumb
up
-standby

在群集节点上运行以下命令:


ifconfig adaptername inet6 plumb up -standby

重新引导修补程序(节点)过程中内存泄漏(错误 6210440)

问题摘要:尝试执行从 Sun Cluster 3.1 9/04 软件滚动升级至 Sun Cluster 3.1 8/05 软件时,由于以群集模式重新引导首先升级的节点时触发了内存问题,导致 Sun Cluster 软件挂起。

解决方法:如果运行的是 Sun Cluster 3.1 9/04 软件或等效的修补程序(修订版 09 或更高版本)并需要执行重新引导修补程序过程以升级至 Sun Cluster 3.1 8/05 软件或等效的修补程序(修订版 12),您必须在升级群集或应用此核心修补程序之前完成以下步骤。

Procedure如何为升级至 Sun Cluster 3.1 8/05 软件做准备

步骤
  1. 选择符合您的可用性要求的修补程序安装过程类型:

    • 重新引导修补程序(节点)

    • 重新引导修补程序(群集和固件)

    《Sun Cluster 系统管理指南(适用于 Solaris OS)》中的第 8  章 “修补 Sun Cluster 软件和固件”介绍了这些修补程序安装过程。

  2. 根据使用的操作系统应用以下修补程序之一:

    • 117909-11 Sun Cluster 3.1 核心修补程序(适用于 SunOS 5.9 X86)

    • 117950-11 Sun Cluster 3.1 核心修补程序(适用于 Solaris 8)

    • 117949-11 Sun Cluster 3.1 核心修补程序(适用于 Solaris 9)

    在升级至 Sun Cluster 3.1 8/05 软件或等效的修补程序(修订版 12)之前,您必须完成整个修补程序安装过程。

安装 Sun Cluster 之后,Zone Install 和 Zone Boot 不起作用 (6211453)

问题摘要:Sun Cluster 软件安装将 exclude: lofs 添加到 /etc/system 中。由于 lofs 对区域的作用极为重要,因此 zone installzone boot 均会失败。

解决方法:在尝试创建任何区域之前,请执行以下过程。

Procedure如何在安装 Sun Cluster 之后运行 Zone Install 和 Zone Boot

步骤
  1. 如果运行的是 Sun Cluster HA for NFS,请从自动安装程序映射中排除所有属于由 NFS 服务器导出的高可用性本地文件系统的文件。

  2. 在每个群集节点上编辑 /etc/system 文件,以删除所有 exclude: lofs 行。

  3. 重新引导群集。

Solaris 10 需要额外的步骤才能从群集文件系统引导时的安装故障中恢复 (6211485)

问题摘要:引导时在无法安装群集文件系统的情况下,Solaris 10 操作系统所需的恢复过程不同于以前版本的 Solaris 操作系统。mountgfsys 服务可能失败并将节点置于维护状态,而不是显示登录提示。输出消息类似于以下内容:


WARNING - Unable to globally mount all filesystems.
Check logs for error messages and correct the problems.
 
May 18 14:06:58 pkaffa1 svc.startd[8]: system/cluster/mountgfsys:default misconfigured
 
May 18 14:06:59 pkaffa1 Cluster.CCR: /usr/cluster/bin/scgdevs: 
Filesystem /global/.devices/node@1 is not available in /etc/mnttab.

解决方法:在解决了群集文件系统的安装问题之后,您必须手动使 mountgfsys 服务重新联机。运行以下命令使 mountgfsys 服务联机并同步全局设备名称空间:


# svcadm clear svc:/system/cluster/mountgfsys:default
# svcadm clear svc:/system/cluster/gdevsync:default

现在,引导进程将继续执行。

对升级至 Solaris 10 操作系统的不支持导致 /etc/path_to_inst 文件的损坏 (6216447)

问题摘要:Sun Cluster 3.1 8/05 软件不支持升级至 2005 年 3 月版的 Solaris 10 操作系统。尝试升级至该版本可能会损坏 /etc/path_to_inst 文件。此文件的损坏将导致节点无法成功引导。被损坏的文件会类似于如下所示,其中除了物理设备名称包含前缀 /node@nodeid 以外,某些设备名称还会出现重复的条目:


…
"/node@nodeid/physical_device_name" instance_number "driver_binding_name"
…
"/physical_device_name" instance_number "driver_binding_name"

另外,某些关键的 Solaris 服务可能无法启动,包括联网和文件系统安装,并且可能在控制台上显示消息,表明服务配置错误。

解决方法:使用以下过程。

Procedure如何从损坏的 /etc/path_to_inst 文件中恢复

以下过程介绍了如何从导致 /etc/path_to_inst 文件损坏的升级至 Solaris 10 软件操作中恢复。


注 –

此过程不会尝试解决可能与将 Sun Cluster 配置升级至 2005 年 3 月版 Solaris 10 操作系统相关的任何其他问题。


在升级至 2005 年 3 月版 Solaris 10 操作系统的每个节点上执行此过程。

开始之前

如果节点无法引导,则从网络或 CD-ROM 引导节点。节点启动之后,运行 fsck 命令并在分区(例如 /a)中安装本地文件系统。在步骤 2 中,请使用安装在 /etc 目录路径中的本地文件系统名称。

步骤
  1. 成为节点上的超级用户或等效角色。

  2. 进入 /etc 目录。


    # cd /etc
    
  3. 确定 path_to_inst 文件是否损坏。

    如果 path_to_inst 文件已损坏,则会表现出以下特征:

    • 文件中包括带有物理设备名称前缀 /node@nodeid 的条目块。

    • 某些相同条目会被再次列出,但不带有 /node@nodeid 前缀。

    如果文件不是这种格式,则存在某些其他问题。请不要继续执行此过程。如果您需要帮助,请与您的 Sun 服务代表联系。

  4. 如果 path_to_inst 文件如步骤 3 所述被损坏,请运行以下命令。


    # cp path_to_inst path_to_inst.bak
    # sed -n -e "/^#/p" -e "s,node@./,,p" path_to_inst.bak > path_to_inst
    
  5. 检查 path_to_inst 文件以确保该文件已得到修复。

    修复后的文件将反映以下更改:

    • /node@nodeid 前缀从所有物理设备名称中删除。

    • 任何物理设备名称都没有重复的条目。

  6. 确保对 path_to_inst 文件的权限为只读。


    # ls -l /etc/path_to_inst
    -r--r--r--   1 root     root        2946 Aug  8  2005 path_to_inst
  7. 执行重新配置重新引导到非群集模式。


    # reboot -- -rx
    
  8. 修复所有受影响的群集节点之后,请转至《Sun Cluster 软件安装指南(适用于 Solaris OS)》中的“如何在非滚动升级之前升级相关软件”继续执行升级过程。

CMM 重新配置回调超时;节点异常中止 (6217017)

问题摘要:在使用 ce 传输的 x86 群集上,如果记忆分裂,则可能会导致 CMM 停止负载较重的节点。

解决方法:对于在专用网络中使用 PCI Gigaswift 以太网卡的 x86 群集,将以下内容添加到 /etc/system


set ce:ce_tx_ring_size=8192

当某个节点加入或离开群集并且该群集具有两个以上运行 Solaris 10 并使用 Hitachi 存储设备的节点时,这些节点可能停止 (6227074)

问题摘要:当某个节点加入或离开具有两个以上节点(这些节点运行 Solaris 10 并使用 Hitachi 存储设备)的群集时,所有群集节点都可能停止。

解决方法:目前没有解决方法。如果您遇到此问题,请与您的 Sun 服务提供商联系以获取修补程序。

Java ES 2005Q1 installer 不能完全安装 Application Server 8.1 EE (6229510)

问题摘要:如果选择“以后配置”选项,则不能通过 Java ES 2005Q1 installer 安装 Application Server Enterprise Edition 8.1。选择“以后配置”选项将安装平台版而不是企业版。

解决方法:使用 Java ES installer 安装 Application Server Enterprise Edition 8.1 时,请使用立即配置选项执行安装。选择以后配置选项将仅安装平台版。

scvxinstall 导致 rpcbind 重新启动 (6237044)

问题摘要:重新启动绑定 SMF 服务可能会影响 Solaris Volume Manager 运行。安装 Veritas 4.1 VxVM 软件包将导致重新启动 SMF 绑定服务。

解决方法:在重新启动绑定 SMF 服务或在 S10 主机上安装 VxVM 4.1 之后,重新引导 Solaris Volume Manager。


svcadm restart svc:/network/rpc/scadmd:default

在装有 Solaris 10 的系统中,使用 Java ES installer 安装了 Sun Cluster 之后,无法安装 Sun Cluster 数据服务 (6237159)

问题摘要:此问题仅在装有 Solaris 10 的系统中出现。如果用户在 Sun Cluster 核心程序已安装后使用 Sun Cluster Agents CD-ROM 上的 Java ES installer 来安装 Sun Cluster 数据服务,installer 将失败,并显示以下消息:


The installer has determined that you must manually remove incompatible versions 
of the following components before proceeding: 

[Sun Cluster 3.1 8/05, Sun Cluster 3.1 8/05, Sun Cluster 3.1 8/05]

After you remove these components, go back. 
Component                       Required By ...

1. Sun Cluster 3.1 8/05     HA Sun Java System Message Queue : HA Sun Java 
                            System Message Queue 
2. Sun Cluster 3.1 8/05     HA Sun Java System Application Server : HA Sun Java 
									System Application Server 
3. Sun Cluster 3.1 8/05     HA/Scalable Sun Java System Web Server : HA/Scalable 
									Sun Java System Web Server 
4. Select this option to go back to the component list. This process might take
									a few moments while the installer rechecks your
									system for installed components.

Select a component to see the details. Press 4 to go back the product list
[4] {"<" goes back, "!" exits}

解决方法:在装有 Solaris 10 的系统中,使用 pkgaddscinstall 手动安装 Sun Cluster 数据服务。如果 Sun Cluster 数据服务依赖于共享组件,请使用 pkgadd 手动安装共享组件。以下链接列出了每个产品的共享组件:

http://docs.sun.com/source/819-0062/preparing.html#wp28178

错误消息 /usr/sbin/smcwebserver: ... j2se/opt/javahelp/lib: does not exist (6238302)

问题摘要:在启动 Sun Web Console 期间,可能显示以下消息。


/usr/sbin/smcwebserver:../../../../j2se/opt/javahelp/lib: does not exist

解决方法:您可以忽略此消息。您可以通过输入以下内容,将链接手动添加到 /usr/j2se/opt 中以指向正确的 Java Help 2.0:


# ln -s /usr/jdk/packages/javax.help-2.0 /usr/j2se/opt/javahelp

当操作系统在 Sun Cluster 3.1 4/04 中从 Solaris 9 升级到 Solaris 10 后节点停止 (6245238)

问题摘要:在运行 Sun Cluster 3.1 4/04 软件或更低版本的群集上从 Solaris 9 操作系统升级至 Solaris 10 操作系统,把节点引导到非群集模式将导致节点停止。

解决方法:从 Solaris 9 升级至 Solaris 10 软件之前,请安装以下修补程序之一。

SunPlex Installer 没有在资源组中创建资源 (6250327)

问题摘要:在安装 Sun Cluster 期间使用 SunPlex Installer 配置 Sun Cluster HA for Apache 和 Sun Cluster HA for NFS 数据服务时,SunPlex Installer 没有在资源组中创建必要的设备组和资源。

解决方法:请不要使用 SunPlex Installer 安装和配置数据服务。而应按照《Sun Cluster 软件安装指南(适用于 Solaris OS)》《Sun Cluster Data Service for Apache Guide for Solaris OS》《Sun Cluster Data Service for NFS Guide for Solaris OS》手册中的过程安装和配置这些数据服务。

HA-NFS 更改为支持 NFSv4 以修复 6244819 (6251676)

问题摘要:NFSv4 在 Sun Cluster 3.1 8/05 中不受支持。

解决方法:Solaris 10 引入了新版 NFS 协议 NFSv4。这是 Solaris 10 客户机和服务器的默认协议。Sun Cluster 3.1 8/05 版本支持 Solaris 10,但不支持将 NFSv4 协议与群集上的 Sun Cluster HA for NFS 服务结合使用以实现 NFS 服务器的高可用性。为了确保没有任何 NFS 客户机可以使用 NFSv4 协议通过 Sun Cluster 软件与 NFS 服务器进行对话,请编辑 /etc/default/nfs 文件将行 NFS_SERVER_VERSMAX=4 更改为 NFS_SERVER_VERSMAX=3。这将确保群集上 Sun Cluster HA for NFS 服务的客户机仅使用 NFSv3 协议。

注意:将 Solaris 10 群集节点用作 NFSv4 客户机不受此限制和上述解决方法的影响。群集节点可以用作 NFSv4 客户机。

重新启动 rpcbind 服务后 metaset 命令失败 (6252216)

问题摘要:重新启动 rpcbind 服务后 metaset 命令失败。

解决方法:确保您没有在 Sun Cluster 系统中执行任何配置操作,然后使用以下命令中止 rpc.metad 进程:


# pkill -9 rpc.metad

节点因出现 metaclust 返回步骤错误而停止:RPC:程序未注册 (6256220)

问题摘要:关闭群集时,某些节点可能会因服务在节点上停止的顺序而停止。如果在停止 RAC 框架之前停止了 RPC 服务,则当 SVM 资源尝试重新配置时可能会造成错误。这将导致出现向 RAC 框架报回的一个错误以致节点停止。已经用运行 RAC 框架(配有 SVM 存储选件)的 Sun Cluster 观测到此问题。对 Sun Cluster 的功能应该没有任何影响。

解决方法:尽管应当清除已保存的核心转储文件以便回收文件系统空间,但停止是由程序设计决定的并且可以安全地被忽略。

NIS 地址转换挂起并导致故障转移失败 (6257112)

问题摘要:在 Solaris 10 操作系统中,/etc/nsswitch.conf 文件已被修改为在 ipnodes 条目中包含 NIS。


ipnodes:    files nis [NOTFOUND=return]

如果由于 NIS 问题或所有公共网络适配器故障使 NIS 变得不可访问,则将导致地址转换挂起。此问题将最终导致故障转移资源或共享地址资源无法故障转移。

解决方法:在创建逻辑主机或共享地址资源之前,完成以下过程:

  1. /etc/nsswitch.conf 文件中的 ipnodes 条目从 [NOTFOUND=return] 更改为 [TRYAGAIN=0]


    ipnodes:    files nis [TRYAGAIN=0]
  2. 确保逻辑主机的所有 IP 地址和共享地址均添加到 /etc/inet/hosts 文件和 /etc/inet/ipnodes 文件中。

scinstall 无法升级用于 Sun Java System Application Server EE 的 Sun Cluster 数据服务 (6263451)

问题摘要:尝试将用于 Sun Java System Application Server EE 的 Sun Cluster 数据服务从 3.1 9/04 更新为 3.1 8/05 时,scinstall 没有删除 j2ee 的软件包并显示以下消息:


Skipping "SUNWscswa" - already installed

没有升级用于 Sun Java System Application Server EE 的 Sun Cluster 数据服务。

解决方法:使用以下命令手动删除和添加 sap_j2ee 软件包:


# # pkgrm SUNWscswa
# pkgadd [-d device] SUNWscswa

scnas:引导期间未安装 NAS 文件系统 (6268260)

问题摘要:在故障转移或使用 scswitch 将数据服务定位到节点之前,无法检查 NFS 文件系统的持久性。如果某节点没有 NFS 文件系统,则对该节点的切换/故障转移将导致需要手动介入的数据服务出现故障。在尝试对该节点进行切换/故障转移之前,需要使用类似于 HAStoragePlus 的机制来检查文件系统的持久性。

解决方法:使用 NAS 文件管理器(带有 /etc/vfstab 中的条目)的文件系统不是在 Sun Cluster 软件的控制下安装的,这意味着 Sun Cluster 软件不会发现任何问题。 如果文件系统变得不可用,则执行数据服务方法(如 STARTSTOP)时,某些数据服务(如 Sun Cluster HA for Oracle)将失败。

这些方法的失败可能会导致几种可能性:

执行以下过程之一以避免上述问题:

HADB 故障监视器将不重新启动 ma 进程 (6269813)

问题摘要:当 Sun Cluster 数据服务中止或突然退出时,该数据服务不会重新启动 ma 进程。

解决方法:这是预期的行为并且不会影响数据服务。

在滚动升级期间 rgmd 发生核心转储 (6271037)

问题摘要:在所有节点都在运行新的软件之前,如果在滚动升级期间尝试删除资源,则可能会导致其中一个节点停止。请勿删除资源,直至所有节点都安装了新软件。

解决方法:在滚动升级期间,请勿删除 RGM 资源,直至所有节点都安装了新软件。

在关闭并引导群集后,HADB 数据库无法重新启动 (6276868)

问题摘要:在重新引导群集节点之后,HADB 数据库无法重新启动。用户将不能访问数据库。

解决方法:通过完成以下过程,重新启动您的其中一个管理数据服务。如果通过以下过程不能解决问题,请删除该数据库,并重新创建它。

Procedure重新启动管理数据服务

步骤
  1. 在要关闭的节点上,键入以下命令。-h 选项不应包括要停止其管理代理的节点名称。


    scswitch -z -g hadb resource grp -h node1, node2...
    
  2. 将资源组切换回原始节点。


    scswitch —Z —g hadb resource grp
    
  3. 检查数据库的状态。等待直到数据库进入“已停止”状态。


    hadbm status -n database
    
  4. 启动数据库。


    hadbm start database
    

添加 SUNWiimsc 软件包之后,SUNW.iim 的大小为 0 (6277593)

问题摘要sun_cluster_agents 中的 SUNWiimsc 软件包无效。添加此软件包之后,/opt/SUNWiim/cluster 中的 SUNW.iim 的大小为 0。

解决方法:通过完成以下步骤,替换 SUNW.iim 软件包并重新注册。

Procedure如何安装正确的 SUNW.iim 软件包

步骤
  1. 从 CD-ROM 复制正确的 SUNW.iim


    # cp 2of2_CD/Solaris_arch/Product/sun_cluster_agents/Solaris_os
    /Packages/SUNWiimsc/reloc/SUNWiim/cluster/SUNW.iim /opt/SUNWiim/Cluster/SUNW.iim
    
  2. 删除任何现有的 SUNW.iim 注册。


    # rm /usr/cluster/lib/rgm/rtreg/SUNW.iim
    
  3. 在 Sun Cluster 中注册数据服务


    sh 2of2_CD/Solaris_arch/Product/sun_cluster_agents/
    Solaris_os/Packages/SUNWiimsc/install/postinstall

通过 SunPlex Manager 添加新的 IPMP 组有时会失败 (6278059)

问题摘要:尝试使用 SunPlex Manger 添加新的 IPMP 组有时会失败,并显示以下消息。


An error was encountered by the system. If you were performing an action 
when this occurred, review the current system state prior to proceeding.

解决方法:根据运行的 IP 版本执行以下过程之一。

Procedure使用 IPv4 时通过 SunPlex Manager 添加新的 IPMP 组

步骤
  1. 输入以下命令:


    ifconfig interface inet plumb group groupname [addif address deprecated] 
    netmask + broadcast + up -failover
    
  2. 如果提供了测试地址,请更新 /etc/hostname .interface 文件添加以下内容:


    group groupname addif address netmask + broadcast + deprecated -failover up
  3. 如果未提供测试地址,请更新 /etc/hostname.interface 文件添加以下内容:


    group.groupname netmask + broadcast -failover up

Procedure使用 IPv6 时通过 SunPlex Manager 添加新的 IPMP 组

步骤
  1. 输入以下命令:


    ifconfig interface inet6 plumb up group groupname
    
  2. 更新 /etc/hostname6.interface 文件添加以下条目:


    group groupname plumb up
  3. 如果 /etc/hostname6.interface 文件尚未存在,请创建该文件并添加上述条目。

某个群集节点停止后,HADB 资源仍继续重新启动 (6278435)

问题摘要:在使资源联机并使群集中的某个节点停止(例如 shutdownuadmin)之后,该资源将继续在其他节点上重新启动。用户将不能发出任何管理命令。

解决方法:要避免此问题,请以超级用户身份或以具有等效访问权限的角色身份登录到单个节点,并使用以下命令将资源的 probe_timeout 值增加到 600 秒:


scrgadm -c -j hadb resource -x Probe_timeout=600

要验证更改,请关闭某个群集节点,然后检查以确保资源没有进入降级状态。

在 Solaris 10 中,当公共网络和 Sun Cluster 传输都使用 bge(7D) 驱动的适配器时,可伸缩服务不起作用 (6278520)

问题摘要:当公共网络和 Sun Cluster 传输都使用 bge 驱动的适配器时,Sun Cluster 可伸缩服务的负载平衡功能在 Solaris 10 系统中不起作用。配有内置 NIC(使用 bge)的平台包括 Sun Fire V210、V240 和 V250。

故障转移数据服务不受此错误的影响。

解决方法:不要将公共联网和群集传输配置为都使用 bge 驱动的适配器。

当默认语言环境设置为多字节语言环境时,无法通过 SunPlex Manager 查看系统日志 (6281445)

问题摘要:当 SunPlex Manager 的默认语言环境设置为多字节语言环境时,无法查看系统日志。

解决方法:将默认语言环境设置为 C,或者通过命令行 Shell 手动查看系统日志 (/var/adm/messages)。

在节点 1 上使用 scswitch 无法使节点代理联机 (6283646)

问题摘要:必须将实例和节点代理配置为侦听故障转移 IP 地址/主机名。创建节点代理和 Sun Java System Application Server 实例后,在默认情况下,将设置物理节点主机名。将在 domain.xml 中更改 HTTP IP 地址和 client-hostname。但由于没有重新启动域管理服务器,因此这些更改不会生效。这样,节点代理将仅在已配置了它们的物理节点上启动,而不会在其他节点上启动。

解决方法:将 domain.xml 的节点代理部分中的 client-hostname 属性更改为侦听故障转移 IP,然后重新启动域管理服务器以使更改生效。

SunPlex Manager 和 Cacao 1.1 仅支持 JDK 1.5.0_03 (6288183)

问题摘要:在将 Sun Cluster 3.1 8/05 中的 SunPlex Manager 与 Cacao 1.1 结合使用时,仅支持 JDK 1.5.0_03。

解决方法:通过完成以下过程手动安装 JDK 1.5。

Procedure如何手动安装 JDK 1.5

步骤
  1. 从 JES 4 共享组件目录添加 JDK 1.5(请参见 JES 4 RN 以获得说明)。

  2. 停止 cacao。


    # /opt/SUNWcacao/bin/cacaoadm stop
    
  3. 启动 cacao。


    # /opt/SUNWcacao/bin/cacaoadm start
    

在 Solaris 9 上安装 SC3.1 (8/05) 修补程序 117949–14 和在 Solaris 8 上安装修补程序 117950–14 之后,在引导期间出现 Java VM 错误 (6291206)

问题摘要:当运行 Sun Cluster 3.1 (9/04) 和修补程序的系统通过以下方式升级至 Sun Cluster 3.1 (8/05) 时会出现此错误:在运行 Solaris 9 的系统上应用修补程序 117949-14,或在运行 Solaris 8 的系统上应用修补程序 117950-14。引导计算机后,系统将显示以下错误消息:


# An unexpected error has been detected by HotSpot Virtual Machine:
#
#  SIGSEGV (0xb) at pc=0xfaa90a88, pid=3102, tid=1
#
# Java VM: Java HotSpot(TM) Client VM (1.5.0_01-b07 mixed mode, sharing)
# Problematic frame:
# C  [libcmas_common.so+0xa88]  newStringArray+0x70
#
# An error report file with more information is saved as /tmp/hs_err_pid3102.log
#
# If you would like to submit a bug report, please visit:
#   http://java.sun.com/webapps/bugreport/crash.jsp
#

解决方法:从 Sun Cluster 3.1 (9/04) 升级至 Sun Cluster 3.1 (8/05) 时,除了安装核心修补程序,还需要输入以下命令安装 SPM 修补程序。

在运行 Solaris 8 的系统上,请在应用核心修补程序 117950-14 之后运行以下命令:


 patchadd patchdir/118626-04

在运行 Solaris 9 的系统上,请在应用修补程序 117949-14 之后运行以下命令:


patchadd patchdir/118627-04 

Directory Server 和 Administration Server 资源注册有时会失败 (6298187)

问题摘要:Directory Server 和 Administration Server 的资源注册有时会失败。系统将显示以下消息:


Registration file not found for "SUNW.mps" in /usr/cluster/lib/rgm/rtreg

解决方法:通过输入以下命令之一直接从 pkg 位置注册缺少的文件:

Solaris 10 群集节点可能无法与具有 IPv4 和 IPv6 地址映射的计算机进行通信 (6306113)

问题摘要:如果运行 Solaris 10 的 Sun Cluster 节点没有为公共联网配置 IPv6 接口(例如,没有为群集互连进行配置),则该节点无法访问名称服务(例如 NIS)中具有 IPv4 和 IPv6 地址映射的计算机。对于那些采用 IPv6 地址而不是 IPv4 地址的的应用程序,如 telnet 和 traceroot,将看到它们的软件包被发送给群集传输适配器但并没有被接收

解决方法:根据配置或群集选择以下一种解决方法。