以下各小节介绍了会影响 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的问题。 每一小节都提供了有关问题原因及其解决方法的信息。
如果在初始化 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 期间出现致命的问题,节点将出现紧急情况,并显示类似于以下错误消息的错误消息:
panic[cpu0]/thread=40037e60: Failfast: 由于“ucmmd”在 30 秒钟前结束而终止
要确定问题的原因,请查看系统消息文件。 此问题的最常见原因包括:
VERITAS Volume Manager (VxVM) 的许可证丢失或过期。
未安装包含 Oracle UDLM 的 ORCLudlm 软件包。
共享内存容量不足,Oracle UDLM 无法启动。
Oracle UDLM 的版本与 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的版本不兼容。
某个重新配置步骤超时。
要更正问题,请针对问题的原因执行适当的恢复操作,并重新引导出现紧急情况的节点。
重新配置 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的任何步骤超时都会导致其中发生超时的节点出现紧急情况。
为防止重新配置步骤超时,请根据您的群集配置调整超时。 有关详细信息,请参见设置超时的指导。
如果重新配置步骤超时,请使用 scrgadm 公用程序增加用于指定步骤超时的扩展特性的值。 有关详细信息,请参见附录 A,Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 扩展特性。
增加扩展特性的值之后,重新引导出现紧急情况的节点。
UCMM 守护程序 ( ucmmd) 可以管理 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的重新配置。 引导或重新引导群集时,只有在 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的所有组件都验证完毕后,此守护程序才会启动。 如果节点上的某个组件验证失败,节点上的 ucmmd 将无法启动。
要确定问题的原因,请查看以下文件:
UCMM 重新配置日志文件 /var/cluster/ucmm/ucmm_reconf.log
系统消息文件
此问题的最常见原因包括:
未安装包含 Oracle UDLM 的 ORCLudlm 软件包。
在先前重新配置 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 组件过程中发生错误。
先前重新配置 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的某个步骤超时,从而导致其中发生超时的节点出现紧急情况。
要更正问题,请针对问题的原因执行适当的恢复操作,并重新引导其中 ucmmd 无法启动的节点。
如果 SUNW.rac_framework 资源无法启动,请检验资源的状态以确定失败的原因。 有关详细信息,请参见如何检验 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的状态。
无法启动的资源的状态将显示为启动失败。 关联的状态消息将指明启动失败的原因,如下所示:
出错 - ucmmd 未运行
ucmmd 守护程序未在资源驻留的节点上运行。 有关如何更正此问题的信息,请参见无法启动 ucmmd 守护程序 。
性能降低 - 正在进行重新配置
Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的一个或多个组件出现配置错误。
要确定配置错误的原因,请查看以下文件:
UCMM 重新配置日志文件 /var/cluster/ucmm/ucmm_reconf.log
系统消息文件
有关可能表明配置错误原因的错误消息的详细信息,请参见 Sun Cluster Error Messages Guide for Solaris OS。
要更正问题,请先更正引起问题的配置错误。 然后重新引导错误组件所驻留的节点。
联机
SUNW.rac_framework 资源的 START 方法超时后,仍未完成 Oracle Parallel Server/Real Application Clusters 的重新配置。
有关更正此问题的说明,请参见如何从 START 方法超时恢复 。
成为超级用户。
在 START 方法超时的节点上,使 RAC 框架资源组脱机。
# scswitch -z -g resource-group -h nodelist |
指定 RAC 框架资源组的名称。 如果此资源组是使用 scsetup 公用程序创建的,则资源组的名称为 rac-framework-rg。
指定一个用逗号分隔的、其中 resource-group 处于联机状态的其他群集节点的列表。
在可运行 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的所有群集节点上,使 RAC 框架资源组联机。
# scswitch -Z -g resource-group |
启用资源和监视器,将资源组转为 MANAGED 状态,并使资源组联机
指定在步骤 2 中脱机的资源组转为 MANAGED 状态并联机
如果无法停止资源,请按照《用于 Solaris OS 的 Sun Cluster 数据服务规划和管理指南》的“清除资源上的 STOP_FAILED 错误标志”中的说明更正此问题。