用于 Oracle Parallel Server/Real Application Clusters 的 Sun Cluster 数据服务指南（适用于 Solaris OS）

常见问题及其解决方法

以下各小节介绍了会影响 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的问题。每一小节都提供了有关问题原因及其解决方法的信息。

初始化 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 期间节点出现紧急情况

如果在初始化 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 期间出现致命的问题，节点将出现紧急情况，并显示类似于以下错误消息的错误消息：

panic[cpu0]/thread=40037e60: Failfast: 由于“ucmmd”在 30 秒钟前结束而终止

要确定问题的原因，请查看系统消息文件。此问题的最常见原因包括：

VERITAS Volume Manager (VxVM) 的许可证丢失或过期。
未安装包含 Oracle UDLM 的 ORCLudlm 软件包。
共享内存容量不足，Oracle UDLM 无法启动。
Oracle UDLM 的版本与 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的版本不兼容。
某个重新配置步骤超时。

要更正问题，请针对问题的原因执行适当的恢复操作，并重新引导出现紧急情况的节点。

由于超时而导致节点出现紧急情况

重新配置 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的任何步骤超时都会导致其中发生超时的节点出现紧急情况。

为防止重新配置步骤超时，请根据您的群集配置调整超时。有关详细信息，请参见设置超时的指导。

如果重新配置步骤超时，请使用 scrgadm 公用程序增加用于指定步骤超时的扩展特性的值。有关详细信息，请参见附录 A，Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 扩展特性。

增加扩展特性的值之后，重新引导出现紧急情况的节点。

无法启动 `ucmmd` 守护程序

UCMM 守护程序 ( ucmmd) 可以管理 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的重新配置。引导或重新引导群集时，只有在 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的所有组件都验证完毕后，此守护程序才会启动。如果节点上的某个组件验证失败，节点上的 ucmmd 将无法启动。

要确定问题的原因，请查看以下文件：

UCMM 重新配置日志文件 /var/cluster/ucmm/ucmm_reconf.log
系统消息文件

此问题的最常见原因包括：

未安装包含 Oracle UDLM 的 ORCLudlm 软件包。
在先前重新配置 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 组件过程中发生错误。
先前重新配置 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的某个步骤超时，从而导致其中发生超时的节点出现紧急情况。

要更正问题，请针对问题的原因执行适当的恢复操作，并重新引导其中 ucmmd 无法启动的节点。

无法启动 `SUNW.rac_framework` 资源

如果 SUNW.rac_framework 资源无法启动，请检验资源的状态以确定失败的原因。有关详细信息，请参见如何检验 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的状态。

无法启动的资源的状态将显示为启动失败。关联的状态消息将指明启动失败的原因，如下所示：

出错 - ucmmd 未运行

ucmmd 守护程序未在资源驻留的节点上运行。有关如何更正此问题的信息，请参见无法启动 ucmmd 守护程序。

性能降低 - 正在进行重新配置

Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的一个或多个组件出现配置错误。

要确定配置错误的原因，请查看以下文件：

UCMM 重新配置日志文件 /var/cluster/ucmm/ucmm_reconf.log
系统消息文件

有关可能表明配置错误原因的错误消息的详细信息，请参见 Sun Cluster Error Messages Guide for Solaris OS。

要更正问题，请先更正引起问题的配置错误。然后重新引导错误组件所驻留的节点。

联机

SUNW.rac_framework 资源的 START 方法超时后，仍未完成 Oracle Parallel Server/Real Application Clusters 的重新配置。

有关更正此问题的说明，请参见如何从 START 方法超时恢复。

如何从 `START` 方法超时恢复

成为超级用户。

在 START 方法超时的节点上，使 RAC 框架资源组脱机。
# scswitch -z -g resource-group -h nodelist
-g resource-group

指定 RAC 框架资源组的名称。如果此资源组是使用 scsetup 公用程序创建的，则资源组的名称为 rac-framework-rg。

-h nodelist

指定一个用逗号分隔的、其中 resource-group 处于联机状态的其他群集节点的列表。

在可运行 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 的所有群集节点上，使 RAC 框架资源组联机。
# scswitch -Z -g resource-group
-Z

启用资源和监视器，将资源组转为 MANAGED 状态，并使资源组联机

-g resource-group

指定在步骤 2 中脱机的资源组转为 MANAGED 状态并联机

无法停止资源

如果无法停止资源，请按照《用于 Solaris OS 的 Sun Cluster 数据服务规划和管理指南》的“清除资源上的 STOP_FAILED 错误标志”中的说明更正此问题。