6. Support for Oracle RAC 故障排除
如何检验 Support for Oracle RAC 的状态
节点在 Support for Oracle RAC 初始化期间出现紧急情况
SUNW.rac_framework 或 SUNW.vucmm_framework 资源启动失败
7. 修改 Support for Oracle RAC 的现有配置
后续各小节中介绍了可能会影响 Support for Oracle RAC 的问题。各小节均提供了有关问题原因及其解决方案的信息。
本节介绍了可能会影响 RAC 框架资源组的问题。
如果在初始化 Support for Oracle RAC 期间发生致命问题,节点将出现紧急情况,并显示类似如下的错误消息:
panic[cpu0]/thread=40037e60: Failfast: Aborting because "ucmmd" died 30 seconds ago
描述: UCMM 控制的组件在重新配置期间向 UCMM 返回错误。
原因: 对于此问题,最常见的原因如下:
SPARC:尚未安装包含 Oracle UDLM 的 ORCLudlm 软件包。
SPARC:Oracle UDLM 的版本与 Support for Oracle RAC 的版本不兼容。
SPARC:共享内存容量不足以启动 Oracle UDLM。
节点在初始化 Support for Oracle RAC 期间也可能因某个重新配置步骤超时而出现紧急情况。有关更多信息,请参见超时导致节点出现紧急情况。
解决方法: 有关解决该问题的说明,请参见如何从 ucmmd 守护进程或相关组件的故障中恢复。
注 - 若节点为全局群集的全局群集投票节点,节点出现紧急情况时将关闭整台计算机。若节点为区域群集节点,节点出现紧急情况时将仅关闭特定的区域,其他区域不受影响。
UCMM 守护进程 ucmmd 管理 Support for Oracle RAC 的重新配置。引导或重新引导群集时,仅当验证完 Support for Oracle RAC 的所有组件后,才会启动此守护进程。如果节点上的组件验证失败,则 ucmmd 守护进程将无法在此节点上启动。
对于此问题,最常见的原因如下:
SPARC:尚未安装包含 Oracle UDLM 的 ORCLudlm 软件包。
以前重新配置组件 Support for Oracle RAC 期间发生错误。
以前重新配置 Support for Oracle RAC 时某步骤超时,导致发生超时的节点出现紧急情况。
有关解决该问题的说明,请参见如何从 ucmmd 守护进程或相关组件的故障中恢复。
执行此任务可解决以下各节中所述的问题:
有关 UCMM 重新配置的日志文件的位置,请参见诊断信息的来源。
检查这些文件时,请从最近的消息开始依次向后检查,直到找到问题的原因。
有关可指示重新配置错误原因的错误消息的更多信息,请参见《Oracle Solaris Cluster Error Messages Guide》。
例如:
注 - 仅当确实要用到 Oracle UDLM 时才需要进行安装。
表 1-1 中列出了您必须完成的过程。
有关更多信息,请参见SPARC: 安装 Oracle UDLM。
有关更多信息,请参见SPARC: 安装 Oracle UDLM。
有关更多信息,请参见如何在全局群集中为 Oracle RAC 软件配置共享内存。
有关更多信息,请参见超时导致节点出现紧急情况。
只有某些问题的解决方案要求重新引导。例如,增大共享内存的容量需要进行重新引导,而增大步骤超时时间的值则无需进行重新引导。
有关如何重新引导节点的更多信息,请参见《Oracle Solaris Cluster 系统管理指南》中的"关闭和引导群集中的单个节点"。
此步骤可使用更改的配置刷新资源组。
# clresourcegroup offline -n node rac-fmwk-rg
指定出现问题的节点的名称或标识符 (ID)。
指定要使其脱机的资源组的名称。
# clresourcegroup online -emM -n node rac-fmwk-rg
本节介绍了可能会影响多属主卷管理器框架资源组的问题。
如果在多属主卷管理器框架初始化期间发生致命问题,节点将出现紧急情况,并显示类似如下的错误消息:
注 - 若节点为全局群集的全局群集投票节点,节点出现紧急情况时将关闭整台计算机。
panic[cpu0]/thread=40037e60: Failfast: Aborting because "vucmmd" died 30 seconds ago
描述: 多属主卷管理器框架控制的组件在重新配置期间向多属主卷管理器框架返回错误。
原因: 对于此问题,最常见原因是 Veritas Volume Manager (VxVM) 许可证丢失或已过期。
节点在多属主卷管理器框架初始化期间也可能因某个重新配置步骤超时而出现紧急情况。有关更多信息,请参见超时导致节点出现紧急情况。
解决方法: 有关解决该问题的说明,请参见如何从 vucmmd 守护进程或相关组件的故障中恢复。
多属主卷管理器框架守护进程 vucmmd 管理多属主卷管理器框架的重新配置。引导或重新引导群集时,仅当验证完多属主卷管理器框架的所有组件后,才会启动此守护进程。如果节点上的组件验证失败,则 vucmmd 守护进程将无法在此节点上启动。
对于此问题,最常见的原因如下:
以前重新配置多属主卷管理器框架的组件期间发生错误。
以前重新配置多属主卷管理器框架时某步骤超时,导致发生超时的节点出现紧急情况。
有关解决该问题的说明,请参见如何从 vucmmd 守护进程或相关组件的故障中恢复。
执行此任务可解决以下各节中所述的问题:
有关多属主卷管理器框架重新配置的日志文件的位置,请参见诊断信息的来源。
检查这些文件时,请从最近的消息开始依次向后检查,直到找到问题的原因。
有关可指示重新配置错误原因的错误消息的更多信息,请参见《Oracle Solaris Cluster Error Messages Guide》。
例如:
注 - 区域群集不支持 VxVM。
有关更多信息,请参见超时导致节点出现紧急情况。
只有某些问题的解决方案要求重新引导。例如,增大共享内存的容量需要进行重新引导,而增大步骤超时时间的值则无需进行重新引导。
有关如何重新引导节点的更多信息,请参见《Oracle Solaris Cluster 系统管理指南》中的"关闭和引导群集中的单个节点"。
此步骤可使用更改的配置刷新资源组。
# clresourcegroup offline -n node vucmm-fmwk-rg
指定出现问题的节点的名称或标识符 (ID)。
指定要使其脱机的资源组的名称。
# clresourcegroup online -emM -n node vucmm-fmwk-rg
Oracle Solaris Cluster 资源类型注册文件位于 /opt/cluster/lib/rgm/rtreg/ 或 /usr/cluster/lib/rgm/rtreg/ 目录中。SUNW.qfs 资源类型注册文件位于 /opt/SUNWsamfs/sc/etc/ 目录中。
如果在安装 Sun QFS 软件时已安装 Oracle Solaris Cluster 软件,则将自动创建到 SUNW.qfs 注册文件的必要映射。但是如果在安装 Sun QFS 软件时尚未安装 Oracle Solaris Cluster 软件,则不会创建到 SUNW.qfs 注册文件的必要映射,即使稍后安装 Sun Cluster 软件也是如此。因此尝试注册 SUNW.qfs 资源类型将失败,因为 Oracle Solaris Cluster 软件无法识别其注册文件的位置。
要使 Oracle Solaris Cluster 软件可找到 SUNW.qfs 资源类型,请创建目录的符号链接:
# cd /usr/cluster/lib/rgm/rtreg # ln -s /opt/SUNWsamfs/sc/etc/SUNW.qfs SUNW.qfs
在重新配置 Support for Oracle RAC 的过程中,任何步骤超时都会导致发生超时的节点出现紧急情况。
为防止重新配置步骤超时,请根据群集配置调整超时时间。有关更多信息,请参见设置超时值的准则。
如果某个重新配置步骤超时,请使用 Oracle Solaris Cluster 维护命令增大为该步骤指定超时时间的扩展属性的值。有关更多信息,请参见附录 C。
增大扩展属性的值后,使出现紧急情况的节点上的 RAC 框架资源组处于联机状态。
如果 SUNW.rac_framework 或 SUNW.vucmm_framework 资源无法启动,请检验资源的状态以确定失败的原因。有关更多信息,请参见如何检验 Support for Oracle RAC 的状态。
启动失败的资源的状态显示为 Start failed。相关联的状态消息指示启动失败的原因。
本节包括以下信息:
以下状态消息与 SUNW.rac_framework 资源启动失败相关联:
Faulted - ucmmd is not running
解决方法: 有关如何解决此问题的信息,请参见ucmmd 守护进程启动失败。
Degraded - reconfiguration in progress
描述: UCMM 正在进行重新配置。仅当 UCMM 的重新配置未完成且该资源持久保持降级状态时,显示此消息才表示出现问题。
原因: 如果显示此消息表示出现问题,则失败的原因是一个或多个 Support for Oracle RAC 组件中出现配置错误。
解决方法: 此问题的解决方案取决于显示该消息是否表示出现问题:
如果显示该消息表示出现问题,请按照如何从 ucmmd 守护进程或相关组件的故障中恢复中的说明解决问题。
如果显示该消息并不表示出现问题,则无需执行任何操作。
描述: 只有在 SUNW.rac_framework 资源的 START 方法超时后,才能完成 Oracle RAC 的重新配置。
解决方法: 有关解决此问题的说明,请参见如何从 START 方法的超时中恢复。
以下状态消息与 SUNW.vucmm_framework 资源启动失败相关联:
Faulted - vucmmd is not running
解决方法: 有关如何解决此问题的信息,请参见vucmmd 守护进程启动失败。
Degraded - reconfiguration in progress
描述: 多属主卷管理器框架正在进行重新配置。仅当多属主卷管理器框架的重新配置未完成且该资源持久保持降级状态时,显示此消息才表示出现问题。
原因: 如果显示此消息表示出现问题,则失败的原因是卷管理器重新配置框架的一个或多个组件中出现配置错误。
解决方法: 此问题的解决方案取决于显示该消息是否表示出现问题:
如果显示该消息表示出现问题,请按照如何从 vucmmd 守护进程或相关组件的故障中恢复中的说明解决问题。
如果显示该消息并不表示出现问题,则无需执行任何操作。
描述: 只有在 SUNW.vucmm_framework 资源的 START 方法超时后,才能完成 Oracle RAC 的重新配置。
解决方法: 有关解决此问题的说明,请参见如何从 START 方法的超时中恢复。
要执行此操作,请将该资源组的主节点切换到其资源组处于联机状态的其他节点。
# clresourcegroup offline -n nodelist resource-group
以逗号分隔的方式指定其 resource-group 处于联机状态的其他群集节点的列表。忽略该列表中 START 方法超时的节点。
指定框架资源组的名称。
如果配置同时使用多属主卷管理器框架资源组和 RAC 框架资源组,则首先使多属主卷管理器框架资源组脱机。当多属主卷管理器框架资源组处于脱机状态后,再使 RAC 框架资源组脱机。
如果 RAC 资源组是使用 clsetup 实用程序创建的,则该资源组的名称为 rac-framework-rg。
# clresourcegroup online resource-group
指定将步骤 2 中使其脱机的资源组改为 MANAGED 状态并使其联机。
如果资源无法停止,请按照《Oracle Solaris Cluster Data Services Planning and Administration Guide》中的"Clearing the STOP_FAILED Error Flag on Resources"中的说明解决此问题。