跳过导航链接 | |
退出打印视图 | |
适用于 Oracle Real Application Clusters 的 Oracle Solaris Cluster 数据服务指南 Oracle Solaris Cluster 4.0 (简体中文) |
6. 排除 Support for Oracle RAC 的故障
如何检验 Support for Oracle RAC 的状态
7. 修改 Support for Oracle RAC 的现有配置
以下各小节介绍可能会影响 Support for Oracle RAC 的一些问题。各个小节提供了有关问题产生原因及其解决方案的信息。
本节介绍可能会影响 Oracle RAC 框架资源组的一些问题。
如果在 Support for Oracle RAC 初始化期间发生致命问题,节点将出现紧急情况,并显示类似如下的错误消息:
panic[cpu0]/thread=40037e60: Failfast: Aborting because "ucmmd" died 30 seconds ago
描述: 在重新配置期间,UCMM 所控制的组件将错误返回到 UCMM。
原因: 导致出现此问题的最常见原因如下所述:
在 Support for Oracle RAC 初始化期间,节点还可能会由于重新配置步骤已超时而出现紧急情况。有关更多信息,请参见因超时导致节点出现紧急情况。
解决方法: 有关更正该问题的说明,请参见如何从 ucmmd 守护进程或相关组件的故障中恢复。
注 - 如果节点是全局群集的全局群集投票节点,则节点紧急情况将导致整个计算机关闭。如果节点是区域群集节点,则节点紧急情况只会导致该特定区域关闭,其他区域不受影响。
UCMM 守护进程 ucmmd 用于管理 Support for Oracle RAC 的重新配置。引导或重新引导群集时,只有在验证 Support for Oracle RAC 的所有组件之后,才会启动该守护进程。如果某个节点上的组件验证失败,则 ucmmd 守护进程将无法在该节点上启动。
导致出现此问题的最常见原因如下所述:
在某个 Support for Oracle RAC 组件的先前重新配置期间出现错误。
先前 Support for Oracle RAC 重新配置过程中的某个步骤超时,从而导致发生超时的节点出现紧急情况。
有关更正该问题的说明,请参见如何从 ucmmd 守护进程或相关组件的故障中恢复。
执行此任务以更正以下各节中所介绍的问题:
有关 UCMM 重新配置日志文件的位置,请参见诊断信息源。
检查这些文件时,从最新消息开始,然后向后追溯,直到确定问题产生原因。
有关可能指示重新配置错误产生原因的错误消息的更多信息,请参见《Oracle Solaris Cluster Error Messages Guide》。
例如:
有关更多信息,请参见因超时导致节点出现紧急情况。
只有特定问题的解决方案需要重新引导。例如,增加共享内存量需要重新引导。但是,增加步骤超时值不需要重新引导。
有关如何重新引导节点的更多信息,请参见《Oracle Solaris Cluster 系统管理指南》中的"关闭和引导群集中的单个节点"。
此步骤会使用您所做的配置更改刷新资源组。
# clresourcegroup offline -n node rac-fmwk-rg
指定出现问题的节点的节点名称或节点标识符 (ID)。
指定要使其脱机的资源组的名称。
# clresourcegroup online -emM -n node rac-fmwk-rg
本节介绍了可能会影响多属主卷管理器框架资源组的问题。
如果在多属主卷管理器框架初始化期间发生致命问题,节点将出现紧急情况,并显示类似如下的错误消息:
注 - 如果节点是全局群集的全局群集投票节点,则节点紧急情况将导致整个计算机关闭。
多属主卷管理器框架守护进程 vucmmd 用于管理多属主卷管理器框架的重新配置。引导或重新引导群集时,只有在验证多属主卷管理器框架的所有组件之后,才会启动该守护进程。如果某个节点上的组件验证失败,则 vucmmd 守护进程将无法在该节点上启动。
导致出现此问题的最常见原因如下所述:
在先前重新配置多属主卷管理器框架的某个组件期间出现错误。
先前多属主卷管理器框架重新配置过程中的某个步骤超时,从而导致发生超时的节点出现紧急情况。
有关更正该问题的说明,请参见如何从 vucmmd 守护进程或相关组件的故障中恢复。
执行此任务以更正以下各节中所介绍的问题:
有关多属主卷管理器框架重新配置日志文件的位置,请参见诊断信息源。
检查这些文件时,从最新消息开始,然后向后追溯,直到确定问题产生原因。
有关可能指示重新配置错误产生原因的错误消息的更多信息,请参见《Oracle Solaris Cluster Error Messages Guide》。
只有特定问题的解决方案需要重新引导。例如,增加共享内存量需要重新引导。但是,增加步骤超时值不需要重新引导。
有关如何重新引导节点的更多信息,请参见《Oracle Solaris Cluster 系统管理指南》中的"关闭和引导群集中的单个节点"。
此步骤会使用您所做的配置更改刷新资源组。
# clresourcegroup offline -n node vucmm-fmwk-rg
指定出现问题的节点的节点名称或节点标识符 (ID)。
指定要使其脱机的资源组的名称。
# clresourcegroup online -emM -n node vucmm-fmwk-rg
Support for Oracle RAC 重新配置过程中的任何步骤超时都会导致发生超时的节点出现紧急情况。
要防止重新配置步骤超时,请调优依赖于群集配置的超时。有关更多信息,请参见设置超时的准则。
如果重新配置步骤超时,请使用 Oracle Solaris Cluster 维护命令增加用于指定步骤超时时间的扩展属性的值。有关更多信息,请参见附录 C。
在增加扩展属性值后,使出现紧急情况的节点上的 Oracle RAC 框架资源组联机。
如果 SUNW.rac_framework 或 SUNW.vucmm_framework 资源无法启动,请检验资源状态以确定故障产生原因。有关更多信息,请参见如何检验 Support for Oracle RAC 的状态。
无法启动的资源的状态显示为 Start failed。关联的状态消息指示无法启动的原因。
本节包含以下信息:
以下状态消息与 SUNW.rac_framework 资源无法启动相关联:
Faulted - ucmmd is not running
解决方法: 有关如何更正此问题的信息,请参见ucmmd 守护进程无法启动。
Degraded - reconfiguration in progress
描述: UCMM 正在进行重新配置。仅当 UCMM 重新配置未完成并且此资源的状态始终保持为降级时,此消息才指示问题。
原因: 如果此消息指示问题,则故障产生原因是 Support for Oracle RAC 的一个或多个组件出现配置错误。
解决方法: 此问题的解决方案取决于消息是否指示问题:
如果消息指示问题,则按如何从 ucmmd 守护进程或相关组件的故障中恢复中所述更正问题。
如果消息未指示问题,则不需要采取任何操作。
描述: 直到 SUNW.rac_framework 资源的 START 方法超时后,Oracle RAC 重新配置才完成。
解决方法: 有关更正该问题的说明,请参见如何从 START 方法超时中恢复。
以下状态消息与 SUNW.vucmm_framework 资源无法启动相关联:
Faulted - vucmmd is not running
解决方法: 有关如何更正此问题的信息,请参见vucmmd 守护进程无法启动。
Degraded - reconfiguration in progress
描述: 多属主卷管理器框架正在进行重新配置。仅当多属主卷管理器框架重新配置未完成并且此资源的状态始终保持为降级时,此消息才指示问题。
原因: 如果此消息指示问题,则故障产生原因是卷管理器重新配置框架的一个或多个组件出现配置错误。
解决方法: 此问题的解决方案取决于消息是否指示问题:
如果消息指示问题,则按如何从 vucmmd 守护进程或相关组件的故障中恢复中所述更正问题。
如果消息未指示问题,则不需要采取任何操作。
描述: 直到 SUNW.rac_framework 资源的 START 方法超时后,Oracle RAC 重新配置才完成。
解决方法: 有关更正该问题的说明,请参见如何从 START 方法超时中恢复。
要执行此操作,请将资源组的主节点切换为该组处于联机状态的其他节点。
# clresourcegroup offline -n nodelist resource-group
指定 resource-group 处于联机状态的其他群集节点的逗号分隔列表。此列表省略了 START 方法超时的节点。
指定框架资源组的名称。
如果您的配置同时使用多属主卷管理器框架资源组和 Oracle RAC 框架资源组,请首先使多属主卷管理器框架资源组脱机。多属主卷管理器框架资源组处于脱机状态后,再使 Oracle RAC 框架资源组脱机。
如果 Oracle RAC 框架资源组是使用 clsetup 实用程序创建的,则资源组的名称为 rac-framework-rg。
# clresourcegroup online resource-group
指定将您在步骤 2 中使其脱机的资源组转为 MANAGED 状态并使其联机。
如果资源无法停止,请按《Oracle Solaris Cluster Data Services Planning and Administration Guide》中的"Clearing the STOP_FAILED Error Flag on Resources"中所述更正此问题。