适用于 Oracle Real Application Clusters 的 Oracle® Solaris Cluster 数据服务指南

退出打印视图

更新时间: 2014 年 7 月,E52258–01
 
 

Support for Oracle RAC 框架资源组故障

本节介绍可能会影响 Support for Oracle RAC 框架资源组的一些问题。

在 Support for Oracle RAC 初始化期间节点出现紧急情况

如果在 Support for Oracle RAC 初始化期间发生致命问题,节点将出现紧急情况,并显示类似如下的错误消息:

panic[cpu0]/thread=40037e60: Failfast: Aborting because "ucmmd" died 30 seconds ago

描述:  在重新配置期间,UCMM 所控制的组件将错误返回到 UCMM。

Cause:  导致出现此问题的最常见原因如下所述: 在 Support for Oracle RAC 初始化期间,节点还可能会由于重新配置步骤已超时而出现紧急情况。有关更多信息,请参见因超时导致节点出现紧急情况

解决方法:  有关更正该问题的说明,请参见如何从 ucmmd 守护进程或相关组件的故障中恢复


注 -  如果节点是全局群集的全局群集节点,则节点紧急情况将导致整个计算机关闭。如果节点是区域群集节点,则节点紧急情况只会导致该特定区域关闭,其他区域不受影响。

ucmmd 守护进程无法启动

UCMM 守护进程 ucmmd 用于管理 Support for Oracle RAC 的重新配置。引导或重新引导群集时,只有在验证 Support for Oracle RAC 的所有组件之后,才会启动该守护进程。如果某个节点上的组件验证失败,则 ucmmd 守护进程将无法在该节点上启动。

导致出现此问题的最常见原因如下所述:

  • 在某个 Support for Oracle RAC 组件的先前重新配置期间出现错误。

  • 先前 Support for Oracle RAC 重新配置过程中的某个步骤超时,从而导致发生超时的节点出现紧急情况。

有关更正该问题的说明,请参见如何从 ucmmd 守护进程或相关组件的故障中恢复

如何从 ucmmd 守护进程或相关组件的故障中恢复

  1. 要确定问题产生原因,请检查 UCMM 重新配置日志文件和系统消息文件。

    有关 UCMM 重新配置日志文件的位置,请参见诊断信息源

    检查这些文件时,从最新消息开始,然后向后追溯,直到确定问题产生原因。

    有关可能指示重新配置错误产生原因的错误消息的更多信息,请参见Oracle Solaris Cluster Error Messages Guide

  2. 更正导致组件将错误返回到 UCMM 的问题。

    例如:

  3. 如果问题的解决方案需要重新引导,则重新引导出现问题的节点。

    只有特定问题的解决方案需要重新引导。例如,增加共享内存量需要重新引导。但是,增加步骤超时值不需要重新引导。

    有关如何重新引导节点的更多信息,请参见Oracle Solaris Cluster 系统管理指南 中的关闭和引导群集中的单个节点

  4. 在出现问题的节点上,先使 Support for Oracle RAC 框架资源组脱机,然后再使其联机。

    此步骤会使用您所做的配置更改刷新资源组。

    1. 承担 root 角色或承担可提供 solaris.cluster.admin RBAC 授权的角色。
    2. 键入以下命令以使 Support for Oracle RAC 框架资源组及其资源脱机。
      # clresourcegroup offline -n node rac-fmwk-rg
      –n node

      指定出现问题的节点的节点名称或节点标识符 (ID)。

      rac-fmwk-rg

      指定要使其脱机的资源组的名称。

    3. 键入以下命令以使 Support for Oracle RAC 框架资源组及其资源联机并处于受管状态。
      # clresourcegroup online -eM -n node rac-fmwk-rg