适用于 Oracle Real Application Clusters 的 Oracle® Solaris Cluster 数据服务指南

退出打印视图

更新时间: 2016 年 4 月
 
 

调优 Support for Oracle RAC 故障监视器

以下资源的故障监视器提供了对 Support for Oracle RAC 数据服务的故障监视:

  • 可伸缩设备组资源

  • 可伸缩文件系统挂载点资源

每个故障监视器均包含在具有下表所显示资源类型的资源中。

表 17  Support for Oracle RAC 故障监视器的资源类型
故障监视器
资源类型
可伸缩设备组
SUNW.ScalDeviceGroup
可伸缩文件系统挂载点
SUNW.ScalMountPoint

这些资源的标准属性和扩展属性控制故障监视器的行为。这些属性的默认值确定了故障监视器的预设行为。预设行为应适合大多数 Oracle Solaris Cluster 安装。因此,仅当需要修改此预设行为时,才应调优 Support for Oracle RAC 故障监视器。

调优 Support for Oracle RAC 故障监视器包括以下任务:

  • 设置故障监视器探测间隔

  • 设置故障监视器探测的超时

  • 定义永久性故障的条件

  • 指定资源的故障转移行为

有关更多信息,请参见Oracle Solaris Cluster 4.3 数据服务规划和管理指南 中的 调整 Oracle Solaris Cluster 数据服务的故障监视器。以下各小节提供了有关执行这些任务所需的 Support for Oracle RAC 故障监视器的信息:

可伸缩设备组故障监视器的操作

默认情况下,故障监视器监视资源所代表设备组中的所有逻辑卷。如果只需要监视设备组中逻辑卷的子集,则设置 LogicalDeviceList 扩展属性。

设备组的状态是从监视的各个逻辑卷的状态中得出的。如果所有监视逻辑卷的运行状况良好,则设备组的运行状况良好。如果任何监视的逻辑卷出现故障,则设备组出现故障。如果发现设备组出现故障,将停止监视代表该组的资源并且该资源将被置于禁用状态。

通过查询单个逻辑卷的卷管理器,可以获得该逻辑卷的状态。如果无法通过查询确定 Solaris Volume Manager for Sun Cluster 卷的状态,故障监视器将执行文件输入/输出 (input/output, I/O) 操作来确定状态。


注 -  对于镜像磁盘,如果一个子镜像出现故障,设备组仍被视为运行状况良好。

如果重新配置用户级群集成员导致 I/O 错误,则在进行用户级群集成员监视器 (userland cluster membership monitor, UCMM) 重新配置时,将暂停故障监视器对设备组资源的监视。

可伸缩文件系统挂载点故障监视器的操作

要确定已挂载的文件系统是否可用,故障监视器将对文件系统上的测试文件执行 I/O 操作,如打开、读取和写入该测试文件。如果在超时期限内 I/O 操作未完成,故障监视器将报告错误。要为 I/O 操作指定超时,请设置 IOTimeout 扩展属性。

    对错误的响应取决于文件系统的类型,如下所示:

  • 如果文件系统为合格 NAS 设备上的 NFS 文件系统,则响应如下所示:

    • 在当前群集节点上停止对资源的监视。

    • 在当前群集节点上,资源将置于禁用状态,从而使文件系统从该节点上卸载。

  • 如果文件系统为 StorageTek QFS 共享文件系统,则响应如下所示:

    • 如果发生错误的群集节点正在托管元数据服务器资源,则元数据服务器资源会故障转移到另一个节点。

    • 卸载文件系统。

    如果故障转移尝试失败,则不会挂载文件系统并给出一条警告消息。

获取用于 DBMS 超时故障排除的核心文件

为方便对情况不明的 DBMS 超时进行故障排除,可以让故障监视器在发生探测超时创建核心文件。核心文件的内容与故障监视器进程相关。故障监视器会在根 (/) 目录下创建核心文件。要允许故障监视器创建核心文件,请使用 coreadm 命令启用 set-id 核心转储。

# coreadm -g /var/cores/%f.%n.%p.core -e global -e process \
-e global-setid -e proc-setid -e log

有关更多信息,请参见 coreadm(1M) 手册页。