调优 Support for Oracle RAC 故障监视器

语言：

以下资源的故障监视器提供了对 Support for Oracle RAC 数据服务的故障监视：

每个故障监视器均包含在具有下表所显示资源类型的资源中。

表 17 Support for Oracle RAC 故障监视器的资源类型

故障监视器	资源类型
可伸缩设备组	`SUNW.ScalDeviceGroup`
可伸缩文件系统挂载点	`SUNW.ScalMountPoint`

这些资源的标准属性和扩展属性控制故障监视器的行为。这些属性的默认值确定了故障监视器的预设行为。预设行为应适合大多数 Oracle Solaris Cluster 安装。因此，仅当需要修改此预设行为时，才应调优 Support for Oracle RAC 故障监视器。

调优 Support for Oracle RAC 故障监视器包括以下任务：

有关更多信息，请参见Oracle Solaris Cluster 4.3 数据服务规划和管理指南 中的调整 Oracle Solaris Cluster 数据服务的故障监视器。以下各小节提供了有关执行这些任务所需的 Support for Oracle RAC 故障监视器的信息：

默认情况下，故障监视器监视资源所代表设备组中的所有逻辑卷。如果只需要监视设备组中逻辑卷的子集，则设置 LogicalDeviceList 扩展属性。

设备组的状态是从监视的各个逻辑卷的状态中得出的。如果所有监视逻辑卷的运行状况良好，则设备组的运行状况良好。如果任何监视的逻辑卷出现故障，则设备组出现故障。如果发现设备组出现故障，将停止监视代表该组的资源并且该资源将被置于禁用状态。

通过查询单个逻辑卷的卷管理器，可以获得该逻辑卷的状态。如果无法通过查询确定 Solaris Volume Manager for Sun Cluster 卷的状态，故障监视器将执行文件输入/输出 (input/output, I/O) 操作来确定状态。

注 - 对于镜像磁盘，如果一个子镜像出现故障，设备组仍被视为运行状况良好。

如果重新配置用户级群集成员导致 I/O 错误，则在进行用户级群集成员监视器 (userland cluster membership monitor, UCMM) 重新配置时，将暂停故障监视器对设备组资源的监视。

要确定已挂载的文件系统是否可用，故障监视器将对文件系统上的测试文件执行 I/O 操作，如打开、读取和写入该测试文件。如果在超时期限内 I/O 操作未完成，故障监视器将报告错误。要为 I/O 操作指定超时，请设置 IOTimeout 扩展属性。

对错误的响应取决于文件系统的类型，如下所示：

如果文件系统为合格 NAS 设备上的 NFS 文件系统，则响应如下所示：
- 在当前群集节点上停止对资源的监视。
- 在当前群集节点上，资源将置于禁用状态，从而使文件系统从该节点上卸载。
如果文件系统为 StorageTek QFS 共享文件系统，则响应如下所示：
- 如果发生错误的群集节点正在托管元数据服务器资源，则元数据服务器资源会故障转移到另一个节点。
- 卸载文件系统。
如果故障转移尝试失败，则不会挂载文件系统并给出一条警告消息。

为方便对情况不明的 DBMS 超时进行故障排除，可以让故障监视器在发生探测超时创建核心文件。核心文件的内容与故障监视器进程相关。故障监视器会在根 (/) 目录下创建核心文件。要允许故障监视器创建核心文件，请使用 coreadm 命令启用 set-id 核心转储。

# coreadm -g /var/cores/%f.%n.%p.core -e global -e process \
-e global-setid -e proc-setid -e log

有关更多信息，请参见 coreadm(1M) 手册页。