以下资源的故障监视器提供了对 Support for Oracle RAC 数据服务的故障监视:
可伸缩设备组资源
可伸缩文件系统挂载点资源
|
这些资源的标准属性和扩展属性控制故障监视器的行为。这些属性的默认值确定了故障监视器的预设行为。预设行为应适合大多数 Oracle Solaris Cluster 安装。因此,仅当需要修改此预设行为时,才应调优 Support for Oracle RAC 故障监视器。
调优 Support for Oracle RAC 故障监视器包括以下任务:
设置故障监视器探测间隔
设置故障监视器探测的超时
定义永久性故障的条件
指定资源的故障转移行为
有关更多信息,请参见Oracle Solaris Cluster 4.3 数据服务规划和管理指南 中的 调整 Oracle Solaris Cluster 数据服务的故障监视器。以下各小节提供了有关执行这些任务所需的 Support for Oracle RAC 故障监视器的信息:
默认情况下,故障监视器监视资源所代表设备组中的所有逻辑卷。如果只需要监视设备组中逻辑卷的子集,则设置 LogicalDeviceList 扩展属性。
设备组的状态是从监视的各个逻辑卷的状态中得出的。如果所有监视逻辑卷的运行状况良好,则设备组的运行状况良好。如果任何监视的逻辑卷出现故障,则设备组出现故障。如果发现设备组出现故障,将停止监视代表该组的资源并且该资源将被置于禁用状态。
通过查询单个逻辑卷的卷管理器,可以获得该逻辑卷的状态。如果无法通过查询确定 Solaris Volume Manager for Sun Cluster 卷的状态,故障监视器将执行文件输入/输出 (input/output, I/O) 操作来确定状态。
如果重新配置用户级群集成员导致 I/O 错误,则在进行用户级群集成员监视器 (userland cluster membership monitor, UCMM) 重新配置时,将暂停故障监视器对设备组资源的监视。
要确定已挂载的文件系统是否可用,故障监视器将对文件系统上的测试文件执行 I/O 操作,如打开、读取和写入该测试文件。如果在超时期限内 I/O 操作未完成,故障监视器将报告错误。要为 I/O 操作指定超时,请设置 IOTimeout 扩展属性。
对错误的响应取决于文件系统的类型,如下所示:
如果文件系统为合格 NAS 设备上的 NFS 文件系统,则响应如下所示:
在当前群集节点上停止对资源的监视。
在当前群集节点上,资源将置于禁用状态,从而使文件系统从该节点上卸载。
如果文件系统为 StorageTek QFS 共享文件系统,则响应如下所示:
如果发生错误的群集节点正在托管元数据服务器资源,则元数据服务器资源会故障转移到另一个节点。
卸载文件系统。
如果故障转移尝试失败,则不会挂载文件系统并给出一条警告消息。
为方便对情况不明的 DBMS 超时进行故障排除,可以让故障监视器在发生探测超时创建核心文件。核心文件的内容与故障监视器进程相关。故障监视器会在根 (/) 目录下创建核心文件。要允许故障监视器创建核心文件,请使用 coreadm 命令启用 set-id 核心转储。
# coreadm -g /var/cores/%f.%n.%p.core -e global -e process \ -e global-setid -e proc-setid -e log
有关更多信息,请参见 coreadm(1M) 手册页。