Oracle® Solaris Cluster 数据服务规划和管理指南

退出打印视图

更新时间: 2014 年 9 月
 
 

监视由 HAStoragePlus 管理的实体

HAStoragePlus 资源类型管理的所有实体都受监视。SUNWHAStoragePlus 资源类型还提供了故障监视器,用于监视由 HASP 资源管理的实体(包括全局设备、文件系统和 ZFS 存储池)的运行状况。故障监视器定期运行故障探测。如果其中某个实体变得不可用,则该资源将会重新启动或者故障转移到其他节点。如果监视多个实体,故障监视器会同时探测所有这些实体。确保在启用监视之前完成了对受管理实体的所有配置更改。


注 -  第 9 版的 HAStoragePlus 资源故障监视器通过读写文件系统对此资源管理的设备和文件系统进行探测。如果读取操作被 I/O 栈中的任何软件阻止,而且要求 HAStoragePlus 资源联机,则用户必须禁用故障监视器。例如,必须对管理 Availability Suite 远程复制卷的 HAStoragePlus 资源取消监视,因为 Oralce Availability Suite 在 NEED SYNC 状态下会阻塞读取任何位图卷或数据卷的操作。管理 Availability Suite 卷的 HAStoragePlus 资源必须始终处于联机状态。

有关为受管理实体启用监视的属性的更多信息,请参见 SUNW.HAStoragePlus(5) 手册页。

有关启用和禁用受管理实体监视的说明,请参见如何启用资源故障监视器

根据受管理实体的类型,故障监视器会通过读取或写入目标来探测目标。如果监视多个实体,故障监视器会同时探测所有这些实体。

表 2-2  故障监视器检验的内容
受监视实体
故障监视器检验的内容
全局设备
  • 设备组联机或已降级。

  • 设备组可读取。

原始设备组
  • 设备组联机或已降级。

  • 对于设备组的每个设备,其路径 (/dev/global/rdsk/device) 可用。

  • 每个设备的分区可读取。

Solaris Volume Manager 设备组
  • 设备组联机或已降级。

  • 元集的路径 (/dev/md/metaset) 有效。

  • Solaris Volume Manager 报告的设备组的主设备状态:

    • 未镜像的元设备未处于以下任何错误状态:"Needs Maintenance"(需要维护)、"Last Erred"(最近出错)或 "Unavailable"(不可用)。

    • 某个镜像至少有一个子镜像未处于错误状态。部分(而不是全部)子镜像出错被视为部分错误。

  • 未镜像的元设备可从主设备读取。

  • 镜像的部分子镜像可读取。部分(而不是全部)子镜像出错被视为部分错误。

文件系统(包括 UFS、QFS 和 PxFS)
  • 文件系统已挂载。

  • 文件系统下的每个设备都可读取。

  • 如果 IOOption 属性设置为 ReadOnly,则文件系统可读取。

  • 如果 IOOption 属性设置为 ReadWrite,则文件系统可写入。

  • 如果文件系统以只读取属性挂载,但 IOOption 属性设置为 ReadWrite,则故障监视器将发出警告,然后尝试读取文件系统(而不是写入文件系统)。

  • 要避免在文件系统达到其配额时 HAStoragePlus 资源脱机,可将 IOOption 设置为 ReadOnly。ReadOnly 选项可确保故障监视器不会尝试写入文件系统。

ZFS 存储池
  • 池状态为 "OK"(正常)或 "Degraded"(已降级)。

  • 每个非传统文件系统已挂载。

  • 如果 IOOption 属性设置为 ReadOnly,则每个非传统文件系统可读取。

  • 如果 IOOption 属性设置为 ReadWrite,则每个非传统文件系统可写入。

  • 如果非传统文件系统以只读取属性挂载,但 IOOption 属性设置为 ReadWrite,则故障监视器将发出警告,然后尝试读取文件系统(而不是写入文件系统)。

  • 要避免在文件系统达到其配额时 HAStoragePlus 资源脱机,可将 IOOption 设置为 ReadOnly。ReadOnly 选项可确保故障监视器不会尝试写入文件系统。

注 -  当与顶级 ZFS 存储设备的所有连接都丢失时,有关 ZFS 存储池或关联的文件系统的查询将挂起。要防止故障监视器挂起,必须将 ZFS 存储池的 fail_mode 属性设置为 panic

有关启用资源故障监视器的说明,请参见如何启用资源故障监视器

对受管理实体监视进行故障排除

如果未在受管理实体上启用监视,可执行以下故障排除步骤:

  1. 确保 hastorageplus_probe 进程正在运行。

  2. 在控制台上查找错误消息。

  3. 启用在 syslog 文件中记录调试消息。

    # mkdir -p /var/cluster/rgm/rt/SUNW.HAStoragePlus:9
    # echo 9 > /var/cluster/rgm/rt/SUNW.HAStoragePlus:9/loglevel

    此外,还应检查 /etc/syslog.conf 文件以确保 daemon.debug 设备级的消息已记录到 /var/adm/messages 文件。如果尚不存在 daemon.debug 条目,则将其添加到 /var/adm/messages 操作。