Sun Cluster Geographic Edition 系统管理指南

附录 D Sun Cluster Geographic Edition 软件故障排除

本附录介绍了对 Sun Cluster Geographic Edition 软件应用程序进行故障排除的具体过程。

本附录包括以下几节:

监视和日志记录故障排除

本节介绍了有关设置日志记录的信息,以及在监视 Sun Cluster Geographic Edition 软件的过程中可能遇到的问题。

对记录程序文件进行配置以避免过多的跟踪

根据您要记录的 cmass 消息对记录程序文件 /etc/cacao/instances/default/private/logger.properties 进行配置,如下所示:

已启用的跟踪将会复制到 /var/cacao/instances/default/logs/cacao.0 文件中。

对日志文件进行配置以避免接收来自 gcr 代理的详细消息

如果您不希望在日志文件中包含来自 gcr 代理的过于详细的消息,请在记录程序文件 /etc/cacao/instances/default/private/logger.properties 中包含类似于以下内容的条目:


com.sun.cluster.level=WARNING
com.sun.cluster.agent.geocontrol.gcr.level=INFO
com.sun.cluster.agent.geocontrol.level=ALL

该属性文件会在您每次重新安装 SUNWscmasa 软件包时进行更新。

对日志文件进行配置以避免 jmx 远程跟踪

要避免 jmx 远程跟踪,请在 logger.properties 文件开头添加以下几行:


javax.management.remote.level=OFF
com.sun.jmx.remote.level=OFF
java.io.level=OFF

迁移问题故障排除

本节介绍了使用 Sun Cluster Geographic Edition 软件迁移服务时可能遇到的问题。

与存储设备的通信中断时解决应用程序资源组的故障转移问题

当某个节点(应用程序在其上处于联机状态)与存储设备之间发生通信中断时,某些应用程序资源组可能无法正常地向可访问该存储设备的节点进行故障转移。结果,应用程序资源组的状态可能是 ERROR_STOP_FAILED

解决方案或解决方法

当卷或其底层设备发生 I/O 错误时,Sun Cluster 基础结构不会启动切换操作。由于未发生切换和故障转移,因此该节点上的设备服务仍保持联机,尽管存储设备已呈现不可访问。

如果发生此问题,请使用标准的 Sun Cluster 操作过程在正确的节点上重新启动应用程序资源组。请参阅《Sun Cluster Data Services Planning and Administration Guide for Solaris OS》中的“Clearing the STOP_FAILED Error Flag on Resources”,以了解如何从 ERROR_STOP_FAILED 状态恢复以及如何重新启动应用程序。

Sun Cluster Geographic Edition 软件可检测出应用程序资源组中的状态变化,并在 geoadm status 命令的输出结果中显示这些状态。有关使用该命令的更多信息,请参见监视 Sun Cluster Geographic Edition 软件的运行时状态

群集启动或重新启动操作的故障排除

本节介绍了如何解决启动和重新启动 Sun Cluster Geographic Edition 软件时可能遇到的问题。

验证保护组处于错误状态

当群集重新引导后,保护组配置可能会处于错误状态。此问题可能是由于重新引导后启动保护组时,common agent container 进程在某一群集节点上不可用造成的。

解决方案或解决方法

要修复配置错误,请对处于错误状态的保护组使用 geopg validate 命令。

重新启动 Common Agent Container

Sun Cluster 软件仅在安装 Sun Cluster 软件的过程中启用 common agent container。因此,如果您在安装后的任意时刻禁用了 common agent container,它会一直保持禁用状态。

解决方案或解决方法

要在节点重新引导后启用 common agent container,请使用 /usr/lib/cacao/bin/cacaoadm enable 命令。