Sun Cluster 3.1 发行说明

已知问题和错误

以下已知问题和错误会影响 Sun Cluster 3.1 发行版的运行。有关最新的信息，请参阅 http://docs.sun.com 中的联机 Sun Cluster 3.1 Release Notes Supplement。

Largefile 状态不正确 (4419214)

问题摘要：/etc/mnttab 文件不显示全局安装的 VxFS 文件系统的最新 largefile 状态。

解决方法：使用 fsadm 命令来检验文件系统的 largefile 状态，而不要用 /etc/mnttab 命令。

全局 VxFS 文件系统列出的块分配情况与本地 VxFS 列出的不同 (4449437)

问题摘要：对于指定的文件大小，全局 VxFS 文件系统会比本地 VxFS 文件系统分配更多的磁盘块。

解决方法：卸载和安装文件系统可清除被指出已分配给特定文件的额外磁盘块。

节点无法引出 qfe 路径 (4526883)

问题摘要：有时候，在 qte 适配器终止的专用互连传输路径会无法联机。

解决方法：请遵照以下步骤：

使用 scstat -W 找出出错的适配器。输出将显示以该适配器作为路径端点之一且处于 faulted 或 waiting 状态中的所有传输路径。
使用 scsetup 从群集配置中删除所有连接至该适配器的电缆。
再次使用 scsetup 从群集配置中删除该适配器。
装回适配器和电缆。
检验路径是否出现。如果问题仍存在，请重复几次步骤 1–5。
检验路径是否出现。如果问题仍存在，请重新引导适配器出错的节点。在重新引导节点之前，请确保剩下的群集具有足够的定额选票，能在重新引导该节点后继续存在。

写入稀疏文件空洞时未更新文件块 (4607142)

问题摘要：在稀疏文件中进行块分配写操作后，群集节点间的文件块计数不一定一致。对于在 UFS（或 VxFS 3.4）上分层的群集文件系统，群集节点间的块不一致现象将在约 30 秒后消失。

解决方法：更新 inode（触摸等）的文件元数据操作应与 st_blocks 值同步，以便后续元数据操作可以确保一致的 st_blocks 值。

同时使用 `forcedirectio` 和 `mmap` (2) 可能会导致出现应急状况 (4629536)

问题摘要：同时使用 forcedirectio 安装选项和 mmap(2) 功能可能会导致数据损坏、系统挂起或出现应急状况。

解决方法：请注意以下限制：

请勿使用在重新安装时添加的 directio 安装选项来重新安装文件系统。
请勿通过使用 directio ioctl 在单个文件上设置 directio 安装选项。

如果需要使用 directio，请使用 directio 选项来安装整个文件系统。

卸载群集文件系统失败 (4656624)

问题摘要：即使 fuser 命令显示没有用户在任何节点上，有时也会出现卸载群集文件系统失败的情况。

解决方法：请在系统完成对基本文件系统的所有异步 I/O 操作后，重试卸载。

重新引导使群集节点进入非工作状态 (4664510)

问题摘要：在关闭其中一个 Sun StorEdge T3 Array 的电源和运行了 scshutdown 后，重新引导这两个节点会使群集进入非工作状态。

解决方法：如果丢失了一半复本，请执行以下步骤：

确保群集处在群集模式下。

强制导入磁盘集。
# metaset -s set-name -f -C take

删除已损坏的复本。

# metadb -s set-name -fd /dev/did/dsk/dNsX

释放磁盘集。
# metaset -s set-name -C release
现在即可安装和使用文件系统。但是，复本中的冗余尚未得到恢复。如果丢失了另一半复本，则无法将镜像恢复到健全状态。

在执行了上述的修复过程后，重新创建数据库。

将 Plex 与磁盘组解除关联导致出现应急状况 (4657088)

问题摘要：如果将 plex 与 Sun Cluster 中的磁盘组解除关联或拆开，可能会导致群集节点出现应急状况，并显示以下应急消息：

panic[cpu2]/thread=30002901460: BAD TRAP: type=31 rp=2a101b1d200 addr=40 mmu_fsr=0 occurred in module "vxfs" due to a NULL pointer dereference

解决方法：在将 plex 与磁盘组解除关联或拆开之前，卸载相应的文件系统。

`scvxinstall -i` 未能安装许可证密钥 (4706175)

问题摘要：scvxinstall -i 命令使用 -L 选项来接受许可证密钥。但是，系统会忽略该密钥，并且不会安装它。

解决方法：请不要使用 scvxinstall 的 -i 的形式提供许可证密钥。系统将不会安装用此形式提供的密钥。应使用交互形式或使用 -e 选项来安装许可证密钥。在继续封装根之前，请检查许可证要求，并使用 -e 选项或以交互形式来提供所需的密钥。

Sun Cluster HA–Siebel 未能监视 Siebel 组件 (4722288)

问题摘要：Sun Cluster HA-Siebel 代理不会监视单个 Siebel 组件。如果检测到 Siebel 组件出现故障，只会在系统日志中记录一则警告消息。

解决方法：使用命令 scswitch -R -h node-g resource_group 重新启动其组件处于脱机状态的 Siebel 服务器资源组。

`remove` 脚本未能撤消注册 `SUNW.gds` 资源类型 (4727699)

问题摘要：remove 脚本未能撤消注册 SUNW.gds 资源类型，并显示以下消息：

Resource type has been un-registered already.

解决方法：在使用 remove 脚本后，手动撤消注册 SUNW.gds。另一种选择是，使用 scsetup 命令或 SunPlex Manager。

Create IPMP Group 选项覆写 `hostname.int` (4731768)

问题摘要：SunPlex Manager 中的 Create IPMP group 选项只能与尚未配置的适配器一起使用。如果适配器已配置了 IP 地址，则必须手动为 IPMP 配置适配器。

解决方法：SunPlex Manager 中的 Create IPMP group 选项只能与尚未配置的适配器一起使用。如果适配器已配置了 IP 地址，则应使用 Solaris IPMP 管理工具手动配置适配器。

使用 Solaris `shutdown` 命令可能导致节点出现应急状况 (4745648)

问题摘要：如果使用 Solaris shutdown 命令或类似命令（例如，uadmin）关闭群集节点，则可能导致节点出现应急状况，并显示以下消息：

CMM: Shutdown timer expired. Halting.

解决方法：请与您的 Sun 服务代表联系以获得支持。为确保可以提供安全方式以使群集中的另一节点能接管由关闭的节点托管的服务，应急状况必不可少。

用于将定额设备添加至群集的管理命令失败 (4746088)

问题摘要：如果群集具有定额要求的最少选票，则用于将定额设备添加至群集的管理命令将失败，并会显示以下消息：

Cluster could lose quorum

解决方法：请与您的 Sun 服务代表联系以获得支持。

在专用互连上使用 `ce` 适配器时出现路径超时 (4746175)

问题摘要：如果在专用互连上使用 ce 适配器的群集中的一个或多个节点具有 4 个以上的处理器，则该群集可能会通知路径超时，并且后续节点可能会出现应急状况。

解决方法： 通过将 set ce:ce_taskq_disable=1 添加到所有群集节点中的 /etc/system 文件中并重新引导群集节点，来设置 ce 驱动程序中的 ce_taskq_disable 参数。这将确保群集在中断的上下文中能始终传送心跳（和其它数据包），从而消除路径超时和后续节点应急状况。重新引导群集节点时，应注意定额分配情况。

在公共网络发生故障时 Siebel 网关探测器可能超时 (4764204)

问题摘要：公共网络故障可能会导致 Siebel 网关探测器超时，最终导致 Siebel 网关资源处于脱机状态。如果 Siebel 网关运行其上的节点具有以 /home 开头的路径（即该路径对网络资源如 NFS 和NIS 存在相当的依赖性），则可能发生这种情况。如果没有公共网络，在尝试打开 /home 上的文件时 Siebel 网关探测器将挂起，从而导致探测器超时。

解决方法： 对于可托管 Siebel 网关的群集的所有节点，执行以下步骤：

确保 /etc/nsswitch.conf 中的 passwd、group 和 project 条目仅引用 files，而不引用 nis。

确保任何以 /home 开头的路径对 NFS 或 NIS 不存在依赖性。

您可以使用本地安装的 /home 路径，或者将 /home 安装点重命名为 /export/home 或不以 /home 开头的某些名称。

在 /etc/auto_master 文件中，将包含条目 +auto_master 的行变为注释。此外，将所有使用 auto_home 的 /home 条目变为注释。

在 etc/auto_home 中，将包含 +auto_home 的行变为注释。

刷新网关路由导致每个节点的逻辑 IP 通信中断 (4766076)

问题摘要：为在专用互连上提供高可用性的、每个节点的逻辑 IP 通信，Sun Cluster 软件依赖于群集节点上的网关路由。刷新网关路由将中断每个节点的逻辑 IP 通信。

解决方法：重新引导那些无意中刷新了路由的群集节点。要恢复网关路由，一次重新引导一个群集节点即可。每个节点的逻辑 IP 通信在恢复路由之前将保持中断。重新引导群集节点时，必须注意定额分配情况。

故障切换不成功导致出错 (4766781)

问题摘要：如果对文件系统进行的故障切换不成功，则会导致文件系统出错。

解决方法：卸载然后重新安装文件系统。

启用 TCP 选择性应答可能导致数据损坏 (4775631)

问题摘要：在群集节点上启用 TCP 选择性应答可能导致数据损坏。

解决方法：用户无需采取措施。为避免导致全局文件系统上的数据损坏，请勿在群集节点上重新启用 TCP 选择性应答。

`scinstall` 错误地显示某些数据服务不受支持 (4776411)

问题摘要：scinstall 错误地显示以下数据服务不受 Solaris 9 支持：

Sun Cluster HA for SAP
Sun Cluster HA for SAP liveCache

解决方法： Solaris 8 和 9 支持 Sun Cluster HA for SAP 和 Sun Cluster HA for SAP liveCache；忽略 scinstall 中列出的不支持功能。

如果缺少 `/dev/rmt`，`scdidadm` 将出错退出 (4783135)

问题摘要：当前实现的 scdidadm(1M) 依赖于 /dev/rmt 和 /dev/(r)dsk 的存在才能成功执行 scdiadm -r。无论是否存在实际的基本存储设备，Solaris 都会安装这两项。如果缺少 /dev/rmt，scdidadm 将退出，并显示以下错误：

Cannot walk /dev/rmt" during execution of 'scdidadm -r

解决方法：在缺少 /dev/rmt 的任意节点上，使用 mkdir 来创建一个 /dev/rmt 目录。然后，通过一个节点运行 scgdevs。

节点出现故障时的数据损坏导致群集文件系统主机死机 (4804964)

问题摘要：运行修补程序 113454-04、113073-02 和 113276-02（或这些修补程序的子集）的 Sun Cluster 3.x 系统可能会出现数据损坏。此问题仅出现在全局安装的 UFS 文件系统中。数据损坏会导致数据丢失（也即在应存在数据的地方显示零），并且丢失的数据量总是磁盘块的倍数。如果节点故障导致群集文件系统主机在群集文件系统客户机完成（或报告刚刚完成）写操作后随即死机，则随时可能出现数据丢失。出现此错误现象的时间长度很短，并且不会每次出现。

解决方法：使用 -o syncdir 安装选项强制 UFS 使用同步 UFS 日志事务。

重新引导后，节点在系统进行设备组切换操作时挂起 (4806621)

问题摘要：如果在节点连接群集时正在进行设备组切换，则连接节点和切换操作可能挂起。存取任意设备服务的所有尝试也会挂起。如果群集具有两个以上的节点，并且该群集中安装的文件系统为 VxFS 文件系统，则很可能发生此错误。

解决方法：为避免这种情况，请勿在节点正在连接群集时进行设备组切换。如果出现这种情况，则必须重新引导所有群集节点以恢复对设备组的存取。

在群集文件系统已满时，文件系统出现应急状况 (4808748)

问题摘要：在群集文件系统已满时，文件系统可能会出现应急状况，并显示以下消息之一： 1)

assertion failed: cur_data_token & PXFS_WRITE_TOKEN or PXFS_READ_TOKEN

或 2)

vp->v_pages == NULL

. 这些应急状况旨在防止在文件系统已满时损坏数据。

解决方法：要减少出现此问题的可能性，请尽可能使用具有 UFS 的群集文件系统。在使用具有 UFS 的群集文件系统时，出现这些应急状况之一的可能性极小，但风险大于使用具有 VxFS 的群集文件系统的风险。

群集节点在引导时挂起 (4809076)

问题摘要：在某项设备服务切换请求时，如果在重新引导节点的同时使用了 scswitch -z -D <device-group> -h <node>，并且在该设备服务上配置了全局文件系统，则全局文件系统可能会不可用，并且涉及任何设备服务或全局文件系统的后续配置更改也会挂起。此外，后续群集节点连接也可能挂起。

解决方法：要想恢复，需重新引导所有群集节点。

使用 `scconf -rq` 删除定额设备导致群集出现应急状况 (4811232)

问题摘要：如果执行 scconf -rq 命令以在脆弱的配置中删除定额设备，则群集的所有节点将出现应急状况，并显示以下消息

CMM lost operational quorum

解决方法：要从群集中删除定额设备，请首先检查 scstat -q 的输出。如果列出的定额设备在 Present 列中包含多张选票，则应先使用 scconf -cq globaldev=QD,maintstate 将该设备置于维护模式下。在该命令完成并且该定额设备在 scstat -q 中显示为目前有 0 张选票后，便可使用 scconf -rq 删除该设备。

使用 `O_EXCL` 标志时镜像卷出现故障 (4820273)

问题摘要：如果正在使用 Solstice DiskSuite/Solaris Volume Manager，并且打开了具有 O_EXCL 标志的镜像卷，则包含此卷的设备组的故障切换操作将会失败。在故障切换后第一次存取该卷时，此错误将导致新设备组主机出现应急状况。

解决方法：在使用 Solstice DiskSuite/Solaris Volume Manager 时，不要打开具有 O_EXCL 标志的镜像卷。

重新引导节点后，群集在故障切换期间挂起 (4823195)

问题摘要：如果在重新引导或连接节点的同时发出设备服务故障切换请求，并且在设备服务上配置了群集文件系统，则群集文件系统可能会变得不可用，并且涉及任何设备服务或群集文件系统的后续配置更改也会挂起。此外，后续群集节点连接也可能挂起。