Sun Cluster 系统管理指南(适用于 Solaris OS)

添加和删除群集节点

下表列出了向现有群集中添加节点时所要执行的任务。要正确地完成此过程,必须按如下所示的顺序执行这些任务。

表 7–2 任务对应关系:向现有群集中添加群集节点

任务 

有关说明,请转到 

在节点上安装主机适配器并检验现有的群集互连是否支持该新节点 

《Sun Cluster 3.0-3.1 Hardware Administration Manual for Solaris OS》

添加共享存储器 

《Sun Cluster 3.0-3.1 Hardware Administration Manual for Solaris OS》

将节点添加到授权的节点列表中 

   - 使用 scsetup

如何将节点添加到授权的节点列表中

在新的群集节点上安装并配置软件 

   — — 安装 Solaris 操作系统和 Sun Cluster 软件 

   — — 配置节点成为群集的一部分 

《Sun Cluster 软件安装指南(适用于 Solaris OS)》中的第 2  章 “安装和配置 Sun Cluster 软件”

下表列出了从现有群集中删除节点时所要执行的任务。要正确地完成此过程,必须按如下所示的顺序执行这些任务。


注意 – 注意 –

如果群集正在运行 OPS 配置,则不要使用该过程。此时,如果删除 OPS 配置中的节点,可能会使节点在重新引导时进入应急状态。


表 7–3 任务对应关系:删除群集节点 (5/02)

任务 

有关说明,请转到 

将所有资源组和磁盘设备组移出要删除的节点。 

   - 使用 scswitch(1M)

# scswitch -S -h from-node

从所有资源组中删除节点。 

   - 使用 scrgadm(1M)

《Sun Cluster Data Services Planning and Administration Guide for Solaris OS》

从所有磁盘设备组中删除节点。 

   - 使用 scconf(1M)metaset(1M)scsetup(1M)

如何从磁盘设备组 (Solstice DiskSuite/Solaris Volume Manager) 删除节点

SPARC: 如何从磁盘设备组 (VERITAS Volume Manager) 删除节点

SPARC: 如何从原始磁盘设备组删除节点

注意:如果已将所需辅助节点的数目配置为 2 或更大的数目,必须将其减少为 1。

删除所有已完全连接的法定设备。 

   - 使用 scsetup

注意:如果要从双节点群集中删除节点,请不要删除法定设备。

 

如何删除法定设备

 

注意,尽管在下一步中删除存储设备之前,您必须先删除法定设备,但是可以在之后立即重新添加该法定设备。 

从节点中删除所有已完全连接的存储设备。  

  - 使用 devfsadm(1M)scdidadm(1M)

注意:如果要从双节点群集中删除节点,请不要删除法定设备。 如何在节点连接多于两个的群集中删除阵列与单个节点之间的连接

仅将法定设备添加回要保留在群集里的节点上。 

  - 使用 scconf -a -q globaldev=d[n],node= node1,node=node2

scconf(1M)

使要删除的节点进入维护状态。 

   - 使用 scswitch(1M)shutdown(1M)scconf(1M)

如何使节点进入维护状态

删除与要删除节点的所有逻辑传输连接(传输电缆和适配器)。 

   - 使用 scsetup

如何删除群集传输电缆、传输适配器和传输结点

删除与要删除节点连接的所有法定设备。 

   - 使用 scsetupscconf(1M)

如何从群集中删除最后一个法定设备

从群集软件配置中删除节点。 

   - 使用 scconf(1M)

如何从群集软件配置中删除节点

Procedure如何将节点添加到授权的节点列表中

在将机器添加到现有群集之前,确保该节点上已正确安装和配置了所有必需的硬件,包括与专用群集互连建立了正确的物理连接。

有关硬件安装的信息,请参阅《Sun Cluster 3.0-3.1 Hardware Administration Manual for Solaris OS》或服务器附带的硬件文档。

该过程通过将机器的节点名称添加到授权的群集节点列表中,使该机器将其自身安装到群集中。

要完成此过程,必须成为一个当前群集成员上的超级用户。

步骤
  1. 请确保您已正确完成添加和删除群集节点任务图中列出的所有先决硬件安装任务和配置任务。

  2. 键入 scsetup 命令。


    # scsetup
    

    显示“Main Menu”。

  3. 要访问“New Nodes Menu”,请在“Main Menu”中键入 7

  4. 要修改授权的列表,请在“New Nodes Menu” 中键入 3,指定要加入群集的机器的名称。

    按照提示将该节点的名称添加到群集中。系统将询问您所要添加的节点的名称。

  5. 检验是否已成功执行该任务。

    如果 scsetup 实用程序准确无误地完成了该任务,它就会显示消息“Command completed successfully”。

  6. 退出 scsetup 实用程序。

  7. 在此新群集节点上安装并配置软件。

    使用 scinstall 或 JumpStartTM 可以完成新节点的安装和配置,如《Sun Cluster 软件安装指南(适用于 Solaris OS)》所述。

  8. 要防止将任何新的机器添加到群集中,请在“New Nodes Menu”中键入 1

    按照 scsetup 的提示操作。该选项通知群集忽略通过公共网络来自任何新机器的将其自身添加到群集中的所有请求。


示例 7–11 将群集节点添加到授权的节点列表中

以下示例说明了将一个名为 phys-schost-3 的节点添加到现有群集的授权节点列表中的过程。


[成为超级用户并执行 scsetup 实用程序。]
# scsetup
Select New nodes>Specify the name of a machine which may add itself.
Answer the questions when prompted.
Verify that the scconf command completed successfully.
 
scconf -a -T node=phys-schost-3
 
    Command completed successfully.
Select Prevent any new machines from being added to the cluster.
Quit the scsetup New Nodes Menu and Main Menu.
[安装群集软件。]

另请参见

有关添加群集节点的任务的完整列表,请参见表 7–2“任务图:添加群集节点”。

要将节点添加到现有资源组,请参见《Sun Cluster Data Services Planning and Administration Guide for Solaris OS》

Procedure如何从群集软件配置中删除节点

执行此过程可以从群集中删除节点。

步骤
  1. 请确保您已正确完成添加和删除群集节点中的“删除群集节点”任务图中列出的所有先决任务。


    注 –

    确保已从所有资源组、磁盘设备组和法定设备配置中删除了该节点,并使其进入维护状态,然后再继续该过程。


  2. 成为群集中其他节点(即不是要删除的节点)的超级用户。

  3. 从群集中删除该节点。


    # scconf -r -h node=node-name
    
  4. 使用 scstat(1M) 检验节点是否已删除。


     # scstat -n
    
  5. 是否要从删除的节点中卸载 Sun Cluster 软件?


示例 7–12 从群集软件配置中删除节点

此示例展示了从群集中删除节点 phys-schost-2 的过程。所有命令均是从该群集的另一节点 (phys-schost-1) 上运行的。


[从群集中删除节点:]
phys-schost-1# scconf -r -h node=phys-schost-2
[检验是否已删除节点:]
phys-schost-1# scstat -n
-- Cluster Nodes --
                    Node name           Status
                    ---------           ------
  Cluster node:     phys-schost-1       Online

另请参见

要从删除的节点中卸载 Sun Cluster 软件,请参见如何从群集节点中卸载 Sun Cluster 软件

有关硬件操作过程,请参见《Sun Cluster 3.0-3.1 Hardware Administration Manual for Solaris OS》

有关删除群集节点的任务的完整列表,请参见表 7–3

要向现有的群集添加节点,请参见如何将节点添加到授权的节点列表中

Procedure如何在节点连接多于两个的群集中删除阵列与单个节点之间的连接

按照此过程可以在连接了三个或四个节点的群集中从单个群集节点断开存储阵列。

步骤
  1. 备份与要删除的存储阵列相关联的所有数据库表、数据服务和卷。

  2. 确定要断开连接的节点上正在运行的资源组和设备组。


    # scstat
    
  3. 如果需要,将所有资源组和设备组移出要断开连接的节点。


    注意 ((仅适用于 SPARC)) – 注意 ((仅适用于 SPARC)) –

    如果群集运行的是 Oracle Parallel Server/Real Application Clusters 软件, 请在把组移出节点之前先关闭在节点上运行的 Oracle Parallel Server/Real Application Clusters 数据库实例。有关说明,请参阅《 Oracle Database Administration Guide》。



    # scswitch -S -h from-node
    
  4. 使设备组处于维护状态。

    有关默许 Veritas 共享磁盘组具有 I/O 活动的过程,请参见 VxVM 文档。

    有关使设备组处于维护状态的过程,请参见第 7 章,管理群集

  5. 从设备组中删除节点。

    • 如果您使用的是 VxVM 或原始磁盘,请使用 scconf(1M) 命令删除设备组。

    • 如果使用 Solstice DiskSuite,应使用 metaset 命令删除设备组。

  6. 如果群集正在运行 HAStorage 或 HAStoragePlus,应将该节点从资源组的节点列表中删除。


    # scrgadm -a -g resource-group -h nodelist 
    

    有关更改资源组的节点列表的更多信息,请参见《Sun Cluster Data Services Planning and Administration Guide for Solaris OS》


    注 –

    在执行 scrgadm 时,资源类型、资源组和资源属性的名称不区分大小写。


  7. 如果要删除的存储阵列是节点上连接的最后一个存储阵列,应断开节点与该存储阵列连接的集线器或交换机之间的光缆(否则,应跳过该步骤)。

  8. 是否要从要断开的节点中删除主机适配器?

    • 如果是,应关闭节点并断开节点的电源。

    • 如果不是,则跳到步骤 11

  9. 从节点上拆下主机适配器。

    有关删除主机适配器的过程,请参阅节点附带的文档。

  10. 打开节点的电源,但不引导该节点。

  11. 将节点引导到非群集模式。

    • SPARC:


      ok boot -x
      
    • x86:


                            <<< Current Boot Parameters >>>
      Boot path: /pci@0,0/pci8086,2545@3/pci8086,1460@1d/pci8086,341a@7,1/
      sd@0,0:a
      Boot args:
      
      Type    b [file-name] [boot-flags] <ENTER>  to boot with options
      or      i <ENTER>                           to enter boot interpreter
      or      <ENTER>                             to boot with defaults
      
                        <<< timeout in 5 seconds >>>
      Select (b)oot or (i)nterpreter: b -x
      

    注意 ((仅适用于 SPARC)) – 注意 ((仅适用于 SPARC)) –

    在进行下一步删除 Oracle Parallel Server/Real Application Clusters 软件之前,必须使节点处于非群集模式下,否则该节点会进入应急状态并可能会影响数据的可用性。


  12. SPARC:如果已安装 Oracle Parallel Server/Real Application Clusters 软件,请从断开连接的节点中删除 Oracle Parallel Server/Real Application Clusters 软件包。


    # pkgrm SUNWscucm 
    

    注意 ((仅适用于 SPARC)) – 注意 ((仅适用于 SPARC)) –

    如果不从断开的节点中删除 Oracle Parallel Server/Real Application Clusters 软件,当节点重新进入群集时,将进入应急状态并可能会影响数据的可用性。


  13. 将节点引导到群集模式。

    • SPARC:


      ok boot
      
    • x86:


                            <<< Current Boot Parameters >>>
      Boot path: /pci@0,0/pci8086,2545@3/pci8086,1460@1d/pci8086,341a@7,1/
      sd@0,0:a
      Boot args:
      
      Type    b [file-name] [boot-flags] <ENTER>  to boot with options
      or      i <ENTER>                           to enter boot interpreter
      or      <ENTER>                             to boot with defaults
      
                        <<< timeout in 5 seconds >>>
      Select (b)oot or (i)nterpreter: b
      
  14. 在节点上通过更新 /devices 和 /dev 条目更新设备名称空间。


    # devfsadm -C 
    # scdidadm -C
    
  15. 使设备组重新联机。

    有关使 VERITAS 共享磁盘组联机的过程,请参阅 VERITAS Volume Manager 的文档。

    有关使设备组联机的过程,请参阅使设备组进入维护状态的过程。

Procedure如何从群集节点中卸载 Sun Cluster 软件

从完整建立的群集配置断开节点连接之前,请遵照此过程从该群集节点中卸载 Sun Cluster 软件。您可以使用此过程从群集中的其余最后一个节点中卸载软件。


注 –

如果要从尚未加入群集的节点或仍处于安装模式的节点中卸载 Sun Cluster 软件,请不要执行此过程。而应转到《Sun Cluster 软件安装指南(适用于 Solaris OS)》中的“如何卸载 Sun Cluster 软件以纠正安装问题”。


步骤
  1. 确保您已正确完成任务表中有关删除群集节点的所有必须预先完成的任务。

    请参见添加和删除群集节点


    注 –

    在继续此过程前,请确保您已从所有资源组、设备组和法定设备配置中删除了该节点,并将其置于维护状态,然后从群集中删除该节点。


  2. 成为您要卸载的节点之外某个活动群集成员的超级用户。

  3. 从活动的群集成员中将要卸载的节点添加到群集的节点认证列表中。


    # scconf -a -T node=nodename
    
    -a

    添加

    -T

    指定验证选项

    node=nodename

    指定要添加到验证列表中的节点的名称

    或者,您可以使用 scsetup(1M) 实用程序。有关过程,请参见如何将节点添加到授权的节点列表中

  4. 成为要卸载的节点的超级用户。

  5. 将节点重新引导为非群集模式。

    • SPARC:


      # shutdown -g0 -y -i0ok boot -x
      
    • x86:


      # shutdown -g0 -y -i0
      ...
                            <<< Current Boot Parameters >>>
      Boot path: /pci@0,0/pci8086,2545@3/pci8086,1460@1d/pci8086,341a@7,1/
      sd@0,0:a
      Boot args:
      
      Type    b [file-name] [boot-flags] <ENTER>  to boot with options
      or      i <ENTER>                           to enter boot interpreter
      or      <ENTER>                             to boot with defaults
      
                        <<< timeout in 5 seconds >>>
      Select (b)oot or (i)nterpreter: b -x
      
  6. /etc/vfstab 文件中,删除 /global/.devices 全局安装之外所有全局安装的文件系统条目。

  7. 从该节点中卸载 Sun Cluster 软件。

    从与任何 Sun Cluster 软件包均没有关联的目录中运行以下命令。


    # cd /
    # scinstall -r
    

    有关更多信息,请参见 scinstall(1M) 手册页。如果 scinstall 返回错误消息,请参见未删除的群集文件系统条目

  8. 从其他群集设备中断开传输电缆和传输结点(如果有)的连接。

    1. 如果卸载的节点与使用并行 SCSI 接口的存储设备相连接,请在断开传输电缆的连接后将 SCSI 端接器安装到存储设备的开路 SCSI 连接器。

      如果卸载的节点与使用光纤通道接口的存储设备连接,则不需要端接器。

    2. 有关断开连接的过程,请按照随主机适配器和服务器提供的文档执行操作。

Procedure如何纠正错误消息

要纠正前面各节中的错误消息,请执行此步骤。

步骤
  1. 尝试使该节点重新加入群集。


    # boot
    
  2. 该节点是否成功加入群集?

    • 如果不是,则继续执行步骤 3

    • 如果是,请执行以下步骤从磁盘设备组中删除该节点:

    1. 如果该节点成功加入群集,请从其余的磁盘设备组中删除该节点。

      请执行如何从所有磁盘设备组删除节点中的过程。

    2. 从所有磁盘设备组删除节点后,请返回如何从群集节点中卸载 Sun Cluster 软件并重复相应的过程。

  3. 如果该节点未能重新加入群集,请将该节点的 /etc/cluster/ccr 文件重命名为您所选的任何其他名称,例如 ccr.old


    # mv /etc/cluster/ccr /etc/cluster/ccr.old
    
  4. 请返回如何从群集节点中卸载 Sun Cluster 软件并重复相应的过程。

有关节点卸载的疑难解答

本节介绍了运行 scinstall -r 命令时可能收到的错误消息以及相应的纠正措施。

未删除的群集文件系统条目

以下错误消息表示被删除的节点在 vfstab 文件中仍引用了群集文件系统:


Verifying that no unexpected global mounts remain in /etc/vfstab ... failed
scinstall:  global-mount1 is still configured as a global mount.
scinstall:  global-mount1 is still configured as a global mount.
scinstall:  /global/dg1 is still configured as a global mount.
 
scinstall:  It is not safe to uninstall with these outstanding errors.
scinstall:  Refer to the documentation for complete uninstall instructions.
scinstall:  Uninstall failed.

要纠正此错误,请返回如何从群集节点中卸载 Sun Cluster 软件并重复相应的过程。在重新运行 scinstall -r 命令前,请确保已成功完成此过程中的步骤 6

未从磁盘设备组的列表中删除

以下错误消息表示被删除的节点仍位于某个磁盘设备组的潜在主节点列表中:


Verifying that no device services still reference this node ... failed
scinstall:  This node is still configured to host device service "service".
scinstall:  This node is still configured to host device service "service2".
scinstall:  This node is still configured to host device service "service3".
scinstall:  This node is still configured to host device service "dg1".
 
scinstall:  It is not safe to uninstall with these outstanding errors.          
scinstall:  Refer to the documentation for complete uninstall instructions.
scinstall:  Uninstall failed.