本章包含关于 SunPlex 系统的最常见问题的解答。 这些问题是按主题编排的。
到底什么是高可用系统?
SunPlex 系统将高可用性 (HA) 定义为群集使应用程序保持活动状态并运行(即使发生通常会使服务器系统不可用的故障)的能力。
群集是通过什么样的进程提供高可用性的?
群集框架通过一个称为故障转移的进程来提供具有高可用性的环境。 故障转移就是一系列由群集执行的步骤,它将数据服务资源从一个故障节点转移到群集上另一个可操作节点。
故障转移与可伸缩数据服务之间有何区别?
有两种高可用性数据服务类型:故障转移数据服务和可伸缩数据服务。
故障转移数据服务每次只能在群集中的一个主节点上运行应用程序。 其他节点上可能运行其他应用程序,但每个应用程序只能运行在单一节点上。 如果主节点发生故障,正在故障节点上运行的应用程序进行故障转移,切换到另一个节点并继续运行。
可伸缩服务将一个应用程序扩展到多个节点上,从而创建一个单独的逻辑服务。 可伸缩服务可协调整个群集中供其运行的节点和服务器的数目。
每个应用程序都有一个对应的节点,其中包含该应用程序到群集的物理接口。 这个节点被称作全局接口节点 (GIN)。 群集中可以有多个 GIN。 每个 GIN 都有一个或多个逻辑接口,可伸缩服务可使用这些接口。 这些逻辑接口被称作全局接口。 每个 GIN 都具有一个全局接口,用来接收针对特定应用程序的所有请求。GIN 还会将这些请求分发给运行应用程序服务器的多个节点上。 如果 GIN 发生故障,则全局接口将故障转移到一个仍正常工作的节点。
如果某个正在运行应用程序的节点发生故障,该应用程序将在其他节点上继续运行,只是性能有所下降,直到该故障节点返回该群集为止。
可否将一个或多个群集节点作为高可用性 NFS 服务器运行,而将其他群集节点当作客户机?
不可以,不要进行回送安装。
可否将群集文件系统用于不受 Resource Group Manager 控制的应用程序?
可以。 然而,由于不受 RGM 的控制,当运行这些应用程序的节点发生故障时,需手动重新启动这些应用程序。
所有的群集文件系统都必须在 /global 目录下有一个安装点吗?
并不需要。然而,如果将群集文件系统置于同一个安装点之下(例如 /global),就可以更好地组织和管理这些文件系统。
使用群集文件系统和导出 NFS 文件系统有哪些不同?
有以下几点不同:
群集文件系统支持全局设备。 NFS 不支持对设备的远程访问。
群集文件系统有一个全局名称空间。 只需要一个安装命令。 对于 NFS,必须在每个节点上都安装文件系统。
与 NFS 相比,群集文件系统从高速缓存访问文件的情况更多。 例如,多个节点同时访问一个文件,以执行读、写、文件锁定、异步 I/O 等操作。
群集文件系统在某一服务器发生故障时支持无缝故障转移。 NFS 支持多服务器,但只有只读文件系统有可能进行故障转移。
群集文件系统是为了利用能够提供远程 DMA 和零拷贝功能的快速群集互连而建立的。
如果更改了群集文件系统中某个文件的特性(例如,使用 chmod(1M)),所做的更改会立即反映到所有的节点上。 如果使用导出的 NFS 文件系统,这可能会花费更长的时间。
文件系统 /global/.devices/<node>@<node ID> 此时显示在我的群集节点上。 可否使用此文件系统来存储要用作高度可用数据和全局数据的那些数据?
此类文件系统可存储全局设备名称空间。 它们并非为普通用途而设计的。 它们虽然是全局文件系统,但从未以全局方式对其进行访问。相反,每个节点只访问自己的全局设备名称空间。 如果某节点发生故障,其他节点无法访问这个节点的名称空间。 此类文件系统不具备高可用性。 它们不适合用于存储需全局访问或高度可用的数据。
需要镜像所有磁盘设备吗?
必须镜像被视为具有高可用性的磁盘设备,或者使用 RAID-5 硬件。 所有数据服务应该要么使用高可用磁盘设备,要么使用安装在高可用磁盘设备上的群集文件系统。 这样的配置可以容忍单个磁盘发生故障。
可否将一个卷管理器用于本地磁盘(引导磁盘),而将另一个卷管理器用于多主机磁盘?
管理本地磁盘的 Solstice DiskSuite 软件和管理多主机磁盘的 VERITAS Volume Manager 支持这种配置。 不支持其他任何组合方式。
可以获得哪些 SunPlex 数据服务?
《 Sun Cluster 3.0 12/01 发行说明》中列出了所支持的数据服务。
SunPlex 数据服务支持哪些应用程序版本?
《Sun Cluster 3.0 12/01 发行说明》中列出了所支持的应用程序版本。
我可以记下自己的数据服务吗?
可以。 有关详细信息,请参阅《Sun Cluster 3.0 12/01 Data Services Developer's Guide》和 Data Service Development Library API 所附带的《Data Service Enabling Technologies》文档。
创建网络资源时,我应该指定数字 IP 地址还是主机名?
指定网络资源的首选方法是使用 UNIX 主机名,而非使用数字 IP 地址。
创建网络资源时,使用逻辑主机名(LogicalHostname 资源)与使用共享地址(SharedAddress 资源)有何区别?
除了 Sun Cluster HA for NFS 之外,只要文档要求在 Failover 模式资源组中使用 LogicalHostname 资源,SharedAddress 资源或 LogicalHostname 资源就可以交替地使用。 使用 SharedAddress 资源会造成一些额外的开销,因为群集联网软件是为 SharedAddress 而配置的,而不是为 LogicalHostname 而配置的。
使用 SharedAddress 的优点在以下情况下就可体现出来:您要配置可伸缩和故障转移两种数据服务,并想让客户能够使用相同的主机名访问这两种服务。 在这种情况下,SharedAddress 资源与故障转移应用程序资源一起包含在一个资源组中,而可伸缩服务资源则包含在另一资源组中,并被配置为使用 SharedAddress。此时,可伸缩服务和故障转移服务就可以使用在 SharedAddress 资源中配置的同一组主机名/地址。
SunPlex 系统支持哪些公共网络适配器?
目前,SunPlex 系统支持以太网(10/100BASE-T 和 1000BASE-SX Gb)公共网络适配器。 因为新的接口可能会在将来得到支持,所以请向 Sun 销售代表咨询以获取最新信息。
在故障转移中 MAC 地址起什么作用?
当故障转移发生时,生成新的地址解析协议 (ARP) 软件包并进行广播。 这些 ARP 软件包包含新的 MAC 地址(供节点进行故障转移的那个新物理适配器的地址)和旧的 IP 地址。 当网络上的另一台机器接收这些软件包之一时,它从其 ARP 高速缓存中清除掉旧的 MAC-IP 映射并使用新的映射。
SunPlex 系统是否支持在 OpenBootTM PROM (OBP) 中为主机适配器设置 local-mac-address?=true?
不,此变量不受支持。
NAFO 在活动和备份适配器之间进行切换时会出现多长时间的延迟?
延迟可能持续几分钟。 这是因为 NAFO 切换完成后,还需要发送一个未经请求的 ARP。 但是,不保证客户机与群集之间的路由器将使用该未经请求的 ARP。 因此,只有在路由器上这个 IP 地址的 ARP 高速缓存条目超时后,它才可能使用失效的 MAC 地址。 第二个延迟的原因可能是这两个 NAFO 适配器均与以太网交换器相连接。 完成 NAFO 切换后,其中一个 NAFO 适配器为不可查明,而另一个适配器为可查明。 这时,以太网交换器必须禁用一个端口,并启用另一个端口,这可能需要一些时间。 此外,在以太网中,交换器和新启用的适配器之间将进行速度协商,这也需用一些时间。最后,在完成切换之后,NAFO 还需对新启用的适配器进行最低限度的安全检查,以验证一切均正常运行。
所有的群集成员都需要有相同的 root 口令吗?
不要求每个群集成员都使用相同的 root 口令。 但是,如果在所有节点上使用相同的 root 口令,可以简化对群集的管理。
节点的引导次序很重要吗?
多数情况下并不重要。但是,引导次序对防止失忆很重要(有关失忆的详细信息,请参阅"定额和定额设备")。 例如,如果节点 2 是定额设备的属主而且节点 1 已停机,之后您又将节点 2 停机,那么您在启动节点 1 之前必须先启动节点 2。 这可避免意外使用过时的群集配置信息启动节点。
是否需要在群集节点中镜像本地磁盘?
是的。 尽管并不要求进行此镜像,但如果镜像群集节点的磁盘,就可防止由于非镜像磁盘发生故障而导致节点停机。 镜像群集节点本地磁盘的缺点是:将耗费更多的系统管理开销。
群集成员备份要涉及哪些问题?
可以对一个群集使用多种备份方法。 有一种方法是将一个节点作为备份节点,并在该节点上连接一个磁带机/库。 然后使用群集文件系统来备份数据。 不要将此节点连接到共享磁盘上。
有关备份和恢复过程的其他信息,请参阅《Sun Cluster 3.0 12/01 系统管理指南》。
多主机存储器为什么具有高可用性?
多主机存储器之所以具有高可用性,是因为它在丢失单个磁盘的数据的情况下仍能借助镜像(或者基于硬件的 RAID-5 控制器)而幸免于难。 因为多主机存储器设备有不止一个主机连接,所以它也可以经受它所连接的单个节点的丢失。
SunPlex 系统支持什么样的群集互连?
目前,SunPlex 系统支持以太网(100BASE-T 快速以太网和 1000BASE-SXGb)群集互连。
"电缆"与传输"路径"有什么不同?
群集传输电缆配置为采用传输适配器和交换器。 电缆在组件对组件的基础上将适配器与交换器连接在一起。 群集拓扑管理器采用可用的电缆,在节点之间构建端对端的传输路径。 电缆不直接与传输路径相对应。
管理员可静态地"启用"和"禁用"电缆。电缆有"状态"(启用或禁用),但没有"状况"。如果禁用电缆,该电缆就像未进行配置一样。禁用的电缆不可用作传输路径。 不对它们进行探测,因此不可能知道它们的状况。 使用 scconf -p 可以查看电缆的状态。
传输路径由群集拓扑管理器动态建立。 传输路径的"状况"由拓扑管理器确定。 路径有"联机"或"脱机"这两种状况。传输路径的状况可以使用 scstat(1M) 进行查看。
以下面的群集为例,该群集有两个节点,通过四条电缆进行连接。
node1:adapter0 to switch1, port0 node1:adapter1 to switch2, port0 node2:adapter0 to switch1, port1 node2:adapter1 to switch2, port1 |
这四条电缆可能形成两条传输路径。
node1:adapter0 to node2:adapter0 node2:adapter1 to node2:adapter1 |
使用群集时是否需要考虑任何特殊的客户机需要或限制?
就像连接到任何其他服务器上一样,客户机系统可连接到群集。 在某些情况下,根据具体的数据服务应用程序,可能需要安装客户端软件或执行其他配置更改,以使客户机可以连接到该数据服务应用程序。 有关客户端配置要求的详细信息,请参阅《Sun Cluster 3.0 12/01 Data Services Installation and Configuration Guide》中的相关章节。
SunPlex 系统是否需要管理控制台?
是的。
管理控制台必须专用于该群集吗?它可以用于其他任务吗?
SunPlex 系统不需要专用的管理控制台,但使用它有以下优点:
通过在同一机器上给控制台和管理工具分组来启用集中化的群集管理
可能会使硬件服务供应商更快地解决问题
管理控制台需要放置在群集"附近"(比如在同一房间内)吗?
请向硬件服务供应商咨询。 供应商可能会要求控制台位于群集的近旁。 使控制台处在同一房间内没有技术上的原因。
是否只要满足了距离方面的所有要求,管理控制台就可以服务于多个群集?
可以。 可以从一个单独的管理控制台控制多个群集。 也可以在群集间共享一个单独的终端集中器。
SunPlex 系统需要终端集中器吗?
Sun Cluster 3.0 之后的所有软件发行版本均不需要终端集中器来运行。 Sun Cluster 2.2 要求一个终端集中器来进行故障防护;后续版本与之不同,不再依赖于终端集中器。
我知道大多数 SunPlex 服务器都使用终端集中器,而 E10000 却不使用。 为什么呢?
对于大多数服务器来说,终端集中器实际上是一个串行到以太网的转换器。 其控制台端口是一个串行端口。 Sun Enterprise E10000 server 没有串行控制台。 系统服务处理器 (SSP) 就是其控制台,它或者使用以太网端口,或者使用 jtag 端口。 对于 Sun Enterprise E10000 server,请始终将 SSP 用作控制台。
使用终端集中器有什么益处?
使用终端集中器提供从网络上任何地方的远程工作站对每个节点的控制台级访问,包括当节点是在 OpenBoot PROM(OBP) 时。
如果使用 Sun 不支持的终端集中器,需要了解哪些信息来确定我要使用的终端集中器是否符合要求?
Sun 所支持的终端集中器与其他控制台设备之间的主要差别在于:Sun 终端集中器有特殊的固件来防止终端集中器在控制台引导时向控制台发送中断。 注意,如果有一个控制台设备,可以发送中断或发送可能被解释为发给控制台的中断的信号,那么该控制台设备将关闭该节点。
是否可以不重新引导就释放 Sun 所支持的终端集中器上的锁定端口?
可以。 记下需要重置的端口号并执行以下操作:
telnet tc Enter Annex port name or number: cli annex: su - annex# admin admin : reset port_number admin : quit annex# hangup # |
有关配置和管理 Sun 所支持的终端集中器的详细信息,请参阅《Sun Cluster 3.0 12/01 系统管理指南》。
终端集中器本身发生故障怎么办?我必须有备用终端集中器吗?
不必。 如果终端集中器发生故障,您也可照常使用群集。 但在集中器恢复工作之前,您将无法连接到节点控制台。
使用终端集中器时,其安全性如何?
通常,终端集中器连接到系统管理员使用的一个小型网络,而不连接到用于其他客户机访问的网络。 可以通过限制对该特定网络的访问来控制安全性。