1


DR 简介

本书前言部分列出的 Sun Fire 高端和中型系统可划分成若干个域,其中每个域在功能上都是一个独立计算机,并且运行自已的操作系统(请参阅动态系统域)。利用动态重新配置 (DR) 特性,您可以在不中止域运行的情况下启用和禁用域的系统板、I/O 板和某些组件。

部分 DR 运行于域的 Solaris 软件上,且通过 cfgadm(1M) 命令来进行管理。另一部分则运行于系统控制器 (SC) 上。

本章包含以下主题:


Sun Fire 高端和中型系统上的 DR

中型系统上的系统板有时被称为 CPU/内存板。它们与高端系统上的 CPU/内存板相同。本文档只使用术语系统板。高端平台和中型平台的系统板是可互换的。

高端系统 I/O 板和中型系统 I/O 部件在某些方面有些类似,但在其他方面是不同的。除非需要澄清,否则本文档对这两者均使用术语 I/O 板

高端系统 I/O 板上的 I/O 总线支持 PCI 卡或 hsPCI+ 卡以及 MaxCPU 板。MaxCPU 板应插入插槽 1,它包含两个 CPU,但不带内存。

中型系统 I/O 板支持 PCI 卡或 CompactPCI 卡。

除非需要澄清,否则本文档在提及 hsPCI+ 卡和 CompactPCI 卡时均使用一般化的术语“PCI 卡”。


DR 的用途

可以用 DR 来完成的任务包括:

例如,您可以使用 DR 分离有故障的系统板,然后利用系统的热插拔特性将其从物理上拆除。在插入维修过的板或替换板后,则可以使用 DR 将该板配置到域中。如果您使用 DR 特性来添加或删除系统板或组件,则 DR 往往会将该板或组件标识为一个已知的配置状况。有关系统板和组件配置状况的详细信息,请参阅状况和情况

您也可以将系统板或 I/O 板指定到其他域中,以实现负载均衡或为某些特定的任务提供额外的容量。

常见 DR 操作概述

使用 DR 软件,您能够执行以下任务:

实现上述任务时所执行的 DR 操作的四个主要类型分别是:连接、配置、取消配置和断开连接。


表 1-1 主要 DR 操作

操作

说明

连接

为插有板的插槽提供电源,并启动系统对板温度的监视。

配置

使操作系统为板指定功能角色,并为板及其连接设备加载所需的设备驱动程序。配置操作包含连接操作。

取消配置

将板从逻辑上与操作系统进行分离,并使相关的设备驱动程序脱机。虽然环境监视仍在进行,但系统已无法继续使用板上的设备。

断开连接

切断插有板的插槽的电源,停止对该板的监视。断开连接操作包含取消配置操作。


 

注 - 如果系统板正在使用中,您必须首先停止其使用并断开该板与域的连接,然后才能切断其电源。在插入新的或升级后的系统板并通电后,应连接该板的连接点(请参阅连接点)并对其进行配置,以供操作系统使用。有关 DR 操作的详细信息,请参阅常见的 DR 板操作




DR 的用法

您可以通过以下任意一种方式来启动 DR 操作:

在中型系统上运行 DR 时,您可能需要在运行 DR 操作之前或运行期间执行一个或多个中型系统 SC 命令,比如 showplatformshowboards。本文档将在合适的地方对它们的用法进行简要介绍;有关这方面的详细信息,请参阅《Sun Fire Midrange Systems Controller Command Reference Manual》



caution icon

注意 - 中型系统的 SC 命令 addboard deleteboard 尽管与高端系统的 SMS 命令同名,但它们不是同一种 DR 命令。因此,要安全可靠地使用这些中型系统 SC 命令,您必须首先断开该域的电源。有关这些命令以及中型系统的其他 SC 命令的详细信息,请参阅《Sun Fire Midrange Systems Controller Command Reference Manual》




热插拔硬件

可热插拔的设备是可以逻辑连接至正在运行的系统或从中断开连接的设备。(可热交换的设备是可以物理连接至正在运行的系统或从中断开连接的设备。)可热插拔的板和模块上有特殊的连接器,在数据针脚与插槽接触之前可为板或模块提供电源。您可以在系统运行时插入或拆除带有热插拔连接器的板和设备,也即是说,它们是可热交换的。

系统板和 I/O 板是热插拔设备。但有些设备(如外围电源)不是热插拔模块,因此不能在系统正在运行时断开连接。


自动 DR (ADR)

自动 DR (ADR) 使您的应用程序无需用户交互,即可执行 DR 操作。ADR 使用了增强的 DR 框架,它含有重新配置协调管理器 (RCM) 和系统事件工具 sysevent。RCM 允许与应用程序有关的可装入模块注册回调。回调可以在运行 DR 操作之前执行预备任务,在运行 DR 操作期间执行错误恢复操作,以及在运行 DR 操作之后执行清理操作。系统事件框架使应用程序可以注册系统事件并接收这些事件的通知。

ADR 与 RCM 和 sysevent 的配合使用,可在取消配置应用程序之前使其自动交出资源,并且在将应用程序配置到域之后使其自动捕获新的资源。

应用程序可从域中执行 cfgadm(1M) 命令,这称为本地 ADR。此外,对于高端系统,应用程序还可以从 SC 上执行 SMS DR 命令,这称为全局 ADR。在高端系统上,您可以使用全局 ADR 将系统板从一个域移至另一个域,将热交换后的板配置到域中,以及从域中删除系统板。


即需即用 (COD)

即需即用 (COD) 选项可为您在 Sun Fire 系统中安装的 COD 系统板提供附加的 CPU 资源。Sun Fire COD 系统允许混合安装标准系统板和 COD 系统板。对于系统上的每个域,至少要求一个 CPU 是个活动的。

您可以采用与移动标准系统板相同的方式,使用 DR 将 COD 板移入或移出域。但是您只有在购买 COD 板上的 CPU 使用权限 (TRU) 许可证之后,才可以使用它们。每个 COD RTU 许可证均授权您接收一个 COD RTU 许可证密钥,通过它可以启用单一系统 COD 板上指定数量的 CPU。

无论您何时使用 DR 将 COD 板配置到域中,都应确保目标域中有足够可用的 RTU 许可证,以便启用 COD 板上所有活动的 CPU。如果当您试图添加 COD 板时目标域中没有足够可用的 RTU 许可证,则系统会显示域中无法启用的每个 CPU 的状态消息。

有关高端系统 COD 选项的详细信息,请参阅《System Management Services (SMS) Administrator Guide》。


Solaris 软件上的 DR

本文档介绍最新版本的 DR,并假设它运行于最新版的 Solaris 8、Solaris 9 和 Solaris 10 操作系统中。请务必检查 http://sunsolve.sun.com 上的 SunSolveSM 数据库,以获得最新的修补程序。



注 - 对于所有的 Sun 软件,Sun Microsystems 均建议您在您的系统上运行其最新版本,以获得最高的性能和利用最新的增强功能。



以下两节介绍在特定 Solaris 版本上使用 DR 时应特别注意的事项。

在运行 Solaris 9 OS 或 Solaris 10 OS 的域中使用 DR

Solaris 10 3/05 HW1 OS 是 Solaris 10 软件第一个支持 UltraSPARC® IV+ 系统板的版本;而 Solaris 9 9/05 OS 则是 Solaris 9 软件第一个提供此支持的版本。您可以将 UltraSPARC IV+ 板添加到配置有旧板的域中,但是不能使用 DR 将旧板添加到全部使用 UltraSPARC IV+ 板引导的域中。(如果您先关闭该域,则可以将旧板添加到全部使用 UltraSPARC IV+ 板引导的域中。)

有关使用 UltraSPARC IV+ 板的 Sun Fire 中型系统对域的限制的其他信息,请参见《Sun Fire 中型系统平台管理手册》(用于固件版本 5.19)。

在运行 Solaris 8 OS 的域中使用 DR

Solaris 8 2/02 OS 是 Solaris 8 软件第一个支持 I/O 板 DR 的版本。此外,Sun Fire 高端系统上的 System Management Services (SMS) 1.3 是 SMS 第一个完全支持 DR 的版本。对于运行 Solaris 8 2/02 OS 以后版本的域,您可以通过以下方式启用 DR 的全部功能:在该域中安装修补程序和新的内核更新,并在高端服务器的系统控制器 (SC) 上安装 SMS 软件的最新版本。Solaris 8 OS 不支持 UltraSPARC IV+ 板。