Oracle® VM Server for SPARC 3.3 管理指南

退出打印视图

更新时间: 2015 年 10 月
 
 

在检测到有故障的资源或缺少的资源后恢复域

如果 SPARC T5 服务器、SPARC T7 系列服务器、SPARC M5 服务器、SPARC M6 服务器、SPARC M7 系列服务器或 Fujitsu M10 服务器在打开电源时检测到有故障的资源或缺少资源,则 Logical Domains Manager 会尝试使用剩余可用资源恢复已配置的域。进行恢复时,系统(或 SPARC M5、SPARC M6 和 SPARC M7 系列服务器上的物理域)将视为处于恢复模式。默认情况下,恢复模式处于启用状态。请参见控制恢复模式

    打开电源时,如果在以下任意情况下无法引导最后选择的电源打开配置,则系统固件将恢复为出厂默认配置:

  • 所用配置中每个 PCIe 交换机内的 I/O 拓扑与最后选择的电源打开配置中的 I/O 拓扑不匹配

  • 最后选择的电源打开配置中的 CPU 资源或内存资源不再位于系统中

启用恢复模式后,Logical Domains Manager 能够从最后选择的电源打开配置中恢复所有活动和绑定域。所得到的运行中配置称为降级配置。降级配置将保存至 SP 并会始终用作活动配置,直到保存新的 SP 配置或物理域进行关开机循环为止。


注 - 由于降级配置已经成为运行中配置,因此在恢复后,该物理域无需关开机循环即可激活该配置。

如果物理域进行关开机循环,则系统固件会首先尝试引导最后一个原始电源打开配置。这样,如果已替换缺少的硬件或有故障的硬件,则系统便可引导原始正常配置。如果无法引导最后选择的电源打开配置,则该固件会接着尝试引导相关联的降级配置(如果有)。如果降级配置无法引导或不存在,则会引导出厂默认配置并调用恢复模式。

    恢复操作将按以下顺序进行:

  • 控制域。Logical Domains Manager 通过恢复 CPU、内存、I/O 配置以及虚拟 I/O 服务来恢复控制域。

    如果所有可恢复的域所需的 CPU 或内存量超过剩余可用量,则会根据其他域的大小相应减少 CPU 或核心数或内存量。例如,在一个包含四个域的系统中,如果每个域分配有 25% 的 CPU 和内存,则所得到的降级配置仍会向每个域分配 25% 的 CPU 和内存。如果 primary 域最初最多包含两个核心(16 个虚拟 CPU)和 8 GB 的内存,则控制域的大小不会减小。

    分配给其他域的根联合体和 PCIe 设备将从控制域中被删除。属于控制域的根联合体上的虚拟功能将重新创建。分配给控制域的任何缺失根联合体、PCIe 设备、物理功能或虚拟功能都会标记为已清除。然后,Logical Domains Manager 将重新引导控制域,以使更改生效。

  • 根域。重新引导控制域后,Logical Domains Manager 将恢复根域。如果需要,CPU 和内存量将根据其他可恢复的域相应地减少。如果根联合体在物理层面不再位于系统中,则会标记为已清除。恢复操作期间,此根联合体不会配置到域中。只要分配给根域的根联合体至少有一个可用,此根域就会进行恢复。如果任何根联合体均不可用,则此根域不会进行恢复。Logical Domains Manager 会引导根域,并在属于根域的物理功能上重新创建虚拟功能。它还会删除根域外借的 PCIe 插槽。所有缺少的 PCIe 插槽、物理功能和虚拟功能都会标记为已清除。如有可能,此域提供的所有虚拟 I/O 服务将重新创建。

  • I/O 域。Logical Domains Manager 可恢复所有 I/O 域。系统中缺少的所有 PCIe 插槽和虚拟功能都会标记为已清除。如果所需的 I/O 设备均不存在,则不会恢复此域,此时,其 CPU 和内存资源可供其他域使用。如有可能,此域提供的所有虚拟 I/O 服务将重新创建。

  • 来宾域。只有当至少恢复了为来宾域提供服务的一个服务域之后,此来宾域才会进行恢复。如果此来宾域无法进行恢复,则其 CPU 和内存资源可供其他来宾域使用。

如有可能,系统会向一个域分配与原始配置相同的 CPU 数和内存量。如果此 CPU 数或内存量不可用,则会相应地减少这些资源,以使用其余可用资源。


注 - 系统处于恢复模式时,只能执行 ldm list-* 命令。在恢复操作完成之前,所有其他 ldm 命令都将禁用。

Logical Domains Manager 只会尝试恢复绑定域和活动域。未绑定的任何域的现有资源配置将按原样复制到新配置中。

恢复操作期间,可用资源可能会比先前引导的配置要少。因此,Logical Domains Manager 可能只能恢复一部分先前配置的域。此外,恢复后的域可能并不包含原始配置中的所有资源。例如,恢复后的绑定域所具有的 I/O 资源可能比先前的配置要少。如果某个域的 I/O 设备不再存在或其父服务域无法恢复,则可能无法恢复该域。

恢复模式会将其步骤记录到 Logical Domains Manager SMF 日志 /var/svc/log/ldoms-ldmd:default.log 中。当 Logical Domains Manager 启动恢复、重新引导控制域以及恢复完成时,会在系统控制台中写入消息。


Caution

注意  - 恢复后的域并不保证能够完全正常运行。该域可能不包含运行 OS 实例或应用程序所需的资源。例如,恢复后的域可能只有网络资源,而没有磁盘资源。或者,恢复后的域可能缺少运行应用程序所需的文件系统。在域中使用多路径 I/O 可减少因缺少 I/O 资源而产生的影响。


恢复模式硬件和软件要求

  • 硬件要求-SPARC T5 服务器、SPARC T7 系列服务器、SPARC M5 服务器、SPARC M6 服务器、SPARC M7 系列服务器和 Fujitsu M10 服务器支持恢复模式功能。

  • 固件要求-SPARC T5 服务器、SPARC M5 服务器和 SPARC M6 服务器至少需要 9.1.0.a 版的系统固件。SPARC T7 系列服务器和 SPARC M7 系列服务器至少需要 9.4.3 版的系统固件。Fujitsu M10 服务器至少需要 XCP2230 版的系统固件。

  • 软件要求-外借 PCIe 插槽的非 primary 根域必须至少运行 Oracle Solaris 10 1/13 OS 或 Oracle Solaris 11.2 OS。

降级配置

每个物理域只能将一个降级配置保存至 SP。如果已经有一个降级配置,则该配置会被新创建的降级配置所替换。

您不能直接与降级配置进行交互。必要时,系统固件会以透明方式引导下一个电源打开配置的降级版本。通过此透明引导,系统便可在关开机循环后缺少的资源重新出现时引导原始配置。如果活动配置为降级配置,则该配置会在 ldm list-spconfig 输出中标记为 [degraded]

如果活动配置为降级配置,则自动保存功能将被禁用。如果在降级配置处于活动状态时将新配置保存至 SP,则新配置将为正常非降级配置。


注 - 如果先前缺少的资源在后续关开机循环时重新出现,则不会对正常配置的内容产生任何影响。但是,如果此后选择了触发恢复模式的配置,则 SP 会引导原始非降级配置,因为其所有硬件均可用。

控制恢复模式

ldmd/recovery_mode SMF 属性用于控制恢复模式行为。默认情况下,恢复模式处于启用状态。

如果 ldmd/recovery_mode 属性不存在或设置为 auto,就会启用恢复模式。

如果将 ldmd/recovery_mode 属性设置为 never,则 Logical Domains Manager 会退出恢复模式而不执行任何操作,此时,物理域将运行出厂默认配置。


注 - 如果在系统固件请求恢复模式时该模式尚未启用,请在发出该请求后执行以下命令来启用恢复模式:
primary# svccfg -s ldmd setprop ldmd/recovery_mode = astring: auto
primary# svcadm refresh ldmd
primary# svcadm restart ldmd

在此情况下,只有当未对系统进行任何更改(即,系统仍采用出厂默认配置)时,恢复模式才会立即启动。


除了启用恢复模式外,还可以在恢复期间为根域引导指定超时值。默认情况下,ldmd/recovery_mode_boot_timeout 属性值为 30 分钟。有效值的起始值为 5 分钟。