Oracle® VM Server for SPARC 3.3 管理指南

退出打印视图

更新时间: 2015 年 10 月
 
 

使用 FMA 将有故障的资源列入黑名单或取消其配置

FMA 会在检测到有故障的资源后联系 Logical Domains Manager。然后,Logical Domains Manager 会尝试在所有正在运行的域中停止使用该资源。为确保将来无法将有故障的资源分配给域,FMA 会将该资源添加到黑名单。

Logical Domains Manager 仅支持将 CPU 和内存资源列入黑名单,不支持将 I/O 资源列入黑名单。

如果有故障的资源未在使用中,则 Logical Domains Manager 会将该资源从 ldm list-devices 输出中显示的可用资源列表中删除。此时,该资源会在内部标记为“已列入黑名单”,这样,将来就无法将其分配给域了。

如果有故障的资源正在使用中,则 Logical Domains Manager 会尝试清除该资源。为避免正在运行的域发生服务中断,Logical Domains Manager 会先尝试使用 CPU 或内存动态重新配置来清除有故障的资源。如果某个核心可用作目标,则 Logical Domains Manager 会重新映射有故障的核心。如果此“实时清除”成功,则有故障的资源会在内部标记为已列入黑名单,并且不会显示在 ldm list-devices 输出中,这样,该资源将来就不会分配给域了。

如果实时清除失败,则 Logical Domains Manager 会在内部将故障资源标记为 "evacuation pending"。资源在 ldm list-devices 输出中显示为正常,因为资源在运行中的域上仍在使用中,直到受影响的来宾域重新引导或停止。

受影响的来宾域停止或重新引导后,Logical Domains Manager 会尝试清除有故障的资源并在内部将其标记为已列入黑名单,这样将来就不会分配该资源了。此类设备不会显示在 ldm 输出中。待清除完成后,Logical Domains Manager 会尝试启动来宾域。但是,如果因没有足够的可用资源而无法启动来宾域,则来宾域会标记为“已降级”,并记录以下警告消息,以便用户能够进行干预来执行手动恢复。

primary# ldm ls
NAME             STATE      FLAGS   CONS    VCPU  MEMORY   UTIL  NORM  UPTIME
primary          active     -n-cv-  UART    368   2079488M 0.1%  0.0%  16h 57m
gd0              bound      -d----  5000    8

warning: Could not restart domain gd0 after completing pending evacuation.
The domain has been marked degraded and should be examined to see
if manual recovery is possible.

系统进行关开机循环后,FMA 会对仍有故障的资源重复清除请求,而 Logical Domains Manager 会通过清除这些有故障的资源并在内部将其标记为已列入黑名单来处理这些请求。

在提供 FMA 黑名单支持之前,如果来宾域因资源故障而发生紧急情况,则可能会陷入紧急情况-重新引导的死循环。通过在重新引导来宾域后使用资源清除和黑名单功能,可以避免这一紧急情况-重新引导循环,并防止将来尝试使用有故障的资源。