错误号 20731016:使用 ldm remove-io 命令从 I/O 域删除最后一个 SR-IOV 虚拟功能时,该命令可能会报告超时,且无法删除此虚拟功能。
解决方法:如果发生此问题,请执行以下步骤:
确认在系统中安装了 system/management/hwmgmtd 软件包。
# pkg info system/management/hwmgmtd
禁用 svc:/system/sp/management 服务。
# svcadm disable -st svc:/system/sp/management
重试 ldm remove-io 命令。
成功删除 SR-IOV 虚拟功能后,启用 svc:/system/sp/management 服务。
# svcadm enable svc:/system/sp/management
错误号 18323562:重新引导时,Oracle Solaris 10 根域可能会出现紧急情况。Oracle Solaris 10 根域至少有两个 PCIe 总线,来自不同总线中物理功能的虚拟功能将分配给来宾域。即,如果并行接收来宾域上不同总线的事件,则根域可能会出现紧急情况。此紧急情况很少出现。
panic[cpu3]/thread=2a100365c80: BAD TRAP: type=31 rp=2a1003652b0 addr=2000 mmu_fsr=0 occurred in module "pcie" due to an illegal access to a user address
解决方法:无。
错误号 18323370:如果销毁虚拟功能,然后运行 prtdiag 命令,Oracle Solaris 10 根域可能会出现紧急情况。
尝试访问刚销毁的虚拟功能设备节点时,prtdiag 命令可能会导致出现紧急情况。
panic[cpu31]/thread=2a10140bc80: Fatal error has occured in: PCIe fabric.(0x1)(0x43)
prtdiag 命令会输出如下所示的消息:
DEV_GET failed -1 Invalid argument 4.0.2 offset 0xff /SYS/PCI-EM4 PCIE fibre-channel-pciex10df,e200 -- /pci@600/pci@1/pci@0/pci@4/fibre-channel@0,2
出现这些消息的原因是,prtdiag 命令尝试访问已销毁的虚拟功能设备节点。这些节点仍出现在 picl 树中,但在实际设备树中并不存在。
解决方法:要避免出现紧急情况,请在 Oracle Solaris 10 根域上将以下行添加到 /etc/system 文件。
set px:pxtool_cfg_delay_usec=25000
此外,刷新 picl 守护进程以避免出现 Invalid argument 消息:
# svcadm refresh picl
错误号 18168525 和 18156291:您必须将光纤通道 PCIe 卡连接到支持 NPIV 并且与 PCIe 卡兼容的光纤通道交换机。如果您未使用此配置,则使用 format 命令或者创建或销毁虚拟功能可能会导致物理功能被 FMA 标记为发生故障并被禁用。如果发生此故障,则消息类似于以下内容:
SUNW-MSG-ID: PCIEX-8000-0A, TYPE: Fault, VER: 1, SEVERITY: Critical EVENT-TIME: event-time PLATFORM: platform-type SOURCE: eft, REV: 1.16 EVENT-ID: event-ID DESC: A problem was detected for a PCIEX device. AUTO_RESPONSE: One or more device instances may be disabled IMPACT: Loss of services provided by the device instances associated with this fault REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/PCIEX-8000-0A for the latest service procedures and policies regarding this diagnosis.
解决方法:如果卡已被 FMA 标记为发生故障,请首先检查其连接并确保该卡未直接连接到存储。然后,执行与您的配置匹配的步骤:
卡直接连接到存储-通过将光纤通道 PCIe 卡连接到支持 NPIV 并且与 PCIe 卡兼容的光纤通道交换机来正确配置光纤通道 PCIe 卡。然后,运行 fmadm repair 命令来覆盖 FMA 诊断。
卡未直接连接到存储-更换该卡。
错误号 18030411:如果频繁并连续地快速停止又启动 I/O 域,则 primary 域可能会挂起。此行为的后果是 InfiniBand HCA 停止响应并导致 primary 域挂起。
如果遇到此问题,可能会在控制台上或者在 messages 文件中看到类似以下内容的消息:
VF3: PF has failed Mcxnex: HW2SW_MPT command @ failed: 0000ffff Hermon: MAD_IFC (port 01) command failed: 0000ffff WARNING: mcxnex0: Device Error: HCR Timeout waiting for command go bit
恢复:为避免此问题,不要对 I/O 域执行不必要的停止又启动操作。而应对 I/O 域执行有序的关闭操作。
解决方法:如果 primary 域由于此原因而挂起,请以下列方法之一来复位系统:
对域执行重新引导
primary# ldm stop -r domain-name
在 SP 中执行复位
-> reset /SYS
错误号 17623156:创建光纤通道虚拟功能时,您可能会看到以下警告:
WARNING: kmem_cache_destroy: 'px0_emlxs3_3_cache2' (3000383e030) not empty WARNING: vmem_destroy('px0_emlxs3_3_vmem_top'): leaked 262144 identifiers
这些消息不影响系统的正常运行,您可以将其忽略。
解决方法:无。
错误号 16397888:在添加或销毁虚拟功能后,可能需要等待五分钟后才能再次尝试添加或销毁基于光纤通道物理功能的其他虚拟功能。
如果在五分钟内尝试执行这些操作,则操作将失败并显示类似于以下内容的消息:
The attempt to offline the pf /SYS/PCI-EM4/IOVFC.PF0 in domain primary failed. Error message from svc:/ldoms/agents in domain primary: CMD_OFFLINE Failed. ERROR: devices or resources are busy.
解决方法:等待五分钟,然后再尝试对光纤通道物理功能执行其他 IOV 操作。
要在单个命令中执行所有必需的配置选项,请使用 ldm create-vf -n max 或 ldm destroy-vf -n max 命令。
在 Fujitsu M10 服务器上,可以将 PCIe 端点设备和 SR-IOV 虚拟功能从特定的 PCIe 总线分配到最多 24 个域。对于受支持的 SPARC T 系列和 SPARC M 系列平台,最大数目为 15 个域。
![]() | 注意 - 在 Oracle VM Server for SPARC 3.1 环境中部署 InfiniBand SR-IOV 之前,请先阅读本节。 |
本节介绍了 Oracle VM Server for SPARC 3.1 的初始发行版中有关 InfiniBand SR-IOV 功能的已知问题。
重新引导分配有 InfiniBand 虚拟功能的 Oracle Solaris 11.1.10.5.0 I/O 域偶尔会使相应的根域出现紧急情况。请参见错误号 17336355。
分配有 InfiniBand 虚拟功能的 Oracle Solaris 10 1/13 I/O 域在重新引导过程中有时候会出现紧急情况。I/O 域运行 Oracle Solaris 10 1/13 OS 加上必需的修补程序。请参见错误号 17382933、17361763、17329218 和 17336035。
错误号 16979993:尝试对 InfiniBand 设备使用动态 SR-IOV 操作导致混淆和不合适的错误消息。
InfiniBand 设备不支持动态 SR-IOV。
解决方法:通过执行以下过程之一管理 InfiniBand 虚拟功能: