关于可靠性、可用性和可维护性

Sun Blade 8000 Series有很多以刀片为中心、面向整个机箱的功能,利用这些功能可以提高可靠性、可用性和可维护性 (reliability, availability and serviceability, RAS)。这些 RAS 特性反映系统设计的各个方面,可以影响系统连续运行的能力,还可以影响最大程度地缩短维修系统所需时间的能力。可靠性是指系统无故障连续运行且保持数据完整性的能力。可用性是指系统在发生故障后恢复工作状态且将影响降至最低的能力。可维护性与组件发生故障后使系统进入可维修状态所用的时间相关。总而言之,Sun Blade 8000 Series的 RAS 特性几乎可以反映系统的连续运行能力。

本主题包括以下各节:

可热插拔组件

Sun Blade 8000 Series硬件支持对下列组件的热插拔操作:安装了机箱的 Sun Blade 服务器模块(刀片)、Sun Blade 8000 Network Express 模块、PCI Express ExpressModule、机箱监视模块、风扇模块、电源模块以及硬盘驱动器。使用适当的软件命令,您可以在系统运行时安装或移除这些组件。热插拔技术不中断服务即可更换这些组件,从而可显著提高系统的可维护性和可用性。有关更多信息,请参见关于可热插拔组件

冗余组件

Sun Blade 8000 Series提供冗余组件,这样系统便可以在相关组件之一发生故障时继续运行。这种功能分离机制可以最大程度地减少组件问题和维修所带来的影响。冗余组件包括:

  • 服务器模块(刀片),取决于系统配置

  • 电源模块

  • PCI Express ExpressModule(仅用于 Sun Blade 8000 机箱)

  • Sun Blade 8000 Network Express 模块

  • 机箱监视模块

  • 系统风扇

环境监视

Sun Blade 8000 Series配有环境监视子系统,此子系统旨在防止组件出现以下情况:

  • 温度过高或过低

  • 系统通风不足

  • 电源故障

  • 硬件故障

温度传感器遍布于整个系统中,可用来监视机箱和内部组件的环境温度。利用系统的软件和硬件,可确保机箱内的温度不会超出预定的安全操作范围。如果传感器检测到温度低于或高于已设置的阈值,则监视软件子系统会使系统前部和后部的琥珀色“需要维修操作”指示灯亮起。如果这种温度状况依然存在并达到临界阈值,则系统可能会启动正常的关机操作。

所有的错误消息和警告消息将被发送至机箱监视模块 (Chassis Monitoring Module, CMM),并记录到 Sun ILOM 日志文件中。此外,某些客户可更换单元 (customer-replaceable unit, CRU)(例如电源、风扇和 DIMM)配有可指示 CRU 故障的 LED 指示灯。

纠错与奇偶校验

Sun Blade 服务器模块(刀片)上的 AMD 双核处理器可以对内部高速缓存提供奇偶校验保护,对数据提供错误检查和纠正 (error-checking and correcting, ECC) 保护。系统可以检测以下类型的错误,并将其记录到系统事件日志 (system event log, SEL) 中:

  • 可纠正和不可纠正的内存 ECC 错误

  • SP 可纠正的内存 ECC 错误

  • 可纠正和不可纠正的 CPU 内部错误

  • 机箱共享基础结构内的故障,包括风扇和电源故障

高级 ECC 可以纠正半字节边界上的最多 4 位错误,只要它们位于同一 DRAM 中。如果 DRAM 发生故障,DIMM 可以继续运行。

RAS 特性汇总

特性

描述

电源

支持热插拔;集成到机箱中,令刀片更加可靠

  • 对于 Sun Blade 8000 机箱-N+N 配置

  • 对于 Sun Blade 8000 P 机箱-N+1 配置

通风和冷却

风扇集成到机箱中,令风扇、刀片和电源更加可靠

对于 Sun Blade 8000 机箱:

  • 3 个可热插拔的前部风扇模块,用来冷却 PCI Express ExpressModule

  • 6 个电源集成风扇,用来冷却电源

  • 9 个可热插拔的后部风扇模块,用来冷却刀片

对于 Sun Blade 8000 P 机箱:

  • 4 个电源集成风扇,用来冷却电源

  • 9 个可热插拔的后部风扇模块,用来冷却刀片

服务器模块(刀片)

支持热插拔;可以在不影响电缆连接或 I/O 配置的情况下进行维修

内存

受 ECC 保护的内存和 CPU

I/O 模块

可热插拔的 PCI Express ExpressModule(仅用于 Sun Blade 8000 机箱)和 Network Express 模块

服务器模块(刀片)磁盘驱动器

支持热插拔;可在 RAID-0(条带化)和 RAID-1(镜像)配置中进行配置

机箱监视模块

支持热插拔;在安装了两个 CMM 的情况下可执行活动/备用操作

服务处理器

与内部管理网络的冗余连接

Sun ILOM 和系统管理

按刀片进行智能管理以及对整个机箱进行智能管理的功能;当操作系统脱机或关闭系统电源时,Sun ILOM 可以继续运行并且可对其进行访问;提供对刀片的远程管理以及远程软盘和 CD-ROM 仿真

硬件升级

无需任何工具即可访问用户可升级模块

软件升级

基于网络的引导和基于网络的操作系统以及 BIOS 升级

打开电源并重新启动

自动重新启动服务器;基于网络的引导功能

错误诊断

错误诊断包括:

  • 环境监视

  • 故障预测分析

  • 系统状态指示灯快速响应亮起

  • 维修 LED 指示灯

  • 系统错误日志记录,包括记录到系统事件日志 (system event log, SEL) 中