신뢰성, 가용성 및 서비스 제공 능력 정보

Sun Blade 8000 Series에는 신뢰성, 가용성 및 서비스 제공 능력(RAS)을 높이는 블레이드 중심적이거나 전체 섀시에 적용되는 여러 기능이 있습니다. 이러한 RAS 기능은 지속적으로 작동하는 기능과 시스템 서비스에 필요한 시간을 최소화하는 기능에 영향을 미치는 시스템 설계 측면입니다. 신뢰성이란 시스템이 장애 없이 지속적으로 작동하고 데이터 무결성을 유지하는 기능을 말합니다. 가용성이란 시스템이 장애 후에 최소한의 영향만을 받고 작동 가능한 상태로 복구되는 기능을 말합니다. 서비스 제공 능력은 구성 요소 장애 후에 시스템을 서비스로 복구하는 데 걸리는 시간과 관련됩니다. 또한 Sun Blade 8000 Series의 RAS 기능은 거의 연속적인 작업에 제공하기 위한 것입니다.

이 항목은 다음 절로 구성되어 있습니다.

핫 플러그 가능 구성 요소

Sun Blade 8000 Series 하드웨어는 섀시 장착 Sun Blade 서버 모듈(블레이드), Sun Blade 8000 Network Express Module, PCI ExpressModule, 섀시 모니터링 모듈, 팬 모듈, 전원 공급 장치 모듈 및 하드 디스크 드라이브의 핫 플러깅을 지원합니다. 적절한 소프트웨어 명령을 사용하면 시스템이 실행 중인 동안에도 이러한 구성 요소를 설치하거나 제거할 수 있습니다. 핫 플러그 기술은 서비스 중단 없이도 이러한 구성 요소를 교체할 수 있도록 하여 시스템의 서비스 제공 능력과 가용성을 대폭 높여줍니다. 자세한 내용은 핫 플러그 가능 구성 요소 정보를 참조하십시오.

중복 구성 요소

Sun Blade 8000 Series는 연관된 구성 요소 중 하나가 고장난 경우에도 시스템이 계속 작동할 수 있도록 중복 구성 요소를 제공합니다. 이러한 기능 분리를 통해 구성 요소 문제 및 서비스가 미치는 영향을 최소화할 수 있습니다. 중복 구성 요소는 다음과 같습니다.

  • 시스템 구성에 따른 서버 모듈(블레이드)

  • 전원 공급 장치 모듈

  • PCI ExpressModule(EM)(Sun Blade 8000 섀시에만 해당)

  • Sun Blade 8000 Network Express Module

  • 섀시 모니터링 모듈

  • 시스템 팬

환경 모니터링

Sun Blade 8000 Series는 구성 요소를 다음으로부터 보호하기 위한 환경 모니터링 하위 시스템이 특징입니다.

  • 극한 온도

  • 시스템 전반에 걸쳐 적절한 공기 순환 부족

  • 전원 공급 장치 장애

  • 하드웨어 고장

시스템 전반에 걸쳐 위치한 온도 센서가 섀시와 내부 구성 요소의 주변 온도를 모니터합니다. 소프트웨어 및 하드웨어는 섀시 내의 온도가 미리 결정된 안전 작동 범위를 초과하지 않도록 합니다. 센서에 의해 관찰된 온도가 설정된 임계값 아래로 떨어지거나 위로 올라가면 모니터링 소프트웨어 하위 시스템이 시스템의 전면 및 후면에서 주황색 서비스 필요 표시기에 불을 켭니다. 이 온도 조건이 지속되고 위험 임계값에 도달하면 시스템은 점진적 시스템 종료를 시작할 수도 있습니다.

모든 오류와 경고 메시지가 섀시 모니터링 모듈(CMM)에 전송되고 Sun ILOM 로그 파일에 기록됩니다. 또한 전원 공급 장치, 팬 및 DIMM과 같은 자가 교체 가능한 장치(CRU)에는 CRU 내부 장애를 표시하는 LED가 있습니다.

오류 보정 및 패리티

Sun Blade 서버 모듈(블레이드)의 AMD 이중 코어 프로세서는 내부 캐시 메모리에 대한 패리티 보호 및 데이터의 오류 보정 코드(ECC) 보호를 제공합니다. 이 시스템은 다음과 같은 오류 유형을 감지하여 시스템 이벤트 로그(SEL)에 기록할 수 있습니다.

  • 수정 가능 및 수정 불가능 메모리 ECC 오류

  • SP 수정 가능 메모리 ECC 오류

  • 수정 가능 및 수정 불가능 CPU 내부 오류

  • 팬 및 전원 공급 장치 고장을 포함한 섀시 공유 인프라 고장

고급 ECC는 동일한 DRAM에 있는 한 니블 경계에서 최대 4개의 오류 비트를 수정합니다. DRAM이 고장나면 DIMM이 계속 작동합니다.

RAS 기능 요약

기능

설명

전원 공급 장치

핫 플러그 가능, 섀시에 통합되어 있어서 블레이드의 신뢰성이 향상됨

  • Sun Blade 8000 섀시의 경우 - N+N 구성

  • Sun Blade 8000 P 섀시의 경우 - N+1 구성

공기 순환 및 냉각

팬이 섀시에 통합되어 있어서 팬, 블레이드 및 전원 공급 장치의 신뢰성이 향상됨

Sun Blade 8000 섀시의 경우:

  • 3개의 핫 플러그 가능한 전면 팬 모듈이 PCI ExpressModule(EM)을 냉각함

  • 전원 공급 장치의 필수 구성 요소인 6개의 팬이 전원 공급 장치를 냉각함

  • 9개의 핫 플러그 가능한 후면 팬 모듈이 블레이드를 냉각함

Sun Blade 8000 P 섀시의 경우:

  • 전원 공급 장치의 필수 구성 요소인 4개의 팬이 전원 공급 장치를 냉각함

  • 9개의 핫 플러그 가능한 후면 팬 모듈이 블레이드를 냉각함

서버 모듈(블레이드)

핫 플러그 가능, 케이블 연결이나 I/O 구성에 영향을 미치지 않고 서비스할 수 있음

메모리

ECC 보호된 메모리 및 CPU

I/O 모듈

핫 플러그 가능한 PCI ExpressModule(Sun Blade 8000 섀시에만 해당) 및 Network Express Module

서버 모듈(블레이드) 디스크 드라이브

핫 플러그 가능, RAID-0(스트라이핑) 및 RAID-1(미러링) 구성으로 구성 가능

섀시 모니터링 모듈

핫 플러그 가능, 2개의 CMM이 설치된 상태에서 활성/대기 작업

서비스 프로세서

내부 관리 네트워크에 대한 중복 연결

Sun ILOM 및 시스템 관리

지능형 블레이드별 및 전체 섀시 관리 기능, Sun ILOM은 운영 체제가 오프라인되거나 시스템 전원이 꺼져도 계속 작동하여 액세스할 수 있음. 블레이드, 원격 플로피 및 CD-ROM 에뮬레이션의 원격 관리 제공

하드웨어 업그레이드

사용자 업그레이드 가능 모듈에 액세스하는 데 도구가 필요하지 않음

소프트웨어 업그레이드

네트워크 기반 부트, 네트워크 기반 운영 체제 및 BIOS 업그레이드

전원 공급 및 다시 시작

자동 서버 다시 시작, 네트워크 기반 부트 기능

문제 해결

문제 해결에는 다음과 같은 기능이 포함됩니다.

  • 환경 모니터링

  • 장애 예측 분석

  • 시스템 상태 표시기의 빠른 응답 조명

  • 서비스 LED 표시기

  • 시스템 이벤트 로그(SEL)에 대한 기록을 포함한 시스템 오류 기록