Zuverlässigkeit, Verfügbarkeit und Servicefähigkeit

Das Sun Blade 8000 Series bietet zahlreiche Funktionen, die Zuverlässigkeit, Verfügbarkeit und Servicefähigkeit (RAS, Reliability, Availability, Serviceability) von Chassis und Blades erhöhen. Zuverlässigkeit, Verfügbarkeit und Servicefähigkeit stellen Designaspekte eines Systems dar, die sich auf dessen Fähigkeit eines unterbrechungsfreien Betriebs und die Reduzierung des Wartungsaufwandes auswirken. Zuverlässigkeit bezieht sich auf die Eigenschaft eines Systems, ohne Störungen unterbrechungsfrei betrieben werden zu können und die Datenintegrität zu gewährleisten. Als Verfügbarkeit wird die Fähigkeit eines Systems bezeichnet, nach einem Ausfall einen betriebsfähigen Zustand wiederzuerlangen, und dies bei einer minimalen Beeinträchtigung. Die Servicefähigkeit bezieht sich auf die zur Wiederherstellung eines Systems nach einem Ausfall erforderliche Wartungszeit. Gemeinsam sorgen RAS-Leistungsmerkmale für einen nahezu kontinuierlichen Sun Blade 8000 Series-Betrieb.

Dieses Thema enthält die folgenden Abschnitte:

Hot-Plug-fähige Komponenten

Die Sun Blade 8000 Series-Hardware unterstützt Hot-Plug-Funktionen in Bezug auf die folgenden im Chassis integrierten Komponenten: Sun Blade-Servermodule (Blades), Sun Blade 8000-Netzwerk-Express-Module, PCI-Express ExpressModules, Chassis-Überwachungsmodul, Lüftermodule, Netzteilmodule und Festplattenlaufwerke. Durch Eingabe von Softwarebefehlen können Sie diese Komponenten bei laufendem System installieren oder entfernen. Die Hot-Plug-Technologie erhöht die Wartungsfähigkeit und Verfügbarkeit des Systems beträchtlich, da Sie diese Komponenten ohne Unterbrechung des Betriebs austauschen können. Weitere Informationen finden Sie unter Hot-Plug-fähige Komponenten.

Redundante Komponenten

Sun Blade 8000 Series ist mit redundanten Komponenten ausgestattet, die dafür sorgen, dass der Betrieb des Systems bei Ausfall einer Komponente fortgesetzt werden kann. Die Trennung der Funktionen verringert die Auswirkungen von Störungen und Wartungsarbeiten. Zu den redundanten Komponenten gehören:

  • Servermodule (Blades) abhängig von der Systemkonfiguration

  • Netzteilmodule

  • PCI Express ExpressModules (nur Sun Blade 8000-Chassis)

  • Sun Blade 8000-Netzwerk-Express-Module

  • Chassis-Überwachungsmodule

  • Systemlüfter

Umgebungsüberwachung

Im Sun Blade 8000 Series kommt ein Untersystem zur Überwachung der Umgebungsbedingungen zum Einsatz, das zum Schutz des Servers und seiner Komponenten vor Folgendem vorgesehen ist:

  • Extreme Temperaturen

  • Unzureichende Belüftung des Systems

  • Netzteilausfall

  • Hardwarefehler

Überall im System sind Temperatursensoren angebracht, die die Umgebungstemperatur des Chassis und der internen Komponenten überwachen. Software und Hardware sorgen dafür, dass die Temperaturen im Chassis bestimmte festgelegte Schwellenwerte für einen sicheren Betrieb nicht überschreiten. Sobald die von einem Sensor gemessene Temperatur unter dem unteren oder über dem oberen Schwellenwert liegt, schaltet das Untersystem zur Überwachung die orange Kontrolllampen "Service Required" (Maßnahme erforderlich) auf der Vorder- und Rückseite ein. Bleibt die Temperaturbedingung bestehen und erreicht einen kritischen Schwellenwert, dann leitet das System ein ordnungsgemäßes Herunterfahren ein.

Alle Fehler- und Warnmeldungen werden an das Chassis-Überwachungsmodul (CMM) gesendet und in der Sun-ILOM-Protokolldatei aufgezeichnet. Zusätzlich verfügen manche vom Benutzer austauschbare Teile wie Netzteile, Lüfter und DIMM über Kontrolllampen, die interne Störungen des jeweiligen Teils anzeigen können.

Fehlerbehebung und Parität

Der AMD-Dual-Core-Prozessor des Sun Blade-Servermoduls (Blade) bietet Paritätsschutz auf seinen internen Cache-Speichern und ECC-Schutz (Error-Correcting Code) der Daten. Das System kann folgende Fehlertypen erkennen und im System-Ereignisprotokoll (SEL, System Event Log) aufzeichnen:

  • Korrigierbare und unkorrigierbare ECC-Fehler

  • Durch SP korrigierbare Speicher-ECC-Fehler

  • Korrigierbare und unkorrigierbare interne CPU-Fehler

  • Fehler an der gemeinsamen Chassis-Infrastruktur einschließlich Fehlern an Lüftern und Netzteilen

Die erweiterte ECC-Funktion korrigiert Fehler bis zu 4 Bit in Nibble-Grenzen, sofern sie alle dasselbe DRAM betreffen. Sollte ein DRAM ausfallen, funktioniert das DIMM trotzdem weiterhin.

Zusammenfassung der RAS-Funktionen

Funktion

Beschreibung

Netzteile

Hot-Plug-fähig, in Chassis integriert, erhöhen die Zuverlässigkeit der Blades

  • Für das Sun Blade 8000-Chassis – N+N-Konfiguration

  • Für das Sun Blade 8000 P-Chassis – N+1-Konfiguration

Luftstrom und Kühlung

Die Lüfter sind im Chassis integriert, wodurch die Zuverlässigkeit von Lüftern, Blades und Netzteilen erhöht wird

Für das Sun Blade 8000-Chassis:

  • 3 Hot-Plug-fähige Lüftermodule auf der Vorderseite zum Kühlen der PCI Express ExpressModules

  • 6 in den Netzteilen integrierte Lüfter zum Kühlen der Netzteile

  • 9 Hot-Plug-fähige Lüftermodule auf der Rückseite zum Kühlen der Blades

Für das Sun Blade 8000 P-Chassis:

  • 4 in den Netzteilen integrierte Lüfter zum Kühlen der Netzteile

  • 9 Hot-Plug-fähige Lüftermodule auf der Rückseite zum Kühlen der Blades

Servermodule (Blades)

Hot-Plug-fähig; Die Wartung an der Blade kann vorgenommen werden, ohne dass die Verkabelung oder die E/A-Konfiguration in Mitleidenschaft gezogen wird.

Speicher

Schutz von Speicher und CPU durch ECC

E/A-Module

Hot-Plug-fähige PCI Express ExpressModules (nur für das Sun Blade 8000-Chassis) und Netzwerk-Express-Module

Plattenlaufwerke des Servermoduls (Blade)

Hot-Plug-fähig; Konfigurationsmöglichkeiten: RAID-0 (Striping) und RAID-1 (Mirroring)

Chassis-Überwachungsmodule

Hot-Plug-fähig; aktiver/Standby-Betrieb mit zwei installierten CMM

Service-Prozessoren

Redundante Verbindung zum internen Management-Netzwerk

Sun ILOM und System-Management

Intelligente Managementfunktionen für die einzelnen Blades und das gesamte Chassis; Verwendung des und Zugriff auf den Sun ILOM ist auch möglich, wenn das Betriebssystem offline oder das System ausgeschaltet ist; Remote-Management der Blades und Remote-Disketten- und -CD-ROM-Emulation

Hardware-Upgrades

Keine Tools zum Zugriff auf benutzeraufrüstbare Module erforderlich

Software-Upgrades

Netzwerkbasiertes Booten, netzwerkbasiertes Betriebssystem und BIOS-Upgrades

Einschalten und Neustart

Automatischer Server-Neustart; netzwerkbasierte Bootfunktion

Problembehebung

Zur Problembehebung gehört Folgendes:

  • Umgebungsüberwachung

  • Vorausschauende Fehleranalyse

  • Schnelle Reaktion der Kontrolllampen der Systemstatusanzeiger

  • Wartungs-Kontrolllampen

  • Systemfehlerprotokoll, einschließlich Aufzeichnung im System-Ereignisprotokoll (SEL, System Event Log)