Sun Blade 8000 Series inclut de nombreuses fonctions dédiées soit aux lames soit à l'ensemble du châssis, qui renforcent la fiabilité et la disponibilité et facilitent la maintenance. Ces fonctions RAS (Reliability, Availability and Serviceability ; fiabilité, disponibilité et facilité de maintenance) s'adressent à des aspects de la conception du système qui affectent sa capacité à fonctionner sans interruption et à réduire au maximum le temps nécessaire à sa maintenance. Le terme Fiabilité fait référence à la capacité du système à fonctionner sans interruption et à préserver l'intégralité des données. Le terme Disponibilité fait référence à l'aptitude du système à reprendre son exécution après une défaillance, avec un minimum d'impact. L'expression Facilité de maintenance fait référence au temps nécessaire à la remise en service du système suite à la défaillance d'un composant. Ensemble, les fonctions RAS de Sun Blade 8000 Series permettent un fonctionnement pour ainsi dire sans interruption.
La présente rubrique contient les sections suivantes :
Composants enfichables à chaud
Composants redondants
Contrôle de l'environnement
Correction d'erreurs et parité
Récapitulatif des fonctions RAS
Le matériel Sun Blade 8000 Series prend en charge l'enfichage à chaud des modules Sun Blade Server (lames), Sun Blade 8000 Network Express, PCI Express ExpressModules, les modules de contrôle du châssis, de ventilateur et d'alimentation, ainsi que des unités de disque dur, tous montés sur le châssis. Des commandes logicielles permettent d'installer et de supprimer ces composants lorsque le système est en cours d'exécution. La technologie d'enfichage à chaud accroît sensiblement la facilité de maintenance et la disponibilité du système en vous offrant la possibilité de remplacer ces composants sans interrompre son fonctionnement. Pour plus d'informations, reportez-vous à la rubrique À propos des composants enfichables à chaud.
Sun Blade 8000 Series dispose de composants redondants permettant au système de fonctionner même lorsqu'un composant associé est défaillant. Cette séparation des fonctions réduit l'impact des problèmes liés aux composants et à la maintenance. Les composants redondants incluent les suivants :
Modules Server (lames) selon la configuration du système
Modules d'alimentation
Modules PCI Express ExpressModule (châssis Sun Blade 8000 uniquement)
Modules Sun Blade 8000 Network Express
Modules de contrôle du châssis
Ventilateurs du système
Sun Blade 8000 Series inclut un sous-système de contrôle de l'environnement conçu pour protéger les composants des éléments suivants :
Températures extrêmes
Débit d'air insuffisant au sein du système
Défaillance de l'alimentation
Pannes matérielles
Des sondes de température situées à divers niveaux du système contrôlent la température ambiante du châssis et des composants internes. Les logiciels et le matériel s'assurent que les températures à l'intérieur du châssis ne dépassent pas les limites de fonctionnement de sûreté prédéterminées. Si la température détectée par la sonde est hors des limites du seuil défini, le sous-système logiciel de contrôle allume les indicateurs Opération de maintenance requise en orange situés à l'avant et à l'arrière du système. Si l'état de température constaté persiste et atteint un seuil critique, le système initialise son propre arrêt progressif.
Tous les messages d'erreur et d'avertissement sont envoyés au module de contrôle du châssis (CMM) et consignés dans le fichier journal de ILOM de Sun. D'autre part, certaines unités remplaçables par l'utilisateur (CRU, Customer-Replaceable Unit), notamment les unités d'alimentation, ventilateurs et DIMM, sont dotés de DEL signalant les pannes de CRU.
Le processeur AMD double cœur du module Sun Blade Server (lame) offre une protection de la parité de ses mémoires cache internes et une protection ECC (codes de correction d'erreurs) des données. Le système peut détecter et consigner dans le journal d'événements système (SEL) les types d'erreur suivants :
Erreurs ECC de mémoire corrigibles et erreurs ECC de mémoire impossibles à corriger
Erreurs ECC de mémoire corrigibles du processeur de service
Erreurs internes de la CPU corrigibles et erreurs internes de la CPU impossibles à corriger
Pannes se produisant au niveau de l'infrastructure partagée du châssis, y compris les problèmes d'alimentation
L'ECC corrige jusqu'à 4 bits d'erreur sur les limites de quartet, tant qu'ils se trouvent tous dans la même RAM dynamique (DRAM). En cas de défaillance d'une DRAM, le DIMM continue à fonctionner.
Caractéristique |
Description |
---|---|
Unités d'alimentation |
Enfichables à chaud ; intégrées au châssis pour une plus grande fiabilité des lames
|
Débit d'air et refroidissement |
Les ventilateurs sont intégrés au châssis pour augmenter leur fiabilité, ainsi que celle des lames et des unités d'alimentation Pour le châssis Sun Blade 8000 :
Pour le châssis Sun Blade 8000 P :
|
Modules Server (lames) |
Enfichables à chaud ; la maintenance peut être effectuée sans toucher au câblage ni à la configuration d'E/S |
Mémoire |
Mémoire et CPU protégée par l'ECC |
Modules d'E/S |
Modules PCI Express ExpressModules (pour le châssis Sun Blade 8000 uniquement) et Network Express enfichables à chaud |
Unités de disque du module Server (lames) |
Enfichables à chaud ; configurables en RAID-0 (entrelacement) et RAID-1 (mise en miroir) |
Modules de contrôle du châssis |
Enfichables à chaud ; fonctionnement en mode actif-passif avec deux CMM installés |
Processeurs de service |
Connexion redondante au réseau de gestion interne |
ILOM de Sun et gestion des systèmes |
Fonctions de gestion intelligente au niveau du châssis et de chaque lame ; ILOM de Sun continue à fonctionner et reste accessible lorsque le système d'exploitation est hors ligne ou hors tension ; permet une gestion à distance des lames, ainsi qu'une émulation à distance de disquettes et de CD-ROM |
Mises à niveau du matériel |
Aucun outil n'est nécessaire pour accéder aux modules pouvant être mis à niveau |
Mises à niveau des logiciels |
Mises à niveau de l'initialisation réseau, des systèmes d'exploitation réseau et du BIOS |
Mise sous tension et redémarrage |
Redémarrage automatique du serveur ; fonction d'initialisation réseau |
Dépannage |
Le dépannage concerne les éléments suivants :
|