À propos de la fiabilité, de la disponibilité et de la facilité de maintenance

Sun Blade 8000 Series inclut de nombreuses fonctions dédiées soit aux lames soit à l'ensemble du châssis, qui renforcent la fiabilité et la disponibilité et facilitent la maintenance. Ces fonctions RAS (Reliability, Availability and Serviceability ; fiabilité, disponibilité et facilité de maintenance) s'adressent à des aspects de la conception du système qui affectent sa capacité à fonctionner sans interruption et à réduire au maximum le temps nécessaire à sa maintenance. Le terme Fiabilité fait référence à la capacité du système à fonctionner sans interruption et à préserver l'intégralité des données. Le terme Disponibilité fait référence à l'aptitude du système à reprendre son exécution après une défaillance, avec un minimum d'impact. L'expression Facilité de maintenance fait référence au temps nécessaire à la remise en service du système suite à la défaillance d'un composant. Ensemble, les fonctions RAS de Sun Blade 8000 Series permettent un fonctionnement pour ainsi dire sans interruption.

La présente rubrique contient les sections suivantes :

Composants enfichables à chaud

Le matériel Sun Blade 8000 Series prend en charge l'enfichage à chaud des modules Sun Blade Server (lames), Sun Blade 8000 Network Express, PCI Express ExpressModules, les modules de contrôle du châssis, de ventilateur et d'alimentation, ainsi que des unités de disque dur, tous montés sur le châssis. Des commandes logicielles permettent d'installer et de supprimer ces composants lorsque le système est en cours d'exécution. La technologie d'enfichage à chaud accroît sensiblement la facilité de maintenance et la disponibilité du système en vous offrant la possibilité de remplacer ces composants sans interrompre son fonctionnement. Pour plus d'informations, reportez-vous à la rubrique À propos des composants enfichables à chaud.

Composants redondants

Sun Blade 8000 Series dispose de composants redondants permettant au système de fonctionner même lorsqu'un composant associé est défaillant. Cette séparation des fonctions réduit l'impact des problèmes liés aux composants et à la maintenance. Les composants redondants incluent les suivants :

  • Modules Server (lames) selon la configuration du système

  • Modules d'alimentation

  • Modules PCI Express ExpressModule (châssis Sun Blade 8000 uniquement)

  • Modules Sun Blade 8000 Network Express

  • Modules de contrôle du châssis

  • Ventilateurs du système

Contrôle de l'environnement

Sun Blade 8000 Series inclut un sous-système de contrôle de l'environnement conçu pour protéger les composants des éléments suivants :

  • Températures extrêmes

  • Débit d'air insuffisant au sein du système

  • Défaillance de l'alimentation

  • Pannes matérielles

Des sondes de température situées à divers niveaux du système contrôlent la température ambiante du châssis et des composants internes. Les logiciels et le matériel s'assurent que les températures à l'intérieur du châssis ne dépassent pas les limites de fonctionnement de sûreté prédéterminées. Si la température détectée par la sonde est hors des limites du seuil défini, le sous-système logiciel de contrôle allume les indicateurs Opération de maintenance requise en orange situés à l'avant et à l'arrière du système. Si l'état de température constaté persiste et atteint un seuil critique, le système initialise son propre arrêt progressif.

Tous les messages d'erreur et d'avertissement sont envoyés au module de contrôle du châssis (CMM) et consignés dans le fichier journal de ILOM de Sun. D'autre part, certaines unités remplaçables par l'utilisateur (CRU, Customer-Replaceable Unit), notamment les unités d'alimentation, ventilateurs et DIMM, sont dotés de DEL signalant les pannes de CRU.

Correction d'erreurs et parité

Le processeur AMD double cœur du module Sun Blade Server (lame) offre une protection de la parité de ses mémoires cache internes et une protection ECC (codes de correction d'erreurs) des données. Le système peut détecter et consigner dans le journal d'événements système (SEL) les types d'erreur suivants :

  • Erreurs ECC de mémoire corrigibles et erreurs ECC de mémoire impossibles à corriger

  • Erreurs ECC de mémoire corrigibles du processeur de service

  • Erreurs internes de la CPU corrigibles et erreurs internes de la CPU impossibles à corriger

  • Pannes se produisant au niveau de l'infrastructure partagée du châssis, y compris les problèmes d'alimentation

L'ECC corrige jusqu'à 4 bits d'erreur sur les limites de quartet, tant qu'ils se trouvent tous dans la même RAM dynamique (DRAM). En cas de défaillance d'une DRAM, le DIMM continue à fonctionner.

Récapitulatif des fonctions RAS

Caractéristique

Description

Unités d'alimentation

Enfichables à chaud ; intégrées au châssis pour une plus grande fiabilité des lames

  • Pour le châssis Sun Blade 8000 : configuration N+N

  • Pour le châssis Sun Blade 8000 P : configuration N+1

Débit d'air et refroidissement

Les ventilateurs sont intégrés au châssis pour augmenter leur fiabilité, ainsi que celle des lames et des unités d'alimentation

Pour le châssis Sun Blade 8000 :

  • 3 modules enfichables de ventilateur avant pour refroidir les modules PCI Express ExpressModule

  • 6 ventilateurs, intégrés aux unités d'alimentation, refroidissent ces dernières

  • 9 modules enfichables de ventilateur arrière refroidissent les lames

Pour le châssis Sun Blade 8000 P :

  • 4 ventilateurs, intégrés aux unités d'alimentation, refroidissent ces dernières

  • 9 modules enfichables de ventilateur arrière refroidissent les lames

Modules Server (lames)

Enfichables à chaud ; la maintenance peut être effectuée sans toucher au câblage ni à la configuration d'E/S

Mémoire

Mémoire et CPU protégée par l'ECC

Modules d'E/S

Modules PCI Express ExpressModules (pour le châssis Sun Blade 8000 uniquement) et Network Express enfichables à chaud

Unités de disque du module Server (lames)

Enfichables à chaud ; configurables en RAID-0 (entrelacement) et RAID-1 (mise en miroir)

Modules de contrôle du châssis

Enfichables à chaud ; fonctionnement en mode actif-passif avec deux CMM installés

Processeurs de service

Connexion redondante au réseau de gestion interne

ILOM de Sun et gestion des systèmes

Fonctions de gestion intelligente au niveau du châssis et de chaque lame ; ILOM de Sun continue à fonctionner et reste accessible lorsque le système d'exploitation est hors ligne ou hors tension ; permet une gestion à distance des lames, ainsi qu'une émulation à distance de disquettes et de CD-ROM

Mises à niveau du matériel

Aucun outil n'est nécessaire pour accéder aux modules pouvant être mis à niveau

Mises à niveau des logiciels

Mises à niveau de l'initialisation réseau, des systèmes d'exploitation réseau et du BIOS

Mise sous tension et redémarrage

Redémarrage automatique du serveur ; fonction d'initialisation réseau

Dépannage

Le dépannage concerne les éléments suivants :

  • Contrôle de l'environnement

  • Analyse des prédictions de défaillance

  • Éclairage de réponse d'urgence d'indicateurs de statut système

  • DEL de maintenance

  • Consignation des erreurs système, y compris dans le journal d'événements système (SEL)