Die Software für die Fehlerverwaltung von Sun Blade 8000 Series überwacht die "Gesundheit" der Hardware. Sie diagnostiziert und meldet Hardwarefehler bei Systemkomponenten. Die Fehlerverwaltung überwacht auch die Umgebungsbedingungen und meldet, wenn diese sich außerhalb der zulässigen Parameter bewegen. Verschiedene Sensoren am System-Chassis, den Netzteilen (PSU), den Servermodulen (Blades) und den Lüftern werden ständig überwacht. Sobald ein Sensor ein Problem ermittelt, wird die Fehlerverwaltung (die auf dem CMM ausgeführt wird) entsprechend benachrichtigt.
Die Fehlerverwaltung diagnostiziert dann das Problem. Wenn ein Hardware- oder Umgebungsfehler festgestellt wird, schaltet die Fehlerverwaltung die Kontrolllampe "Service Action Required" (Maßnahme erforderlich) der betroffenen Komponente ein. Außerdem wird der Fehler auf den ILOM-Management-Schnittstellen angezeigt und im Ereignisprotokoll aufgezeichnet.
Die Sun Blade 8000 Series-Fehlerverwaltungssoftware ist komplett unabhängig von der Solaris FMA (Fault Management Architecture). Die Fehlerverwaltung ist Teil der System-Managementsoftware; es besteht keine Interaktion mit den Blade-Hosts oder ihren Betriebssystemen.
Wenn an einer Systemkomponente ein Hardwareversagen auftritt, nennt man dies einen internen Fehler; es handelt sich um ein Problem an der Hardware von Sun Blade 8000 Series. Interne Fehler werden gelöscht, wenn sie behoben wurden – meist durch Austauschen der fehlerhaften Komponente.
Daneben gibt es jedoch so genannte externe Fehler. In diesen Fällen liegt kein Hardware-Defekt vor, vielmehr handelt es sich um eine externe Störung. Beispielsweise übersteigt die Lufttemperatur (Umgebung des Chassis) den zulässigen Schwellenwert. Dies kann eine Störung verursachen, wenn die Situation länger andauert. Externe Fehler werden automatisch gelöscht: sie verschwinden, sobald die externe Bedingung, die sie ausgelöst hat, nicht mehr präsent ist. Dennoch kann eine solche externe Fehlersituation, wenn sie nicht behoben wird, bestimmte Komponenten oder das ganze System abschalten.