Überwachen von Fehlern

Fehlerüberwachung

Es gibt drei Möglichkeiten zur Anzeige eines Fehlers im System:

  • Die gelben LED "Service Action Required" (Maßnahme erforderlich) an der defekten Komponente selbst und am System-Chassis leuchten (siehe Überwachen der LED "Service Action Required" (Maßnahme erforderlich)).

  • Die Komponenten-Statusanzeige, die auf der ILOM-Weboberfläche und auf dem CLI verfügbar ist, markiert die Komponente als in einem Fehlerzustand befindlich (siehe Überwachen von Fehlern über die Management-Oberflächen).

  • Das Auftreten des Fehlers wird im System-Ereignisprotokoll vermerkt (siehe Überwachen des Ereignisprotokolls).

Überwachen der LED "Service Action Required" (Maßnahme erforderlich)

Wenn eine Komponente einen Hardwarefehler aufweist (also in einen Fehlerzustand wechselt), schaltet die Fehlerverwaltung die gelbe LED "Service Action Required" (Maßnahme erforderlich) an der betreffenden Komponente ein. Außerdem schaltet die Fehlerverwaltung auch die LED "Service Action Required" (Maßnahme erforderlich) am System-Chassis (hinten und vorne) ein.

Ausgeschaltete LED "Service Action Required" (Maßnahme erforderlich)

Da die LED "Service Action Required" (Maßnahme erforderlich) einen Hardwarefehler signalisiert, leuchtet sie so lange, bis die Fehlerverwaltung feststellt, dass die defekte Komponente ausgetauscht oder repariert wurde. Die Chassis-LED "Service Action Required" (Maßnahme erforderlich), die als Generalanzeige für alle Komponentenfehler dienen, erlöschen erst, wenn keine Systemkomponenten mehr defekt sind.

Eingeschaltete Chassis-LED

Wenn die Chassis-LED "Service Action Required" (Maßnahme erforderlich) leuchten, ohne dass jedoch die entsprechende LED einer Systemkomponente leuchtet, signalisiert dies die Erkennung eines externen Fehlers durch die Fehlerverwaltung: Dies ist ein Problem außerhalb des Systems, das möglicherweise das System als Ganzes in Mitleidenschaft ziehen kann. Wenn die äußere Umgebungstemperatur der Luft beispielsweise 43oC übersteigt, wird eine Fehlersituation provoziert. Das System wird abgeschaltet, obwohl kein Fehler an der System-Hardware vorliegt.

Weitere Informationen in diesem Zusammenhang finden Sie unter Chassis-Fehler.

Netzteilfehler

Die Netzteile (PSU) sind ein besonderer Fall: Sie überwachen ihren eigenen Fehlerstatus und steuern ihre eigenen LED "Service Action Required" (Maßnahme erforderlich). Die Fehlerverwaltungs-Software ist nicht in der Lage, die LED der Netzteile ein- oder auszuschalten. Da jedoch die Fehlerverwaltung die Sensoren auf den PSU überwacht, erhält sie eine Meldung, wenn ein PSU-Fehler auftritt. Die Fehlerverwaltung schaltet die Chassis-LED "Service Action Required" (Maßnahme erforderlich) ein und zeigt den Fehler auf den ILOM-Management-Oberflächen und im Ereignisprotokoll an.

Hinweis: Ein PSU kann seine LED "Service Action Required" (Maßnahme erforderlich) ausschalten (also den Fehler als behoben erklären), während die Fehlerverwaltung weiterhin einen PSU-Fehler meldet. In einem solchen Fall spiegeln die ILOM-Management-Oberflächen, die Chassis-LED und das Ereignisprotokoll einen anhaltenden Fehlerstatus wider.

Weitere Informationen finden Sie unter Netzteilfehler.

Überwachen von Fehlern über die Management-Oberflächen

Überwachen des Komponentenstatus über die Weboberfläche

So überprüfen Sie den Fehlerstatus der Systemkomponenten von der Weboberfläche aus:

  1. Melden Sie sich bei der ILOM-Weboberfläche an.

  2. Wählen Sie die Registerkarte "System Information".

  3. Wählen Sie die Registerkarte "Components".

    Die Seite "Components" wird angezeigt. Diese Seite enthält die Komponenten-Management-Status-Tabelle mit den Systemkomponenten und ihrem Fehlerstatus.

  4. Identifizieren Sie die defekte Komponente.

    Suchen Sie die Komponente, deren Fehlerstatus als Faulted (Fehlerhaft) ausgewiesen ist. Hinweis: Wenn eine Komponente fehlerhaft ist, wird auch das System-Chassis selbst (/CH) als Faulted (Fehlerhaft) ausgewiesen.

Überwachen des Komponentenstatus über das CLI

Note

Lesen Sie den Abschnitt Die ILOM-Befehlszeilenschnittstelle , um zu erfahren, was es mit dem Objekt-Namespace auf sich hat, und wie Sie die Ziele und Eigenschaften identifizieren können, die im Zusammenhang mit Fehlern stehen.

  1. Öffnen Sie ein ILOM-CLI-Fenster.

  2. Geben Sie den entsprechenden show-Befehl ein, um Informationen über Systemkomponenten anzuzeigen.

    Angenommen, Sie befinden sich auf Chassis-Ebene (/CH) und eine Komponente befindet sich in einem fehlerhaften Zustand, dann wird der fault_state des Chassis als Faulted (Fehlerhaft)ausgewiesen, wie unten abgebildet.

    -> show
    /CH
    Targets:
    	.
    	.
    	.
    
    
    Properties:
    	type = Chassis
    	fault_state = Faulted
    	clear_fault_action = (none)
    ->
  3. Gehen Sie nach unten bis zur fehlerhaften Komponente und geben Sie erneut den Befehl show ein, um den Komponentenstatus fault_state = Faulted zu bestätigen.

    Das folgende Beispiel zeigt den fault_state des hinteren Lüftermoduls 0 (/CH/RFM0) als Faulted (Fehlerhaft).

    -> cd /CH/RFM0
    /CH/RFM0
    
    
    -> show
    /CH/RFM0
    Targets:
    	SERVICE
    	ACT
    	FAN1_OK
    	FAN2_OK
    	FAN1_SPEED
    	FAN2_SPEED
    
    
    Properties:
    	type = Rear Fan FRU
    	fault_state = Faulted 
    	clear_fault_action = (none)
    	prepare_to_remove_status = NotReady
    	prepare_to_remove_action = (none)
    	return_to_service_action = (none)
    ->

Überwachen des Ereignisprotokolls

Fehler werden im System-Ereignisprotokoll aufgezeichnet, das sowohl von der ILOM-Web-Bedienungsoberfläche als auch vom CLI aus angezeigt werden kann.

Anzeigen des Ereignisprotokolls über die Weboberfläche

  1. Melden Sie sich bei der ILOM-Weboberfläche an.

  2. Wählen Sie die Registerkarte "System Monitoring".

  3. Wählen Sie die Registerkarte "Event Logs".

    Fehler werden stets zusammen mit der entsprechenden Fault-Klasse, einem Zeitstempel und einer Beschreibung aufgeführt. Hinweis: Wenn Sie nach einem Fehler suchen, der kürzlich aufgetreten ist, finden Sie ihn gegen Ende des Protokolls. Fehlereinträge haben etwa die Form des folgenden Beispiels, das einen Fehler am Netzteil 3 (/CH/PS3) anzeigt.

    4      Mon May  1 13:17:22 2006  FMA       Fault     critical
           Fault detected at time = Mon May  1 13:17:22 2006. The suspect component:
           /CH/PS3 has FAULT:powersupply_temperature_ps with probability=100

    Eine Anleitung zum Auffinden und Interpretieren der Einträge im Ereignisprotokoll finden Sie unter Anzeigen von Ereignisprotokollen.

Anzeigen des Ereignisprotokolls über das CLI-Fenster

  1. Öffnen Sie ein ILOM-CLI-Fenster.

  2. Geben Sie zur Anzeige des Ereignisprotokolls den folgenden Befehl ein:

    show /CMM/logs/event/list

    Sie können die Ausgabe mit den Rollbalken bewegen, um den Inhalt anzuzeigen. Fehlereinträge haben etwa die Form des folgenden Beispiels, das einen Fehler am Netzteil 3 (/CH/PS3) anzeigt.

    4      Mon May  1 13:17:22 2006  FMA       Fault     critical
           Fault detected at time = Mon May  1 13:17:22 2006. The suspect component:
           /CH/PS3 has FAULT:powersupply_temperature_ps with probability=100

    Eine Anleitung zum Auffinden und Interpretieren der Einträge im Ereignisprotokoll finden Sie unter Anzeigen von Ereignisprotokollen.