Plattform-Hinweise: Sun Enterprise 250 Server

Kapitel 1 Parameter für die Systemkonfiguration

Dieses Kapitel beschreibt die NVRAM-Konfigurationsvariablen und die OBP-Befehle (OBP = OpenBoot PROM), die zur Konfiguration folgender Aspekte von Sun Enterprise 250-Systemen zur Verfügung stehen:

Folgende NVRAM-Konfigurationsvariablen werden in diesem Kapitel erläutert:

Folgende OBP-Befehle werden in diesem Kapitel erläutert:

UPA-Abtastung

Sun Enterprise 250-Server basieren wie alle UltraSPARC(TM)-basierten Systeme auf dem UPA-Hochgeschwindigkeitsbus (UPA = Ultra Port Architecture), einem geswitchten Systembus mit bis zu 32 Anschluß-ID-Adressen (oder Steckplätzen) für Hochgeschwindigkeits-Geräte der Hauptplatine wie CPUs, E/A-Bridges und Grafikkarten. Der Enterprise 250-Server bietet bis zu drei aktive Anschlüsse für folgende Subsysteme.

Tabelle 1-1 UPA-Systembusanschlüsse

Gerätetyp 

UPA-Steckplatz 

Physische Implementierung 

CPU 

0-1 

Zwei Steckplätze 

UPA-PCI-Bridge 

1f 

Auf Hauptplatine gelötet 

Die Reihenfolge der Abtastung dieser drei Anschluß-IDs kann nicht vom Benutzer gesteuert werden. Allerdings kann eine Liste mit Anschlüssen von der Abtastung ausgeschlossen werden, und zwar mit Hilfe der NVRAM-Variablen upa-port-skip-list. Im folgenden Beispiel wird anhand der Variablen upa-port-skip-list die CPU-1 von der UPA-Abtastungsliste ausgeschlossen.


ok setenv upa-port-skip-list 1

Mit dieser Funktion können Sie ein bestimmtes Gerät von der Abtastung (und anschließendem Gebrauch) durch das System ausschließen, ohne die Einsteckkarte physisch entfernen zu müssen. Dies kann nützlich sein, wenn in einem System mit temporären Funktionsstörungen eine fehlerhafte Karte zu suchen ist.

PCI-Abtastung

Von den beiden PCI-Bussen des Enterprise 250-Servers ist Bus 0 (/pci@1f,4000 in der Gerätebaumstruktur) insofern einzigartig, als es sich dabei um den einzigen PCI-Bus handelt, der Hauptplatinengeräte (nicht zum Einstecken) wie z. B. den integrierten SCSI-Controller enthält. Definitionsgemäß können diese Geräte nicht ausgesteckt und ausgetauscht werden, um dadurch die Reihenfolge zu ändern, in der die Abtastung erfolgt. Zum Steuern der Abtastungsreihenfolge dieser Geräte steht die NVRAM-Variable pci0-probe-list zur Verfügung. Mit dieser Variablen werden die Abtastungsreihenfolge und der Ausschluß von Geräten am PCI-Bus 0 festgelegt. Die Werte, die Sie für die Variable pci0-probe-list angeben können, finden Sie in der folgenden Tabelle.

Tabelle 1-2 Werte der Abtastungsvariablen

PCI-Gerätenummer 

Funktion 

2

PCI-Steckplatz 2 (wie an der Systemrückseite angegeben) 

3

Integrierter SCSI-Controller für interne und externe SCSI-Geräte 

4

PCI-Steckplatz 1 (wie auf der Systemrückseite angegeben) 

4

PCI-Steckplatz 0 (wie auf der Systemrückseite angegeben) 


Hinweis -

Die Werte in dieser Liste beziehen sich auf die PCI-Gerätenummer. Sie beziehen sich nicht auf die Steckplatznumerierung an der Rückseite (0-3).


Im folgenden Beispiel definiert die Variable pci0-probe-list eine Abtastung in der Reihenfolge 5-2-4, wobei der integrierte SCSI-Controller für interne und externe SCSI-Geräte von der Abtastung ausgeschlossen ist.


ok setenv pci0-probe-list 5,2,4

Beachten Sie bitte, daß die Variable pci0-probe-list keine Wirkung auf die Abtastung des obersten PCI-Steckplatzes hat (Steckplatz 3 an der Systemrückseite). Eine weitere NVRAM-Variable, pci-slot-skip-list, steht jedoch zur Verfügung, um beliebige PCI-Steckplätze von der PCI-Abtastungsliste auszuschließen. Im folgenden Beispiel bewirkt die Variable pci-slot-skip-list einen Ausschluß der Steckplätze 0 und 3 an der Rückseite von der PCI-Abtastungsliste.


ok setenv pci-slot-skip-list 0,3


Hinweis -

Die Werte der Variablen pci-slot-skip-list beziehen sich auf die Numerierung an der Systemrückseite (0-3). Wenn in der Liste eine PCI-Steckplatznummer erscheint, wird diese von der Abtastung ausgeschlossen, selbst wenn sie in der Variablen pci0-probe-list enthalten ist.


Umgebungsüberwachung und -steuerung

Funktionen für die Umgebungsüberwachung und -steuerung gibt es beim Enterprise 250-Server auf Betriebssystemebene und auf OBP-Firmware-Ebene. Damit ist sichergestellt, daß einsatzfähige Überwachungsfunktionen selbst dann zur Verfügung stehen, wenn das System angehalten wurde oder nicht gebootet werden kann. Wie das OBP eine zu hohe Umgebungstemperatur erkennt und darauf reagiert, wird über die NVRAM-Variable env-monitor festgelegt Die folgende Tabelle zeigt die verschiedenen Einstellungen für diese Variable und die Wirkung dieser Einstellungen auf das Verhalten des OBP. Weitere Erläuterungen zu den Umgebungsüberwachungsfunktionen des Systems finden Sie unter""Informationen über Leistungsmerkmale, Ausfallsicherheit, Verfügbarkeit und Servicefreundlichkeit"" im Sun Enterprise 250 Server Benutzerhandbuch.

Tabelle 1-3 Werte und Auswirkungen der Umgebungsüberwachungsvariablen

Einstellung 

Überwachung aktiv? 

Maßnahme 

enabled (Standard)

Ja 

Bei einer erhöhten Temperatur im kritischen Bereich gibt das OBP eine Warnung aus und fährt das System nach 30 Sekunden automatisch herunter. 

advise

Ja 

Das OBP gibt lediglich eine Warnung aus, fährt das System jedoch nicht herunter. 

disabled

Nein  

Das OBP reagiert überhaupt nicht. Die Umgebungsüberwachung auf OBP-Ebene ist deaktiviert. 

Im folgenden Beispiel bewirkt die Variable env-monitor eine Deaktivierung der Umgebungsüberwachung auf OBP-Ebene


ok setenv env-monitor disabled


Hinweis -

Diese NVRAM-Variable hat keinerlei Wirkung auf die Umgebungsüberwachungs- und -steuerfunktionen des Systems, solange das Betriebssystem läuft.


Automatische Systemwiederherstellung (ASR)

Dank der automatischen Systemwiederherstellung (ASR) kann der Enterprise 250-Server den Betrieb auch nach bestimmten Ausfällen oder Fehlfunktionen der Hardware fortsetzen. Beim Systemtest nach dem Einschalten (POST = Power-On Self-Test) und bei der OpenBoot-Diagnose (OBDiag) werden defekte Hardware-Komponenten automatisch erkannt, und eine automatische Konfigurationsfunktion in der OBP-Firmware ermöglicht die Dekonfiguration defekter Komponenten und die Wiederherstellung des Systembetriebs. Sofern das System ohne die defekte Komponente funktionieren kann, ermöglicht die ASR-Funktion einen automatischen Neustart des Systems, und zwar ohne Benutzereingriff. Ein solcher "eingeschränkter Neustart" erlaubt eine Fortsetzung des Systembetriebs, während ein Wartungsaufruf generiert wird, der den Austausch der defekten Komponente anfordert.

Wird bei der Einschaltsequenz eine defekte Komponente erkannt, wird diese Komponente dekonfiguriert, und die Boot-Sequenz wird fortgesetzt, sofern das System ohne diese Komponente funktionsfähig ist. Bei einem laufenden System können bestimmte Fehlertypen, zum Beispiel ein Prozessorfehler, bewirken, daß das System automatisch zurückgesetzt wird. In diesem Fall kann das System dank der ASR-Funktion sofort neu starten, sofern es ohne die ausgefallene Komponente funktionsfähig ist. Auf diese Weise wird verhindert, daß eine defekte Hardware-Komponente ein Einschalten des Systems unmöglich macht oder sofort zu einem erneuten Systemabsturz führt.

"Software"-Dekonfiguration mittels Statuseigenschaft

Damit ein eingeschränkter Neustart möglich ist, "markiert" das OBP über die IEEE 1275 Client-Schnittstelle (via Gerätebaumstruktur) Geräte als failed (ausgefallen) oder disabled (deaktiviert), indem im zugehörigen Knoten der Gerätebaumstruktur eine entsprechende "Statuseigenschaft" angelegt wird. Für diesen Fall gilt die Konvention, daß UNIX für ein so markiertes Subsystem keinen Treiber aktiviert.

Solange sich die ausgefallene Komponente in einem elektrischen Ruhezustand befindet, also keine willkürlichen Busfehler oder Signalrauschen usw. verursacht, startet das System automatisch neu und nimmt den Betrieb wieder auf, während ein Wartungsaufruf generiert wird.

"Hardware"-Dekonfiguration

In zwei Sonderfällen der Dekonfiguration eines Subsystems (bei CPUs und dem Hauptspeicher) geht das OBP über das Anlegen einer entsprechenden "Statuseigenschaft" in der Gerätebaumstruktur hinaus. In den ersten Momenten nach dem Zurücksetzen muß das OBP die entsprechenden Komponenten initialisieren und funktionell konfigurieren (oder umgehen), damit das restliche System ordnungsgemäß funktionieren kann. Die entsprechenden Aktionen werden auf der Grundlage des Status der beiden NVRAM-Konfigurationsvariablen post-status und asr-status durchgeführt, die die Informationen zum Überschreiben enthalten. Diese Informationen werden entweder über den POST oder über manuelles Überschreiben durch den Benutzer zur Verfügung gestellt (siehe "Manuelles Überschreiben durch den Benutzer bei der automatischen Systemwiederherstellung (ASR)").

CPU-Dekonfiguration

Wenn eine CPU beim Systemtest nach dem Einschalten als defekt markiert wird oder ein Benutzer eine CPU deaktiviert, setzt das OBP das "Master Disable"-Bit für die betreffende CPU. So wird diese CPU bis zum nächsten Zurücksetzen des Systems beim Einschalten effektiv als aktives UPA-Gerät ausgeschaltet.

Speicher-Dekonfiguration

Hauptspeicherfehler zu erkennen und zu isolieren, ist eine der schwierigeren Diagnoseaufgaben. Noch komplizierter wird das Problem durch die Möglichkeit, DIMMs mit unterschiedlicher Kapazität innerhalb der gleichen Speicherbank zu installieren. Dabei muß allerdings jede Speicherbank vier DIMMs gleicher Kapazität enthalten. Bei einer defekten Hauptspeicherkomponente dekonfiguriert die Firmware die gesamte Speicherbank, in der der Fehler aufgetreten ist.

Manuelles Überschreiben durch den Benutzer bei der automatischen Systemwiederherstellung (ASR)

In den meisten Fällen wird der Server mittels der Standardeinstellungen ordnungsgemäß konfiguriert oder dekonfiguriert. Dennoch empfiehlt es sich, erfahrenen Benutzern eine Möglichkeit des manuellen Überschreibens zur Verfügung zu stellen. Und wegen der Unterschiede zwischen einer "Software-" und einer "Hardware"-Dekonfiguration sind dazu zwei verwandte, aber unterschiedliche Überschreibmechanismen erforderlich.

Überschreiben bei der "Software"-Dekonfiguration

Ein Subsystem, das durch einen bestimmten Knoten in der Gerätebaumstruktur dargestellt wird, kann vom Benutzer über die NVRAM-Variable asr-disable-list deaktiviert werden. Der Wert dieser Variablen besteht einfach aus einer Liste von Pfaden in der Gerätebaumstruktur, die durch Leerzeichen getrennt sind


ok setenv asr-disable-list /pci@1f,2000 /pci@1f,4000/scsi@3,1

Anhand dieser Informationen weist das Enterprise 250-OBP allen Knoten, die in der Variablen asr-disable-list aufgelistet sind, als Eigenschaft den deaktivierten Status ("disabled") zu.

Überschreiben bei der "Hardware"-Dekonfiguration

Bei Subsystemen, die eine "Hardware"-Dekonfiguration erfordern (CPU und Hauptspeicher), dienen die OBP-Befehle asr-enable und asr-disable zur selektiven Aktivierung oder Deaktivierung.


Hinweis -

Es gibt Überschneidungen zwischen dem Überschreiben bei Software- und Hardware-Dekonfiguration. Wenn möglich, sollten die Hardware-Überschreibbefehle asr-enable und asr-disable verwendet werden.


Sie können eine Liste der gültigen Parameter für asr-disable und asr-enable abrufen, indem Sie den gewünschten Befehl ohne Parameter eingeben.


ok asr-disable
? Invalid subsystem name: 
Known 'enable/disable' subsystem components are: 
bank*         bank3         bank2         bank1         bank0 
dimm15        dimm14        dimm13        dimm12        dimm11
dimm10        dimm9         dimm8         dimm7         dimm6
dimm5         dimm4         dimm3         dimm2         dimm1
dimm0         cpu*          cpu1          cpu0 
ok

Sie können den Status aller manuell überschriebenen Subsysteme abrufen. Dazu dient ein neuer Benutzerbefehl, nämlich .asr. Dieser erzeugt eine Übersicht über die aktuellen Einstellungen.


ok asr-disable cpu1 bank3
ok .asr
CPU0:	Enabled	
CPU1:	Disabled	
SC-MP:	Enabled	
Psycho@1f:	Enabled	
Cheerio:	Enabled	
SCSI:	Enabled	
Mem Bank0:	Enabled	
Mem Bank1:	Enabled	
Mem Bank2:	Enabled	
Mem Bank3:	Disabled	
PROM:	Enabled	
NVRAM:	Enabled	
TTY:	Enabled	
SuperIO:	Enabled	
PCI Slots:	Enabled	

Optionen für den automatischen Systemstart

OpenBoot stellt einen NVRAM-gesteuerten Schalter mit der Bezeichnung auto-boot? zur Verfügung. Dieser legt fest, ob das OBP das Betriebssystem nach dem Zurücksetzen jedesmal automatisch neu startet. Der Standardwert bei Sun-Plattformen lautet true.

Wenn sich beim Systemtest nach dem Einschalten ein Problem ergibt, wird auto-boot? ignoriert, und ein Systemneustart erfolgt erst, wenn der Benutzer ihn manuell durchführt. Da ein solches Verhalten für einen eingeschränkten Neustart selbstverständlich nicht in Frage kommt, hält das Enterprise 250-OBP einen zweiten NVRAM-gesteuerten Schalter bereit. Dieser heißt auto-boot-on-error?. Von diesem Schalter hängt es ab, ob das System einen eingeschränkten Neustart versucht, wenn der Ausfall eines Subsystems erkannt wird. Ein eingeschränkter Neustart ist nur dann möglich, wenn beide Schalter, auto-boot? und auto-boot-on-error?, auf true gesetzt sind.


ok setenv auto-boot-on-error? true


Hinweis -

Die Standardeinstellung für auto-boot-on-error? lautet false. Das heißt, das System versucht keinen eingeschränkten Neustart, es sei denn, Sie ändern diese Einstellung in true. Darüber hinaus versucht das System auch keinen eingeschränkten Neustart, wenn es zu einem schweren und nicht behebbaren Fehler kommt, selbst wenn die Möglichkeit eines eingeschränkten Neustarts aktiviert ist. Ein Beispiel für einen schweren und nicht behebbaren Fehler ist die Deaktivierung beider System-CPUs, entweder durch einen Fehler beim Systemtest nach dem Einschalten oder durch manuelles Überschreiben seitens des Benutzers.


Rücksetz-Szenarien

Das Standardprotokoll für das Zurücksetzen des Systems umgeht die Firmware-Diagnose vollständig, es sei denn, die NVRAM-Variable diag-switch? ist auf true gesetzt. Die Standardeinstellung dieser Variablen lautet false.

Um bei Enterprise 250-Servern eine automatische Systemwiederherstellung zu unterstützen, ist eine Firmware-Diagnose (POST/OBDiag) bei einigen oder allen Rücksetz-Ereignissen wünschenswert. Statt nun einfach den Standardwert von diag-switch? in true zu ändern, was eine Reihe von Nebenwirkungen mit sich bringt (siehe das Handbuch OpenBoot 3.x Command Reference Manual), stellt das Enterprise 250-OBP eine neue NVRAM-Variable namens diag-trigger zur Verfügung. Mit dieser Variablen können Sie festlegen, welche Rücksetz-Ereignisse (wenn überhaupt) automatisch eine Firmware-Diagnose (POST/OBDiag) auslösen sollen. Die Variable diag-trigger und ihre verschiedenen Einstellungen werden in der folgenden Tabelle erläutert.


Hinweis -

diag-trigger hat nur dann eine Wirkung, wenn diag-switch? auf true gesetzt ist.


Tabelle 1-4 Einstellungen und Auswirkungen der Variablen zum Auslösen der Diagnose beim Zurücksetzen

Einstellung 

Funktion 

power-reset (Standard)

Eine Diagnose wird nur beim Zurücksetzen beim Einschalten durchgeführt. 

error-reset

 Eine Diagnose wird nur beim Zurücksetzen beim Einschalten, schweren Hardware-Fehlern und Rücksetz-Ereignissen im Zusammenhang mit dem Systemüberwachungsprotokoll (Watchdog) durchgeführt.

soft-reset

Eine Diagnose wird beim Zurücksetzen immer durchgeführt (Ausnahme: XIR), auch wenn das Zurücksetzen durch die UNIX-Befehle init 6 oder reboot ausgelöst wird.

none

Unabhängig von der Art des Rücksetz-Ereignisses wird nie automatisch eine Diagnose durchgeführt. Der Benutzer kann eine Diagnose manuell auslösen, indem er die Tasten Stop und d beim Einschalten des Systems gedrückt hält oder indem er beim Einschalten des Systems den Schlüsselschalter am vorderen Bedienfeld in die Diagnoseposition bringt. 

Im folgenden Beispiel bewirkt die Variable diag-trigger, daß jedesmal beim Zurücksetzen (außer beim Zurücksetzen durch XIR) eine POST- und eine OpenBoot-Diagnose durchgeführt werden.


ok setenv diag-switch? true
ok setenv diag-trigger soft-reset