In diesem Kapitel werden Probleme beschrieben, die speziell bei Sun-Mittelklasse- und -High-End-Servern auftreten. Aktuelle Sun-Server gehören der Sun Fire-Systemfamilie an. Ältere Server gehören der Sun Enterprise-Systemfamilie an.
Die Versionshinweise der Sun Validation Test Suite sind jetzt ein eigenständiges Dokument, das Sie unter http://sun.com finden.
Einige der hier beschriebenen Probleme und Fehler wurden in späteren Solaris 10-Versionen behoben. Wenn Sie ein Upgrade Ihrer Solaris-Software ausgeführt haben, kann es also sein, dass einige dieser Probleme und Fehler für Sie nicht mehr relevant sind. Informationen zu Fehlern und Problemen, die nicht mehr für Ihre spezielle Solaris 10-Software gelten, finden Sie in Anhang A, Behobene Fehler in Solaris 10.
In diesem Abschnitt werden schwer wiegende domänenseitige DR-Fehler auf folgenden Sun Fire-High-End-Systemen beschrieben, auf denen Solaris 10 ausgeführt wird:
Sun Fire 25K
Sun Fire 20K
Sun Fire 15K
Sun Fire 12K
Informationen zu DR-Fehlern bei Sun Management Services finden Sie in den SMS Release Notes für die entsprechende SMS-Version, die auf Ihrem System ausgeführt wird.
Diese Informationen gelten nur für DR, da dies nur auf den in diesem Abschnitt aufgeführten Servern ausgeführt wird. Informationen zu DR auf anderen Servern finden Sie in den Versions- bzw. Produkthinweisen (Release Notes bzw. Product Notes) für diese Server bzw. in den Abschnitten zu diesen Servern.
Folgende Software- und Hardware-Fehler treten bei Sun Fire-High-End-Systemen auf.
Möglicherweise kommt es zur Anzeige von Warnungen, wenn ein DR-Befehl auf einem System ausgeführt wird, das mit der SunSwift PCI-Karte, Option 1032, konfiguriert ist. Diese Warnungen treten in Domänen auf, in denen Solaris 8, Solaris 9 oder Solaris 10 ausgeführt wird. Folgende Warnung ist ein Beispiel:
Aug 12 12:27:41 machine genunix: WARNING: vmem_destroy('pcisch2_dvma'): leaked |
Diese Warnungen sind "gutartig". Der Direct Virtual Memory Access (DVMA)-Raum wird während des DR-Vorgangs ordnungsgemäß aktualisiert. Es kommt zu keinen tatsächlichen Kernel-Speicherlecks.
Problemumgehung: Um die Anzeige der Warnung zu verhindern, fügen Sie folgende Zeile in /etc/system hinzu:
set pcisch:pci_preserve_iommu_tsb=0 |
Die Verknüpfung schlägt zwischen einem System mit Sun GigaSwift Ethernet MMF Option X1151A und bestimmten CISCO-Switches fehl. Der Fehler tritt auf, wenn Sie versuchen, einen DR-Vorgang auf einem solchen System auszuführen, das an einen der folgenden Switches angeschlossen ist:
CISCO WS-c4003 Switch (Firmw.: WS-C4003 Software, Version NmpSW: 4.4(1))
CISCO WS-c4003 Switch (Firmw.: WS-C4003 Software, Version NmpSW: 7.1(2))
CISCO WS-c5500 Switch (Firmw.: WS-C5500 Software, Version McpSW: 4.2(1) and NmpSW: 4.2(1))
Bei einem CISCO 6509 Switch tritt dieses Problem nicht auf.
Problemumgehung: Verwenden Sie einen anderen Switch. Alternativ können Sie sich wegen eines Patches für einen der aufgeführten Switches an Cisco wenden.
In diesem Abschnitt werden schwer wiegende DR-Fehler beschrieben, die auf folgenden Sun Fire-Mittelklasse-Systemen auftreten:
Sun Fire E6900
Sun Fire E4900
Sun Fire E6800
Sun Fire E4810
Sun Fire E4800
Sun Fire E3800
Diese Informationen gelten nur für DR, da dies nur auf den in diesem Abschnitt aufgeführten Servern ausgeführt wird. Informationen zu DR auf anderen Servern finden Sie in den Versions- bzw. Produkthinweisen (Release Notes bzw. Product Notes) für diese Server bzw. in den Abschnitten zu diesen Servern.
In Tabelle 3–1 werden die für die Ausführung von DR akzeptablen Kombinationen aus Solaris-Software und System-Controller (SC)-Firmware für jedes Sun Fire-Mittelklasse-System aufgeführt.
Um die Leistungsmerkmale und Fehlerbehebungen (Bug Fixes) der jüngsten Firmware-Versionen optimal ausnutzen zu können, sollten Sie nur die neuesten SC-Firmware-Versionen auf Ihrem Sun Fire-Mittelklasse-System ausführen. Die aktuellsten Patch-Informationen finden Sie unter http://sunsolve.sun.com.
Plattform |
Solaris-Version |
Mindestversion SC-Firmware |
---|---|---|
Sun Fire E6900/E4900 mit UltraSPARC IV+ |
Solaris 10 3/05 HW1 (eingeschränkte Version) oder Solaris 10 1/06 |
5.19.0 |
E6900/E4900 ohne UltraSPARC IV+ |
Solaris 9 4/04 |
5.16.0 |
Sun Fire 6800/4810/4800/3800 |
Solaris 9 4/04 |
5.16.0 |
Sun Fire 6800/4810/4800/3800 |
Solaris 9 |
5.13.0 |
Sie können die System-Firmware für Ihr Sun Fire-Mittelklasse-System aktualisieren, indem Sie mit einem FTP- oder HTTP-Server, auf dem die Firmware-Abbilder gespeichert sind, eine Verbindung herstellen. Weitere Informationen finden Sie in den Dateien README und Install.info. Diese Dateien sind in den Firmware-Versionen enthalten, die in Ihren Domänen ausgeführt werden. Sun-Patches können Sie unter http://sunsolve.sun.com herunterladen.
In diesem Abschnitt werden wichtige DR-Fehler aufgeführt.
Wenn ein Prozess ein Netzwerkgerät geöffnet hält, schlägt jeder DR-Vorgang fehl, an dem dieses Gerät beteiligt ist. Dämonen und Prozesse, die Referenzzähler führen, hindern DR-Vorgänge am Abschluss.
Problemumgehung: Führen Sie als Superuser folgende Schritte durch:
Entfernen Sie das Verzeichnis /rplboot oder benennen Sie es um.
Fahren Sie die NFS-Dienste herunter.
# sh /etc/init.d/nfs.server stop |
Fahren Sie die Boot-Server-Dienste herunter.
# sh /etc/init.d/boot.server stop |
Führen Sie den DR-Trennvorgang durch.
Starten Sie die NFS-Dienste neu.
# sh /etc/init.d/nfs.server start |
Starten Sie die Boot-Server-Dienste neu.
# sh /etc/init.d/boot.server start |
Auf Sun Fire-Mittelklasse-Systemen kann eine CompactPCI (cPCI)-E/A-Platine nicht dekonfiguriert werden, wenn Port 0 (P0) auf dieser Platine deaktiviert ist. Dieses Problem tritt in Solaris 10 und Solaris 9 auf. Auch bei Solaris 8 tritt dieser Fehler auf, wenn einer oder mehrere der folgenden Patches installiert sind:
Patch-ID 108528-11 bis 108528-29
Patch-ID 111372-02 bis 111372-04
Der Fehler tritt auch nur während DR-Vorgängen auf, an denen cPCI-Platinen beteiligt sind. Sie sehen dann eine Fehlermeldung der Art:
# cfgadm -c unconfigure NO.IB7 cfgadm: Hardware-spezifischer Fehler: unconfigure N0.IB7: Gerät in Benutzung:/ssm@0,0/pci@1b,700000/pci@1 |
NO.IB7 ist eine CompactPCI-E/A-Platine mit deaktiviertem P0.
Problemumgehung: Deaktivieren Sie die Steckplätze statt Port 0.
In diesem Abschnitt werden Probleme beschrieben, die folgende Leistungsmerkmale des Sun Enterprise 10000-Servers betreffen:
System-Service-Prozessorvoraussetzung
Dynamische Rekonfiguration (DR)
InterDomain Networks (IDNs)
Solaris-Betriebssystem in Sun Enterprise 10000-Domänen
Solaris 10 kann in einzelnen Domänen innerhalb eines Sun Enterprise 10000-Systems ausgeführt werden. Der Sun Enterprise 10000 System-Service-Prozessor wird von dieser Version jedoch nicht unterstützt.
Auf Ihrem System-Service-Prozessor (SSP) wird zur Unterstützung von Solaris 10 die SSP 3.5-Software benötigt. Installieren Sie SSP 3.5 zuerst auf Ihrem SSP. Danach können Sie das Solaris 10 BS in einer Sun Enterprise 10000-Domäne installieren oder darauf aktualisieren.
Die SSP 3.5-Software ist ebenfalls dafür erforderlich, dass die Domäne ordnungsgemäß für das DR-Modell 3.0 konfiguriert werden kann.
In diesem Abschnitt werden verschiedene Probleme beschrieben, die mit der dynamischen Rekonfiguration in Sun Enterprise 10000-Domänen zusammenhängen.
Sie müssen in Sun Enterprise 10000-Domänen, in denen das Solaris BS ausgeführt wird, ab Version Solaris 9 12/03 DR 3.0 verwenden. DR-Modell 3.0 bezieht sich auf die Funktionalität, die folgende Befehle auf dem SSP verwendet, um Domänen-DR-Vorgänge durchzuführen:
addboard
moveboard
deleteboard
showdevices
rcfgadm
Sie können den Befehl cfgadm in Domänen ausführen, um Platinenstatusinformationen zu erhalten. DR-Modell 3.0 interagiert auch mit dem RCM (Reconfiguration Coordination Manager), um die DR-Vorgänge mit anderen Anwendungen zu koordinieren, die in einer Domäne ausgeführt werden.
Details zum DR-Modell 3.0 finden Sie im Sun Enterprise 10000 Dynamic Reconfiguration User Guide.
Für diese Solaris-Version löst DR nicht mehr automatisch die Bindung zwischen Benutzerprozessen und CPUs, wenn die CPU getrennt wird. Sie müssen diesen Vorgang vor dem Auslösen einer Trennungssequenz durchführen. Der drain-Vorgang schlägt fehl, wenn CPUs mit gebundenen Prozessen gefunden werden.
Wenn ein Prozess ein Netzwerkgerät geöffnet hält, schlägt jeder DR-Vorgang fehl, an dem dieses Gerät beteiligt ist. Dämonen und Prozesse, die Referenzzähler führen, hindern DR-Vorgänge am Abschluss.
Problemumgehung: Führen Sie als Superuser folgende Schritte durch:
Entfernen Sie das Verzeichnis /rplboot oder benennen Sie es um.
Fahren Sie die NFS-Dienste herunter.
# sh /etc/init.d/nfs.server stop |
Fahren Sie die Boot-Server-Dienste herunter.
# sh /etc/init.d/boot.server stop |
Führen Sie den DR-Trennvorgang durch.
Starten Sie die NFS-Dienste neu.
# sh /etc/init.d/nfs.server start |
Starten Sie die Boot-Server-Dienste neu.
# sh /etc/init.d/boot.server start |
Damit eine Domäne Teil eines InterDomain-Netzwerks werden kann, müssen alle Platinen mit aktivem Speicher in dieser Domäne über mindestens eine aktive CPU verfügen.
Verifizieren Sie, bevor Sie den Befehl boot net an der OpenBoot PROM-Eingabeaufforderung (OK) eingeben, dass die Variable local-mac-address? auf false gesetzt ist. Bei dieser Einstellung handelt es sich um die werkseitige Standardeinstellung. Wenn die Variable auf true gesetzt ist, müssen Sie sicherstellen, dass dieser Wert eine korrekte lokale Konfiguration darstellt.
Eine Variable local-mac-address?, die auf true gesetzt ist, verhindert möglicherweise einen erfolgreichen Start der Domäne über das Netzwerk.
Sie können in einem netcon-Fenster folgenden Befehl an der OpenBoot PROM-Eingabeaufforderung verwenden, um die Werte der OpenBoot PROM-Variablen anzuzeigen:
OK printenv |
Um die Variable local-mac-address? auf die Standardeinstellung zurückzusetzen, verwenden Sie den Befehl setenv:
OK setenv local-mac-address? false |
Dieser Abschnitt enthält die aktuellsten Informationen über DR (Dynamic Reconfiguration)-Funktionen für folgende Mittelklasse-Server, auf denen Solaris 10 ausgeführt wird:
Sun Enterprise 6x00
Sun Enterprise 5x00
Sun Enterprise 4x00
Sun Enterprise 3x00
Weitere Informationen über die dynamische Rekonfiguration von Sun Enterprise Servern finden Sie im Dynamic Reconfiguration User's Guide for Sun Enterprise 3x00/4x00/5x00/6x00 Systems. Die Solaris 10-Version unterstützt alle CPU-/Speicherkarten und die meisten E/A-Karten, die in den Systemen der vorhergehenden Liste enthalten sind.
Stellen Sie vor dem Fortfahren sicher, dass das System dynamische Rekonfiguration unterstützt. Wenn Ihr System ein älteres Modell ist, wird folgende Meldung auf der Konsole angezeigt oder im Konsolenprotokoll erfasst. Ein solches System ist nicht für die dynamische Rekonfiguration geeignet.
Hot Plug not supported in this system |
Folgende E/A-Karten werden derzeit nicht unterstützt:
Typ 2 (Grafik)
Typ 3 (PCI)
Typ 5 (Grafik und SOC+)
In diesem Abschnitt erhalten Sie allgemeine Software-Informationen zu DR.
Zum Aktivieren der dynamischen Rekonfiguration müssen Sie zwei Variablen in der Datei /etc/system festlegen. Außerdem müssen Sie eine zusätzliche Variable festlegen, um das Entfernen von CPU-/Speicherkarten zu aktivieren. Führen Sie die folgenden Schritte aus:
Melden Sie sich als Superuser an.
Fügen Sie der Datei /etc/system folgende Zeilen hinzu:
set pln:pln_enable_detach_suspend=1 set soc:soc_enable_detach_suspend=1 |
Um das Entfernen einer CPU-/Speicherkarte zu aktivieren, fügen Sie der Datei folgende Zeile hinzu:
set kernel_cage_enable=1 |
Das Setzen dieser Variablen aktiviert den Speicherdekonfigurationsvorgang.
Starten Sie das System neu, um die Änderungen zu übernehmen.
Der Stillstandtest wird mit folgendem Befehl gestartet:
# cfgadm -x quiesce-test sysctr10:slotnumber |
Auf einem großen System kann die Ausführung des Stillstandtests möglicherweise bis zu einer Minute dauern. Während dieses Zeitraums werden keine Meldungen angezeigt, wenn cfgadm keine inkompatiblen Treiber findet.
Der Versuch, eine Platine anzuschließen, die auf der Liste deaktivierter Platinen steht, erzeugt möglicherweise eine Fehlermeldung:
# cfgadm -c connect sysctrl0:slotNummer cfgadm: Hardware-spezifischer Fehler: connect fehlgeschlagen: Board deaktiviert: Außer Kraft setzen mit [-f][-o enable-at-boot] |
Zum Überschreiben der deaktivierten Bedingung stehen zwei Optionen zur Verfügung:
Verwenden des Force-Flags (Erzwingen; -f)
# cfgadm -f -c connect sysctrl0:slot Nummer |
Verwenden der Enable-Option (Aktivieren; -o enable-at-boot)
# cfgadm -o enable-at-boot -c connect sysctrl0:slot Nummer |
Um alle Platinen aus der Liste deaktivierter Platinen zu entfernen, wählen Sie in Abhängigkeit von der Eingabeaufforderung, an der Sie den Befehl eingeben möchten, eine der zwei Optionen:
Geben Sie an der Superuser-Eingabeaufforderung Folgendes ein:
# eeprom disabled-board-list= |
Geben Sie an der OpenBoot PROM-Eingabeaufforderung Folgendes ein:
OK set-default disabled-board-list |
Weitere Informationen über die disabled-board-list-Einstellung finden Sie im Abschnitt “Specific NVRAM Variables” im Handbuch Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems. Dieses Handbuch ist Bestandteil der dieser Version beiliegenden Dokumentation.
Informationen über die OpenBoot PROM-Einstellung von disabled-memory-list finden Sie in den Unterlagen dieser Version. Siehe unter “Specific NVRAM Variables” in den Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems in der Solaris on Sun-Hardware-Dokumentation.
Wenn Sie Detach/Unsafe-Treiber aus dem Speicher entfernen müssen, verwenden Sie den Befehl modinfo, um die Modul-IDs der Treiber zu ermitteln. Die Modul-IDs können Sie dann mit dem Befehl modunload zum Entfernen der Detach/Unsafe-Treiber aus dem Speicher verwenden.
Entfernen Sie die Platine so schnell wie möglich aus dem System, wenn folgende Fehlermeldung während einer DR-Anschlusssequenz angezeigt wird:
cfgadm: Hardware-spezifischer Fehler: Verbindungsfehler: firmware operation error |
Bei dieser Platine ist der Selbsttest fehlgeschlagen. Das Entfernen der Platine verhindert mögliche Rekonfigurationsfehler, die während des nächsten Neustarts auftreten können.
Der fehlgeschlagene Selbstteststatus lässt keine weiteren Vorgänge zu. Deshalb müssen Sie die Platine zuerst ausbauen und dann erneut einsetzen, wenn Sie den fehlgeschlagenen Vorgang sofort wiederholen möchten.
Die folgende Liste kann sich jederzeit ändern.
Wenn ein Prozess ein Netzwerkgerät geöffnet hält, schlägt jeder DR-Vorgang fehl, an dem dieses Gerät beteiligt ist. Dämonen und Prozesse, die Referenzzähler führen, hindern DR-Vorgänge am Abschluss.
Problemumgehung: Führen Sie als Superuser folgende Schritte durch:
Entfernen Sie das Verzeichnis /rplboot oder benennen Sie es um.
Fahren Sie die NFS-Dienste herunter.
# sh /etc/init.d/nfs.server stop |
Fahren Sie die Boot-Server-Dienste herunter.
# sh /etc/init.d/boot.server stop |
Führen Sie den DR-Trennvorgang durch.
Starten Sie die NFS-Dienste neu.
# sh /etc/init.d/nfs.server start |
Starten Sie die Boot-Server-Dienste neu.
# sh /etc/init.d/boot.server start |
Wird ein cfgadm-Prozess auf einer Karte ausgeführt, schlägt der Versuch, eine zweite Karte gleichzeitig zu trennen, fehl. Daraufhin wird die folgende Fehlermeldung angezeigt:
cfgadm: Hardware-spezifischer Fehler: disconnect failed: nexus error during detach:Adresse |
Problemumgehung: Führen Sie nur einen cfgadm-Vorgang gleichzeitig aus. Lassen Sie einen cfgadm-Vorgang, der auf einer Karte ausgeführt wird, zuerst abschließen, bevor Sie einen cfgadm-Trennvorgang auf einer zweiten Karte starten.