Solaris 10 6/06 Versionshinweise

Kapitel 3 Systemspezifische Probleme

In diesem Kapitel werden Probleme beschrieben, die speziell bei Sun-Mittelklasse- und -High-End-Servern auftreten. Aktuelle Sun-Server gehören der Sun Fire-Systemfamilie an. Ältere Server gehören der Sun Enterprise-Systemfamilie an.


Hinweis –

Die Versionshinweise der Sun Validation Test Suite sind jetzt ein eigenständiges Dokument, das Sie unter http://sun.com finden.



Hinweis –

Einige der hier beschriebenen Probleme und Fehler wurden in späteren Solaris 10-Versionen behoben. Wenn Sie ein Upgrade Ihrer Solaris-Software ausgeführt haben, kann es also sein, dass einige dieser Probleme und Fehler für Sie nicht mehr relevant sind. Eine Übersicht, welche Fehler und Probleme in Ihrer Solaris 10-Version nicht mehr auftreten, finden Sie in Anhang A, Behobene Fehler in Solaris 10.


Dynamische Rekonfiguration (DR) auf Sun Fire-High-End-Systemen

In diesem Abschnitt werden schwer wiegende domänenseitige DR-Fehler auf folgenden Sun Fire-High-End-Systemen beschrieben, auf denen Solaris 10 ausgeführt wird:

Informationen zu DR-Fehlern bei Sun Management Services finden Sie in den SMS Release Notes für die entsprechende SMS-Version, die auf Ihrem System ausgeführt wird.

Bekannte Software- und Hardware-Fehler

Folgende Software- und Hardware-Fehler treten bei Sun Fire-High-End-Systemen auf.

Das Entfernen eines Netzwerkgeräts schlägt fehl, wenn das Gerät noch von einem Programm geöffnet ist (5054195)

Wenn ein Prozess ein Netzwerkgerät geöffnet hält, schlägt jeder DR-Vorgang fehl, an dem dieses Gerät beteiligt ist. Dämonen und Prozesse, die Referenzzähler führen, hindern DR-Vorgänge am Abschluss.

Abhilfemaßnahme: Führen Sie als Superuser folgende Schritte durch:

  1. Entfernen Sie das Verzeichnis /rplboot oder benennen Sie es um.

  2. Fahren Sie die NFS-Dienste herunter.


    # sh /etc/init.d/nfs.server stop
    
  3. Fahren Sie die Boot-Server-Dienste herunter.


    # sh /etc/init.d/boot.server stop
    
  4. Führen Sie den DR-Trennvorgang durch.

  5. Starten Sie die NFS-Dienste neu.


    # sh /etc/init.d/nfs.server start
    
  6. Starten Sie die Boot-Server-Dienste neu.


    # sh /etc/init.d/boot.server start
    

Deleteboard zeigt Undichtigkeits-Fehler (Leakage) an (4730142)

Möglicherweise kommt es zur Anzeige von Warnungen, wenn ein DR-Befehl auf einem System ausgeführt wird, das mit der SunSwift PCI-Karte, Option 1032, konfiguriert ist. Diese Warnungen treten in Domänen auf, in denen Solaris 8, Solaris 9 oder Solaris 10 ausgeführt wird. Folgende Warnung ist ein Beispiel:


Aug 12 12:27:41 machine genunix: WARNING:
 vmem_destroy('pcisch2_dvma'): leaked

Diese Warnungen sind "gutartig". Der Direct Virtual Memory Access (DVMA)-Raum wird während des DR-Vorgangs ordnungsgemäß aktualisiert. Es kommt zu keinen tatsächlichen Kernel-Speicherlecks.

Abhilfemaßnahme: Um die Anzeige der Warnung zu verhindern, fügen Sie folgende Zeile in /etc/system hinzu:


set pcisch:pci_preserve_iommu_tsb=0

Die Verknüpfung eines GigaSwift Ethernet MMF mit einem CISCO 4003 Switch schlägt nach DR-Attach (Anschließen) fehl

Die Verknüpfung schlägt zwischen einem System mit Sun GigaSwift Ethernet MMF Option X1151A und bestimmten CISCO-Switches fehl. Der Fehler tritt auf, wenn Sie versuchen, einen DR-Vorgang auf einem solchen System auszuführen, das an einen der folgenden Switches angeschlossen ist:

Bei einem CISCO 6509 Switch tritt dieses Problem nicht auf.

Abhilfemaßnahme: Verwenden Sie einen anderen Switch. Alternativ können Sie sich wegen eines Patches für einen der aufgeführten Switches an Cisco wenden.

Dynamische Rekonfiguration (DR) auf Sun-Mittelklasse-Systemen

In diesem Abschnitt werden schwer wiegende DR-Fehler beschrieben, die auf folgenden Sun Fire-Mittelklasse-Systemen auftreten:

Mindestversionen von System-Controller-Firmware

In Tabelle 3–1 werden die für die Ausführung von DR akzeptablen Kombinationen aus Solaris-Software und System-Controller (SC)-Firmware für jedes Sun Fire-Mittelklasse-System aufgeführt.


Hinweis –

Um die Leistungsmerkmale und Fehlerbehebungen (Bug Fixes) der jüngsten Firmware-Versionen optimal ausnutzen zu können, sollten Sie nur die neuesten SC-Firmware-Versionen auf Ihrem Sun Fire-Mittelklasse-System ausführen. Die aktuellsten Patch-Informationen finden Sie unter http://sunsolve.sun.com.


Tabelle 3–1 Mindestversionen von SC-Firmware für jede Plattform und Solaris-Version

Plattform 

Solaris-Version 

Mindestversion SC-Firmware 

Sun Fire E6900/E4900 mit UltraSPARC IV+ 

Solaris 10 3/05 HW1 (eingeschränkte Version) oder Solaris 10 1/06 

5.19.0 

E6900/E4900 ohne UltraSPARC IV+ 

Solaris 9 4/04 

5.16.0 

Sun Fire 6800/4810/4800/3800 

Solaris 9 4/04 

5.16.0 

Sun Fire 6800/4810/4800/3800 

Solaris 9 

5.13.0 

Sie können die System-Firmware für Ihr Sun Fire-Mittelklasse-System aktualisieren, indem Sie mit einem FTP- oder HTTP-Server, auf dem die Firmware-Abbilder gespeichert sind, eine Verbindung herstellen. Weitere Informationen finden Sie in den Dateien README und Install.info. Diese Dateien sind in den Firmware-Versionen enthalten, die in Ihren Domänen ausgeführt werden. Sun-Patches können Sie unter http://sunsolve.sun.com herunterladen.

Bekannte DR-Softwarefehler

In diesem Abschnitt werden wichtige DR-Fehler aufgeführt.

Das Entfernen eines Netzwerkgeräts schlägt fehl, wenn das Gerät noch von einem Programm geöffnet ist (5054195)

Wenn ein Prozess ein Netzwerkgerät geöffnet hält, schlägt jeder DR-Vorgang fehl, an dem dieses Gerät beteiligt ist. Dämonen und Prozesse, die Referenzzähler führen, hindern DR-Vorgänge am Abschluss.

Abhilfemaßnahme: Führen Sie als Superuser folgende Schritte durch:

  1. Entfernen Sie das Verzeichnis /rplboot oder benennen Sie es um.

  2. Fahren Sie die NFS-Dienste herunter.


    # sh /etc/init.d/nfs.server stop
    
  3. Fahren Sie die Boot-Server-Dienste herunter.


    # sh /etc/init.d/boot.server stop
    
  4. Führen Sie den DR-Trennvorgang durch.

  5. Starten Sie die NFS-Dienste neu.


    # sh /etc/init.d/nfs.server start
    
  6. Starten Sie die Boot-Server-Dienste neu.


    # sh /etc/init.d/boot.server start
    

cPCI-Platine mit einem deaktivierten Port 0 kann nicht dekonfiguriert werden (4798990)

Auf Sun Fire-Mittelklasse-Systemen kann eine CompactPCI (cPCI)-E/A-Platine nicht dekonfiguriert werden, wenn Port 0 (P0) auf dieser Platine deaktiviert ist. Dieses Problem tritt in Solaris 10 und Solaris 9 auf. Auch bei Solaris 8 tritt dieser Fehler auf, wenn einer oder mehrere der folgenden Patches installiert sind:

Der Fehler tritt auch nur während DR-Vorgängen auf, an denen cPCI-Platinen beteiligt sind. Sie sehen dann eine Fehlermeldung der Art:


# cfgadm -c unconfigure NO.IB7
cfgadm: Hardware-spezifischer Fehler: unconfigure N0.IB7: Gerät in Benutzung:/ssm@0,0/pci@1b,700000/pci@1

NO.IB7 ist eine CompactPCI-E/A-Platine mit deaktiviertem P0.

Abhilfemaßnahme: Deaktivieren Sie die Steckplätze statt Port 0.

Sun Enterprise 10000 Versionshinweise

In diesem Abschnitt werden Probleme beschrieben, die folgende Leistungsmerkmale des Sun Enterprise 10000-Servers betreffen:


Hinweis –

Solaris 10 kann in einzelnen Domänen innerhalb eines Sun Enterprise 10000-Systems ausgeführt werden. Der Sun Enterprise 10000 System-Service-Prozessor wird von dieser Version jedoch nicht unterstützt.


System-Service-Prozessorvoraussetzung

Auf Ihrem System-Service-Prozessor (SSP) wird zur Unterstützung von Solaris 10 die SSP 3.5-Software benötigt. Installieren Sie SSP 3.5 zuerst auf Ihrem SSP. Danach können Sie das Solaris 10 BS in einer Sun Enterprise 10000-Domäne installieren oder darauf aktualisieren.

Die SSP 3.5-Software ist ebenfalls dafür erforderlich, dass die Domäne ordnungsgemäß für das DR-Modell 3.0 konfiguriert werden kann.

Dynamische Rekonfigurationsprobleme

In diesem Abschnitt werden verschiedene Probleme beschrieben, die mit der dynamischen Rekonfiguration in Sun Enterprise 10000-Domänen zusammenhängen.

DR-Modell 3.0

Sie müssen in Sun Enterprise 10000-Domänen, in denen das Solaris BS ausgeführt wird, ab Version Solaris 9 12/03 DR 3.0 verwenden. DR-Modell 3.0 bezieht sich auf die Funktionalität, die folgende Befehle auf dem SSP verwendet, um Domänen-DR-Vorgänge durchzuführen:

Sie können den Befehl cfgadm in Domänen ausführen, um Platinenstatusinformationen zu erhalten. DR-Modell 3.0 interagiert auch mit dem RCM (Reconfiguration Coordination Manager), um die DR-Vorgänge mit anderen Anwendungen zu koordinieren, die in einer Domäne ausgeführt werden.

Details zum DR-Modell 3.0 finden Sie im Sun Enterprise 10000 Dynamic Reconfiguration User Guide.

DR und gebundene Benutzerprozesse

Für diese Solaris-Version löst DR nicht mehr automatisch die Bindung zwischen Benutzerprozessen und CPUs, wenn die CPU getrennt wird. Sie müssen diesen Vorgang vor dem Auslösen einer Trennungssequenz durchführen. Der drain-Vorgang schlägt fehl, wenn CPUs mit gebundenen Prozessen gefunden werden.

Das Entfernen eines Netzwerkgeräts schlägt fehl, wenn das Gerät noch von einem Programm geöffnet ist (5054195)

Wenn ein Prozess ein Netzwerkgerät geöffnet hält, schlägt jeder DR-Vorgang fehl, an dem dieses Gerät beteiligt ist. Dämonen und Prozesse, die Referenzzähler führen, hindern DR-Vorgänge am Abschluss.

Abhilfemaßnahme: Führen Sie als Superuser folgende Schritte durch:

  1. Entfernen Sie das Verzeichnis /rplboot oder benennen Sie es um.

  2. Fahren Sie die NFS-Dienste herunter.


    # sh /etc/init.d/nfs.server stop
    
  3. Fahren Sie die Boot-Server-Dienste herunter.


    # sh /etc/init.d/boot.server stop
    
  4. Führen Sie den DR-Trennvorgang durch.

  5. Starten Sie die NFS-Dienste neu.


    # sh /etc/init.d/nfs.server start
    
  6. Starten Sie die Boot-Server-Dienste neu.


    # sh /etc/init.d/boot.server start
    

Das Aktivieren von DR 3.0 erfordert in bestimmten Situationen einen zusätzlichen Schritt (4507010)

Die SSP 3.5-Software ist erforderlich, damit eine Domäne ordnungsgemäß für DR 3.0 konfiguriert werden kann. Nach der Aktualisierung Ihres SSP auf SSP 3.5 führen Sie bei in der Domäne aktiviertem DR 3.0 folgenden Befehl aus:


# devfsadm -i ngdr

InterDomain-Netzwerke

Damit eine Domäne Teil eines InterDomain-Netzwerks werden kann, müssen alle Platinen mit aktivem Speicher in dieser Domäne über mindestens eine aktive CPU verfügen.

OpenBoot PROM-Variablen

Verifizieren Sie, bevor Sie den Befehl boot net an der OpenBoot PROM-Eingabeaufforderung (OK) eingeben, dass die Variable local-mac-address? auf false gesetzt ist. Bei dieser Einstellung handelt es sich um die werkseitige Standardeinstellung. Wenn die Variable auf true gesetzt ist, müssen Sie sicherstellen, dass dieser Wert eine korrekte lokale Konfiguration darstellt.


Achtung – Achtung –

Eine Variable local-mac-address?, die auf true gesetzt ist, verhindert möglicherweise einen erfolgreichen Start der Domäne über das Netzwerk.


Sie können in einem netcon-Fenster folgenden Befehl an der OpenBoot PROM-Eingabeaufforderung verwenden, um die Werte der OpenBoot PROM-Variablen anzuzeigen:


OK printenv

Um die Variable local-mac-address? auf die Standardeinstellung zurückzusetzen, verwenden Sie den Befehl setenv:


OK setenv local-mac-address? false

Dynamische Rekonfiguration (DR) auf Sun Enterprise-Mittelklasse-Systemen

Dieser Abschnitt enthält die aktuellsten Informationen über DR (Dynamic Reconfiguration)-Funktionen für folgende Mittelklasse-Server, auf denen Solaris 10 ausgeführt wird:

Weitere Informationen über die dynamische Rekonfiguration von Sun Enterprise Servern finden Sie im Dynamic Reconfiguration User's Guide for Sun Enterprise 3x00/4x00/5x00/6x00 Systems. Die Solaris 10-Version unterstützt alle CPU-/Speicherkarten und die meisten E/A-Karten, die in den Systemen der vorhergehenden Liste enthalten sind.

Unterstützte Hardware

Stellen Sie vor dem Fortfahren sicher, dass das System dynamische Rekonfiguration unterstützt. Wenn Ihr System ein älteres Modell ist, wird folgende Meldung auf der Konsole angezeigt oder im Konsolenprotokoll erfasst. Ein solches System ist nicht für die dynamische Rekonfiguration geeignet.


Hot Plug not supported in this system

Folgende E/A-Karten werden derzeit nicht unterstützt:

Software-Hinweise

In diesem Abschnitt erhalten Sie allgemeine Software-Informationen zu DR.

Aktivieren der dynamischen Rekonfiguration

Zum Aktivieren der dynamischen Rekonfiguration müssen Sie zwei Variablen in der Datei /etc/system festlegen. Außerdem müssen Sie eine zusätzliche Variable festlegen, um das Entfernen von CPU-/Speicherkarten zu aktivieren. Führen Sie folgende Schritte durch:

  1. Melden Sie sich als Superuser an.

  2. Fügen Sie der Datei /etc/system folgende Zeilen hinzu:


    set pln:pln_enable_detach_suspend=1
    set soc:soc_enable_detach_suspend=1
    
  3. Um das Entfernen einer CPU-/Speicherkarte zu aktivieren, fügen Sie der Datei folgende Zeile hinzu:


    set kernel_cage_enable=1
    

    Das Setzen dieser Variablen aktiviert den Speicherdekonfigurationsvorgang.

  4. Starten Sie das System neu, um die Änderungen zu übernehmen.

Stillstandtest (Quiesce)

Der Stillstandtest wird mit folgendem Befehl gestartet:


 # cfgadm -x quiesce-test sysctr10:slotnumber

Auf einem großen System kann die Ausführung des Stillstandtests möglicherweise bis zu einer Minute dauern. Während dieses Zeitraums werden keine Meldungen angezeigt, wenn cfgadm keine inkompatiblen Treiber findet.

Liste deaktivierter Platinen

Der Versuch, eine Platine anzuschließen, die auf der Liste deaktivierter Platinen steht, erzeugt möglicherweise eine Fehlermeldung:


# cfgadm -c connect sysctrl0:slotNummer







cfgadm: Hardware-spezifischer Fehler: connect fehlgeschlagen:
Board deaktiviert: Außer Kraft setzen mit [-f][-o enable-at-boot]

Zum Überschreiben der deaktivierten Bedingung stehen zwei Optionen zur Verfügung:

Um alle Platinen aus der Liste deaktivierter Platinen zu entfernen, wählen Sie in Abhängigkeit von der Eingabeaufforderung, an der Sie den Befehl eingeben möchten, eine der zwei Optionen:

Weitere Informationen über die disabled-board-list-Einstellung finden Sie im Abschnitt “Specific NVRAM Variables“ im Handbuch Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems. Dieses Handbuch ist Bestandteil der dieser Version beiliegenden Dokumentation.

Liste deaktivierter Speicher

Informationen über die OpenBoot PROM-Einstellung von disabled-memory-list finden Sie in den Unterlagen dieser Version. Siehe unter “Specific NVRAM Variables” in den Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems in der Solaris on Sun-Hardware-Dokumentation.

Entfernen von Detach/Unsafe-Treibern aus dem Speicher

Wenn Sie Detach/Unsafe-Treiber aus dem Speicher entfernen müssen, verwenden Sie den Befehl modinfo, um die Modul-IDs der Treiber zu ermitteln. Die Modul-IDs können Sie dann mit dem Befehl modunload zum Entfernen der Detach/Unsafe-Treiber aus dem Speicher verwenden.

Fehlschlagen des Selbsttests während einer Anschlusssequenz

Entfernen Sie die Platine so schnell wie möglich aus dem System, wenn folgende Fehlermeldung während einer DR-Anschlusssequenz angezeigt wird:


cfgadm: Hardware-spezifischer Fehler: Verbindungsfehler: firmware operation error

Bei dieser Platine ist der Selbsttest fehlgeschlagen. Das Entfernen der Platine verhindert mögliche Rekonfigurationsfehler, die während des nächsten Neustarts auftreten können.

Der fehlgeschlagene Selbstteststatus lässt keine weiteren Vorgänge zu. Deshalb müssen Sie die Platine zuerst ausbauen und dann erneut einsetzen, wenn Sie den fehlgeschlagenen Vorgang sofort wiederholen möchten.

Bekannte Fehler (Bugs)

Die folgende Liste kann sich jederzeit ändern.

Das Entfernen eines Netzwerkgeräts schlägt fehl, wenn das Gerät noch von einem Programm geöffnet ist (5054195)

Wenn ein Prozess ein Netzwerkgerät geöffnet hält, schlägt jeder DR-Vorgang fehl, an dem dieses Gerät beteiligt ist. Dämonen und Prozesse, die Referenzzähler führen, hindern DR-Vorgänge am Abschluss.

Abhilfemaßnahme: Führen Sie als Superuser folgende Schritte durch:

  1. Entfernen Sie das Verzeichnis /rplboot oder benennen Sie es um.

  2. Fahren Sie die NFS-Dienste herunter.


    # sh /etc/init.d/nfs.server stop
    
  3. Fahren Sie die Boot-Server-Dienste herunter.


    # sh /etc/init.d/boot.server stop
    
  4. Führen Sie den DR-Trennvorgang durch.

  5. Starten Sie die NFS-Dienste neu.


    # sh /etc/init.d/nfs.server start
    
  6. Starten Sie die Boot-Server-Dienste neu.


    # sh /etc/init.d/boot.server start
    

Nach einem schwer wiegenden Zurücksetzen ist das Speicher-Interleaving falsch gesetzt (4156075)

Das Speicher-Interleaving befindet sich in einem fehlerhaften Zustand, wenn ein Sun Enterprise5 x500-Server nach einem schwer wiegenden Zurücksetzen neu gestartet wird. Alle nachfolgenden DR-Vorgänge schlagen fehl. Das Problem tritt nur auf Systemen auf, bei denen das Speicher-Interleaving auf min gesetzt ist.

Abhilfemaßnahme: Wählen Sie eine der folgenden Optionen:

Eine CPU-/Speicherkarte mit interleaved Speicher kann nicht dekonfiguriert werden (4210234)

Um eine CPU-Karte mit Speicher oder eine reine Speicherkarte zu dekonfigurieren und anschließend zu trennen, müssen Sie zuerst den Speicher dekonfigurieren. Wenn der Speicher der Karte jedoch mit Speicher auf anderen Karten im Interleave-Modus betrieben wird, kann der Speicher aktuell nicht dynamisch dekonfiguriert werden.

Speicher-Interleaving kann durch Verwendung eines der Befehle prtdiag oder cfgadm angezeigt werden.

Abhilfemaßnahme: Fahren Sie das System herunter, bevor Sie die Karte warten, und starten Sie anschließend erneut. Um zukünftige DR-Vorgänge an der CPU-/Speicherkarte zuzulassen, setzen Sie die NVRAM-Eigenschaft memory-interleave auf min. Eine damit in Zusammenhang stehende Diskussion zum Thema interleaved Speicher finden Sie unter Nach einem schwer wiegenden Zurücksetzen ist das Speicher-Interleaving falsch gesetzt (4156075).

Eine CPU-/Speicherkarte mit permanentem Speicher kann nicht dekonfiguriert werden (4210280)

Um eine CPU-Karte mit Speicher oder eine reine Speicherkarte zu dekonfigurieren und anschließend zu trennen, müssen Sie zuerst den Speicher dekonfigurieren. Mancher Speicher kann jedoch derzeit nicht versetzt werden. Dieser Speicher wird als permanent betrachtet.

Permanenter Speicher auf einer Karte ist in der cfgadm-Statusanzeige als “permanent“ gekennzeichnet:


# cfgadm -s cols=ap_id:type:info
Ap_Id Type Information
ac0:bank0 memory slot3 64Mb base 0x0 permanent
ac0:bank1 memory slot3 empty
ac1:bank0 memory slot5 empty
ac1:bank1 memory slot5 64Mb base 0x40000000

In diesem Beispiel ist die Karte in Slot3 mit permanentem Speicher ausgerüstet, weshalb sie nicht entfernt werden kann.

Abhilfemaßnahme: Fahren Sie das System herunter, bevor Sie die Karte warten, und starten Sie anschließend erneut.

Bei gleichzeitiger Ausführung von cfgadm-Befehlen schlägt ein cfgadm-Trennvorgang fehl (4220105)

Wird ein cfgadm-Prozess auf einer Karte ausgeführt, schlägt der Versuch, eine zweite Karte gleichzeitig zu trennen, fehl. Folgende Fehlermeldung wird angezeigt:


cfgadm: Hardware-spezifischer Fehler:
disconnect failed: nexus error during detach:Adresse

Abhilfemaßnahme: Führen Sie nur einen cfgadm-Vorgang gleichzeitig aus. Lassen Sie einen cfgadm-Vorgang, der auf einer Karte ausgeführt wird, zuerst abschließen, bevor Sie einen cfgadm-Trennvorgang auf einer zweiten Karte starten.