Solaris 10 10/08 Versionshinweise

Kapitel 3 Systemspezifische Probleme

In diesem Kapitel werden Probleme beschrieben, die speziell bei Sun-Mittelklasse- und -High-End-Servern auftreten. Aktuelle Sun-Server gehören der Sun Fire-Systemfamilie an. Ältere Server gehören der Sun Enterprise-Systemfamilie an.


Hinweis –

Die Versionshinweise der Sun Validation Test Suite sind jetzt ein eigenständiges Dokument, das Sie unter http://sun.com finden.



Hinweis –

Informationen zu Fehlern und Problemen, die behoben worden und nicht mehr für die Solaris 10 08/08-Software gelten, finden Sie in Anhang ABehobene Fehler in Solaris 10.


Dynamische Rekonfiguration (DR) auf Sun Fire-High-End-Systemen

In diesem Abschnitt werden schwerwiegende domänenseitigeDR-Fehler auf folgenden Sun Fire-High-End-Systemen beschrieben, auf denen Solaris 10 installiert ist:

Informationen zu DR-Fehlern bei Sun Management Services finden Sie in den SMS Release Notes für die entsprechende SMS-Version, die auf Ihrem System ausgeführt wird.


Hinweis –

Diese Informationen gelten nur für DR, da dies nur auf den in diesem Abschnitt aufgeführten Servern ausgeführt wird. Informationen zu DR auf anderen Servern finden Sie in den Versions- bzw. Produkthinweisen (Release Notes bzw. Product Notes) für diese Server bzw. in den Abschnitten zu diesen Servern.


Bekannte Software- und Hardware-Fehler

Folgende Software- und Hardware-Fehler treten bei Sun Fire-High-End-Systemen auf.

Deleteboard zeigt Undichtigkeits-Fehler (Leakage) an (4730142)

Möglicherweise kommt es zur Anzeige von Warnungen, wenn einDR-Befehl auf einem System ausgeführt wird, das mit der SunSwift PCI-Karte, Option 1032, konfiguriert ist. Diese Warnungen treten in Domänen auf, in denen Solaris 8, Solaris 9 oder Solaris 10 ausgeführt wird. Die folgende Warnung ist ein Beispiel:


Aug 12 12:27:41 machine genunix: WARNING:
 vmem_destroy('pcisch2_dvma'): leaked

Diese Warnungen sind gutartig. Der Direct Virtual Memory Access (DVMA)-Raum wird während des DR-Vorgangs ordnungsgemäß aktualisiert. Es kommt zu keinen tatsächlichen Kernel-Speicherlecks.

Problemumgehung: Fügen Sie die folgende Zeile in/etc/system ein, um die Anzeige der Warnung zu verhindern:


set pcisch:pci_preserve_iommu_tsb=0

Die Verknüpfung eines GigaSwift Ethernet MMF mit einem CISCO4003 Switch schlägt nach DR-Attach (Anschließen) fehl

Die Verknüpfung schlägt zwischen einem System mit Sun GigaSwift Ethernet MMF Option X1151A und bestimmten CISCO-Switches fehl. Der Fehler tritt auf, wenn Sie versuchen, einen DR-Vorgang auf einem solchen System auszuführen, das an einen der folgenden Switches angeschlossen ist:

Bei einem CISCO6509 Switch tritt dieses Problem nicht auf.

Problemumgehung: Verwenden Sie einen anderen Switch. Alternativ können Sie sich wegen eines Patches für einen der aufgeführten Switches an Cisco wenden.

Dynamische Rekonfiguration (DR) auf Sun Fire-Midrange-Systemen

In diesem Abschnitt werden schwer wiegende DR-Fehler beschrieben, die auf folgenden Sun Fire-Midrange-Systemen auftreten:


Hinweis –

Diese Informationen gelten nur für DR, da dies nur auf den in diesem Abschnitt aufgeführten Servern ausgeführt wird. Informationen zu DR auf anderen Servern finden Sie in den Versions- bzw. Produkthinweisen (Release Notes bzw. Product Notes) für diese Server bzw. in den Abschnitten zu diesen Servern.


Mindestversionen von System-Controller-Firmware

In Tabelle 3–1 sind·die für die Ausführung von DR akzeptablen Kombinationen aus Solaris-Software und System-Controller (SC)-Firmware für jedes Sun Fire-Midrange-System aufgeführt.


Hinweis –

Um die Leistungsmerkmale und Fehlerbehebungen (Bug Fixes) der jüngsten Firmware-Versionen optimal ausnutzen zu können, sollten Sie auf Ihrem Sun Fire-Midrange-System nur die neuesten SC-Firmware-Versionen ausführen. Die aktuellsten Patch-Informationen finden Sie unterhttp://sunsolve.sun.com.


Tabelle 3–1 Mindestversionen von SC-Firmware für jede Plattform und Solaris-Version

Plattform 

Solaris-Version 

Mindestversion SC-Firmware 

Sun Fire E6900/E4900 mit UltraSPARC IV+ 

Solaris 10 3/05 HW1 (eingeschränkte Version) oder Solaris 10 1/06 

5.19.0 

E6900/E4900 ohne UltraSPARC IV+ 

Solaris 9 4/04 

5.16.0 

Sun Fire 6800/4810/4800/3800 

Solaris 9 4/04 

5.16.0 

Sun Fire 6800/4810/4800/3800 

Solaris 9 

5.13.0 

Sie können die System-Firmware für Ihr Sun Fire-Midrange-System aktualisieren, indem Sie mit einem FTP- oder HTTP-Server, auf dem die Firmware-Abbilder gespeichert sind, eine Verbindung herstellen. Weitere Informationen finden Sie in denDateien README und Install.info . Diese Dateien sind in den Firmware-Versionen enthalten, die in Ihren Domänen ausgeführt werden. Sun-Patches können Sie von http://sunsolve.sun.com herunterladen.

Bekannte DR-Softwarefehler

In diesem Abschnitt werden wichtige DR-Fehler aufgeführt.

Das Entfernen eines Netzwerkgeräts schlägt fehl, wenn das Gerät noch von einem Programm geöffnet ist (5054195)

Wenn ein Prozess ein Netzwerkgerät geöffnet hält, schlägt jeder DR-Vorgang fehl, an dem dieses Gerät beteiligt ist. Dämonen und Prozesse, die Referenzzähler führen, hindern DR-Vorgänge am Abschluss.

Problemumgehung: Führen Sie als Superuser folgende Schritte durch:

  1. Entfernen Sie das Verzeichnis /rplboot oder benennen Sie es um.

  2. Fahren Sie die NFS-Dienste herunter.


    # sh /etc/init.d/nfs.server stop
    
  3. Fahren Sie die Boot-Server-Dienste herunter.


    # sh /etc/init.d/boot.server stop
    
  4. Führen Sie den DR-Trennvorgang durch.

  5. Starten Sie die NFS-Dienste neu.


    # sh /etc/init.d/nfs.server start
    
  6. Starten Sie die Boot-Server-Dienste neu.


    # sh /etc/init.d/boot.server start
    

cPCI-Platine mit einem deaktivierten Port 0 kann nicht dekonfiguriert werden (4798990)

Auf Sun Fire-Midrange-Systemen kann eine CompactPCI (cPCI)-E/A-Platine nicht dekonfiguriert werden, wenn Port 0 (P0) auf dieser Platine deaktiviert ist. Dieses Problem tritt in Solaris 10 und Solaris 9 auf. In Solaris 8 tritt dieser Fehler ebenfalls auf, wenn eines oder mehrere der folgenden Patches installiert sind:

Der Fehler tritt auch nur während DR-Vorgängen auf, an denen cPCI-Platinen beteiligt sind. Sie sehen dann eine Fehlermeldung der Art:


# cfgadm -c unconfigure NO.IB7
cfgadm: Hardware specific failure: unconfigure N0.IB7: Device
busy:/ssm@0,0/pci@1b,700000/pci@1

NO.IB7 ist eine CompactPCI-E/A-Platine mit deaktiviertem P0.

Problemumgehung: Deaktivieren Sie die Steckplätze statt Port 0.

Sun Enterprise 10000 Versionshinweise

In diesem Abschnitt werden Probleme beschrieben, die folgende Leistungsmerkmale des Sun Enterprise 10000-Servers betreffen:


Hinweis –

Solaris 10 kann in einzelnen Domänen innerhalb eines Sun Enterprise 10000-Systems ausgeführt werden. Der Sun Enterprise 10000 System-Service-Prozessor wird von dieser Version jedoch nicht unterstützt.


System-Service-Prozessorvoraussetzung

Auf dem·System-Service-Prozessor (SSP) wird zur Unterstützung von Solaris 10 die SSP 3.5-Software benötigt. Installieren Sie SSP 3.5 zuerst auf Ihrem SSP. Danach können Sie das Betriebssystem Solaris 10 in einer Sun Enterprise 10000-Domäne installieren oder darauf aktualisieren.

Die SSP 3.5-Software ist ebenfalls dafür erforderlich, dass die Domäne ordnungsgemäß für das DR-Modell 3.0 konfiguriert werden kann.

Dynamische Rekonfigurationsprobleme

In diesem Abschnitt werden verschiedene Probleme beschrieben, die mit der dynamischen Rekonfiguration in Sun Enterprise 10000-Domänen zusammenhängen.

DR-Modell 3.0

Sie müssen in Sun Enterprise 10000-Domänen, in denen das Solaris BS ausgeführt wird, ab Version Solaris 9 12/03 DR 3.0 verwenden. DR-Modell 3.0 bezieht sich auf die Funktionalität, die folgende Befehle auf dem SSP verwendet, um Domänen-DR-Vorgänge durchzuführen:

Sie können den Befehl cfgadm in Domänen ausführen und so Platinenstatusinformationen erhalten. DR-Modell 3.0 interagiert auch mit dem RCM (Reconfiguration Coordination Manager), um dieDR-Vorgänge mit anderen Anwendungen zu koordinieren, die in einer Domäne ausgeführt werden.

Ausführliche Informationen zum zum DR-Modell 3.0 finden Sie im Sun Enterprise 10000 Dynamic Reconfiguration User Guide.

DR und gebundene Benutzerprozesse

Für diese Solaris-Version löst DR nicht mehr automatisch die Bindung zwischen Benutzerprozessen und CPUs, wenn die CPU getrennt wird. Sie müssen diesen Vorgang vor dem Auslösen einer Trennungssequenz durchführen. Der drain-Vorgang schlägt fehl, wenn CPUs mit gebundenen Prozessen gefunden werden.

Das Entfernen eines Netzwerkgeräts schlägt fehl, wenn das Gerät noch von einem Programm geöffnet ist (5054195)

Wenn ein Prozess ein Netzwerkgerät geöffnet hält, schlägt jeder DR-Vorgang fehl, an dem dieses Gerät beteiligt ist. Dämonen und Prozesse, die Referenzzähler führen, hindern DR-Vorgänge am Abschluss.

Problemumgehung: Führen Sie als Superuser folgende Schritte durch:

  1. Entfernen Sie das Verzeichnis /rplboot oder benennen Sie es um.

  2. Fahren Sie die NFS-Dienste herunter.


    # sh /etc/init.d/nfs.server stop
    
  3. Fahren Sie die Boot-Server-Dienste herunter.


    # sh /etc/init.d/boot.server stop
    
  4. Führen Sie den DR-Trennvorgang durch.

  5. Starten Sie die NFS-Dienste neu.


    # sh /etc/init.d/nfs.server start
    
  6. Starten Sie die Boot-Server-Dienste neu.


    # sh /etc/init.d/boot.server start
    

InterDomain-Netzwerke

Damit eine Domäne Teil eines InterDomain-Netzwerks werden kann, müssen alle Platinen mit aktivem Speicher in dieser Domäne über mindestens eine aktive CPU verfügen.

OpenBoot PROM-Variablen

Verifizieren Sie, bevor Sie den Befehl boot net an der OpenBoot PROM-Eingabeaufforderung (OK)eingeben, dass die Variable local-mac-address? auf false gesetzt ist. Dies ist die werkseitige Standardeinstellung. Wenn die Variable auf true gesetzt ist, müssen Sie sicherstellen, dass dieser Wert eine korrekte lokale Konfiguration darstellt.


Achtung – Achtung –

Eine Variable local-mac-address?, die auf true gesetzt ist, verhindert möglicherweise einen erfolgreichen Start der Domäne über dasNetzwerk.


Sie können in einem netcon-Fenster folgenden Befehl an der OpenBoot PROM-Eingabeaufforderung verwenden, um die Werte der OpenBoot PROM-Variablen anzuzeigen:


OK printenv

Um die Variable local-mac-address? auf die Standardeinstellung zurückzusetzen, verwenden Sie den Befehl setenv:


OK setenv local-mac-address? false

Dynamische Rekonfiguration auf Sun Fire-Midrange-Systemen

Dieser Abschnitt enthält die aktuellsten Informationen über DR (Dynamic Reconfiguration)-Funktionen für folgende Midrange-Server, auf denen Solaris 10 ausgeführt wird:

Weitere Informationen über die dynamische Rekonfiguration von Sun Enterprise Servern finden Sie im Dynamic Reconfiguration User's Guide for Sun Enterprise 3x00/4x00/5x00/6x00 Systems. Solaris 10 unterstützt alle CPU-/Speicherkarten und die meisten E/A-Karten, die in den Systemen der vorhergehenden Liste enthalten sind.

Unterstützte Hardware

Stellen Sie vor dem Fortfahren sicher, dass das System dynamische Rekonfiguration unterstützt. Wenn Ihr System ein älteres Modell ist, wird auf der Konsole folgende Meldung angezeigt bzw. im Konsolenprotokoll erfasst. Ein solches System eignet sich·nicht für die dynamische Rekonfiguration.


Hot Plug not supported in this system

Folgende E/A-Karten werden derzeit nicht unterstützt:

Software-Hinweise

Dieser Abschnitt enthält allgemeine Software-Informationen zu DR.

Aktivieren der dynamischen Rekonfiguration

Zum Aktivieren der dynamischen Rekonfiguration müssen Sie zwei Variablen in der Datei /etc/system festlegen. Außerdem müssen Sie eine zusätzliche Variable festlegen, um das Entfernen von CPU-/Speicherkarten zu aktivieren. Führen Sie die folgenden Schritte aus:

  1. Melden Sie sich als Superuser an.

  2. Fügen Sie der Datei /etc/system die folgenden Zeilen hinzu:


    set pln:pln_enable_detach_suspend=1
    set soc:soc_enable_detach_suspend=1
    
  3. Um das Entfernen einer CPU-/Speicherkarte zu aktivieren, fügen Sie der Datei folgende Zeile hinzu:


    set kernel_cage_enable=1
    

    Das Setzen dieser Variablen aktiviert den Speicherdekonfigurationsvorgang.

  4. Booten Sie das System neu, um die Änderungen·zu übernehmen.

Stillstandtest (Quiesce)

Der Stillstandtest wird mit folgendem Befehl gestartet:


 # cfgadm -x quiesce-test sysctr10:slot number

Auf einem großen System kann die Ausführung des Stillstandtests möglicherweise bis zu eine Minute lang dauern. Während dieses Zeitraums werden keine Meldungen angezeigt, wenn cfgadm keine inkompatiblen Treiber findet.

Liste deaktivierter Platinen

Der Versuch, eine Platine anzuschließen, die auf der Liste deaktivierter Platinen steht, erzeugt möglicherweise eine Fehlermeldung:


# cfgadm -c connect sysctrl0:slotnumber







cfgadm: Hardware specific failure: connect failed:
board is disabled: must override with [-f][-o enable-at-boot]

Zum Überschreiben der deaktivierten Bedingung gibt es·zwei Möglichkeiten:

Um alle Platinen aus der Liste deaktivierter Platinen zu entfernen, wählen Sie in Abhängigkeit von der Eingabeaufforderung, an der Sie den Befehl eingeben möchten, eine der zwei Optionen:

Weitere Informationen zur Einstellung disabled-board-list finden Sie im Abschnitt „Specific NVRAM Variables“ im Handbuch Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems. Dieses Handbuch ist Bestandteil der dieser Version beiliegenden Dokumentation.

Liste deaktivierter Speicher

Informationen zur OpenBoot PROM-Einstellung von disabled-memory-list finden Sie in den Unterlagen dieser Version. Siehe unter „Specific NVRAM Variables“ in Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems im Dokumentationssatz „Solaris on Sun Hardware“.

Entfernen von Detach/Unsafe-Treibern aus dem Speicher

Wenn Sie Detach/Unsafe-Treiber aus dem Speicher entfernen müssen, können Sie mit dem Befehl modinfodieModul-IDs der Treiber ermitteln. DieModul-IDs können Sie dann mit dem Befehl modunload zum Entfernen der Detach/Unsafe-Treiber aus dem Speicher verwenden.

Fehlschlagen des Selbsttests während einer Anschlusssequenz

Entfernen Sie die Platine so schnell wie möglich aus dem System, wenn folgende Fehlermeldung während einer DR-Anschlusssequenz angezeigt wird:


cfgadm: Hardware specific failure: connect failed: firmware operation error

Bei dieser Platine ist der Selbsttest fehlgeschlagen. Das Entfernen der Platine verhindert mögliche Rekonfigurationsfehler, die während des nächsten Neustarts auftreten können.

Der fehlgeschlagene Selbstteststatus lässt keine weiteren Vorgänge zu. Deshalb müssen Sie die Platine zuerst ausbauen und dann erneut einsetzen, wenn Sie den fehlgeschlagenen Vorgang sofort wiederholen möchten.

Bekannte Fehler

Die folgende Liste kann sich jederzeit ändern.

Das Entfernen eines Netzwerkgeräts schlägt fehl, wenn das Gerät noch von einem Programm geöffnet ist (5054195)

Wenn ein Prozess ein Netzwerkgerät geöffnet hält, schlägt jeder DR-Vorgang fehl, an dem dieses Gerät beteiligt ist. Dämonen und Prozesse, die Referenzzähler führen, hindern DR-Vorgänge am Abschluss.

Problemumgehung: Führen Sie als Superuser folgende Schritte durch:

  1. Entfernen Sie das Verzeichnis /rplboot oder benennen Sie es um.

  2. Fahren Sie die NFS-Dienste herunter.


    # sh /etc/init.d/nfs.server stop
    
  3. Fahren Sie die Boot-Server-Dienste herunter.


    # sh /etc/init.d/boot.server stop
    
  4. Führen Sie den DR-Trennvorgang durch.

  5. Starten Sie die NFS-Dienste neu.


    # sh /etc/init.d/nfs.server start
    
  6. Starten Sie die Boot-Server-Dienste neu.


    # sh /etc/init.d/boot.server start
    

Bei gleichzeitiger Ausführung von cfgadm Befehlen schlägt ein cfgadm-Trennvorgang fehl(4220105)

Wenn ein cfgadm-Prozess auf einer Karte ausgeführt, schlägt der Versuch, eine zweite Karte gleichzeitig zu trennen, fehl. Daraufhin wird die folgende Fehlermeldung angezeigt:


cfgadm: Hardware specific failure: 
disconnect failed: nexus error during detach:address

Problemumgehung: Führen Sie nur einen cfgadm -Vorgang gleichzeitig aus. Lassen Sie einen cfgadm-Vorgang, der auf einer Karte ausgeführt wird, zuerst abschließen, bevor Sie auf einer zweiten Karte einencfgadm-Trennvorgang starten.