Dieser Abschnitt enthält eine Übersicht und Sun Bug-ID-Nummern der wichtigsten Fehler, die beim Testen der DR aufgetreten sind. Diese Liste ist nicht abschließend.
Beschreibung: Wenn ein System den Prozess cryptorand ausführt, der im SUNWski Package enthalten ist, verursacht ein Zurücksetzen der Konfiguration, wie sie beim Entfernen einer CPU/Speicherplatine (SB) abläuft, dass cryptorand mit in /var/adm/messages aufgezeichneten Meldungen beendet wird. Diese Aktion verweigert sicheren Sub-Systemen Dienste zur Zuweisung zufälliger Nummern. Jeglicher, beim Start von cryptorand vorhandene Speicher sollte konfiguriert bleiben.
Der cryptorand Prozess weist /dev/random eine zufällige Nummer zu. Nachdem er gestartet wurde, hängt die Zeit, bis /dev/random verfügbar wird, davon ab, wieviel Speicher sich im System befindet. Es werden etwa 2 Minuten pro GB Speicher veranschlagt. Anwendungen, die /dev/random für die Zuweisung von zufälligen Nummern verwenden, werden vielleicht zeitweilig blockiert. cryptorand muss beim Hinzufügen einer CPU/Speicherplatine zu einer Domain nicht neu gestartet werden.
Lösung: Wenn eine CPU/Speicherplatine aus der Domain entfernt wird, starten Sie cryptorand erneut, indem Sie als superuser folgenden Befehl eingeben:
# sh /etc/init.d/cryptorand start |
Beschreibung: Es kann ein Systemabsturz auftreten, wenn ein Systemplatine mit CPUs entfernt wird, während der Solaris Bandwidth Manager (SBM) läuft.
Lösung: Installieren Sie den SBM nicht auf Systemen, die für DR-Tests verwendet werden und führen Sie keine DR-Operationen für CPU-Systemplatinen auf Systemen aus, auf denen SBM installiert ist.
Beschreibung: Eine DR-Konfigurationsoperation hängt sich bei einer IBx (E/A) Platine nach einigen erfolgreichen Wiederholungen auf. Diese Situation tritt auf, wenn die DR-Operation gleichzeitig mit dem DMP-Daemon ausgeführt wird, der die Richtlinie check_all mit einem Zeitintervall ausführt.
Lösung: Um eine gegenseitige Blockierung von DMP-Daemon und Systemplatine zu verhindern, geben Sie für die Ausführung von DR-Operationen folgenden Befehl ein. Durch ihn wird der DMP-Daemon gestoppt und neu gestartet.
# /usr/sbin/vxdmpadm stop restore |
Beschreibung: Wenn ein SCSI-Controller konfiguriert aber nicht aktiv ist, kann er mithilfe des DR-Befehls cfgadm(1M) nicht getrennt werden.
Lösung: Keine.
Beschreibung: Wenn ein Multi-Threaded Client der Bibliothek cfgadm gleichzeitig mehrere sbd Anforderungen startet, hängt sich das System vielleicht auf.
Lösung: Keine. Zur Zeit gibt es keine Anwendungen, die eine Multithreaded-Verwendung der Bibliothek cfgadm implementieren.
Beschreibung: Wenn gleichzeitig mehrere DR-Operationen ausgeführt werden oder wenn psradm gleichzeitig mit einer DR-Operation ausgeführt wird, kann sich das System wegen einer Mutex-Blockade aufhängen.
Lösung: Führen Sie DR-Operationen nacheinander aus (nur eine DR-Operation auf einmal) und warten Sie, bis sie beendet wurden, bevor Sie psradm oder eine neue DR-Operation starten.
Beschreibung: Manchmal wird bei SNMP get Operationen auf dem cpuModDescr Objekt eine Konsolenbus-Fehlermeldung ausgegeben. Dies geschieht selten und nur wenn SunMC ein System überwacht. Wenn die Meldung angezeigt wird, wird an SunMC unknown als Wert des cpuModDescr Objekts zurückgegeben.
Lösung: Die einzige Lösung ist, SunMC nicht zu verwenden. Allerdings tritt das Problem nur selten auf und deshalb kann diese Meldung ignoriert werden. Das einzige Risiko dabei ist, dass die SunMC GUI manchmal vielleicht den falschen Wert für cpuModDescr anzeigt.
Ein Sun Fire System hängt sich vielleicht auf, wenn eine oder mehrere CPU-Platinen während einer DR-Operation in die Gleichlaufpausierung geschaltet werden. Dieses Verfahren wird benötigt, um Platinen hinzuzufügen bzw. zu entfernen. Wenn ausstehende mondo Interrupts vorliegen und SC die Gleichlaufpausierung aus irgendeinem Grund nicht innerhalb des einsekündigen send_mondo timeout Zeitlimits ausführen kann, hängt sich das System auf.