Sun Cluster 3.1 10/03 Versionshinweise

Bekannte Probleme und Programmierfehler

Die folgenden bekannten Probleme und Programmierfehler betreffen den Betrieb der Sun Cluster 3.1 10/03-Version. Die aktuellsten Informationen finden Sie online in Sun Cluster 3.1 10/03 Release Notes Supplement unter http://docs.sun.com.

Falscher Largefile-Status (4419214)

Problemübersicht: Die /etc/mnttab-Datei zeigt nicht den aktuellsten largefile-Status eines global eingehängten VxFS-Dateisystems an.

Abhilfemaßnahme: Verwenden Sie den fsadm-Befehl anstelle des /etc/mnttab-Eintrags, um den largefile-Status des Dateisystems zu überprüfen.

Knoten können qfe-Pfade nicht aktivieren (4526883)

Problemübersicht: Manchmal können private Interconnect-Transportpfade, die am qfe-Adapter enden, nicht online gebracht werden.

Abhilfemaßnahme: Führen Sie die folgenden Schritte aus:

  1. Identifizieren Sie den betroffenen Adapter mithilfe von scstat -W. Die Ausgabe zeigt alle Transportpfade für diesen Adapter mit einem der Pfadendpunkte im faulted-bzw. waiting-Zustand.

  2. Verwenden Sie scsetup, um alle mit diesem Adapter verbundenen Kabel aus der Cluster-Konfiguration zu entfernen.

  3. Verwenden Sie scsetup erneut, um den Adapter aus der Cluster-Konfiguration zu entfernen.

  4. Fügen Sie den Adapter und die Kabel wieder hinzu.

  5. Überprüfen Sie die angezeigten Pfade. Wenn das Problem weiterhin besteht, wiederholen Sie die Schritte 1–5 mehrmals.

  6. Überprüfen Sie die angezeigten Pfade. Wenn das Problem weiterhin besteht, booten Sie den Knoten mit dem betroffenen Adapter erneut. Vergewissern Sie sich vor dem Neubooten des Knotens, dass der restliche Cluster über genügend Quorum-Stimmen verfügt, um das Neubooten zu überstehen.

Dateiblöcke werden nach Schreiben an Sparse File Holes nicht aktualisiert (4607142)

Problemübersicht: Die Blockzählung einer Datei ist über die Cluster-Knoten hinweg nicht immer konsistent, wenn blockzuweisende Schreibvorgänge innerhalb einer Sparse-Datei erfolgt sind. Bei einem Cluster-Dateisystem auf UFS (oder VxFS 3.4) wird die Blockinkonsistenz über Cluster-Knoten hinweg innerhalb von ca. 30 Sekunden behoben.

Abhilfemaßnahme: Datei-Metadatenvorgänge, bei denen inode aktualisiert wird (touch, usw.) müssen den st_blocks-Wert so synchronisieren, dass anschließende Metadatenvorgänge konsistente st_blocks-Werte sicherstellen.

Während eines Netzwerkversagens startet und stoppt der Datendienst nicht richtig (4644289)

Problemübersicht: Der Datendienst Sun Cluster HA für Oracle verwendet den su-Befehl zum Starten und Stoppen der Datenbank. Es kann sein, dass der Netzwerkdienst nicht verfügbar ist, wenn das öffentliche Netzwerk eines Cluster-Knotens ausfällt.

Abhilfemaßnahme: Konfigurieren Sie unter Solaris 9 die /etc/nsswitch.conf-Dateien folgendermaßen, damit der Datendienst auch im Fall eines Netzwerkversagens korrekt startet und stoppt:

Ändern Sie auf jedem Knoten, der als Primärknoten für die oracle_server- oder oracle_listener-Ressource in Frage kommt, die /etc/nsswitch.conf-Datei dahingehend, dass sie die folgenden Einträge für passwd, group, publickey und project-Datenbanken enthält:

Durch Hinzufügen der obigen Einträge stellen Sie sicher, dass der vsu(1M)-Befehl nicht auf die NIS/NIS+-Namensdienste verweist.

Das Aushängen eines Cluster-Dateisystems schlägt fehl (4656624)

Problemübersicht: Das Aushängen eines Cluster-Dateisystems schlägt manchmal fehl, selbst wenn der fuser-Befehl zeigt, dass auf keinem Knoten Benutzer vorhanden sind.

Abhilfemaßnahme: Versuchen Sie das Aushängen erneut, nachdem alle asynchronen E/A für das zugrundeliegende Dateisystem beendet wurden.

Sun Cluster HA–Siebel überwacht Siebel-Komponenten nicht (4722288)

Problemübersicht: Der Sun Cluster HA-Siebel-Agent überwacht einzelne Siebel-Komponenten nicht. Wenn ein Versagen einer Siebel-Komponente festgestellt wird, wird lediglich eine Warnmeldung in syslog protokolliert.

Abhilfemaßnahme: Starten Sie die Siebel-Server-Ressourcengruppe, in der sich Komponenten offline befinden, über folgenden Befehl neu: scswitch -R -h Knoten -g  Ressourcengruppe.

Oracle RAC-Instanzen stehen auf neu hinzugefügten Knoten evtl. nicht mehr zur Verfügung (4723575)

Problemübersicht: Wenn Sie Sun Cluster-Unterstützung für RAC auf einem neu hinzugefügten Knoten installieren, stehen Oracle RAC-Instanzen nicht mehr zur Verfügung.

Abhilfemaßnahme: Um einen Knoten einem Cluster hinzuzufügen, der derzeit mit Oracle RAC-Unterstützung ausgeführt wird, ohne dabei die Verfügbarkeit der Oracle RAC-Datenbank zu verlieren, müssen besondere Installationsschritte ausgeführt werden. Das folgende Beispiel beschreibt den Übergang von einem 3–Knoten-Cluster zu einem a 4–Knoten-Cluster, wobei Oracle RAC auf den Knoten 1, 2 und 3 ausgeführt wird:

  1. Installieren Sie die Sun Cluster-Software auf dem neuen Knoten (Knoten 4).

    Hinweis: Installieren Sie die RAC-Unterstützungspakete zu diesem Zeitpunkt nicht.

  2. Booten Sie den neuen Knoten im Cluster erneut.

  3. Nachdem der neue Knoten dem Cluster hinzugefügt wurde, fahren Sie die Oracle RAC-Datenbank auf einem der Knoten herunter, auf dem sie bereits läuft (in diesem Beispiel Knoten 1).

  4. Booten Sie den Knoten erneut, auf dem die Datenbank heruntergefahren wurde (Knoten 1).

  5. Sobald der Knoten (Knoten 1) wieder hochgefahren wurde, starten Sie die Oracle-Datenbank auf diesem Knoten, um den Datenbankdienst wieder aufzunehmen.

  6. Wenn ein einzelner Knoten in der Lage ist, die Datenbankarbeitslast zu tragen, fahren Sie die Datenbank auf den verbleibenden Knoten (Knoten 2 und 3) herunter und booten Sie diese Knoten erneut. Wenn mehr als ein Knoten erforderlich ist, um die Datenbankarbeitslast zu tragen, verfahren Sie für diese Knoten einzeln wie in Schritt 3 bis 5 beschrieben.

  7. Nachdem alle Knoten neu gebootet wurden, können die Oracle RAC-Unterstützungspakete sicher auf dem neuen Knoten installiert werden.

Das remove-Skript deregistriert SUNW.gds-Ressourcentyp nicht (4727699)

Problemübersicht: Das remove-Skript deregistriert den den SUNW.gds-Ressourcentyp nicht und zeigt folgende Meldung an:

Resource type has been un-registered already.

Abhilfemaßnahme: Nach der Verwendung des remove-Skripts können Sie SUNW.gds manuell deregistrieren. Alternativ können Sie den scsetup-Befehl oder SunPlex-Manager verwenden.

Die Verwendung des Solaris-Befehls shutdown kann zu einem Knotenabsturz führen (4745648)

Problemübersicht: Die Verwendung des Solaris-Befehls shutdown oder ähnlicher Befehle (z. B. uadmin) zum Herunterfahren eines Cluster-Knotens kann zu einem Knotenabsturz führen. Es wird folgende Meldung angezeigt:

CMM: Shutdown timer expired. Halting.

Abhilfemaßnahme: Wenden Sie sich an Ihren Sun-Kundendienstmitarbeiter, um Support zu erhalten. Der Absturz ist erforderlich, um einen garantiert sicheren Weg bereitzustellen, über den ein anderer Knoten im Cluster die Dienste übernehmen kann, die vom heruntergefahrenen Knoten gehostet wurden.

Pfad-Zeitüberschreitungen bei Verwendung von ce-Adaptern im privaten Interconnect (4746175)

Problemübersicht: Cluster, die ce-Adapter auf dem privaten Interconnect verwenden, können Pfad-Zeitüberschreitungen und darauffolgende Knotenabstürze erleiden, wenn ein oder mehr Cluster-Knoten mehr als vier Prozessoren haben.

Abhilfemaßnahme: Stellen Sie den Parameter ce_taskq_disable im ce-Treiber ein, indem Sie auf allen Cluster-Knoten set ce:ce_taskq_disable=1 zur /etc/system-Datei hinzufügen und dann die Cluster-Knoten neu booten. Dadurch wird sichergestellt, dass Heartbeats und andere Pakete immer im Interrupt-Kontext zugestellt werden, wodurch Pfad-Zeitüberschreitungen und die darauf folgenden Knotenabstürze verhindert werden. Beachten Sie das Quorum beim Neubooten von Cluster-Knoten.

scrgadm verhindert, dass IP-Adressen aus verschiedenen Teilnetzen auf einem NIC residieren (4751406)

Problemübersicht: scrgadm verhindert das Hosten von logischen Hostnamen/gemeinsam genutzten Adressen, die zu einem anderen Teilnetz als dem Teilnetz der IPMP (NAFO)-Gruppe gehören.

Abhilfemaßnahme: Verwenden Sie folgende Form des scrgadm-Befehls:

scrgadm -a -j <resource> -t <resource_type> -g <resource_group> -x HostnameList=<logical_hostname> -x NetIfList=<nafogroup>@<nodeid>.

Beachten Sie, dass nodenames in der NetIfList nicht zu funktionieren scheinen.Verwenden Sie stattdessen nodeids.

Erfolgloses Failover führt zu Fehler (4766781)

Problemübersicht: Ein nicht erfolgreiches Failover/Switchover eines Dateisystems kann das Dateisystem in einen Fehlerzustand versetzen.

Abhilfemaßnahme: Hängen Sie das Dateisystem aus und anschließend wieder ein.

Knoten hängt nach Neubooten, während Switchover ausgeführt wird (4806621)

Problemübersicht: Wenn ein Knoten dem Cluster hinzugefügt wird, während ein Gerätegruppen-Switchover ausgeführt wird, können sowohl der hinzugefügte Knoten als auch der Switchover-Vorgang hängenbleiben. Die Zugriffsversuche auf Gerätedienste bleiben ebenfalls hängen. Dieses Problem tritt vermehrt auf, wenn ein Cluster mehr als zwei Knoten hat und wenn es sich bei dem in das Gerät eingehängte Dateisystem um ein VxFS-Dateisystem handelt.

Abhilfemaßnahme: Um diese Situation zu vermeiden, beginnen Sie kein Gerätegruppen-Switchover, während ein Knoten dem Cluster hinzugefügt wird. Wenn die Situation jedoch eintritt, müssen alle Cluster-Knoten neu gebootet werden, um den Zugriff auf die Gerätegruppen wieder herzustellen.

DNS-Assistent schlägt fehl, wenn keine vorhandene DNS-Konfiguration bereitgestellt wird (4839993)

Problemübersicht: SunPlex-Manager enthält einen Datendienstinstallations-Assistenten, der einen hoch verfügbaren DNS-Dienst auf dem Cluster einrichtet. Wenn der Benutzer keine vorhandene DNS-Konfiguration bereitstellt, wie z. B. eine named.conf-Datei, versucht der Assistent, eine gültige DNS-Konfiguration zu generieren, indem er automatisch die vorhandene Netzwerk- und Namensdienstkonfiguration ermittelt. Dieser Vorgang schlägt jedoch in einigen Netzwerkumgebungen fehl, wodurch der Assistent ohne Ausgabe einer Fehlermeldung abstürzt.

Abhilfemaßnahme: Geben Sie bei Aufforderung durch den DNS-Datendienstinstallations-Assistenten von SunPlex-Manager eine vorhandene, gültige named.conf-Datei an. Sie können die beschriebenen DNS-Datendienstverfahren anwenden, um einen hoch verfügbaren DNS manuell auf dem Cluster zu konfigurieren.

Verwenden von SunPlex-Manager zum Installieren eines Oracle-Dienstes (4843605)

Problemübersicht: SunPlex-Manager enthält einen Datendienstinstallations-Assistenten, der einen hoch verfügbaren Oracle-Dienst auf dem Cluster einrichtet, indem er die Oracle-Binärdateien installiert und konfiguriert und die Cluster-Konfiguration erstellt. Dieser Installations-Assistent funktioniert jedoch derzeit nicht richtig und v erursacht eine Reihe von Fehlern, je nach der Softwarekonfiguration der Benutzer.

Abhilfemaßnahme: Installieren und konfigurieren Sie den Oracle-Datendienst manuell auf dem Cluster. Die entsprechenden Verfahren werden in der Sun Cluster-Dokumentation beschrieben.

Die Sequenz zum Herunterfahren oder Neubooten schlägt fehl (4844784)

Problemübersicht: Beim Herunterfahren oder Neubooten eines Knotens kann der Knoten hängen, und die Sequenz zum Herunterfahren bzw. Nebooten wird nicht beendet. Das System hängt, nachdem folgende Meldung ausgegeben wurde: Failfast:Angehalten, weil alle userland-Dämone abgestürzt sind.

Abhilfemaßnahme: Geben Sie vor dem Herunterfahren bzw. Neubooten folgenden Befehl ein: psradm -f -a:

Zum Herunterfahren eines Knotens:

  1. # scswitch -S -h <node>

  2. # psradm -f -a

  3. # shutdown -g0 -y -i0

Zum Neubooten eines Knotens:

  1. # scswitch -S -h <node>

  2. # psradm -f -a

  3. # shutdown -g0 -y -i6


Hinweis –

In Ausnahmefällen kann das Problem mit der vorgeschlagenen Abhilfemaßnahme nicht behoben werden.


Neubooten eines Knotens (4862321)

Problemübersicht: Auf großen Systemen, auf denen Sun Cluster 3.x läuft, kann der Befehl shutdown -g0 -y -i6 zum Neubooten eines Knotens dazu führen, dass an der OK-Aufforderung folgende Meldung ausgegeben wird: Failfast: Halting because all userland daemons have died, instead of rebooting.

Abhilfemaßnahme: Wählen Sie eine der folgenden Abhilfemaßnahmen:

Vergessen Sie nicht, failfasts nach dem Neubooten des Knotens wieder zu aktivieren:

# /usr/cluster/lib/sc/cmm_ctl -f

oder erhöhen Sie die failfast_panic_delay-Zeitüberschreitung vor dem Herunterfahren des Systems mit folgendem mdb-Befehl:

(echo 'cl_comm`conf+8/W 0t600000' ;

echo 'cl_comm`conf+c/W 0t600000') | mdb -kw

Dadurch wird die Zeitüberschreitung auf 600000 ms (10 Minuten) eingestellt.

Oracle DLM-Prozess bleibt aktiv, wenn der Knoten heruntergefahren wird (4891227)

Problemübersicht: Der Oracle DLM-Prozess wird während des Herunterfahrens nicht beendet und bewirkt, dass /var nicht ausgehängt werden kann.

Abhilfemaßnahme: Wählen Sie eine der folgenden Abhilfemaßnahmen:

Auf stark ausgelasteten Systemen kann es zur Zeitüberschreitung für das Oracle Listener-Testsignal kommen (4900140)

Problemübersicht: Auf stark ausgelasteten Systemen kann es zur Zeitüberschreitung für das Oracle Listener-Testsignal kommen, was zu einem Neustart des Oracle Listener führt.

Abhilfemaßnahme: Die Zeitüberschreitung des Oracle Listener-Testsignals auf stark ausgelasteten Systemen kann vermieden werden, indem der Wert der Ressourceneigenschaft Thorough_probe_interval erhöht wird.

Die Testsignal-Zeitüberschreitung wird wie folgt berechnet:

10 Sekunden, wenn Thorough_probe_interval größer als 20 Sekunden ist.

60 Sekunden, wenn Thorough_probe_interval größer als 120 Sekunden ist.

Thorough_probe_interval/2 in allen anderen Fällen

RG_system Aktualisierung von Ressourcengruppeneigenschaft kann Knotenpanik auslösen (4902066)

Problemübersicht: Bei Einstellung auf TRUE gibt die Ressourcengruppeneigenschaft RG_system an, dass die Ressourcengruppe und deren Ressourcen zur Unterstützung der Cluster-Infrastruktur verwendet werden und keinen Benutzerdatendienst implementieren. Wenn RG_system auf TRUE eingestellt ist, verhindert RGM, dass der Systemadministrator die Gruppe bzw. deren Ressourcen versehentlich offline bringt oder ihre Eigenschaften ändert. In einigen Fällen kann es zu Knotenpanik kommen, wenn versucht wird, eine Ressourcengruppeneigenschaft zu ändern, nachdem die RG_system-Eigenschaft auf TRUE eingestellt wurde.

Abhilfemaßnahme: Bearbeiten Sie den Wert der Ressourcengruppeneigenschaft RG_system nicht.

nsswitch.conf-Anforderungen für passwd machen nis unbrauchbar (4904975)

Problemübersicht: Auf jedem Knoten, der ein Master der liveCache-Ressource sein kann, ist es möglich, dass der su-Befehl hängenbleibt, wenn das öffentliche Netz nicht aktiv ist.

Abhilfemaßnahme: Für Knoten, die Master der liveCache-Ressource sein können, werden folgende Änderungen an /etc/nsswitch.conf empfohlen, damit der su-Befehl nicht hängenbleibt, wenn das öffentliche Netz nicht aktiv ist:

passwd: files nis [TRYAGAIN=0]

Datendienstinstallations-Assistenten für Oracle und Apache unterstützen Solaris 9 und höher nicht (4906470)

Problemübersicht: Die Datendienstinstallations-Assistenten für Apache und Oracle in SunPlex-Manager unterstützen Solaris 9 und höher nicht.

Abhilfemaßnahme: Installieren Sie Oracle auf dem Cluster manuell mithilfe der Sun Cluster-Dokumentation. Wenn Sie Apache unter Solaris 9 (oder höher) installieren, fügen Sie die Solaris-Apache-Pakete SUNWapchr und SUNWapchu manuell hinzu, bevor Sie den Installations-Assistenten ausführen.

Installation schlägt fehl, wenn Standarddomäne nicht eingestellt ist (4913925)

Problemübersicht: Wenn einem Cluster während der Installation und Konfiguration Knoten hinzugefügt werden, kann ein "RPC-Authentisierungsfehler" auftreten. Es werden Fehlermeldungen wie die Folgende angezeigt:

Diese Fehler treten auf, wenn die Knoten nicht für die Verwendung von NIS/NIS+ konfiguriert sind, insbesondere wenn die Datei /etc/defaultdomain nicht vorhanden ist.

Abhilfemaßnahme: Wenn kein Domänenname eingestellt ist (d.h., wenn die Datei /etc/defaultdomain fehlt), stellen Sie den Domänennamen auf allen Knoten ein, die dem Cluster hinzugefügt werden, bevor Sie mit der Installation fortfahren. Verwenden Sie hierfür den Befehl domainname(1M). Z. B. # domainname xxx.