Die folgenden bekannten Probleme und Programmierfehler betreffen den Betrieb der Sun Cluster 3.1-Version.
Bevor Sie mit der Solaris- und Sun Cluster-Installation beginnen, ermitteln Sie die Anforderungen für alle Datendienste. Wenn Sie diese Anforderungen nicht definieren, könnte der Installationsprozess nicht korrekt ausgeführt werden und möglicherweise müsste die Installation der Solaris- und Sun Cluster-Software vollkommen neu erfolgen.
Die Option Oracle Parallel Fail Safe/Real Application Clusters Guard von Oracle Parallel Server/Real Application Clusters hat z. B. besondere Anforderungen an die Hostnamen/Knotennamen, die Sie im Cluster verwenden. Sie müssen diese Anforderungen berücksichtigen, bevor Sie die Sun Cluster-Software installieren, weil Sie die Hostnamen nach der Installation der Sun Cluster-Software nicht mehr ändern können. Weitere Informationen über die Spezialanforderungen an die Hostnamen/Knotennamen finden Sie in der Dokumentation von Oracle Parallel Fail Safe/Real Application Clusters Guard.
Problemübersicht: Manchmal können private Interconnect-Transportpfade, die am qfe-Adapter enden, nicht online gebracht werden.
Abhilfemaßnahme: Führen Sie die folgenden Schritte aus:
Identifizieren Sie den betroffenen Adapter mithilfe von scstat -W. Die Ausgabe zeigt alle Transportpfade für diesen Adapter mit einem der Pfadendpunkte im faulted-bzw. waiting-Zustand.
Verwenden Sie scsetup, um alle mit diesem Adapter verbundenen Kabel aus der Cluster-Konfiguration zu entfernen.
Verwenden Sie scsetup erneut, um den Adapter aus der Cluster-Konfiguration zu entfernen.
Fügen Sie den Adapter und die Kabel wieder hinzu.
Überprüfen Sie die angezeigten Pfade. Wenn das Problem weiterhin besteht, wiederholen Sie die Schritte 1–5 mehrmals.
Überprüfen Sie die angezeigten Pfade. Wenn das Problem weiterhin besteht, booten Sie den Knoten mit dem betroffenen Adapter erneut. Vergewissern Sie sich vor dem Neubooten des Knotens, dass der restliche Cluster über genügend Quorum-Stimmen verfügt, um das Neubooten zu überstehen.
Problemübersicht: Das remove-Skript deregistriert
den SUNW.gds-Ressourcentyp nicht und zeigt folgende Meldung
an:
Resource type has been un-registered already.
Abhilfemaßnahme: Nach der Verwendung des remove-Skripts können Sie SUNW.gds manuell deregistrieren. Alternativ können Sie den scsetup-Befehl oder SunPlex-Manager verwenden.
Problemübersicht: Cluster, die ce-Adapter auf dem privaten Interconnect verwenden, können Pfad-Zeitüberschreitungen und darauf folgende Knotenabstürze erleiden, wenn ein oder mehr Cluster-Knoten mehr als vier Prozessoren haben.
Abhilfemaßnahme: Stellen Sie den Parameter ce_taskq_disable im ce-Treiber ein, indem Sie auf allen Cluster-Knoten set ce:ce_taskq_disable=1 zur /etc/system-Datei hinzufügen und dann die Cluster-Knoten neu booten. Dadurch wird sichergestellt, dass Heartbeats und andere Pakete immer im Interrupt-Kontext zugestellt werden, wodurch Pfad-Zeitüberschreitungen und die darauf folgenden Knotenabstürze verhindert werden. Beachten Sie das Quorum beim Neubooten von Cluster-Knoten.
Problemübersicht: Wenn dem Cluster ein Knoten hinzugefügt wird, während ein Gerätegruppen-Switchover ausgeführt wird, können sowohl der hinzugefügte Knoten als auch der Switchover-Vorgang hängenbleiben. Die Zugriffsversuche auf Gerätedienste bleiben ebenfalls hängen. Dieses Problem tritt vermehrt auf, wenn ein Cluster mehr als zwei Knoten hat und wenn es sich bei dem in das Gerät eingehängte Dateisystem um ein VxFS-Dateisystem handelt.
Abhilfemaßnahme: Um diese Situation zu vermeiden, beginnen Sie kein Gerätegruppen-Switchover, während ein Knoten dem Cluster hinzugefügt wird. Wenn die Situation jedoch eintritt, müssen alle Cluster-Knoten neu gebootet werden, um den Zugriff auf die Gerätegruppen wieder herzustellen.
Problemübersicht: SunPlex-Manager enthält einen Datendienstinstallations-Assistenten, der einen hoch verfügbaren DNS-Dienst auf dem Cluster einrichtet. Wenn der Benutzer keine vorhandene DNS-Konfiguration bereitstellt, wie z. B. eine named.conf-Datei, versucht der Assistent, eine gültige DNS-Konfiguration zu generieren, indem er automatisch die vorhandene Netzwerk- und Namensdienstkonfiguration ermittelt. Dieser Vorgang schlägt jedoch in einigen Netzwerkumgebungen fehl, wodurch der Assistent ohne Ausgabe einer Fehlermeldung abstürzt.
Abhilfemaßnahme: Geben Sie bei Aufforderung durch den DNS-Datendienstinstallations-Assistenten von SunPlex-Manager eine vorhandene, gültige named.conf-Datei an. Sie können die beschriebenen DNS-Datendienstverfahren anwenden, um einen hoch verfügbaren DNS manuell auf dem Cluster zu konfigurieren.
Problemübersicht: SunPlex-Manager enthält einen Datendienstinstallations-Assistenten, der einen hoch verfügbaren Oracle-Dienst auf dem Cluster einrichtet, indem er die Oracle-Binärdateien installiert und konfiguriert und die Cluster-Konfiguration erstellt. Dieser Installations-Assistent funktioniert jedoch derzeit nicht richtig und v erursacht eine Reihe von Fehlern, je nach der Softwarekonfiguration der Benutzer.
Abhilfemaßnahme: Installieren und konfigurieren Sie den Oracle-Datendienst manuell auf dem Cluster. Die entsprechenden Verfahren werden in der Sun Cluster-Dokumentation beschrieben.
Problemübersicht: Wenn ein Adapter aus einer Multi-Adapter-IPMP-Gruppe mithilfe von SunPlex Manager entfernt wurde, kann er möglicherweise nicht immer sofort wieder derselben Gruppe hinzugefügt werden.
Abhilfemaßnahme: Entfernen Sie /etc/hostname.adapter, bevor Sie den Adapter wieder derselben IPMP-Gruppe hinzufügen.
Problemübersicht: Aufgrund eines internen Fehlers schreiben die meisten von Sun bereitgestellten Cluster-Agenten mit dem LOG_USER-Dienstprogramm anstelle von LOG_DAEMON Meldungen in ein Systemprotokoll (siehe syslog(3C)) . Auf einem Cluster mit Standardeinstellungen für das Systemprotokoll (siehe syslog.conf(4)) werden Meldungen mit dem Schweregrad LOG_WARNING oder LOG_NOTICE, die normalerweise in das Systemprotokoll geschrieben werden, nicht ausgegeben.
Abhilfemaßnahme: Fügen Sie auf allen Cluster-Knoten die folgende Zeile neben den Anfang der /etc/syslog.conf-Datei hinzu:
user.warning /var/adm/messages |
Problemübersicht: Die Anforderungen für die nssswitch.conf-Datei in “Preparing the Nodes and Disks” in Sun Cluster Data Service for SAP liveCache Guide for Solaris OS gelten nicht für den Eintrag für die passwd-Datenbank. Wenn diese Anforderungen erfüllt sind, bleibt der su-Befehl möglicherweise auf jedem Knoten hängen, der die liveCache-Ressource bei einem Versagen des öffentlichen Netzwerkes unterstützt.
Abhilfemaßnahme: Stellen Sie auf jedem Knoten, der die liveCache-Ressource unterstützen kann, sicher, dass der Eintrag in der /etc/nsswitch.conf-Datei für die passwd-Datenbank folgendermaßen aussieht:
passwd: files nis [TRYAGAIN=0]
Problemübersicht: Die Datendienstinstallations-Assistenten für Apache und Oracle in SunPlex-Manager unterstützen Solaris 9 und höher nicht.
Abhilfemaßnahme: Installieren Sie Oracle auf dem Cluster manuell mithilfe der Sun Cluster-Dokumentation. Wenn Sie Apache unter Solaris 9 (oder höher) installieren, fügen Sie die Solaris-Apache-Pakete SUNWapchr und SUNWapchu manuell hinzu, bevor Sie den Installations-Assistenten ausführen.
Problemübersicht: Falsche Zeitabstimmung für das Neubooten von Cluster-Knoten während der Root-Platteneinkapselung kann zu Knotenpanik führen.
Abhilfemaßnahme: Führen Sie scvxinstall auf jedem Knoten einzeln aus. Warten Sie, bis der Knoten alle Neubootvorgänge beendet hat, ehe Sie scvxinstall auf einem anderen Knoten starten.
Problemübersicht: Wenn SunPlex Agent Builder in einer anderen Sprache als Englisch ausgeführt wird, ist die Standardfenstergröße zu klein, und manche Steuerelemente werden im Fenster nicht angezeigt. Dieses Problem tritt bei Deutsch und Spanisch auf.
Abhilfemaßnahme: Passen Sie die Größe des SunPlex Agent Builder-Fensters nach Bedarf manuell an.
Problemübersicht: Der Befehl sccheck hängt, wenn er von mehreren Knoten gleichzeitig gestartet wird.
Abhilfemaßnahme: Starten Sie sccheck nicht von Multi-Konsolen, die die Befehle an mehrere Knoten weiterleiten. Die sccheck-Ausführungen können sich überschneiden, aber der Befehl darf nicht gleichzeitig gestartet werden.
Problemübersicht: scinstall -r entfernt nicht die sprachenspezifischen Datendienstpakete.
Abhilfemaßnahme: Führen Sie nach dem Knotenstart pkginfo | grep -i cluster aus, um sicherzustellen, dass alle Datendienstpakete entfernt wurden. Um die genannten Pakete zu entfernen, führen Sie pkgrm für jedes Paket aus.
Problemübersicht: Manche SunPlex Agent Builder-Meldungen werden bei der Spracheinstellung für traditionelles Chinesisch als vereinfachtes Chinesisch angezeigt.
Abhilfemaßnahme: Führen Sie SunPlex Agent Builder in der zh_TW-Spracheinstellung aus, um die Meldungen als traditionelles Chinesisch korrekt anzuzeigen.
Problemübersicht: Wenn hadbm vom HADB-Agenten aufgerufen wird, werden die Java-Binärdateien aus /usr/bin verwendet. Der HADB-Agent arbeitet fehlerhaft, da die Java-Binärdateien in /usr/bin mit der entsprechenden Version von Java 1.4 (oder höher) verknüpft sein müssen.
Abhilfemaßnahme: Weisen Sie der JAVA_HOME-Umgebungsvariable im Skript /opt/SUNWappserver7/SUNWhadb/4/bin/hadbm die entsprechende Version von Java 1.4 (oder höher) zu.
Problemübersicht: Wenn scsetup beim Hinzufügen des ersten Adapters zu einem Einzelknoten-Cluster verwendet wird, ist die folgende Fehlermeldung das Ergebnis: Unable to determine transport type.
Abhilfemaßnahme: Konfigurieren Sie mindestens den ersten Adapter manuell:
# scconf -a -A trtype=Typ,name=Knotename,node=Knotename |
Verwenden Sie nach der Konfiguration des ersten Adapters scsetup auch weiterhin, um die Interconnects nach Wunsch zu konfigurieren.
Problemübersicht: Die Datendienste für die folgenden Anwendungen können nicht mithilfe des scinstall-Dienstprogramms aufgerüstet werden:
Apache Tomcat
DHCP
mySQL
Oracle E-Business Suite
Samba
SWIFTAlliance Access
WebLogic Server
WebSphere MQ
WebSphere MQ Integrator
Abhilfemaßnahme: Wenn Sie einen Datendienst für eine in der obigen Liste genannte Anwendung aufrüsten möchten, führen Sie die Aufrüstung nicht mithilfe des in “Upgrading to Sun Cluster 3.1 4/04 Software (Rolling)” im Sun Cluster Software Installation Guide for Solaris OS genannten Schrittes, sondern mithilfe des folgenden Schrittes durch. Führen Sie diese Schritte für jeden Knoten durch, auf dem der Datendienst installiert ist.
Entfernen Sie das Softwarepaket für den Datendienst, den Sie aufrüsten.
# pkgrm pkg-inst |
pkg-inst gibt den Namen des Softwarepakets für den aufzurüstenden Datendienst den Angaben in der folgenden Tabelle entsprechend an.
Anwendung |
Datendienst-Softwarepaket |
---|---|
Apache Tomcat |
SUNWsctomcat |
DHCP |
SUNWscdhc |
mySQL |
SUNWscmys |
Oracle E-Business Suite |
SUNWscebs |
Samba |
SUNWscsmb |
SWIFTAlliance Access |
SUNWscsaa |
WebLogic Server (Englisch) |
SUNWscwls |
WebLogic Server (Französisch) |
SUNWfscwls |
WebLogic Server (Japanisch) |
SUNWjscwls |
WebSphere MQ |
SUNWscmqs |
WebSphere MQ Integrator |
SUNWscmqi |
Installieren Sie das Softwarepaket für die Datendienstversion, auf die Sie aufrüsten.
Befolgen Sie bei der Installation des Softwarepakets die Anleitungen in der Sun Cluster-Dokumentation für den Datendienst, den Sie aufrüsten. Diese Dokumentation steht unter http://docs.sun.com zur Verfügung.
Problemübersicht: Der Datendienst Sun Cluster HA für Oracle verwendet den Superbenutzer-Befehl su(1M), um die Datenbank zu starten und zu stoppen. Unter Solaris 8 oder Solaris 9 steht der Netzwerkdienst möglicherweise nicht zur Verfügung, wenn das öffentliche Netzwerk eines Cluster-Knotens versagt.
Abhilfemaßnahme: Nehmen Sie folgende Einträge in die /etc/nsswitch.conf-Konfigurationsdateien auf jedem Knoten auf, der ein Primärknoten der Ressourcen oracle_server oder oracle_listener sein kann:
passwd: files groups: files publickey: files project: files
Diese Einträge stellen sicher, dass sich der su-Befehl nicht auf die Namensdienste NIS/NIS+ bezieht, so dass der Datendienst während eines Netzwerkversagens korrekt gestartet und gestoppt wird.
Problemübersicht: Der Datendienst Sun Cluster HA für SAP liveCache verwendet den dbmcli-Befehl, um liveCache zu starten und zu stoppen. Unter Solaris 9 steht der Netzwerkdienst bei einem Versagen des öffentlichen Netzwerkes eines Cluster-Knotens möglicherweise nicht zur Verfügung.
Abhilfemaßnahme: Nehmen Sie einen der folgenden Einträge für die publickey-Datenbank in den /etc/nsswitch.conf-Konfigurationsdateien auf jedem Knoten auf, der ein Primärknoten für die liveCache-Ressourcen sein kann:
publickey: publickey: files publickey: files [NOTFOUND=return] nis publickey: files [NOTFOUND=return] nisplus
Durch Hinzufügen eines der obigen Einträge sowie der unter Sun Cluster Data Service for SAP liveCache Guide for Solaris OS beschriebenen Updates wird sichergestellt, dass sich die Befehle su und dbmcli nicht auf die Namensdienste NIS/NIS+ beziehen. Das Umgehen der Namensdienste NIS/NIS+ stellt sicher, dass der Datendienst während eines Netzwerkversagens korrekt gestartet und gestoppt wird.
Problemübersicht: Sun Cluster HA für Siebel überwacht die einzelnen Siebel-Komponenten nicht. Wenn der Ausfall einer Siebel-Komponente festgestellt wird, wird nur eine Warnmeldung in syslog protokolliert.
Abhilfemaßnahme: Starten Sie die Siebel-Serverressourcengruppe, in der die Komponenten offline sind, mithilfe des Befehls scswitch -R -h Knoten -g Ressourcengruppe neu.