Sun Cluster 2.2 ご使用にあたって

既知の問題

この節では、Sun Cluster 2.2 の動作に影響する既知の問題について説明します。

国際化に関するバグ

4277778 - クラスタコントロールパネル (ccp) のヘルプが日本語で表示されない。

クラスタコントロールパネルで日本語ヘルプは表示できません。 ヘルプを表示したとき文字化けが発生する場合は、以下のパッチをインストールして ください。これによりヘルプは常に英語で表示されます。

日本語ヘルプは、Netscape などの別のブラウザから以下にアクセス することで表示できます。

  file:/opt/SUNWcluster/helpfiles/ja/sc/home_page

フレームワークのバグ

4185966 - ハートビートの損失後に不正なトラップが発生すると、SCI モジュールによりノードに障害が発生します。

4202413 - 大多数のノードが同時に停止すると、クラスタが異常終了します。ボリュームマネージャが CVM または SSVM の場合、この問題を回避するには、クラスタの構成時に定足数デバイスとして単一の直接接続されたディスクを選択します。

4202418 - SCI ハートビート動作検査が失敗すると、ノード障害が発生します。

4213128 - 論理ホストが複数のディスクセットを持っている Solstice DiskSuite 構成では、hactl(1M) ユーティリティがディスクセット名を正しく解析できないため、論理ホストのテイクオーバーが失敗します。このバグは特定の状況での障害監視に影響します。この問題を回避するには、/opt/SUNWcluster/ha/nfs/have_maj_util ファイルを正しいものに変更します。修正された正しいファイルはご購入先から入手できます。

管理コマンドのバグ

4209264 - scconf -F コマンドは、必ずしも複数のコントローラにわたって管理ファイルシステムをミラー化しません。ボリュームを表示するには、vxprint を使用してください。管理ファイルシステムが複数のコントローラにわたってミラー化されない場合は、そのボリュームを別のコントローラ上で手動でミラー化させます。

4210684 - scinstall(1M) コマンド行オプションと構成メニューを組み合わせて使用すると、クラスタをインストールおよび構成できません。さらに、scinstall(1M) コマンド行オプションを使用してサーバーソフトウェアを削除するとき、クラスタネットワークパッケージは削除されません。これらの作業を行うには、scinstall(1M) コマンドを (オプションなしで) 対話形式で実行してください。

4210191 - Solstice DiskSuite を実行しているノードですべての公衆ネットワーク接続が失敗すると、次のメッセージが表示されクラスタノードは異常終了します。

Failfast timeout - unit "abort_thread"

4213927 - いくつかの Gigabit Ethernet カードでは、ifconfig(1M) 操作の後で ping(1M) がタイムアウトするため、pnmset(1M) コマンドが異常終了することがあります。この問題を回避するには、/etc/pnmconfig ファイルを手動で構成します。詳細は、pnmconfig(4M) のマニュアルページを参照してください。

データサービスのバグ

4210065 - 論理ホストが複数のディスクセットを持っている Solstice DiskSuite 構成では、Sun Cluster HA for NFS のシェルスクリプト /opt/SUNWcluster/ha/nfs/fdl_enum_probe_disks がエラーを報告します。このため、ディスクセットの障害監視が異常終了します。この問題を回避するには、/opt/SUNWcluster/ha/nfs/fdl_enum_probe_disks ファイルを正しいものに変更します。修正されたファイルはご購入先から入手できます。

4210646 - 文字セットが ASCII 以外の場合、Sun Cluster HA for Oracle 障害モニターは Oracle を正しく再起動しません。この問題は、SAP インストール時に Oracle をインストールするときも同じです。この問題を修正するには、次のリンクを確立し、Oracle が起動時に障害モニターの ORA_NLS33 環境変数で指定される NLS データファイルを見つけられるようにします。このリンクは、すべてのクラスタノード上で作成します。

# ln -s /opt/SUNWcluster /SUNWcluster

SCM のバグ

4207695 - SCM において、syslog が空の場合でも、syslog ページの「前へ」ボタンは有効なままです。このときに「前へ」ボタンを使用しても、何も起こりません。

4207726 - SCM は、ネットワーク接続が再確立されるまで、公衆ネットワークの損失を検出できません。

4208089 - SCM は、Sun Cluster HA for Oracle データサービスの現在の状態を正しく表示しません。コマンド haoracle stop で Oracle インスタンスを停止したとき、インスタンスは保守モードに入り、syslog にはメッセージが記録されません。インスタンスが保守モードであるとき、インスタンスは Sun Cluster によって監視されません。SCM はこの状態を unknown であると解釈します。

4211950 - 論理ホストが保守モードに入ると、SCM は、ノードが waiting to be given up であると表示します。画面を手動で再表示すると、正しい状態を表示できます。

4212030 - NFS サービスが無効のとき、いくつかの論理ホスト上の NFS サービスが OK であると表示されることがあります。

4212623 - クラスタノードがクラスタを切り離すと、私設ネットワークと公衆ネットワークは正しい状態を反映しません。このため、この状況表示は無視してください。

4212691 - 論理ホストを所有するすべてのノードがクラスタの一部ではない場合があります。この場合は、論理ホストも休止しています。SCM はこのような論理ホストを使用可能であると表示します。

その他の既知の問題

次の問題は、Sun Cluster 2.2 に適用されます。

HotJava ブラウザによる SCM の実行

Solaris 2.6 または Solaris 7 のオペレーティング環境に付属の HotJava ブラウザを使用して SCM を実行する場合は、次のような問題が発生する可能性があります。

タイムアウト値

scinstall(1M) コマンドまたは scconf(1M) コマンドで各論理ホストを構成した後は、scconf clustername -l コマンドを使用し、論理ホストのタイムアウト値を設定する必要があります。タイムアウト値はサイトによって異なります。つまり、論理ホスト、スピンドル、ファイルシステムの数に密接に関連します。

詳細は、scconf(1M) のマニュアルページを参照してください。タイムアウト値を設定する手順については、『Sun Cluster 2.2 のシステム管理』を参照してください。

カプセル化されたルートディスク

ルートディスクをカプセル化して SSVM を実行している場合、Sun Cluster 2.2 をインストールする前に、ルートディスクのカプセル化を解除しなければなりません。そして、Sun Cluster 2.2 をインストールした後に、ルートディスクをカプセル化し直します。メジャー番号を変更する前にも、ルートディスクのカプセル化を解除しなければなりません。

ルートディスクをカプセル化およびカプセル化解除する手順については、SSVM のマニュアルを参照してください。

SNMP デフォルトのポート

クライアントソフトウェアのインストール時、SUNWcsnmp パッケージがインストールされ、Sun Cluster の SNMP (Simple Network Management Protocol) サポートが提供されます。Sun Cluster SNMP が使用するデフォルトのポートは、Solaris SNMP が使用するデフォルトのポート番号と同じで、両方ともポート 161 を使用します。SUNWcsnmp パッケージをインストールした後は、Sun Cluster SNMP のポート番号を変更しなければなりません。ポート番号を変更する手順については、『Sun Cluster 2.2 のシステム管理』を参照してください。

Sun Cluster HA for Informix 用のインストールディレクトリ

INFORMIX_ESQL Embedded Language Runtime Facility 製品は、Sun Cluster サーバー上の /var/opt/informix ディレクトリにインストールしなければなりません。これは、Informix サーバーのバイナリが物理ホストにインストールされている場合でも必須です。

Lotus と Netscape のメッセージサーバー

Lotus Domino サーバーは、HTTPPOP3IMAPNNTP、または LDAP サーバーとして設定できます。Lotus Domino は上記すべての種類のサーバータスクを起動します。しかし、Netscape メッセージサーバーのインスタンスは、Lotus Domino がインストールされているノードによって潜在的にマスターされる論理ホストに設定してはなりません。

Lotus と Netscape のポート番号

1 つのクラスタ内では、Lotus Domino サーバーが使用するポート番号と同じポート番号で Netscape サービスを構成してはなりません。次に、Lotus Domino サーバーがデフォルトで使用するポート番号を示します。

HTTP

Port 80

POP3

Port 110

IMAP

Port 143

LDAP

Port 389

NNTP

Port 119

論理ホストファイルシステムがビジー時のフェイルオーバーとスイッチオーバー

論理ホストのファイルシステムがビジーの間にフェイルオーバーまたはスイッチオーバーが発生した場合、論理ホストは部分的にフェイルオーバーします。つまり、いくつかのディスクグループは元の対象である物理ホスト上に残ります。論理ホストのファイルシステムがビジーの場合は、スイッチオーバーしないようにしてください。また、NFS ロックとローカルロックの両方が存在するときはファイルロックが正しく動作しないため、ホストのファイルシステムにはローカルにアクセスしないでください。

SSP のパスワード

Sun Enterprise 10000 上の SSP (システムサービスプロセッサ) に誤ったパスワードを使用すると、システムが予期せぬ動作をし、障害が発生する可能性があります。

ノードを停止するときの危険のないエラー

ノードを停止するとき、次のエラーメッセージが表示されることがあります。

in.rdiscd[517]: setsockopt (IP_DROP_MEMBERSHIP): Cannot assign requested address

このエラーの原因は、in.rdiscd デーモンと IP モジュールとのタイミングの問題です。危険はなく、無視しても安全です。

NFS lockd デーモンの危険のないエラー

Solaris 7 上で Sun Cluster HA for NFS が動作している場合は、statd デーモンが完全に動作する前に lockd デーモンが強制終了されると、次のエラーメッセージが表示されます。

WARNING: lockd: cannot contact statd (error 4), continuing.

このエラーメッセージは無視しても安全です。

$ORACLE_HOME のディレクトリのアクセス権と所有権

Sun Cluster HA for Oracle の障害モニターが次のようなエラーを表示した場合は、$ORACLE_HOME ディレクトリのアクセス権が 755 に設定されており、そのディレクトリの所有者がグループ ID dba を持つ Oracle 管理ユーザーであることを確認してください。

Feb 16 17:13:13 ID[SUNWcluster.ha.haoracle_fmon.2520]: hahost1:HA1: 
 DBMS Error: connecting to database: ORA-12546: TNS:permission denied
 Feb 16 17:12:13 ID[SUNWcluster.ha.haoracle_fmon.2050]: hahost1:HA1: 
 RDBMS error, but HA-RDBMS Oracle will take no action for this error code 

SAP 検査における LOG_DB_WARNING メッセージの表示

Sun Cluster HA for SAP のパラメータ LOG_DB_WARNING は、Sun Cluster HA for SAP 検査がデータベースに接続できなかった場合に、警告メッセージを表示するかどうかを決定します。LOG_DB_WARNING-y に設定されており、検査がデータベースに接続できなかった場合は、local0 ファシリティの warning レベルでメッセージが記録されます。デフォルトでは、syslogd(1M) デーモンはこのようなメッセージを /dev/console または /var/adm/messages に表示しません。このような警告を表示するには、local0.warning の優先度のメッセージを表示するように /etc/syslog.conf ファイルを変更します。次に例を示します。

...
 *.err;kern.notice;auth.notice;local0.warning /dev/console
 *.err;kern.debug;daemon.notice;mail.crit;local0.warning /var/adm/messages
 ...

ファイルを変更した後は、syslogd(1M) を再起動しなければなりません。詳細は、syslog.conf(1M)syslogd(1M) のマニュアルページを参照してください。

クラスタ障害後のノードロックの凍結

複数のノードを持ち、記憶装置が直接接続されているクラスタにおいて、クラスタの最後のノードに障害が発生した場合、あるいはクラスタを異常に (stopnode 移行を実行せずに) 終了した場合は問題が発生します。このような場合、すべてのノードがクラスタから削除され、クラスタは存在しなくなります。しかし、最後のノードがクラスタを異常な方法で残しているため、ノードロックがかかったままになります。これ以降、scadmin startcluster コマンドでノードロックを獲得しようとしても失敗します。

この問題を回避するには、クラスタを再起動する前に、ノードロックを手動で削除します。

クラスタが完全に異常終了した後、ノードロックを手動で削除し、クラスタを再起動するには、次の手順を使用します。

  1. root として、クラスタ構成を表示します。

    # scconf clustername -p
    

    出力から次の行を見つけます。

    clustername Locking TC/SSP, port  : A.B.C.D, E
    
    • E が正の数の場合、ノードロックは端末集配信装置 (TC) A.B.C.D とポート E 上にあります。手順 2に進みます。

    • E が -1 の場合、ロックは SSP 上にあります。手順 3に進みます。

  2. 端末集配信装置 (TC) 上にノードロックがある場合は、次の手順を実行します。そうでない場合は、手順 3 に進みます。

    1. 端末集配信装置 tc-name への telnet 接続を起動します。

      $ telnet tc-name
       Trying 192.9.75.51...
       Connected to tc-name.
       Escape character is `^]'.

      Return キーを押します。

    2. -cli (コマンド行インタフェース) を指定します。

      Enter Annex port name or number: cli
      
    3. root としてログインします。

    4. admin コマンドを実行します。

      annex# admin
      
    5. ポート E をリセットします。

      admin : reset E
      
    6. telnet 接続を閉じます。

      annex# hangup
      
    7. 手順 4 に進みます。

  3. SSP (システムサービスプロセッサ) 上にノードロックがある場合は、次の手順を実行します。

    1. SSP に接続します。

      $ telnet SSP_name
      
    2. ユーザー ssp としてログインします。

    3. 次のコマンドを使用し、clustername.lock ファイルの情報を表示します。このファイルは /proc/csh.pid へのシンボリックリンクです。

      $ ls -l /var/tmp/clustername.lock
      
    4. プロセス csh.pid を探します。

      $ ps -ef | grep csh.pid
      
    5. プロセス csh.pidps -ef の出力に存在する場合は、次のコマンドでこのプロセスを強制終了します。

      $ kill -9 csh.pid 
      
    6. clustername.lock ファイルを削除します。

      $ rm -f /var/tmp/clustername.lock
      
    7. SSP からログアウトします。

  4. クラスタを再起動します。

    $ scadmin startcluster