Sun Cluster 3.1 ご使用にあたって

既知の問題点とバグ

次に示す既知の問題とバグは、Sun Cluster 3.1 リリースの処理に影響を与えます。最新情報については、http://docs.sun.com に挙げられているオンラインの『 Sun Cluster 3.x Release Notes Supplement』を参照してください。

不正な largefile 状態 (4419214)

問題の概要:/etc/mnttab ファイルに、グローバルにマウントされている VxFS ファイルシステムの最新の largefile 状態が示されない。

回避策:fsadm コマンドを使用し、(/etc/mnttab エントリではなく) ファイルシステムの largefile 状態を確認してください。

グローバル VxFS ファイルシステムのブロック割り当て表示がローカル VxFS と異なる (4449437)

問題の概要:ファイルサイズによっては、グローバル VxFS ファイルシステムがローカル VxFS ファイルシステムよりも多くのディスクブロックを割り当てる。

回避策:ファイルシステムのマウントをいったん解除して再度マウントを行うと、そのファイルへ割り当てられたと報告された余分なディスクブロックが除去されます。

ノードが qfe パスを呼び出せない (4526883)

問題の概要:qfe アダプタを終端としたプライベートインターコネクトのトランスポートパスがオンラインにならない場合がある。

回避策:以下の作業を行なってください。

  1. scstat -W を実行し、エラーの起きたアダプタを確認します。すべてのトランスポートパスが表示され、エラーの起きたアダプタが faulted 状態または waiting 状態にあるパス終端の 1 つとして示されます。

  2. scsetup を実行し、そのアダプタに接続されているケーブルをすべてクラスタ構成から削除します。

  3. scsetup をもう一度使用して、そのアダプタをクラスタ構成から削除します。

  4. アダプタとケーブルを追加し直します。

  5. パスが表示されるか確認します。問題が継続する場合は、手順 1 から 5 の作業を数回繰り返してください。

  6. パスが表示されるか確認します。問題がまだ継続する場合は、エラーの起きたアダプタを使用してノードを再起動します。ノードを再起動する前に、残りのクラスタがノードを再起動しても生き残れるだけの十分な定足数を持っていることを確認します。

スパースファイルのホール (欠落ブロック) に対する書き込み処理のあと、ファイルブロックが更新されない (4607142)

問題の概要:スパースファイル内でブロック割り当てのための書き込み処理を行なったあと、ファイルのブロックカウントがクラスタノード全体で矛盾した状態になる場合がある。クラスタノード全体におけるこのブロック不整合は、UFS (または VxFS 3.4) でレイヤー化されたクラスタファイルシステムの場合には 30 秒ほどで解決される。

回避策:inode を更新するファイルメタデータ処理 (修正など) では、st_blocks 値と同期をとる必要があります。これは、後続のメタデータ処理で st_blocks 値の一貫性を維持するためです。

forcedirectiommap(2) を同時に使用するとパニックが起きる場合がある (4629536)

問題の概要:forcedirectio マウントオプションと mmap(2) 関数を同時に使用すると、データ破壊、システムハング、またはパニックが起きる可能性がある。

回避策:次の制限について、確認してください。

directio を使用する必要がある場合、ファイルシステム全体を directio オプションでマウントします。

クラスタファイルシステムのマウント解除が失敗する (4656624)

問題の概要:fuser コマンドによってどのノードにもユーザーは存在しないと報告される場合でも、クラスタファイルシステムのマウント解除が失敗することがある。

回避策:そのファイルシステムに対する非同期入出力がすべて完了したあとでマウント解除の操作をもう一度行なってください。

再起動を行うとクラスタノードが非稼動状態になる (4664510)

問題の概要:Sun StorEdge T3 アレイの 1 つの電源を切断して scshutdown を実行したあと、両方のノードを再起動すると、クラスタが動作していない状態になる。

回避策:複製の片方が失われた場合、次の手順を実行します。

  1. クラスタがクラスタモードであることを確認します。

  2. 強制的にディスクセットをインポートします。


    # metaset -s set-name -f -C take
    
  3. 壊れた複製を削除します。


    # metadb -s set-name -fd /dev/did/dsk/dNsX
    
  4. ディスクセットを解放します。


    # metaset -s set-name -C release
    

    これでファイルシステムはマウントおよび使用できます。しかし、複製の冗長性は復元されていません。複製のもう片方が失われた場合、ミラーを正常な状態に復元する方法はありません。

  5. 上記修復手順を適用した後、データベースを作成し直します。

ディスクグループからプレックスを引き離すとパニックが発生する (4657088)

問題の概要:Sun Cluster でディスクグループからプレックスを引き離すと、クラスタノードのパニックが起きて次のメッセージが表示される場合がある。

panic[cpu2]/thread=30002901460: BAD TRAP: type=31 rp=2a101b1d200 addr=40 mmu_fsr=0 occurred in module "vxfs" due to a NULL pointer dereference

回避策:ディスクグループからプレックスを引き離す前に、対応するファイルシステムのマウントを解除してください。

scvxinstall -i がライセンスキーのインストールに失敗する (4706175)

問題の概要:scvxinstall -i コマンドは -L オプションによるライセンスキーの指定を受け付けるが、そのキーは無視され、インストールされない。

回避策:scvxinstall-i フォームでライセンスキーを指定しないでください。キーはインストールされません。ライセンスキーは対話形式のフォームか -e オプションを使用してインストールする必要があります。ルートのカプセル化に進む前に、ライセンス要件を確認し、-e オプションまたは対話形式のフォームで希望するキーを指定してください。

Sun Cluster HA–Siebel が Siebel コンポーネントの監視に失敗する (4722288)

問題の概要:Sun Cluster HA-Siebel エージェントが個々の Siebel コンポーネントを監視しない。Siebel コンポーネントの障害が検出された場合、syslog には警告メッセージしか記録されない。

回避策: コマンド scswitch -R -h node-g resource_group を使用し、コンポーネントがオフラインになっている Siebel サーバーリソースグループを再起動してください。

remove スクリプトが SUNW.gds リソースタイプの登録解除に失敗する (4727699)

問題の概要:remove スクリプトが SUNW.gds リソースタイプの登録解除に失敗し、次のメッセージを表示する。


Resource type has been un-registered already.

回避策: remove スクリプトを使用したあとで、SUNW.gds の登録を手動で解除してください。あるいは、scsetup コマンドか SunPlex Manager を使用することもできます。

IPMP グループの作成オプションを使用すると hostname.int が上書きされる (4731768)

問題の概要:SunPlex Manager のIPMP グループの作成オプションは、まだ構成されていないアダプタにしか使用できない。 アダプタが IP アドレスを指定してすでに構成されている場合は、IPMP 用に手動で構成する必要がある。

回避策:SunPlex Manager のIPMP グループの作成オプションは、まだ構成されていないアダプタにしか使用できません。アダプタが IP アドレスを指定してすでに構成されている場合は、Solaris IPMP 管理ツールを使用して手動で構成する必要があります。

Solaris の shutdown コマンドを使用するとノードパニックが起きることがある (4745648)

問題の概要:Solaris の shutdown コマンドまたはこのコマンドに類似したコマンド (uadmin など) を使用してクラスタノードを停止すると、ノードパニックが起きて次のメッセージが表示されることがある。

CMM: Shutdown timer expired. Halting.

回避策:Sun のサービス担当者に連絡してサポートを受けてください。このパニックは、停止するノードによって管理されていたサービスをクラスタ内のほかのノードに安全に引き継がせるために必要なものです。

クラスタに定足数デバイスを追加するための管理コマンドが失敗する (4746088)

問題の概要:クラスタの定足数が必要最小限に設定されている場合、クラスタに定足数デバイスを追加する管理コマンドが失敗し、次のメッセージが表示される。

Cluster could lose quorum

回避策:Sun のサービス担当者に連絡してサポートを受けてください。

プライベートインターコネクトに ce アダプタを使用する場合、パスがタイムアウトする (4746175)

問題の概要:プライベートインターコネクトに ce アダプタを使用するクラスタでは、1 つ以上のクラスタノードが 5 個以上のプロセッサを搭載していると、パスのタイムアウトとそれに引き続くノードパニックが発生する場合がある。

回避策: ce ドライバに ce_taskq_disable パラメータを設定する必要があります。すべてのクラスタノード上の /etc/system ファイルに set ce:ce_taskq_disable=1 という行を追加し、続いてそれらのクラスタノードを再起動してください。これによりハートビート (およびその他のパケット) が常に割り込みコンテキストで配布され、パスのタイムアウトと後続のノードパニックが防止されます。クラスタノードを再起動する間は、定足数に関連するメッセージに注意してください。

パブリックネットワークで障害が発生すると Siebel ゲートウェイの検証機能がタイムアウトする場合がある (4764204)

問題の概要:パブリックネットワークで障害が発生すると Siebel ゲートウェイの検証機能がタイムアウトし、最終的に Siebel ゲートウェイリソースがオフラインとなることがある。これは、Siebel ゲートウェイが稼動しているノードが /home から始まるパスを持ち、そのパスがネットワークリソース (NFS や NIS など) に依存している場合などに起きる。パブリックネットワークを利用できないと、Siebel ゲートウェイの検証機能は /home 上のファイルを開こうとしてハングアップし、検証機能はタイムアウトを起こす。

回避策: Siebel ゲートウェイを管理できるすべてのクラスタノードについて、次の作業を行なってください。

  1. /etc/nsswitch.conf 内の passwdgroup、および project エントリに nis ではなく files だけがされているか確認します。

  2. /home で始まるパスに NFS または NIS に対する依存性がないかを確認します。

    この場合、/home パスをローカルにマウントすることも、あるいは /home マウントポイントを /export/home か、/home から始まらない名前に変更することもできます。

  3. /etc/auto_master ファイルで、+auto_master というエントリを含む行をコメントにします。さらに、auto_home を使用した /home エントリがあれば、それらもコメントにします。

  4. etc/auto_home で、+auto_home を含む行をコメントにします。

ゲートウェイ経路を削除するとノードごとに行われる論理的な IP 通信が切断される (4766076)

問題の概要:プライベートインターコネクトを介してノードごとに可用性の高い論理的な IP 通信を提供するため、Sun Cluster ソフトウェアはクラスタノード上のゲートウェイ経路を使用する。ゲートウェイ経路を削除すると、ノードごとに行われている論理的な IP 通信が切断される。

回避策:意図せずに経路を削除してしまったクラスタノードを再起動してください。ゲートウェイ経路を復元するには、それらのクラスタノードを一度に 1 つずつ再起動してください。ノードごとに行われる論理的な IP 通信は、その経路が復元されるまで切断した状態となります。クラスタノードを再起動する間は、定足数に関連するメッセージに注意してください。

フェイルオーバーが失敗するとエラーが発生する (4766781)

問題の概要:ファイルシステムのフェイルオーバーまたはスイッチオーバーが失敗すると、そのファイルシステムがエラー状態になることがある。

回避策:ファイルシステムのマウントを解除して、マウントし直します。

TCP Selective Acknowledgment を有効にするとデータ破損が発生することがある (4775631)

問題の概要:クラスタノードに対して TCP Selective Acknowledgement (TCP 選択的肯定応答) を有効にすると、データ破損が発生することがある。

回避策:ユーザーアクションは不要です。グローバルファイルシステムにおけるデータ破損の発生を防止するには、クラスタノードに対する TCP Selective Acknowledgement を有効状態に戻さないようにしてください。

scinstall が、一部のデータサービスについてサポート対象外であるという不正なメッセージを表示する (4776411)

問題の概要:scinstall は、Solaris 9 では次のデータサービスがサポートされていないという不正なメッセージを表示する。

回避策: Solaris 8 と Solaris 9 は、Sun Cluster HA for SAP と Sun Cluster HA for SAP liveCache の両方をサポートします。scinstall で示される未サポート機能の一覧は無視してください。

/dev/rmt が存在しないと scdidadm はエラーを生成して終了する (4783135)

問題の概要:scdidadm(1M) の現在の実装は、scdiadm -r を正常に実行するために /dev/rmt/dev/(r)dsk の両方を必要とする。ストレージデバイスが実際に存在するかどうかにかかわらず、Solaris は両方をインストールする。/dev/rmt が存在しないと、 scdidadm は次のエラーを生成して終了する。

Cannot walk /dev/rmt" during execution of 'scdidadm -r

回避策:/dev/rmt が存在しない任意のノードで、mkdir を使用してディレクトリ /dev/rmt を作成します。 続いて、1 つのノードから scgdevs を実行します。

ノード障害によってクラスタファイルシステムの主ノードが停止する場合のデータ破損 (4804964)

問題の概要:パッチ 113454-04、113073-02、および 113276-02 (あるいはこれらのパッチのサブセット) を使用している Sun Cluster 3.x システムでは、データ破損が発生する可能性がある。この問題は、グローバルにマウントされた UFS ファイルシステムでしか発生しない。このデータ破損は、ディスクブロックの倍に相当するデータ消失を起こす (つまり、データが存在すべき場所にゼロが現れる)。このデータ消失は、クラスタファイルシステムが書き込み処理を完了した直後に (あるいは書き込み処理を完了したと報告した直後に) ノード障害によってクラスタファイルシステムの主ノードが停止する場合にいつでも発生する可能性がある。このような脆弱状態が続く期間は限定されており、毎回起きるわけではない。

回避策:UFS ログの処理が同時に行われるように、-o syncdir マウントオプションを使用してください。

スイッチオーバーが進行している間に再起動を行うと、その後ノードがハングアップする (4806621)

問題の概要:ノードがクラスタに追加される際にデバイスグループのスイッチオーバーが進行していると、追加されるノードとスイッチオーバー処理がハングアップする可能性がある。また、デバイスサービスに対するアクセスも停止する。この状況は、ノードが 3 つ以上存在し、デバイス上にマウントされたファイルシステムのタイプが VxFS であるというクラスタで発生しやすい。

回避策:この状況を防止するには、ノードがクラスタに追加される間にデバイスグループのスイッチオーバーを開始しないようにしてください。この状況が発生した場合は、デバイスグループに対するアクセスを復旧させるためにすべてのクラスタノードを再起動する必要があります。

クラスタファイルシステムが一杯になった場合にファイルシステムがパニックを起こす (4808748)

問題の概要:クラスタファイルシステムが一杯になった場合、ファイルシステムのパニックが起きて次に示すメッセージのどれかが表示されることがある。

1) assertion failed: cur_data_token & PXFS_WRITE_TOKEN or PXFS_READ_TOKEN または


2) vp->v_pages == NULL

These panics are intended to prevent data corruption when a filesystem is full.

回避策:この問題が発生する可能性を減らすには、できるだけクラスタファイルシステムを UFS で使用してください。クラスタファイルシステムを UFS で使用した場合にはこれらのパニックが起きる可能性はきわめてまれですが、VxFS で使用した場合にはリスクが高くなります。

起動中にクラスタノードがハングアップする (4809076)

問題の概要:scswitch -z -D <device-group> -h <node> によるデバイスサービスのスイッチオーバー要求がノードの再起動と同時に発生し、かつそのデバイスサービスでグローバルファイルシステムが構成されている場合、このグローバルファイルシステムが利用不能となり、デバイスサービスまたはグローバルファイルシステムに関わる後続の構成変更もハングアップする可能性がある。また、その後実施されるクラスタノードの追加もハングアップする可能性がある。

回避策:この状況を回復させるには、すべてのクラスタノードを再起動する必要があります。

scconf -rq を使用して定足数デバイスを削除するとクラスタパニックが起きる (4811232)

問題の概要:scconf -rq コマンドを実行して脆弱な構成内の定足数デバイスを削除すると、すべてのクラスタノードでパニックが起き、次のメッセージが表示される。

CMM lost operational quorum

回避策:クラスタから定足数デバイスを削除するため、まず scstat -q を実行してメッセージを確認します。定足数デバイスが Present 列で複数の票を与えられている場合には、scconf -cq globaldev=QD,maintstate を使用してそのデバイスをまず保守モードにする必要があります。コマンドが完了し、scstat -q によってこの定足数デバイスの票が 0 になったことが表示されたところで、scconf -rq を使用してこのデバイスを削除できます。

O_EXCL フラグを使用する場合にミラー化ボリュームがエラーを起こす (4820273)

問題の概要:Solstice DiskSuite/Solaris Volume Manager が使用されている状況でミラー化ボリュームを O_EXCL フラグを指定して開くと、このボリュームを含んでいるデバイスグループのフェイルオーバーは失敗する。このフラグを使用すると、フェイルオーバーのあとでこのボリュームが初めてアクセスされる際にデバイスグループの新しい主ノードがパニックを起こす。

回避策:Solstice DiskSuite/Solaris Volume Manager を使用する場合、O_EXCL フラグを指定してミラー化ボリュームを開くことは避けてください。

スイッチオーバーの最中にノードを再起動すると、その後クラスタがハングアップする (4823195)

問題の概要:デバイスサービスのフェイルオーバー要求がノードの再起動またはノードの追加と同時に発生し、かつそのデバイスサービスでクラスタファイルシステムが構成されている場合、このクラスタファイルシステムが利用不能となり、デバイスサービスまたはクラスタファイルシステムに関わる後続の構成変更もハングアップする可能性がある。また、その後実施されるクラスタノードの追加もハングアップする可能性がある。

回避策:この状況を回復させるには、すべてのクラスタノードを再起動する必要があります。

フランス語ロケールにおける未翻訳のテキスト (4840085)

問題の概要:SunPlex Manager を使用して Sun Cluster をフランス語ロケールでインストールする際に、未翻訳のテキストが一部出現する。

回避策:このエラーは、SunPlex Manager の機能性には影響を与えません。未翻訳のテキストを無視することも、あるいはブラウザの言語を英語に設定し、言語が入り混じった状態を避けることもできます。