Sun Cluster Geographic Edition 3.1 8/05 ご使用にあたって

既知の問題点とバグ

次に示す既知の問題とバグは、Sun Cluster Geographic Edition 3.1 8/05 リリースの処理に影響を与えます。

拡張 SunPlex Manager GUI の制限事項

問題の概要:デバイスグループを含む保護グループを削除できません。

対処方法:GUI を使ってデバイスグループを含む保護グループを削除するには、最初にデバイスグループを個別に削除します。次に、保護グループを削除します。

java.util.logging.ErrorManager に書き込みを行うと共通エージェントコンテナログエラーが発生する (5081674)

問題の概要:java.io.InterruptedIOException エラーメッセージは、共通エージェントコンテナログファイル java.util.logging.ErrorManager に記録する際に表示されます。

対処方法:この例外は無害であり、無視しても支障ありません。

クラスタを再起動したあと Sun Cluster Geographic Edition インフラストラクチャーがオフライン状態に留まることがある (6218200)

問題の概要:クラスタを再起動したあと、Sun Cluster Geographic Edition インフラストラクチャーがオフライン状態に留まることがあります。

対処方法:

クラスタを再起動したあとで Sun Cluster Geographic Edition インフラストラクチャーがオフライン状態になる場合は、geoadm start コマンドを使用して Sun Cluster Geographic Edition インフラストラクチャーを再起動します。

GUI が RBAC をサポートしない (6226493)

問題の概要:GUI が RBAC をサポートしません。

対処方法:ローカルクラスタ上でスーパーユーザー (root) として GUI を起動します。

パートナークラスタ上で同じ root パスワードを使用することを GUI が要求する (6260505)

問題の概要:root パスワードを使用して SunPlex Manager GUI にアクセスするためには、両方のクラスタのすべてのノードで root パスワードを同じにする必要があります。

対処方法:両方のクラスタのすべてのノードで root パスワードが同じであることを確認します。

パートナークラスタが異なるドメインに存在する場合、クラスタ名にドメイン名を含めることができない (6260506)

問題の概要:パートナークラスタが異なるドメインに存在する場合、クラスタ名にドメイン名を含めることができません。

対処方法:ローカルクラスタ上の各ノードの /etc/hosts ファイルに、パートナークラスタの論理ホスト名の IP を使用してパートナークラスタ名を指定します。バグ 6252467 も参照してください。


注 –

/etc/hosts ファイルを手動で更新すると、同じ名前のローカルドメインマシンと重複する可能性があります。


パートナーシップにカスタムハートビートを取り入れるには、あらかじめリモートクラスタとローカルクラスタの両方にそのハートビートが存在していなければならない (6263692)

問題の概要:カスタムハートビートを使用してリモートクラスタ上にパートナーシップを作成する場合、そのハートビートをパートナーシップに参加させるには同じ名前のハートビートがローカルクラスタ上に存在していなければなりません。ハートビートは GUI を使用して作成することはできないため、「Join Partnership」ページの選択肢として適切なハートビートが表示されることはありません。

対処方法:CLI を使用してカスタムハートビートを作成し、その後 CLI または GUI を使用してパートナーシップに取り入れます。

ノードとストレージデバイス間の通信が遮断されるとエラー状態になることがある (6269186)

問題の概要: sysevent デーモンがクラッシュする際に、クラスタ状態が Error になり、ハートビートの状態が No Reponse になります。

対処方法:sysevent デーモンを再起動し、次のように Sun Cluster Geographic Edition インフラストラクチャーを再起動します。

ProcedureSun Cluster Geographic Edition インフラストラクチャーを再起動する

  1. Sun Cluster Geographic Edition ソフトウェアを無効にします。


    phys-paris-1# geoadm stop
  2. クラスタノードの 1 つで、Sun Cluster Geographic Edition インフラストラクチャーを有効にします。


    phys-paris-1# geoadm start
参照

geoadm(1M) コマンドについては、geoadm(1M) のマニュアルページを参照してください。

sysevent デーモンがクラッシュする際にクラスタ状態が Error になる (6276483)

問題の概要: sysevent デーモンがクラッシュする際に、クラスタ状態が Error になり、ハートビートの状態が No Reponse になります。

対処方法:sysevent デーモンを再起動し、次のように Sun Cluster Geographic Edition インフラストラクチャーを再起動します。

ProcedureSun Cluster Geographic Edition インフラストラクチャーを再起動する

  1. Sun Cluster Geographic Edition ソフトウェアを無効にします。


    phys-paris-1# geoadm stop
  2. クラスタノードの 1 つで、Sun Cluster Geographic Edition インフラストラクチャーを有効にします。


    phys-paris-1# geoadm start
参照

geoadm コマンドについては、geoadm(1M) のマニュアルページを参照してください。

保護グループの起動がタイムアウトする際に不明なエラーメッセージが表示される (6284278)

問題の概要:geopg start コマンドがタイムアウトする際に、「Waiting response timeout: 100000」というメッセージが表示されます。このメッセージは、処理がタイムアウトしたことを明示するものではありません。タイムアウト間隔も、秒単位ではなくミリ秒単位で示されています。

対処方法:必要ない

geo-failovercontrol リソースはそれ自体が STOP_FAILED 状態になるとタイムアウトする (6288257)

問題の概要:システムの負荷が高くなったなどの理由により、共通エージェントコンテナがハングアップしたり、反応が遅くなったりすると、geo-failovercontrol stop メソッドがタイムアウトします。このタイムアウトの結果、geo-failovercontrol リソースが STOP_FAILED 状態になります。

対処方法:stop_timeout 間隔は比較的長いため (10 分)、この問題はめったに発生しません。しかし、geo-failovercontrol リソースが STOP_FAILED 状態にある場合は、次の手順に従って、Sun Cluster Geographic Edition インフラストラクチャーを回復して、有効にしてください。

クラスタを再起動したあと、有効な保護グループが無効になり、リソースグループが Error 状態になる (6289463)

問題の概要:一次クラスタで保護グループが有効状態にあり、リソースグループが OK の状態にあるとします。この状態で主クラスタを再起動すると、クラスタが立ち上がった時点で保護グループが無効状態になり、リソースグループが Error 状態になります。

対処方法:フェイルバックスイッチオーバーの際には、手順 1a に示されている方法でパートナーシップの同期をとる前に、次のコマンドにより保護グループを無効にする必要があります。


# geopg stop -e Local  protection-group-name
-e Local

コマンドの範囲を指定します

範囲を local と指定すると、ローカルクラスタだけがコマンドの対象となります。

protection-group-name

保護グループの名前を指定します

保護グループがすでに無効になっている場合は、保護グループ内のリソースグループの状態は通常 Error です。状態が Error であるのは、アプリケーションリソースグループが現在管理されていてオフラインであるためです。

保護グループを無効にすると、アプリケーションリソースグループは管理対象でなくなり、Error 状態が解消されます。

完全な手順については、『Sun Cluster Geographic Edition のシステム管理』「Sun StorEdge Availability Suite 3.2.1 複製を使用するシステム上でフェイルバックスイッチオーバーを実行する」を参照してください。

保護グループにリソースグループを追加する際に誤ったメッセージが表示される (6290256)

問題の概要:保護グループにアプリケーションのリソースグループを追加すると、アプリケーションのリソースグループと軽量リソースグループは同じ保護グループになければならないというメッセージが表示される場合があります。このメッセージは、軽量リソースグループによって制御されるデバイスグループと同じ保護グループ内にそのアプリケーションのリソースグループが存在しなければならないことを意味します。

軽量リソースグループは、Sun Cluster Geographic Edition ソフトウェアによって管理されます。このため、表示されるメッセージに関係なく、保護グループへの軽量リソースグループの追加は避けてください。

対処方法:必要ない

Sun StorEdge Availability Suite 3.2.1 および Sun Cluster Geographic Edition のインフラストラクチャーリソースグループによって制御されているデバイスグループを管理しているノードからパブリックネットワークを解除するとノードが異常停止する (6291382)

問題の概要:Sun StorEdge Availability Suite 3.2.1 および Sun Cluster Geographic Edition のインフラストラクチャーリソースグループとリソースによって制御されているデバイスグループを管理しているノードからパブリックネットワークを解除すると、そのノードはパブリックネットワークを失い、異常停止します。

対処方法:必要ない

Hitachi TrueCopy のスイッチオーバーが失敗すると dev_group 内のペアがボリューム状態の不一致を起こす (6295537)

問題の概要:Hitachi TrueCopy CCI ガイドに示されているスイッチオーバーの手順は正しいものですが、SVOL-SSUS テイクオーバーのためにスイッチオーバーが失敗する場合、dev_group がボリューム状態の不一致を起こすことがあります。この不一致が起きると、pairvolchk コマンドと pairsplit コマンドが失敗します。

対処方法:dev_group のボリューム状態を一致させるには、dev_group 内のペアのボリューム状態を一致させます。ペアのボリューム状態を一致させるためのコマンドは、現在のペアの状態と、どのクラスタのボリュームをプライマリにするか (どのクラスタのボリュームでアプリケーションを稼働させるか) によって異なります。Hitachi TrueCopy コマンドの設定については、Hitachi TrueCopy CCI ガイドを参照してください。続いて、『Sun Cluster Geographic Edition のシステム管理』「Hitachi TrueCopy 複製を使用するシステムでのスイッチオーバー障害からの回復」に示されている手順を実行します。

リモート horcmd が稼働し応答している場合でも、Hitachi TrueCopy CCI コマンドと Hitachi TrueCopy リソースはこのプロセスが稼働していないと報告する (6297384)

問題の概要:クラスタノードが通信のために 2 つ以上のネットワークアドレスを複数のサブネットに割り当てている場合は、/etc/horcm.conf ファイル内の IP_addressNONE に設定する必要があります。IP_address フィールドは、ネットワークアドレスが同じサブネットに属している場合でも NONE に設定する必要があります。

IP_address フィールドを NONE に設定しないと、リモートプロセス horcmd が稼働し応答している場合でも、Hitachi TrueCopy コマンドが予期しない動作を起こしてタイムアウトエラー ENORMT となる可能性があります。

対処方法:/etc/horcm.conf ファイル内でデフォルトの Hitachi TrueCopy タイムアウト値を変更した場合は、SUNW.GeoCtlTC リソースタイムアウト値を更新します。/etc/horcm.conf のデフォルトの Hitachi TrueCopy タイムアウト値は、3000(10ms) (30 秒) です。

Sun Cluster Geographic Edition 環境で作成される SUNW.GeoCtlTC リソースも、デフォルトのタイムアウト設定は 3000(10ms) です。

/etc/horcm.conf 内で Hitachi TrueCopy のデフォルトのタイムアウト値を変更した場合は、次に述べるアルゴリズムに従ってリソースのタイムアウト値を更新する必要があります。/etc/horcm.conf と Hitachi TrueCopy リソースのデフォルトのタイムアウト値は、必要がないかぎり変更しないでください。

次に示す等式により、Hitachi TrueCopy コマンドがさまざまな要因によりタイムアウトする時間の上限が求められます。


注 –

次の等式における単位は秒です。


たとえば、horctimeout を 30、numhosts を 2、numretries を 2 に設定すると、Upper-limit-on-timeout は 120 になります。

Upper-limit-on-timeout に基づき、次のリソースタイムアウト値を設定する必要があります。ほかのコマンドの処理が行えるように、バッファーとして 60 以上を指定するべきです。


Validate_timeout = Upper-limit-on-timeout + 60
Update_timeout = Upper-limit-on-timeout + 60
Monitor_Check_timeout = Upper-limit-on-timeout + 60
Probe_timeout = Upper-limit-on-timeout + 60
Retry_Interval = (Prote_timeout + Thorough_probe_interval) + 60

リソース内のほかのタイムアウトパラメタには、デフォルト値を含める必要があります。

タイムアウト値を変更するには、次の手順を実行してください。

  1. scswitch コマンドを使用して、リソースグループをオフライン状態にします。

  2. scrgadm コマンドを使用して、必要なタイムアウトプロパティーを更新します。

  3. scswitch コマンドを使用し、リソースグループをオンラインにします。

依存性をトラバースするとシステムリソースを消費する (6297751)

問題の概要:依存性をトラバースすると多くのシステムリソースを消費します。

対処方法:必要ない

明らかな理由もなく保護グループのスイッチオーバーが失敗し、失敗の理由が報告されない (6299103)

問題の概要:geopg switchover コマンドは、失敗してその理由を示さないことがときどきあります。

対処方法:『Sun Cluster Geographic Edition のシステム管理』「Hitachi TrueCopy 複製を使用するシステムでのスイッチオーバー障害からの回復」に示されている手順に従ってください。

GUI はデバイスグループを作成した結果または保護グループにデバイスグループを追加した結果を返さないことがある (6300168)

問題の概要:デバイスグループの作成または保護グループのデバイスグループの追加がそのブラウザに許可されているタイムアウト間隔を超える場合、処理が完了した時点で GUI の再描画 (リフレッシュ) が行われないことがあります。

対処方法:GUI を使用してパートナーシップページに移動するか、コマンド geopg list を使用して処理の結果を確認することができます。

CLI コマンドの実行中に geocontrol モジュールが有効になっているノードが再起動すると、CLI コマンドがハングアップする (6300616)

問題の概要:サーバー側ソケットが部分的に閉じられたり壊れたりするとプロセス cacaocsc がハングすることがあります。バグ 6304065 も参照してください。

対処方法:Ctrl+C または kill コマンドを使用し、コマンドから抜けます。

スイッチオーバーが進行している最中に共通エージェントコンテナを再起動すると、CRITICAL INTERNAL ERROR エラーが発生する (6302009)

問題の概要:スイッチオーバー処理の最中にクラスタでエラー (インフラストラクチャーリソースグループを管理しているノードの停電など) が発生すると、不明なメッセージが表示されます。

対処方法:必要ない

GUI が保護グループの状態の変化を再描画しない (6302217)

問題の概要:GUI に表示されるページ上に存在するエントリの構成と状態に変化があった場合は、本来自動的にそのページの再描画が行われるべきです。時折、この再描画がなされないことがあります。

対処方法:ナビゲーションツリーを使用していったん別のページに移動し、元のページに戻ります。再読み込みがなされてページが更新されます。

Sun StorEdge Availability Suite 3.2.1 構成データベースを更新する操作を 2 つ以上同時に行うと構成データベースが壊れる場合がある (6303883)

問題の概要:Sun Cluster 環境で Sun StorEdge Availability Suite 3.2.1 構成データベースを更新する操作を 2 つ以上同時に実行しないでください。

Sun Cluster Geographic Edition ソフトウェアが動作しているときに、Sun StorEdge Availability Suite 3.2.1 で複製されたデータを持つ異なる保護グループ上で次のコマンドのうち 2 つ以上を同時に実行しないでください。

たとえば、geopg start pg1 コマンドと geopg switchover pg2 コマンドを同時に実行すると、Sun StorEdge Availability Suite 3.2.1 構成データベースが壊れる可能性があります。


注 –

Sun StorEdge Availability Suite 3.2.1 は Solaris OS 10 上ではサポートされません。Solaris OS 10 を実行している場合は、Sun StorEdge Availability Suite 3.2.1 のサポートを得るために Sun Cluster Geographic Edition パッケージをインストールしないでください。


対処方法:Sun Cluster が複数のノードで構成されている場合は、両方のパートナークラスタのすべてのノードで、Sun StorEdge Availability Suite 3.2.1 dscfglockd デーモンプロセスを有効にします。Sun Cluster が単一のノードだけで構成されている場合、このデーモンを有効にする必要はありません。

dscfglockd デーモンプロセスを有効にするには、両方のパートナークラスタのすべてのノードで、次の手順を実行します。

ProcedureSun StorEdge Availability Suite 3.2.1 dscfglockd デーモンプロセスを有効にする

  1. Sun StorEdge Availability Suite 3.2.1 製品が、Sun StorEdge Availability Suite 3.2.1 の製品マニュアルの指示どおりにインストールされていることを確認します。

  2. Sun StorEdge Availability Suite 3.2.1 製品に、SunSolve (http://sunsolve.sun.com) で入手可能な最新のパッチが適用されていることを確認します。

  3. /etc/init.d/scm ファイルのコピーを作成します。


    # cp /etc/init.d/scm /etc/init.d/scm.original
  4. /etc/init.d/scm ファイルを編集します。

    次の行から、コメント文字 (#) とコメント「(turned off for 3.2)」を削除します。


    # do_stopdscfglockd (turned off for 3.2)
    	# do_dscfglockd (turned off for 3.2)
  5. 編集後のファイルを保存します。

  6. すべての Sun Cluster ノードを再起動する必要がない場合は、スーパーユーザーの権限を持つシステム管理者が各ノード上で次のコマンドを実行します。


    # /usr/opt/SUNWscm/lib/dscfglockd \
    -f /var/opt/SUNWesm/dscfglockd.cf
次の手順

さらにサポートが必要な場合は、ご購入先に問い合わせてください。

稼働している主クラスタで保護グループのテイクオーバーとスイッチオーバーを行うと、アプリケーションリソースグループのリサイクルが起きる (6304781)

問題の概要:保護グループが有効になった一次クラスタでコマンド geopg takeover または geopg switchover を実行すると、同じクラスタ上でいったん保護グループ内のアプリケーションリソースグループがオフラインの非管理状態になり、再びオンラインに戻ります。

対処方法:必要ない

geops create または geops join 操作の実行中にノードを停止したあと Sun Cluster Geographic Edition インフラストラクチャーを起動できない (6305780)

問題の概要:geops create または geops join-partnership コマンドの実行中にノードを停止した場合、Sun Cluster Geographic Edition インフラストラクチャーを再起動できません。

対処方法:ご購入先に連絡してください。

保護グループのスイッチオーバーがタイムアウトする場合、保護グループの役割とデータ複製の役割が一致しない (6306759)

問題の概要: geopg switchover コマンドがタイムアウトする場合、保護グループ役割がデータ複製役割と一致しなくなることがあります。この不一致が起きても、 geoadm status コマンドは構成が「Error」状態ではなく「OK」状態であると示します。

対処方法:スイッチオーバーまたはテイクオーバーがタイムアウトしたあとで、両方のクラスタで geopg validate コマンドを使用して保護グループを再度検証します。

保護グループのテイクオーバーが失敗したあと ERROR になるべきである (6307131)

問題の概要:テイクオーバー操作によって、元の一次クラスタのロールを変更できない場合、同期ステータスが ERROR になる必要があります。

対処方法:geopg updateコマンドを使用してもう一度保護グループの同期をとり、geopg validate コマンドを使用して、元の一次クラスタ上の保護グループを有効にします。

テイクオーバー操作で古い一次クラスタの二次クラスタへの変更に失敗したときにエラーメッセージが表示されない (6309228)

問題の概要:geopg takeover コマンドは成功メッセージを返しますが、保護グループは両方のクラスタで主のままとなります。

対処方法:必要ない

共通エージェントコンテナが、しばらく実行したあとハングアップすることがある (6383202)

問題の概要:共通エージェントコンテナは、長い間実行するとハングアップすることがあります。

対処方法:必要ない