Sun N1 Grid Engine 6.1 管理ガイド

シャドウマスターホストの構成

シャドウマスターホストはクラスタ内のマシンで、マスターデーモンの障害を検出して、マスターホストとしてその役割を引き継ぐことができます。シャドウマスターデーモンが、マスターデーモン sge_qmaster に異常な障害が発生したことを検出すると、シャドウマスターデーモンが動作しているホスト上で新しい sge_qmaster を起動します。


注 –

マスターデーモンが正常に停止した場合は、シャドウマスターデーモンは起動しません。マスターデーモンを正常に停止したあとにシャドウマスターデーモンに引き継ぎを任せる場合は、sge_qmaster スプールディレクトリにあるロックファイルを削除します。このスプールディレクトリのデフォルトの位置は、 sge-root/cell/spool/qmaster です。


シャドウマスターホストでの sge_qmaster の自動フェイルオーバーの起動には、約 1 分かかります。その間、Grid Engine システムコマンドが実行されるたびに、エラーメッセージが表示されます。


注 –

ファイル sge-root/ cell/common/act_qmaster には、実際に sge_qmaster デーモンを実行しているホストの名前が含まれています。


シャドウマスターホストの要件

ホストをシャドウマスターとして準備するには、次の要件が満たされている必要があります。

以上の要件が満たされるとすぐに、シャドウマスターホストの機能はこのホストに対して起動されます。機能の起動には、Grid Engine システム デーモンの再起動は必要ありません。

シャドウマスターホストファイル

シャドウマスターホストファイル sge-root/cell/common/shadow_masters には、次の要素が含まれています。

シャドウマスターホスト名ファイルの書式は次のようになります。

シャドウマスターホストの順序は重要です。プライマリマスターホストがファイルの最初の行になります。プライマリマスターホストで動作の続行に障害が生じた場合、2 行目で定義されているシャドウマスターが引き継ぎます。このシャドウマスターにも障害が発生した場合は、3 行目で定義されているシャドウマスターが引き継ぐ、となります。

シャドウマスターホストの起動

シャドウ sge_qmaster を起動するには、システムは、古い sge_qmaster が停止しているか、新しく起動されるシャドウ sge_qmaster に干渉するアクションを実行することなく停止することを確認する必要があります。

非常にまれな状況では、古い sge_qmaster がすでに停止しているか、これから停止するかを判別することが不可能な場合があります。このような場合は、シャドウマスターホストの sge_shadowd のメッセージログファイルにエラーメッセージが記録されます。第 9 章「チューニング、エラーメッセージ、および障害追跡」を参照してください。また、sge_qmaster デーモンへの tcp 接続を開く試みは、永続的に失敗します。このような事態になった場合は、実行中のマスターデーモンが存在しないことを確認してから、すべてのシャドウマスターマシン上で sge_qmaster を手動で再起動します。「コマンド行からのデーモンの再起動」を参照してください。

シャドウマスターホスト環境変数の構成

次の 3 つの環境変数は、シャドウマスターのテイクオーバー時間に影響します。

これらの変数は、次のように相互に作用します。

  1. マスターホストはハートビートファイルを 30 秒ごとに更新します。

  2. sge_shadowd デーモンは、 SGE_CHECK_INTERVAL 変数で定義されている秒数ごとにハートビートファイルの変更を確認します。このため、この値は 30 秒より大きくします。

  3. sge_shadowd デーモンは、ハートビートファイルが更新されていることを検出すると、そのデーモンは再び待ち状態になり、もう一度ハートビートファイルを確認するタイミングになるまで待ちます。

  4. sge_shadowd デーモンは、ハートビートファイルが更新されていないことを検出すると、SGE_CHECK_INTERVAL 変数で定義されている秒数が経過するまで待機します。この手順によって、sge_shadowd デーモンのテイクオーバーが頻繁に行われすぎないようにし、マスターホストが余裕を持ってハートビートファイルを更新できるようにします。

  5. SGE_GET_ACTIVE_INTERVAL の期限が切れると、ハートビートファイルがまだ更新されていない場合は、sge_shadowd デーモンのテイクオーバーが行われます。

推奨する設定は、SGE_CHECK_INTERVAL が 45 秒、SGE_GET_ACTIVE_INTERVAL が 90 秒です。この設定にすると、約 2 分後にテイクオーバーが発生します。これらの環境変数の設定後にシャドウホストの動作を確認する場合は、マスターホストのネットワークケーブルを引き抜いて、障害のシミュレーションを行う必要があります。