Sun Enterprise 10000 SSP 3.4 ユーザーマニュアル

フェイルオーバーデーモン

フェイルオーバーデーモン fod(1M) は、以下を連続監視し、メイン SSP の正常な動作を妨げる障害状態を検出します。

この fod デーモンは、メイン SSP とスペア SSP の両方で実行されます。検出された障害状態の種類によって、fod デーモンは、制御ボードのフェイルオーバーを開始するか、ssp_startup とともに SSP フェイルオーバーを開始します。以下の節では、フェイルオーバー検出ポイント、およびフェイルオーバーを開始または使用不可にする状態について説明します。

フェイルオーバー検出箇所

次の図は、自動フェイルオーバーに必要なデュアル SSP とボード構成の標準レイアウトです。番号は、fod デーモンによって検出される障害箇所を示します。

図 11-6 自動フェイルオーバー検出箇所

Graphic

次の表は、それぞれの障害状態とそれに対応するフェイルオーバー動作をまとめたものです。それぞれの障害箇所については、次の節の障害箇所に関する詳細説明を参照してください。

表 11-2 フェイルオーバー検出箇所とフェイルオーバー動作の要約

障害箇所 

SSP フェイルオーバー 

SSP フェイルオーバーが 使用不可 

制御ボード フェイル オーバー 

制御ボード フェイル オーバーが 使用不可 

1 - メイン SSP とドメインの間 

 

 

 

2 - スペア SSP とドメインの間 

 

 

 

3 - メイン SSP 

 

 

 

4 - スペア SSP 

 

 

 

5 - メイン SSP とスペアハブの間 

 

 

6 - スペア SSP とメインハブの間 

 

 

 

7 - メイン SSP とメインハブの間 

X  

 

 

 

8 - スペア SSP とスペアハブの間 

 

 

 

9 - メインハブ 

 

 

 

10 - スペアハブ 

 

 

11 - 主制御ボードとメインハブの間 

 

 

 

12 - スペア制御ボードとスペアハブの間 

 

 

 

13 - 主制御ボード 

 

 

 

14 - スペア制御ボード 

 

 

 

フェイルオーバー検出箇所の説明

この節では、表 11-2に示したそれぞれのフェイルオーバー検出箇所について詳しく説明します。

  1. メイン SSP とドメインの間の障害

    メイン SSP がメイン SSP からドメインまでのネットワークインタフェースの障害を検出し、SSP フェイルオーバーを開始します。

    ネットワークインタフェースの障害はメイン SSP にとって重大ではありませんが、DR (動的再構成)、Sun Enterprise Cluster、および Sun Management Center の動作に影響を与えます。この障害により、次の影響が出ます。

    • DR 処理で、動作中のドメイン内の DR デーモンとの通信動作ができなくなる。

    • JTAG インタフェースに対する netcon セッションが制限される。

    • SSP のネットワーク起動ができなくなる。

    • CD-ROM にアクセスできなくなる。

    • Sun Enterprise Cluster 構成内のメイン SSP がスプリットブレーン状態のクラスタノードを停止できなくなる。これにより、クラスタデータベースが破壊されることがある。

    • Sun Management Center が現在の状態と構成についてドメインに照会できなくなる。


    注 -

    fod デーモンは SSP と Sun Enterprise 10000 の間の接続を監視します。ただし監視頻度は、SSP と制御ボードの間の接続に対する監視より少なくなります。メイン SSP がドメインと通信できずスペア SSP がドメインの一部またはすべてと通信できる場合は、フェイルオーバーが開始されるまで、この障害状況が 25 分継続します。25 分経過すると、fod デーモンがフェイルオーバーを開始します。ただし、フェイルオーバーが開始されるのは、スペア SSP が主制御ボードと通信可能であり、スペア SSP に十分なメモリーとディスク容量がある場合のみです。


  2. スペア SSP とドメインの間の障害

    スペア SSP が、スペア SSP からドメインまでのネットワークインタフェースの障害を検出します。このネットワークインタフェースの障害によって SSP の重要な機能は影響を受けませんが、DR、SRS (Sun Remote Services)、Sun Management Center、Sun Cluster コンソールが影響を受けます。

    その結果、SSP フェイルオーバーが使用不可になります。

  3. メイン SSP の障害

    メイン SSP の障害の原因として、以下が考えられます。

    • SSP リソース (仮想メモリーやディスク容量など) の減少。メイン SSP がこの障害を検出し、フェイルオーバーを開始します。

    • システムクラッシュ。このクラッシュは、スペア SSP と制御ボードが検出します。スペア SSP がフェイルオーバーを開始します。

  4. スペア SSP の障害

    制御ボードとメイン SSP の両方がこの障害を検出します。この障害により、SSP フェイルオーバーが使用不可になります。

  5. メイン SSP とスペアハブの間の障害

    両方の SSP が、メイン SSP からスペアハブおよびスペア制御ボードまでの制御ボードネットワーク接続の障害を検出します。SSP と制御ボードの両方のフェイルオーバーが使用不可になります。

  6. スペア SSP とメインハブの間の障害

    両方の SSP と主制御ボードが、スペア SSP からメインハブおよび主制御ボードまでの制御ボードネットワーク接続の障害を検出します。

    スペア SSP が必要に応じて SSP を監視できないため、SSP フェイルオーバーが使用不可になります。

  7. メイン SSP とメインハブの間の障害

    両方の SSP と主制御ボードが、メイン SSP からメインハブおよび主制御ボードまでの制御ボードネットワーク接続の障害を検出します。スペア SSP から主制御ボードまでの接続が確認されると、SSP フェイルオーバーが試みられます。SSP フェイルオーバーが失敗した場合は、代わりに制御ボードフェイルオーバーが行われます。

  8. スペア SSP とスペアハブの間の障害

    両方の SSP とスペア制御ボードが、スペア SSP からスペアハブおよびスペア制御ボードまでの制御ボードネットワーク接続の障害を検出します。SSP フェイルオーバーが使用不可になります。

  9. メインハブの障害

    両方の SSP と主制御ボードが、メインハブの障害と主制御ボードへのすべての接続の障害を検出します。ドメインへの接続が存在しドメインが実行中であれば、この障害が原因で、スペア制御ボードへの部分的な制御ボードフェイルオーバー (JTAG のフェイルオーバーのみ) が行われます。現在実行中のドメインがない場合は、この障害が原因で、完全な制御ボードフェイルオーバー (JTAG とシステムクロックのフェイルオーバー) が行われます。

    部分的な制御ボードフェイルオーバーが行われた場合は、JTAG インタフェースとシステムクロックが主制御ボードとスペア制御ボードの間で分離されていても、制御ボードの完全な機能は保持されます。

  10. スペアハブの障害

    両方の SSP とスペア制御ボードが、スペアハブの障害と、スペア制御ボードへのすべての接続の障害を検出します。

  11. 主制御ボードからメインハブまでの障害

    両方の SSP と主制御ボードが、メインハブから主制御ボードまでの制御ボードネットワーク接続の障害を検出します。ドメインが実行中であれば、この障害が原因で、スペア制御ボードへの部分的な制御ボードフェイルオーバー (JTAG のフェイルオーバーのみ) が行われます。実行中のドメインがない場合は、この障害が原因で、完全な制御ボードフェイルオーバーが行われます。

    部分的な制御ボードフェイルオーバーが行われた場合は、JTAG インタフェースとシステムクロックが主制御ボードとスペア制御ボードの間で分離されていても、制御ボードの完全な機能は保持されます。

  12. スペア制御ボードとスペアハブの間の障害

    両方の SSP とスペア制御ボードが、スペアハブからスペア制御ボードまでの制御ボードネットワーク接続の障害を検出します。この障害によって、制御ボードフェイルオーバーが使用不可になります。

  13. 主制御ボードの障害

    両方の SSP がこの障害を検出します。ドメインが実行中であれば、この障害が原因で、スペア制御ボードへの部分的な制御ボードフェイルオーバー (JTAG のフェイルオーバーのみ) が行われます。実行中のドメインがない場合は、この障害が原因で、完全な制御ボードフェイルオーバーが行われます。

    部分的な制御ボードフェイルオーバーが行われた場合は、JTAG インタフェースとシステムクロックが主制御ボードとスペア制御ボードの間で分離されていても、制御ボードの完全な機能は保持されます。

  14. スペア制御ボードの障害

    両方の SSP がこの障害を検出します。この障害によって、制御ボードフェイルオーバーが使用不可になります。