Sun Enterprise 10000 SSP 3.5 ユーザーマニュアル

スペア制御ボードへの自動フェイルオーバー

制御ボードのフェイルオーバーは、SSP のインストールまたはアップグレード時に自動的に使用可能になります。制御ボードおよびその他のフェイルオーバーコンポーネントのフェイルオーバー監視は、fod デーモンによって行われます。主制御ボードが正しく機能していない場合は、fod デーモンがスペア制御ボードへの自動フェイルオーバーを起動します。制御ボードの障害は、以下の原因によります。

ただし、障害の状態によっては、fod デーモンが制御ボードフェイルオーバーを使用不可にすることがあります。障害状態の詳細と実行されるフェイルオーバー動作の概要については、第 10 章「SSP の内部構造」を参照してください。

制御ボードのフェイルオーバーは、ドメインが実行されているかどうかによって部分的または完全のいずれかになります。

制御ボードフェイルオーバーの管理

以下に説明する手順により、制御ボードフェイルオーバーを使用可能、使用不可にしたり、強制することができます。メイン SSP 上で setfailover(1M) コマンドを使用して、フェイルオーバー状態を管理します。たとえば、制御ボードのフェイルオーバーが発生した後に、setfailover(1M) コマンドを使用して制御ボードのフェイルオーバー機能を再び使用可能にする必要があります。

制御ボードフェイルオーバーを使用不可にする
  1. ユーザー名 ssp でメイン SSP にログインし、以下のように入力します。


    ssp% setfailover -t cb off
    

    制御ボードのフェイルオーバーは、ユーザーが使用可能にするまで使用不可のままです。制御ボードフェイルオーバーが使用不可になっているかどうかを判定するには、「制御ボードフェイルオーバー情報の取得」で説明するように、showfailover(1M) コマンドを使用してフェイルオーバー状態を調べます。

制御ボードフェイルオーバーを使用可能にする
  1. ユーザー名 ssp でメイン SSP にログインし、以下のように入力します。


    ssp% setfailover -t cb on
    

    すべての接続リンクが正しく機能している場合に、制御ボードのフェイルオーバーが有効になります。障害のある接続が 1 つでもあると、制御ボードフェイルオーバーは使用不可になります。showfailover(1M) コマンドを使用すれば、制御ボードフェイルオーバーが使用可能かどうかを調べて、接続状態を見直すことができます。

完全な制御ボードフェイルオーバーを強制する

注 -

完全な制御ボードフェイルオーバー (JTAG 接続とシステムクロックソースの両方が主制御ボードからスペア制御ボードに移されます) を強制するには、まず、実行中のドメインをすべて停止します。次に、すべてのシステムボードの電源を切断し再び電源を投入した後で、制御ボードのスイッチを入れます。一部でも停止していないドメインがあると、部分的な制御ボードフェイルオーバーが発生します。この場合は、JTAG 接続はスペア制御ボードに移されますが、システムクロックソースは元の主制御ボードに残ります。


  1. 実行されているドメインがあれば、標準的な shutdown(1M) コマンドを使用してこれらのドメインを停止してください。

  2. ユーザー名 ssp でメイン SSP にログインします。

  3. ドメインが停止しているかどうかを確認するために、以下の処理を行います。

    1. イベント検出の監視を停止します。


      ssp% edd_cmd -x stop
      
    2. すべてのシステムボードの電源を切断します。


      ssp% power -off -all
      
    3. すべてのシステムボードの電源を投入します。


      ssp% power -on -all
      
    4. イベント検出の監視を開始します。


      ssp% edd_cmd -x start
      
  4. 以下のように入力して、制御ボードフェイルオーバーを強制します。


    ssp% setfailover -t cb force
    
  5. すべてのドメインに対して bringup(1M) コマンドを実行します。

  6. 「制御ボードフェイルオーバーを使用可能にする」の説明に従って、制御ボードフェイルオーバーを再度、使用可能にしてください。

制御ボードフェイルオーバー情報の取得

メイン SSP 上で showfailover(1M) コマンドを使用すれば、SSP または制御ボードのフェイルオーバー状態と専用接続リンクの状態を知ることができます。SSP と制御ボードの名前も知ることができます。また、JTAG インタフェースとシステムクロックを管理している制御ボードも識別できます。表示されるフェイルオーバー情報の詳細は、「フェイルオーバー状態情報の取得」を参照してください。

以下の例は、主制御ボードに障害がある場合に制御ボードフェイルオーバーについて表示される情報です。


ssp% showfailover  
Failover State:
     SSP Failover: Active
     CB Failover:  Failed
Failover Connection Map:
     Main SSP to Spare SSP thru Main Hub:   GOOD
     Main SSP to Spare SSP thru Spare Hub:  GOOD
     Main SSP to Primary Control Board:     FAILED
     Main SSP to Spare Control Board:       GOOD
     Spare SSP to Main SSP thru Main Hub:   GOOD
     Spare SSP to Main SSP thru Spare Hub:  GOOD
     Spare SSP to Primary Control Board:    FAILED
     Spare SSP to Spare Control Board:      GOOD
SSP/CB Host Information
     Main SSP:                              xf12-ssp
     Spare SSP:                             xf12-ssp2
     Primary Control Board (JTAG source):   xf12-cb1
     Spare Control Board:                   xf12-cb0
     System Clock source:                   xf12-cb1

Hostview を使用して、制御ボードフェイルオーバーのタイプ (完全または部分的) を確認することもできます。Hostview において、JTAG インタフェースとシステムクロックを管理している制御ボードが、文字「J」 (JTAG) と「C」 (システムクロックソース) で示されます。

図 9-1 は、部分的な制御ボードフェイルオーバーの後の Hostview ウィンドウの例です。この例では、1 つの制御ボードが JTAG インタフェースを処理し、もう 1 つの制御ボードがシステムクロックソースとして機能しています。

図 9-1 部分的な制御ボードフェイルオーバーの後の Hostview ウィンドウの例

Graphic

制御ボードフェイルオーバー後の作業

制御ボードフェイルオーバーの発生後、以下の回復作業を行う必要があります。