制御ボードのフェイルオーバーは、SSP のインストールまたはアップグレード時に自動的に使用可能になります。制御ボードおよびその他のフェイルオーバーコンポーネントのフェイルオーバー監視は、fod デーモンによって行われます。主制御ボードが正しく機能していない場合は、fod デーモンがスペア制御ボードへの自動フェイルオーバーを起動します。制御ボードの障害は、以下の原因によります。
クロック障害
クロック障害が発生すると、動作中のすべてのドメインが同時にアービトレーション停止 (arbstop) し、制御ボードフェイルオーバーが自動的に起動されます。システムクロックと JTAG インタフェースの両方が自動的にスペア制御ボードへ渡されます。制御ボードが新たに起動すると、通常の EDD 回復動作により、Sun Enterprise 10000 のドメインが再起動します。
JTAG インタフェース障害
SSP が JTAG インタフェースと通信できなくなると、SSP は制御ボードが故障したと判断し、制御ボードフェイルオーバーを自動的に起動します。
制御ボード上の Ethernet インタフェースの障害
制御ボードプロセッサの障害
制御ボードとハブ間のケーブル接続不良
制御ボードに接続されているハブの障害
メインSSP とハブ間のケーブルの接続不良
制御ボードネットワークに接続する SSP ネットワークインタフェースカード (NIC) の障害
制御ボードネットワークの NIC を使用不可にしたために発生したユーザー操作エラー
ただし、障害の状態によっては、fod デーモンが制御ボードフェイルオーバーを使用不可にすることがあります。障害状態の詳細と実行されるフェイルオーバー動作の概要については、第 10 章「SSP の内部構造」を参照してください。
制御ボードのフェイルオーバーは、ドメインが実行されているかどうかによって部分的または完全のいずれかになります。
ドメインが実行中であって制御ボードに障害状態が検出された場合は、部分的なフェイルオーバーが発生します。
部分的なフェイルオーバーでは、JTAG インタフェースが主制御ボードからスペア制御ボードに移されます。ただし、システムクロックソースは障害のある主制御ボードに残ります。この場合、制御ボードフェイルオーバーを手動により完了させ、JTAG インタフェースとシステムクロックソースの両方が同じ制御ボードで管理されるようにしなければなりません。詳細については、「完全な制御ボードフェイルオーバーを強制する」を参照してください。
実行中のドメインがなくて制御ボードに障害状態が検出された場合は、完全なフェイルオーバーが発生します。
完全な制御ボードのフェイルオーバーでは、JTAG インタフェースとシステムクロックソースの両方が主制御ボードからスペア制御ボードに移されます。
以下に説明する手順により、制御ボードフェイルオーバーを使用可能、使用不可にしたり、強制することができます。メイン SSP 上で setfailover(1M) コマンドを使用して、フェイルオーバー状態を管理します。たとえば、制御ボードのフェイルオーバーが発生した後に、setfailover(1M) コマンドを使用して制御ボードのフェイルオーバー機能を再び使用可能にする必要があります。
ユーザー名 ssp でメイン SSP にログインし、以下のように入力します。
ssp% setfailover -t cb off |
制御ボードのフェイルオーバーは、ユーザーが使用可能にするまで使用不可のままです。制御ボードフェイルオーバーが使用不可になっているかどうかを判定するには、「制御ボードフェイルオーバー情報の取得」で説明するように、showfailover(1M) コマンドを使用してフェイルオーバー状態を調べます。
ユーザー名 ssp でメイン SSP にログインし、以下のように入力します。
ssp% setfailover -t cb on |
すべての接続リンクが正しく機能している場合に、制御ボードのフェイルオーバーが有効になります。障害のある接続が 1 つでもあると、制御ボードフェイルオーバーは使用不可になります。showfailover(1M) コマンドを使用すれば、制御ボードフェイルオーバーが使用可能かどうかを調べて、接続状態を見直すことができます。
完全な制御ボードフェイルオーバー (JTAG 接続とシステムクロックソースの両方が主制御ボードからスペア制御ボードに移されます) を強制するには、まず、実行中のドメインをすべて停止します。次に、すべてのシステムボードの電源を切断し再び電源を投入した後で、制御ボードのスイッチを入れます。一部でも停止していないドメインがあると、部分的な制御ボードフェイルオーバーが発生します。この場合は、JTAG 接続はスペア制御ボードに移されますが、システムクロックソースは元の主制御ボードに残ります。
実行されているドメインがあれば、標準的な shutdown(1M) コマンドを使用してこれらのドメインを停止してください。
ユーザー名 ssp でメイン SSP にログインします。
ドメインが停止しているかどうかを確認するために、以下の処理を行います。
以下のように入力して、制御ボードフェイルオーバーを強制します。
ssp% setfailover -t cb force |
すべてのドメインに対して bringup(1M) コマンドを実行します。
「制御ボードフェイルオーバーを使用可能にする」の説明に従って、制御ボードフェイルオーバーを再度、使用可能にしてください。
メイン SSP 上で showfailover(1M) コマンドを使用すれば、SSP または制御ボードのフェイルオーバー状態と専用接続リンクの状態を知ることができます。SSP と制御ボードの名前も知ることができます。また、JTAG インタフェースとシステムクロックを管理している制御ボードも識別できます。表示されるフェイルオーバー情報の詳細は、「フェイルオーバー状態情報の取得」を参照してください。
以下の例は、主制御ボードに障害がある場合に制御ボードフェイルオーバーについて表示される情報です。
ssp% showfailover Failover State: SSP Failover: Active CB Failover: Failed Failover Connection Map: Main SSP to Spare SSP thru Main Hub: GOOD Main SSP to Spare SSP thru Spare Hub: GOOD Main SSP to Primary Control Board: FAILED Main SSP to Spare Control Board: GOOD Spare SSP to Main SSP thru Main Hub: GOOD Spare SSP to Main SSP thru Spare Hub: GOOD Spare SSP to Primary Control Board: FAILED Spare SSP to Spare Control Board: GOOD SSP/CB Host Information Main SSP: xf12-ssp Spare SSP: xf12-ssp2 Primary Control Board (JTAG source): xf12-cb1 Spare Control Board: xf12-cb0 System Clock source: xf12-cb1 |
Hostview を使用して、制御ボードフェイルオーバーのタイプ (完全または部分的) を確認することもできます。Hostview において、JTAG インタフェースとシステムクロックを管理している制御ボードが、文字「J」 (JTAG) と「C」 (システムクロックソース) で示されます。
図 9-1 は、部分的な制御ボードフェイルオーバーの後の Hostview ウィンドウの例です。この例では、1 つの制御ボードが JTAG インタフェースを処理し、もう 1 つの制御ボードがシステムクロックソースとして機能しています。
制御ボードフェイルオーバーの発生後、以下の回復作業を行う必要があります。
フェイルオーバーの原因となった障害点または障害状態を特定し、障害を修正する方法を決めます。
たとえば、制御ボードフェイルオーバーの原因が制御ボードの障害である場合は、障害のある制御ボードを交換する必要があるかどうかを決めます。
showfailover(1M) コマンドを使用してフェイルオーバー状態を調べ、JTAG インタフェースとシステムクロックを管理している制御ボードを特定します。showfailover の出力の接続マップと第 10 章「SSP の内部構造」のフェイルオーバー検出ポイントの概要を見直します。
また、プラットフォームログファイルによって他のエラー状態を調べ、障害のあるコンポーネントの再起動に必要な修正処置を決めます。
部分的なフェイルオーバーが発生した場合は、再び JTAG とシステムクロックインタフェースの同期をとり、両方が同じ制御ボードで管理されるようにします。
再び JTAG とシステムクロックインタフェースの同期をとるには、「完全な制御ボードフェイルオーバーを強制する」で説明したように、完全な制御ボードフェイルオーバーを実行します。停止される最初のドメインによって、主制御ボード上のシステムクロックと JTAG インタフェースが再び同期されます。
制御ボードの障害を解決したら、制御ボードフェイルオーバーを再び使用可能にします (「制御ボードフェイルオーバーを使用可能にする」を参照)。