制御ボードのフェイルオーバーは、SSP のインストールまたはアップグレード時に自動的に使用可能になります。制御ボードおよびその他のフェイルオーバーコンポーネントのフェイルオーバー監視は、fod デーモンによって行われます。主制御ボードが正しく機能していない場合は、fod デーモンがスペア制御ボードへの自動フェイルオーバーを起動します。ただし、障害の状態によっては、制御ボードのフェイルオーバーが使用不可になることがあります。障害状態の詳細と実行されるフェイルオーバー動作の概要は、第 11 章「SSP の内部構造」を参照してください。
制御ボードのフェイルオーバーは、ドメインが実行されているかどうかによって部分的または完全のいずれかになります。
ドメインが実行中であって制御ボードに障害状態が検出された場合は、部分的なフェイルオーバーが発生します。
部分的なフェイルオーバーでは、JTAG インタフェースが主制御ボードからスペア制御ボードに移されます。ただし、システムクロックソースは障害のある主制御ボードに残ります。
実行中のドメインがなくて制御ボードに障害状態が検出された場合は、完全なフェイルオーバーが発生します。
完全な制御ボードのフェイルオーバーでは、JTAG インタフェースとシステムクロックソースの両方が主制御ボードからスペア制御ボードに移されます。
制御ボードのフェイルオーバーを使用可能、使用不可にしたり、強制することができます。メイン SSP 上で setfailover(1M) コマンドを使用して、フェイルオーバー状態を管理します。たとえば、制御ボードのフェイルオーバーが発生した後に、setfailover(1M) コマンドを使用して制御ボードのフェイルオーバー機能を再び使用可能にする必要があります。
制御ボードのフェイルオーバーを使用不可、使用可能にしたり強制する手順は、以下のとおりです。
ユーザー名 ssp でメイン SSP にログインし、以下のように入力します。
ssp% setfailover -t cb off |
制御ボードのフェイルオーバーは、ユーザーが使用可能にするまで使用不可のままです。制御ボードフェイルオーバーが使用不可になっているかどうかを判定するには、「制御ボードフェイルオーバー情報の取得」で説明するように、showfailover(1M) コマンドを使用してフェイルオーバー状態を調べます。
ユーザー名 ssp でメイン SSP にログインし、以下のように入力します。
ssp% setfailover -t cb on |
すべての接続リンクが正しく機能している場合に、制御ボードのフェイルオーバーが有効になります。障害のある接続が 1 つでもあると、制御ボードフェイルオーバーは使用不可になります。showfailover(1M) コマンドを使用すれば、制御ボードフェイルオーバーが使用可能かどうかを調べて、接続状態を見直すことができます。
完全な制御ボードフェイルオーバー (JTAG 接続とシステムクロックソースの両方が主制御ボードからスペア制御ボードに移されます) を強制するには、まず、実行中のドメインをすべて停止します。次に、すべてのシステムボードの電源を切断し再び電源を投入した後で、制御ボードのスイッチを入れます。一部でも停止していないドメインがあると、部分的な制御ボードフェイルオーバーが発生します。この場合は、JTAG 接続はスペア制御ボードに移されますが、システムクロックソースは元の主制御ボードに残ります。
実行されているドメインがあれば、標準的な shutdown(1M) コマンドを使用してこれらのドメインを停止してください。
ユーザー名 ssp でメイン SSP にログインします。
ドメインが停止しているかどうかを確認するために、以下の処理を行います。
以下のように入力して、制御ボードフェイルオーバーを強制します。
ssp% setfailover -t cb force |
すべてのドメインに対して bringup(1M) コマンドを実行します。
メイン SSP 上で showfailover(1M) コマンドを使用すれば、SSP または制御ボードのフェイルオーバー状態と専用接続リンクの状態を知ることができます。SSP と制御ボードの名前も知ることができます。また、JTAG インタフェースとシステムクロックを管理している制御ボードも識別できます。表示されるフェイルオーバー情報の詳細は、「フェイルオーバー状態情報の取得」を参照してください。
以下の例は、主制御ボードに障害がある場合に制御ボードフェイルオーバーについて表示される情報です。
ssp% showfailover
Failover State:
SSP Failover: Active
CB Failover: Failed
Failover Connection Map:
Main SSP to Spare SSP thru Main Hub: GOOD
Main SSP to Spare SSP thru Spare Hub: GOOD
Main SSP to Primary Control Board: FAILED
Main SSP to Spare Control Board: GOOD
Spare SSP to Main SSP thru Main Hub: GOOD
Spare SSP to Main SSP thru Spare Hub: GOOD
Spare SSP to Primary Control Board: FAILED
Spare SSP to Spare Control Board: GOOD
SSP/CB Host Information
Main SSP: xf12-ssp
Spare SSP: xf12-ssp2
Primary Control Board (JTAG source): xf12-cb1
Spare Control Board: xf12-cb0
System Clock source: xf12-cb1
|
Hostview を使用して、制御ボードフェイルオーバーのタイプ (完全または部分的) を確認することもできます。Hostview において、JTAG インタフェースとシステムクロックを管理している制御ボードが、文字「J」 (JTAG) と「C」 (システムクロックソース) で示されます。
図 10-1 は、部分的な制御ボードフェイルオーバーの後の Hostview ウィンドウの例です。この例では、1 つの制御ボードが JTAG インタフェースを処理し、もう 1 つの制御ボードがシステムクロックソースとして機能しています。

制御ボードフェイルオーバーの発生後、以下の回復作業を行う必要があります。
フェイルオーバーの原因となった障害点または障害状態を特定し、障害を修正する方法を決めます。
たとえば、制御ボードフェイルオーバーの原因が制御ボードの障害である場合は、障害のある制御ボードを交換する必要があるかどうかを決めます。
showfailover(1M) コマンドを使用してフェイルオーバー状態を調べ、JTAG インタフェースとシステムクロックを管理している制御ボードを特定します。showfailover の出力の接続マップと第 11 章「SSP の内部構造」のフェイルオーバー検出ポイントの概要を見直します。
また、プラットフォームログファイルによって他のエラー状態を調べ、障害のあるコンポーネントの再起動に必要な修正処置を決めます。
部分的なフェイルオーバーが発生した場合は、再び JTAG とシステムクロックインタフェースの同期をとり、両方が同じ制御ボードで管理されるようにします。
再び JTAG とシステムクロックインタフェースの同期をとるには、「完全な制御ボードフェイルオーバーを強制する」で説明したように、完全な制御ボードフェイルオーバーを実行します。停止される最初のドメインによって、主制御ボード上のシステムクロックと JTAG インタフェースが再び同期されます。
制御ボードの障害を解決したら、制御ボードフェイルオーバーを再び使用可能にします (「制御ボードフェイルオーバーを使用可能にする」を参照)。