Sun Cluster の概念 (Solaris OS 版)

フェイルファースト機構

フェイルファースト」機構では、グローバルクラスタ投票ノードまたはグローバルクラスタ非投票ノードのいずれかにおける重大な問題が検出されます。フェイルファーストで問題が検出されたときに、Sun Cluster が取る措置は、問題が投票ノードで発生するか非投票ノードで発生するかによって異なります。

重大な問題が投票ノードで発生した場合、Sun Cluster は強制的にノードを停止させます。Sun Cluster は次にノードをクラスタメンバーシップから削除します。

重大な問題が非投票ノードで発生した場合、Sun Cluster は非投票ノードを再起動します。

ノードは、ほかのノードとの接続を失うと、通信が可能なノードとクラスタを形成しようとします。そのセットのノードが定足数に達しない場合、Sun Cluster ソフトウェアはノードを停止して、共有ディスクからノードをフェンスします。つまり、ノードの共有ディスクへのアクセスを遮ります。

フェンシングは、選択したディスクまたはすべてのディスクに対してオフにできます。


注意 – 注意 –

不適切な状況でフェンシングを無効にすると、アプリケーションのフェイルオーバー時にデータが破損する危険性が高くなります。フェンシングの無効化を検討する場合には、データ破損の可能性を十分に調査してください。SATA (Serial Advanced Technology Attachment) ディスクなど、共有記憶装置が SCSI プロトコルに対応していない場合、またはクラスタの外部にあるホストからクラスタの記憶装置へのアクセスを許可する場合にフェンシングをオフにします。


1 つまたは複数のクラスタ固有のデーモンが停止すると、Sun Cluster ソフトウェアは重大な問題が発生したことを宣言します。Sun Cluster ソフトウェアは、投票ノードと非投票ノードの両方でクラスタ固有のデーモンを実行します。重大な問題が発生すると、Sun Cluster はノードを停止して削除するか、問題が発生した非投票ノードを再起動します。

非投票ノードで実行されるクラスタ固有のデーモンが失敗すると、次のようなメッセージがコンソールに表示されます。


cl_runtime: NOTICE: Failfast: Aborting because "pmfd" died in zone "zone4" (zone id 3)
35 seconds ago.

投票ノードで実行されるクラスタ固有のデーモンが失敗し、ノードでパニックが発生すると、次のようなメッセージがコンソールに表示されます。


panic[cpu1]/thread=2a10007fcc0: Failfast: Aborting because "pmfd" died in zone "global" (zone id 0)
35 seconds ago.
409b8 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+48 (70f900, 30, 70df54, 407acc, 0)
%l0-7: 1006c80 000000a 000000a 10093bc 406d3c80 7110340 0000000 4001 fbf0

パニック後、Solaris ホストは再起動し、ノードはクラスタに再び参加しようとすることがあります。あるいは、SPARC ベースのシステムで構成されているクラスタの場合、そのホストは OpenBoot PROM (OBP) プロンプトのままになることがあります。ホストがどちらのアクションをとるかは、auto-boot? パラメータの設定によって決定されます。OpenBoot PROM の ok プロンプトで、eeprom コマンドにより auto-boot? を設定できます。詳細は、eeprom(1M) のマニュアルページを参照してください。