Sun Cluster の概念 (Solaris OS 版)

第 4 章 よくある質問

この章では、Sun Cluster 製品に関してもっとも頻繁に寄せられる質問に対する回答を示します。

回答は、トピックにより次のように構成されています。

高可用性に関する FAQ

質問:

可用性の高いシステムとは何ですか。

回答:

Sun Cluster ソフトウェアでは、高可用性 (High Availability、HA) を、クラスタがアプリケーションを実行し続けることができる能力であると定義しています。通常ならばホストシステムが使用できなくなるような障害が発生しても、高可用性アプリケーションは動作し続けます。

質問:

クラスタが高可用性を提供するプロセスは何ですか。

回答:

クラスタフレームワークは、フェイルオーバーとして知られるプロセスによって可用性の高い環境を提供します。フェイルオーバーとは、障害の発生したノードからクラスタ内の別の動作可能ノードにデータサービスリソースを移行するために、クラスタによって実行される一連のステップです。

質問:

フェイルオーバーデータサービスとスケーラブルデータサービスの違いは何ですか。

回答:

高可用性データサービスには、次の 2 つの種類があります。

フェイルオーバーデータサービスとは、アプリケーションが一度に 1 つのクラスタ内の主ノードだけで実行されることを示します。ほかのノードは、ほかのアプリケーションを実行できますが、各アプリケーションは単一のノードでのみ実行されます。主ノードで障害が発生した場合、そのノードで実行中のアプリケーションは、別のノードにフェイルオーバーします。アプリケーションは実行を継続します。

スケーラブルデータサービスは、アプリケーションを複数のノードに広げて、単一の論理サービスを作成します。スケーラブルサービスは、実行されるクラスタ全体のノードとプロセッサの数を強化します。

クラスタへの物理インタフェースは、アプリケーションごとに 1 つのノードに設定されます。このノードを広域インタフェース (Global Interface、GIF) ノードといいます。クラスタには、複数の GIF ノードが存在することがあります。個々の GIF には、スケーラブルサービスから使用する 1 つまたは複数の論理インタフェースがあります。この論理インタフェースを「広域インタフェース」と呼びます。GIF ノードは、特定のアプリケーションに対するすべての要求を広域インタフェースを介して受け取り、それらを、そのアプリケーションサーバーが動作している複数のノードに振り分けます。GIF ノード に障害が発生すると、広域インタフェースは別のノードにフェイルオーバーされます。

アプリケーションが実行されているノードに障害が発生すると、アプリケーションは別のノードで実行を続けますが、障害が発生したノードがクラスタに戻るまで多少のパフォーマンス低下が生じます。このプロセスは、障害が発生したノードがクラスタに戻るまで続けられます。

ファイルシステムに関する FAQ

質問:

クラスタ内の 1 つまたは複数の Solaris ホストを高可用性 NFS サーバーとして実行し、ほかの Solaris ホストをクライアントとして実行できますか。

回答:

実行できません。ループバックマウントは行わないでください。

質問:

リソースグループマネージャー の制御下にないアプリケーションにクラスタファイルシステムを使用できますか。

回答:

はい。ただし、RGM の制御下にないと、そのアプリケーションが実行されているノードに障害があった場合、そのアプリケーションを手動で再起動する必要があります。

質問:

クラスタファイルシステムは、必ず、/global ディレクトリの下にマウントポイントが必要ですか。

回答:

いいえ。ただし、クラスタファイルシステムを /global などの同一のマウントポイントのもとに置くと、これらのファイルシステムの構成と管理が簡単になります。

質問:

クラスタファイルシステムを使用した場合と NFS ファイルシステムをエクスポートした場合の違いは何ですか。

回答:

次のように、いくつかの違いがあります。

  1. クラスタファイルシステムは広域デバイスをサポートします。NFS は、デバイスへの遠隔アクセスをサポートしません。

  2. クラスタファイルシステムには広域名前空間があります。したがって、必要なのは 1 つのマウントコマンドだけです。これに対し、NFS では、ファイルシステムを各ホストにマウントする必要があります。

  3. クラスタファイルシステムは、NFS よりも多くの場合でファイルをキャッシュします。たとえば、複数のノードからファイルにアクセスしている場合 (たとえば、読み取り、書き込み、ファイルロック、非同期入出力などのために)、クラスタファイルシステムはファイルをキャッシュします。

  4. クラスタファイルシステムは、リモート DMA とゼロコピー機能を提供する、将来の高速クラスタインターコネクトを利用するよう作られています。

  5. クラスタファイルシステムのファイルの属性を (chmod などを使用して) 変更すると、変更内容はすべてのノードでただちに反映されます。エクスポートされた NFS ファイルシステムでは、この処理に時間がかかる場合があります。

質問:

私のクラスタノードには、/global/.devices/node@nodeID というファイルシステムがあります。このファイルシステムにデータを格納すると、これらのデータは高可用性および広域になりますか。

回答:

広域デバイス名前空間が格納されているこれらのファイルシステムは、一般的な使用を目的としたものではありません。これらのファイルシステムは広域的ですが、広域的にアクセスされることはありません。各ノードは、自身の広域デバイス名前空間にしかアクセスしません。あるノードが停止しても、ほかのノードがこのノードに代わってこの名前空間にアクセスすることはできません。これらのファイルシステムは、高可用性を備えてはいません。したがって、高可用性や広域属性を与えたいデータをこれらのファイルシステムに格納すべきではありません。

ボリューム管理に関する FAQ

質問:

すべてのディスクデバイスをミラー化する必要がありますか。

回答:

ディスクデバイスの可用性を高くするには、それをミラー化するか、RAID-5 ハードウェアを使用する必要があります。すべてのデータサービスは、可用性の高いディスクデバイスか、可用性の高いディスクデバイスにマウントされたクラスタファイルシステムのどちらかを使用する必要があります。このような構成にすることで、単一のディスク障害に耐えることができます。

質問:

ローカルディスク (起動ディスク) に対してあるボリュームマネージャーを使用し、多重ホストディスクに対して別のボリュームマネージャーを使用することはできますか。

回答:

この構成をサポートするには、Solaris Volume Manager ソフトウェアでローカルディスクを管理し、Veritas Volume Manager で多重ホストディスクを管理する必要があります。これ以外の組み合わせではサポートされません。

データサービスに関する FAQ

質問:

どの Sun Cluster データサービスが利用できますか。

回答:

サポートされているデータサービスのリストは、『Sun Cluster リリースノートご使用にあたって (Solaris OS 版)』に記載されています。

質問:

Sun Cluster データサービスによってサポートされているアプリケーションのバージョンは何ですか。

回答:

サポートされているアプリケーションのバージョンのリストは、『Sun Cluster リリースノートご使用にあたって (Solaris OS 版)』に記載されています。

質問:

独自のデータサービスを作成できますか。

回答:

はい。詳細は、『Sun Cluster データサービス開発ガイド (Solaris OS 版)』の第 11 章「DSDL API 関数」を参照してください。

質問:

ネットワークリソースを作成する場合、IP アドレスで指定するのですか。それともホスト名で指定するのですか。

回答:

ネットワークリソースを指定する場合には、IP アドレスではなく、UNIX のホスト名を使用することを推奨します。

質問:

ネットワークリソースを作成する場合に、論理ホスト名 (LogicalHostname リソース) または共有アドレス (SharedAddress リソース) を使用した場合の違いは何ですか。

回答:

Sun Cluster HA for NFS の場合を除き、Failover モードリソースグループの LogicalHostname リソースを使用するようにマニュアルが推奨している場合、SharedAddress リソースと LogicalHostname リソースは同様に使用できます。SharedAddress リソースを使用すると、クラスタネットワーキングソフトウェアが LogicalHostname ではなく、SharedAddress に合わせて構成されているために、多少のオーバーヘッドが生じます。

SharedAddress リソースを使用する利点は、スケーラブルデータサービスとフェイルオーバーデータサービスを両方構成して、クライアントが同じホスト名で両方のサービスにアクセスするときに分かります。この場合、SharedAddress リソースは、フェイルオーバーアプリケーションリソースとともに、1 つのリソースグループに格納されます。スケーラブルサービスリソースは、異なるリソースグループに格納され、 SharedAddress リソースを使用するように構成されます。次に、スケーラブルサービスとフェイルオーバーサービスは両方とも、SharedAddress リソースに構成されている同じホスト名とアドレスのセットを使用します。

パブリックネットワークに関する FAQ

質問:

Sun Cluster ソフトウェアはどのパブリックネットワークアダプタをサポートしていますか。

回答:

現在、Sun Cluster ソフトウェアは、Ethernet (10/100BASE-T および 1000BASE-SX Gb) パブリックネットワークアダプタをサポートしています。今後新しいインタフェースがサポートされる可能性があるため、最新情報については、ご購入先に確認してください。

質問:

フェイルオーバーでの MAC アドレスの役割は何ですか。

回答:

フェイルオーバーが発生すると、新しいアドレス解決プロトコル (ARP) パケットが生成されて伝送されます。これらの ARP パケットには、新しい MAC アドレス (ホストの処理が続行される新しい物理アダプタのアドレス) と古い IP アドレスが含まれます。ネットワーク上の別のマシンがこれらのパケットの 1 つを受信した場合は、そのマシンは自身の ARP キャッシュから古い MAC-IP マッピングをフラッシングして、新しいマッピングを使用します。

質問:

Sun Cluster ソフトウェアは local-mac-address?=true という設定をサポートしますか。

回答:

はい。実際、IP ネットワークマルチパスでは local-mac-address?true に設定する必要があります

local-mac-address を設定するには、SPARC ベースのクラスタでは OpenBootPROM の ok プロンプトで eeprom コマンドを使用します。詳細は、eeprom(1M) のマニュアルページを参照してください。x86 ベースのクラスタでは、BIOS のブート後に SCSI ユーティリティーを起動して設定します。

質問:

IP ネットワークマルチパス がアダプタのスイッチオーバーを実行するとき、どれくらいの遅延がありますか。

回答:

この遅延は数分に及ぶことがあります。これは、IP ネットワークマルチパス スイッチオーバーが実行されるときに、余分な ARP ブロードキャストが送信されるためです。ただし、クライアントとクラスタ間のルーターは、必ずしもこの余分な ARP を使用するわけではありません。したがって、ルーター上のこの IP アドレスに対応する ARP キャッシュがタイムアウトするまでは、エントリが古い MAC アドレスを使用してしまう可能性があります。

質問:

ネットワークアダプタの障害の検出にはどの程度の時間が必要ですか。

回答:

デフォルトの障害検出時間は 10 秒です。アルゴリズムは障害をこの時間内に検出しようとしますが、実際の時間はネットワークの負荷によって異なります。

クラスタメンバーに関する FAQ

質問:

すべてのクラスタメンバーが同じ root パスワードを持つ必要がありますか。

回答:

各クラスタメンバーに同じ root パスワードを設定する必要はありません。ただし、同じ root パスワードをすべてのノードに使用すると、クラスタの管理を簡略化できます。

質問:

ノードが起動される順序は重要ですか。

回答:

ほとんどの場合、重要ではありません。しかし、起動順序は amnesia を防ぐために重要です。たとえば、ノード 2 が定足数デバイスの所有者であり、ノード 1 が停止してノード 2 を停止させた場合は、ノード 2 を起動してからノード 1 を起動する必要があります。この順序によって、古いクラスタ構成情報を持つノードを誤って起動するのを防ぐことができます。

質問:

クラスタノードのローカルディスクをミラー化する必要がありますか。

回答:

はい。このミラー化は必要条件ではありませんが、クラスタノードのディスクをミラー化すると、ノードを停止させる非ミラー化ディスクの障害を防止できます。ただし、クラスタノードのローカルディスクをミラー化すると、システム管理の負荷が増えます。

質問:

クラスタメンバーのバックアップの注意点は何ですか。

回答:

クラスタには、いくつかのバックアップ方式を使用できます。1 つの方法としては、テープドライブまたはライブラリが接続された 1 つのホストをバックアップノードとして設定します。さらに、クラスタファイルシステムを使用してデータをバックアップします。このホストは共有ディスクには接続しないでください。

データのバックアップと復元方法についての詳細は、『Sun Cluster のシステム管理 (Solaris OS 版)』の第 11 章「クラスタのバックアップと復元」を参照してください。

質問:

ノードが、二次ノードとして使用できる状態にあるのはいつですか。

回答:

Solaris 9 OS

再起動後にノードがログインプロンプトを表示しているときです。

Solaris 10 OS

multi-user-server マイルストーンが動作している場合、ノードは二次ノードとして使用できる状態にあります。


# svcs -a | grep multi-user-server:default

クラスタ記憶装置に関する FAQ

質問:

多重ホスト記憶装置の可用性を高めるものは何ですか。

回答:

多重ホスト記憶装置は、ミラー化 (またはハードウェアベースの RAID-5 コントローラ) によって、単一のディスクが失われても存続できるという点で高可用性です。多重ホスト記憶装置には複数のホスト接続があるため、接続先の単一の Solaris ホストが失われても耐えることができます。さらに、各ホストから、接続されている記憶装置への冗長パスは、ホストバスアダプタやケーブル、ディスクコントローラの障害に対する備えとなります。

クラスタインターコネクトに関する FAQ

質問:

Sun Cluster ソフトウェアがサポートするクラスタインターコネクトは何ですか。

回答:

現在のところ、Sun Cluster ソフトウェアは次のクラスタインターコネクトをサポートします。

質問:

「ケーブル」とトランスポート「パス」の違いは何ですか。

回答:

クラスタトランスポートケーブルは、トランスポートアダプタとスイッチを使用して構成されます。ケーブルは、アダプタやスイッチをコンポーネント対コンポーネントとして結合します。クラスタトポロジマネージャーは、利用可能なケーブルを使用し、ホスト間にエンドツーエンドのトランスポートパスを構築します。ただし、ケーブルとトランスポートパスが 1 対 1 で対応しているわけではありません。

ケーブルは、管理者によって静的に「有効」または「無効」にされます。ケーブルには、「状態」(有効または無効) はありますが、「ステータス」はありません。無効になっているケーブルは、構成されていないのと同じことです。無効なケーブルをトランスポートパスとして使用することはできません。ケーブルは検査できないため、その状態は不明です。ケーブルの状態を取得するには、cluster status コマンドを使用します。

トランスポートパスは、クラスタトポロジマネージャーによって動的に確立されます。トランスポートパスの「ステータス」はトポロジマネージャーによって決められますが、パスは「オンライン」または「オフライン」のステータスを持つことができます。トランスポートパスのステータスを取得するには、clinterconnect status コマンドを使用します。詳細は、clinterconnect(1CL) のマニュアルページを参照してください。

次のような 2 ホストクラスタがあるとします。これには、4 つのケーブルが使用されています。


node1:adapter0      to switch1, port0
node1:adapter1      to switch2, port0
node2:adapter0      to switch1, port1
node2:adapter1      to switch2, port1

これらの 4 つのケーブルを使用して設定できるトランスポートパスには、次の 2 つがあります。


node1:adapter0      to node2:adapter0
node2:adapter1      to node2:adapter1

クライアントシステムに関する FAQ

質問:

クラスタでの使用における特殊なクライアントの要求や制約について考慮する必要がありますか。

回答:

クライアントシステムは、ほかのサーバーに接続する場合と同様にクラスタに接続します。データサービスアプリケーションによっては、クライアント側ソフトウェアをインストールするか、別の構成変更を行なって、クライアントがデータサービスアプリケーションに接続できるようにしなければならないこともあります。クライアント側の構成要件についての詳細は、『Sun Cluster データサービスの計画と管理 (Solaris OS 版)』の第 1 章「Sun Cluster データサービスの計画」を参照してください。

管理コンソールに関する FAQ

質問:

Sun Cluster ソフトウェアには管理コンソールが必要ですか。

回答:

はい。

質問:

管理コンソールをクラスタ専用にする必要がありますか、または別の作業に使用することができますか。

回答:

Sun Cluster ソフトウェアでは専用の管理コンソールは必要ありませんが、専用の管理コンソールを使用すると、次のような利点があります。

質問:

管理コンソールはクラスタの近く (たとえば同じ部屋) に配置する必要がありますか。

回答:

ハードウェアの保守担当者に確認してください。プロバイダによっては、コンソールをクラスタの近くに置くことを要求するところもあります。コンソールを同じ部屋に配置する必要性は、技術的にはありません。

質問:

距離の条件をすべて満たしている場合、1 台の管理コンソールが複数のクラスタにサービスを提供できますか。

回答:

はい。複数のクラスタを1 台の管理コンソールから制御できます。また、1 台の端末集配信装置 (コンセントレータ) をクラスタ間で共有することもできます。

端末集配信装置とシステムサービスプロセッサに関する FAQ

質問:

Sun Cluster ソフトウェアは端末集配信装置を必要としますか。

回答:

Sun Cluster 3.0 から、端末集配信装置は必要はありません。Sun Cluster 2.2 とは異なり、Sun Cluster 3.0、Sun Cluster 3.1、および Sun Cluster 3.2 では端末集配信装置が必要ありません。Sun Cluster 2.2 では、障害による影響防止に端末集配信装置が必要でした。

質問:

ほとんどの Sun Cluster サーバーは端末集配信装置を使用していますが、Sun Enterprise E1000 サーバーが使用していないのはなぜですか。どうすればよいでしょうか。

回答:

端末集配信装置は、ほとんどのサーバーで効率的なシリアル - Ethernet コンバータです。端末集配信装置のコンソールポートはシリアルポートです。Sun Enterprise E1000 サーバーはシリアルポートを持っていません。システムサービスプロセッサ (System Service Processor、SSP) は Ethernet または jtag ポートを介したコンソールです。Sun Enterprise E1000 サーバーの場合、コンソールには常に SSP を使用します。

質問:

端末集配信装置を使用する場合の利点は何ですか。

回答:

端末集配信装置を使用すると、コンソールレベルのアクセス権が各 Solaris ホストに提供され、ネットワーク上の任意の場所にあるリモートマシンから各 Solaris ホストにアクセスできます。このアクセス権は、そのホストが SPARC ベースのホスト上にある OpenBoot PROM (OBP) である場合でも、x86 ベースのホスト上にある起動サブシステムである場合でも提供されます。

質問:

Sun がサポートしていない端末集配信装置を使用する場合に注意する点は何ですか。

回答:

Sun がサポートする端末集配信装置とほかのコンソールデバイスの主な違いは、Sun の端末集配信装置には特殊なファームウェアがあるという点です。このファームウェアは、端末集配信装置がコンソールに対して起動時にブレークを送信するのを防ぎます。コンソールデバイスがブレーク (またはコンソールがブレークと解釈する可能性があるシグナル) を送信する可能性がある場合、そのブレークによってホストが停止されてしまうので注意してください。

質問:

Sun がサポートする端末集配信装置がロックされた場合、再起動せずに、そのロックを解除できますか。

回答:

はい。リセットする必要があるポート番号を書きとめて、次のコマンドを入力してください。


telnet tc
Enter Annex port name or number: cli
annex: su -
annex# admin
admin : reset port-number
admin : quit
annex# hangup
#

Sun がサポートする端末集配信装置を構成および管理する方法についての詳細は、次のマニュアルを参照してください。

質問:

端末集配信装置自体に障害が発生した場合はどのようにしたらいいですか。別の装置を用意しておく必要がありますか。

回答:

ありません。端末集配信装置に障害が発生しても、クラスタの可用性はまったく失われません。ただし端末集配信装置が再び機能するまでは、ホストコンソールに接続できなくなります。

質問:

端末集配信装置を使用する場合に、セキュリティーはどのように制御しますか。

回答:

通常、端末集配信装置は、ほかのクライアントアクセスに使用されるネットワークではなく、システム管理者が使用する小規模なネットワークに接続されています。この特定のネットワークに対するアクセスを制限することでセキュリティーを制御できます。

質問:

SPARC: テープドライブやディスクドライブに対して動的再構成をどのように使用するのですか。

回答:

次の手順を実行します。


注意 – 注意 –

二次ノードに対して DR 操作を行っているときに現在の主ノードに障害が発生すると、クラスタの可用性が損なわれます。これは、新しい二次ノードが提供されるまでは、主ノードのフェイルオーバー先が存在しないためです。