分散コンピューティング環境においては、ISP や、地理的に分散した営業所、テレコムサービスプロバイダは、類似したまたは同じサーバーを複数の場所で運用しなければならないことがよくあります。 これらのサーバーは、通常、ルーター、ファイアウォールサービス、e メールサービス、DNS キャッシュ、Usenet (ネットワークニュース) サーバー、DHCP サービスなど、さまざまな場所の要件にもっとも合った形でサービスを提供します。 これらの小規模なサーバーは、次のような共通する要件を満たす必要があります。
高い信頼性
高い可用性
汎用性と性能に優れたハードウェア
まず最初の構成例として、1 つの SCSI バスと 2 つの内蔵ディスクを備えた Netra システムを考えてみます。このシステムはすぐに使用できる構成となっており、分散サーバーとして基本的な機能を備えています。 Solaris ボリュームマネージャを使えば、一部またはすべてのスライスをミラー化し、冗長記憶領域を構成することにより、ディスク障害に対する保護機能を簡単に強化できます。 次の図に構成例を示します。
この例のような構成では、ルート (/)、/usr、swap、 /var および、/export ファイルシステムに加え、状態データベースの複製 (ディスクごとに 1 つ) をミラー化できます。 そのため、各ミラーの片側に障害が発生しても、システム障害に至るとは限りません。通常、このようなシステムは、最大 5 つの個別の障害に耐えることができます。 しかし、このシステムは、ディスクやスライスの障害に対して十分に保護されているとはいえません。 さまざまな潜在的な障害によって致命的なシステム障害が引き起こされ、オペレータの介入が必要になる場合があります。
この構成は致命的なディスク障害に対してある程度の保護機能を備えていますが、次のような重大な単一点障害が存在します。
1 つの SCSI コントローラが単一点障害の原因となり得ます。 コントローラに障害が発生すると、そのコントローラが交換されるまでシステムは停止します。
2 つのディスクでは、状態データベースの複製の分散という観点からは十分とはいえません。 多数決アルゴリズムでは、状態データベースの複製の半数が使用可能でなければ、システムは動作を続けることはできません。また、再起動のためには半数プラス 1 の複製が必要です。 したがって、各ディスクに 1 つの状態データベースの複製がある場合には、1 つのディスクまたは複製が置かれているスライスに障害が発生すると、システムは再起動できなくなります (したがって、ミラー化されたルートファイルシステムは無効になります)。 各ディスクに 2 つ以上の状態データベースの複製がある場合には、1 つのスライスに障害があっても問題はありませんが、ディスクに障害があると、再起動できなくなります。 各ディスクに異なる数の複製がある場合には、一方のディスクに半数以上の複製が、他方のディスクには半数未満の複製が存在します。 複製の数が少ない方のディスクに障害が発生しても、システムは再起動し、動作を続けられますが、 複製の数が多い方のディスクに障害が発生すると、システムはただちにパニック状態になります。
結論として、このシステムについては、1 つのコントローラと 1 つのハードドライブを追加した構成が「最善の構成」となります。 このように構成を修正すると、耐障害性が大幅に向上します。