第1章 バックアップおよび障害時リカバリについて
この章では、バックアップおよび障害時リカバリの主な概念の概要について説明します。 この章では、発生する可能性のある最も一般的な障害シナリオと、各イベント・タイプで推奨される解決策についても説明します。
バックアップおよび障害時リカバリ計画は、包括的な運用メンテナンス計画の主要なコンポーネントです。 障害時リカバリ戦略は、破壊的な災害イベント後のシステム、インフラストラクチャおよびデータの継続またはリカバリを可能にすることを目的としています。
災害イベントには、自然なイベント、物理的なハードウェア障害、ソフトウェアの不具合、またはエラーや悪意による人為的なデータ破壊があります。 すべての場合において、重要なシステムおよびデータを可能なかぎり停止時間なしでリカバリし、データ損失を最小限に抑える計画が必要です。
次に、異なるプロシージャおよびポリシーを必要とする可能性のある様々な障害イベントを示します:
-
「データ・センターの障害。」データ・センターの障害に対応する障害時リカバリ戦略はコストがかかる場合がありますが、複数の異なる地理的なロケーションにデータおよびシステムを効果的にミラー化することもできます。 このアプローチは、特定の地理的ロケーションにあるデータ・センター全体に影響を与える可能性のあるイベントからのリカバリに役立ちます。 このようなタイプのイベントを処理するには、物理システムを複数のロケーションで使用可能にし、システムを迅速にリストアできるようにデータを各ロケーションにレプリケートする必要があります。
このタイプの障害に対応する障害戦略のコストは、地理的なロケーション全体でサービスを提供するOracle Cloud Infrastructureなどのクラウド・タイプのサービスを使用することで大幅に削減できます。
また、Oracle Linuxは、Gluster Storage for Oracle Linuxなどのツールで地理的データ・レプリケーション機能を提供します。 詳細については、第2.2項、「でのデータ・ミラー・リングの使用」を参照してください。
-
「システム障害。」システム障害戦略では、ハードウェアに障害が発生した場合や破壊アクションによって完全なシステム機能が削除された場合に、コンポーネントまたはシステム全体を交換するための物理ハードウェアを提供する必要があります。 場合によっては、冗長なコンポーネントを提供することで物理ハードウェアがコンポーネントの障害に対処することがありますが、戦略ではシステム全体の障害の可能性を考慮する必要があります。 リストアが必要になる可能性のあるビジネス・クリティカルなリソースごとに、完全なシステムを物理的に交換できる速度を計画する必要があります。 理想的には、この戦略には、必要に応じてソフトウェア構成情報およびデータをデプロイするための計画も含める必要があります。
Oracle Cloud Infrastructureは、必要に応じて新しいシステムまたは構成を迅速にデプロイするために、既存のインフラストラクチャに基づいてカスタム・システム・イメージおよび構成エントリを作成する機能を提供するため、システム障害を計画する際の総所有コストの削減に役立ちます。
仮想化またはコンテナ・ソリューションを使用して、システムの復元力をさらに高めることができます。これは、物理ハードウェアからのシステム・プロセスおよび機能の抽象化に役立ちます。 仮想化またはコンテナ・サービスを使用すると、必要に応じてイメージまたはデプロイメント・プランを作成し、サービスを迅速にリカバリすることもできます。 コンテナ・サービスの詳細は、「Oracle® Linux: Podmanユーザー・ガイド」および「Oracle® Linux: Oracle Container Runtime for Dockerユーザー・ガイド」を参照してください。 Oracle Linuxでの仮想化の詳細は、「Oracle® Linux: KVMユーザー・ガイド」を参照してください。
-
「ディスクまたはボリュームの障害。」通常、すべての障害時リカバリ計画で最も頻繁に発生するイベントは、ディスクまたはボリュームの障害です。 ディスク障害が発生することはまれではありませんが、これらのイベントが発生する頻度はハードウェアの進化に伴い大幅に低下します。 バックアップおよびミラー化ソフトウェアは低コストで、通常はOracle Linuxに実装しやすく、これらの問題の軽減に役立ちます。
ディスクおよびボリュームの障害は通常、何らかの種類のデータ・ミラー化またはレプリケーションを実行することによって処理されます。 多くの場合、データのリジリエンスは、RAID-1ミラー化、ボリューム・スナップショットおよび従来のバックアップ・メソッドを使用してディスク冗長性によって実現されます。 詳細については、第2.2項、「でのデータ・ミラー・リングの使用」を参照してください。
ボリューム・レベルのスナップショットは、ボリューム間でのデータのレプリケートに役立ちます。詳細は、第2.1項、「ファイル・システム・スナップショットの使用」を参照してください。
第3章、「ReaRを使用したバックアップの管理」で説明されている完全データ・バックアップでは、システム・レベルの障害が発生した場合のプラットフォーム・リカバリのレベルも提供されます。
Oracle Cloud Infrastructureを使用する場合、インスタンス内のディスクとして機能するブロック・デバイスには、可用性と稼働時間を保証するために、複数のサーバーにわたるデータ・レプリケーション機能が組み込まれています。 Oracle Cloud Infrastructureを使用して専用ブロック・ボリュームにデータを格納することで、ディスクまたはボリュームの障害に対する軽減が自動的に行われます。
-
「ユーザーおよびソフトウェアのイベント。」のユーザーおよびソフトウェア・イベントには、システムに対する悪意のある攻撃や、ファイル・システム上のデータの破壊または破損を引き起こす不注意なエラー、ならびに意図しない構成変更やその他のデータ破壊を引き起こす可能性のあるソフトウェア・バグや更新が含まれる可能性があります。 障害時リカバリ戦略では、既知の作業環境への迅速なロールバックが非常に望ましくなります。
従来、このドメインは、大部分がフル・バックアップおよび定期的なデータ・バックアップによって処理されてきました。 このアプローチは引き続き有効ですが、リカバリに時間がかかり、通常はある程度の停止時間が必要になります。 それでも、このアプローチを他のより迅速なソリューションと組み合せて使用して、保護を最大化する必要があります。 バックアップの管理の詳細は、第3章、「ReaRを使用したバックアップの管理」を参照してください。
Btrfsが提供するファイル・システムのスナップショット作成機能を使用すると、システムを既知の動作状態に戻すために必要な時間を短縮できます。 詳細および手順は、第2.1項、「ファイル・システム・スナップショットの使用」を参照してください。
包括的な障害時リカバリ計画では、プラットフォーム、環境およびホスティングのニーズに適したツールを組み合せて使用する必要があります。
通常、クラウド・ベースのサービスは、データ損失に対する軽減とリカバリ時間の短縮に役立つツールと組込みの冗長性を提供します。 ただし、これらの環境でも、潜在的なすべての障害シナリオに対応するために、追加のツールと機能の組合せを使用することを検討できます。 たとえば、クラウド・インスタンスでファイル・システムのスナップショットを使用すると、基本的なソフトウェア更新の後でもシステム・ロールバックを微調整できます。
特定のデータセンター内に配置されているシステムでは、より幅広いツールやサービスを使用して耐障害性と耐久性を組み込むことができます。
このドキュメントでは、オペレーティング・システムに固有のソフトウェアを使用して、より包括的な障害時リカバリ戦略を実現するためにOracle Linuxで使用可能な様々なツールへのリンクを示します。 さらに、Oracle Linuxに用意されているRelax-and-Recover (ReaR)およびデータ・バックアップ・ツールについても詳細に説明します。