WANdisco LiveData Migratorを使用したHadoopのOracleへの移行

Hadoopデータの移行について

Apache Hadoopからクラウドへの移行に関連する一般的なステップを次に示します。

次の図は、フロー・アーキテクチャとコンポーネントを示しています。

検出:クラウドに移行するデータ・セットとワークロードを特定します。
計画:移行が実行されるフェーズの計画とタイムラインを作成します。
データ移行:オンプレミスのHadoop環境からクラウドへの必要なデータの移行を実行します。
ワークロードの移行:オンプレミス環境からクラウドへのワークロードまたはアプリケーションの移行を実行します。
新しいアナリティクス開発:新しいアナリティクス、AIおよび機械学習の開発を開始し、新しいクラウド環境を活用します。
測定と対応:分析を実行して、KPIを測定し、パフォーマンスを評価し、予測を行い、ビジネスが適切に対処できるようにします。

クラウド移行を試して簡素化するために、多くの組織は「リフト・アンド・シフト」移行戦略に従うことにしました。この戦略により、データやアプリケーションを変更せずに移行を実行できることが簡単に想定されます。ロジックは、「そのままクラウドに移行する」ことです。この仮定では、時間とコストを超える多くの失敗プロジェクトまたはプロジェクトが生成されます。データ変更が発生しないように既存のシステムをシャットダウンするか、データ変更に対応するためにカスタム・ソリューションの開発に時間を費やす必要があります。この戦略のもう1つのデメリットは、まず、組織がすべてのアプリケーションとデータを同時にビッグ・バング・カットオーバーすることを必要とし、次に、新しいクラウド機能を利用しないことです。

WANdiscoは、データ・レイク移行へのデータファーストのアプローチを促進します。データファーストのアプローチは、データの移動に重点を置き、既存のすべてのアプリケーションを同時に移行しようとしないことに重点を置いています。これにより、データ・サイエンティストがデータを使用できる速度が向上し、移行されたデータの処理が1日目から開始されます。これにより、新しいインサイトや新しいAIイノベーションにかかる時間を大幅に短縮できます。組織は、クラウド移行におけるROIを大幅に高速化しながら、既存のオンプレミスの本番ワークロードでは影響を受けないまま継続できます。この方法では、アプリケーションおよびワークロードの移行に柔軟性も提供されます。これにより、ビッグバンによるアプローチが回避され、新しいクラウド環境のワークロードを最適化する時間を組織に提供できるため、最適な実行を確保し、利用可能な新しい機能を活用できます。組織は、隠れたコストを発生させないように、必要なだけパラレル・テストを実施できます。また、データファーストのアプローチでは、一部のアプリケーションを移行する必要がないが、既存の新しい開発と置き換える必要がないかどうかを判断する時間も提供されます。

ソースおよびターゲットの定義

デプロイメント中、WANdisco LiveData MigratorはソースApache Hadoop Distributed File System (HDFS)クラスタを自動的に検出するため、ターゲット環境のみを定義する必要があります。

WANdisco LiveData Migratorをデプロイします。
デプロイメント中、LiveData MigratorはソースHDFSクラスタを自動的に検出します。
ターゲット環境のファイルシステム構成を定義します。
1. Filesystem Type:使用可能なファイルシステム・タイプのリストから選択します。
  Oracleの場合、ターゲットがOracle Big Data Service (Oracle BDS)の場合、ファイルシステム・タイプはOracle Cloud Infrastructure Object StorageまたはApache Hadoopのいずれかになり、OracleのApache Hadoopディストリビューションを活用できます。
2. Display Name:ファイルシステムの表示名を入力します。
  たとえば、Oracle BDS Targetです。
3. Default Filesystem (FS):ファイルシステムのアドレスを入力します。
  例: hdfs://localhost:8020
4. ユーザー:移行アクションを実行するためにファイルシステムユーザー名を定義します。例: hdfs。
ソースHDFSのKerberos構成がターゲットに適用される場合、ソースとターゲットの間でレルム間認証が有効になっていることを確認します。
必要に応じて、関連するキーと値を使用して、追加の構成プロパティ値を定義します。
たとえば、「Configuration Property Overrides」にキーと値を入力します。
- キー: dfs.client.use.datanode.hostname;値: true
- キー: dfs.datanode.use.datanode.hostname;値: true

移行の定義

移行により、既存のデータがソースから定義済ターゲットに転送されます。WANdisco LiveData Migratorは、移行中にソース・データに加えられた変更を移行し、これらの変更でターゲットが最新であることを確認します。これは、移行の実行を継続しながら行います。

通常、ユーザーは複数の移行を作成し、パスごとにソース・ファイルシステムから特定のコンテンツを選択できます。複数の移行ターゲットを定義することで、複数の独立したファイルシステムに同時に移行することもできます。

移行を作成するには、移行名を指定し、ソースおよびターゲットのファイルシステムを選択し、移行するソースファイルシステムのパスを指定します。オプションで、除外を適用して、移行から除外する必要があるデータのルールを指定し、その他のオプションの構成設定を適用できます。

LiveData Migratorでは、ソース・メタストアからターゲット・メタストアへのHiveメタデータの移行もサポートされています。LiveData Migratorは、ローカルまたはリモートのメタデータ・エージェントを使用してメタストアに接続します。その後、Metadataルールを使用して、ソースからターゲットに移行するメタデータを定義します。

移行を定義するときに、移行を自動的に開始し、ライブ移行であるかどうかを判断するように指定できます。つまり、ソースからターゲットへの進行中の変更を継続的に適用します。

移行設定を定義します。
1. 移行の名前を入力します。
2. リストからソースを選択します。たとえば、CDH-SRCのようになります。
3. リストからターゲットを選択します。たとえば、Oracle BDS Targetです。
4. ソースのディレクトリ・パスを入力します。たとえば、/Data_Lake_Directoryです。
デフォルトの除外を確認します。必要に応じて、「除外の管理」をクリックして変更を行います。
「上書き」設定を選択します。
移行オプションを選択します。「移行の自動開始」および「ライブ移行」を選択します。
- 移行の自動開始:データ移行が自動的に開始されます。選択しない場合、「移行の開始」オプションを使用して移行を手動で開始する必要があります。
- ライブ移行:移行は継続的に実行され、ソースからターゲットへの変更をリアルタイムでレプリケートします。選択しない場合、1回かぎりの移行が実行されます。
「作成」をクリックします。
データは、ソースからターゲットへの即時移行を開始します。

移行のモニターおよび管理

WANdiscoユーザーインタフェース(UI)を使用して、移行をモニターおよび管理します。

WANdisco UIにログインします。
「ダッシュボード」にナビゲートして、移動されるデータの帯域幅使用量、進行中の移行およびメタデータの移行を表示します。

移行の進行状況、まだ処理されていないイベント、移行されていないイベント、およびスキャンされるパスをより適切に理解するために、追加の移行メトリックを使用できます。
既存の移行を管理するには、WANdisco UIおよびコマンド行インタフェースを使用します。
使用可能なアクションを示します:
- 既存の移行からの除外の割当ておよび削除
- 移行の開始、停止および再開
- 移行の削除
- 移行を開始前の状態にリセットします
- 失敗した操作をモニターして、日時、パスおよび失敗の理由を表示します