データ移行オプション
Oracleには、HDFSデータの移行、Oracleデータ転送アプライアンスを使用した一括データ移行、およびクラスタ・メタデータの移行のための複数のオプションが用意されています。
HDFS移行
外部のHDFSからOracle Cloud Infrastructureにデータを移行するには、いくつかの方法があります。
主な考慮事項は、どの程度のデータを移動する必要があるか、また、データの移動に必要となる時間とリソースに応じて線上にデータを移動するのが現実的かです。十分な帯域幅があり、それをサポートするためにソース・クラスタ・リソースがある場合は、次の2つのオプションが関係します。
- DistCpからオブジェクト・ストレージへ
- HDFSへのDistCp
オブジェクト・ストレージ・コピーの場合、ソース・クラスタのみがインターネット接続を必要とし、HDFS Connector (Apache Hadoop)またはS3の互換性の設定(ClouderaおよびHortonworks)のいずれかを必要とします。S3互換性を使用する場合、データはテナンシのホーム・リージョンにのみコピー可能です。
前提条件を満たした後、DistCpをソースHDFSターゲットに対して実行し、オブジェクト・ストレージ・バケットにデータを転送します。次の構文は、US East (Ashburn)リージョンのObject Storage (変数を正しい値で置き換える)にコピーする例です。
hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>'
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<TENANCY>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/
逆に、HDFSターゲットとS3ターゲットを切り替えて、オブジェクト・ストレージからHDFSにデータをコピーできます。このメソッドは、Cloudera、HortonworksおよびApache Hadoopに対して機能します。
2番目のオプションでは、Oracle Cloud InfrastructureでHadoopクラスタを確立し、ソース・クラスタとOracle Cloud Infrastructureクラスタが接続を持つことを確認して、クラスタ間でDistCpを実行します。この方法は、Apache Hadoop、ClouderaおよびHortonworksにも有効です。
MapRクラスタの場合、クラスタ間でのボリュームのリモート・ミラー化を設定してデータを移行します。
データ転送アプライアンス
ワイヤ上でデータを移動できない場合、Oracleデータ転送アプライアンスもデータ転送のためのもう1つのオプションです。
帯域幅またはリソースの制約は、ソース・クラスタに存在することも、Oracle Cloud Infrastructureリージョンに近接してFastConnectの可用性を制限することもできます。データ・セットが非常に大きいために、コピーに時間がかかりすぎている可能性もあります。このような場合、Oracleでは、データ・センターにデプロイでき、HDFSデータ用のDistCpターゲットとして使用できるデータ転送アプライアンスを送信できます。
クラスタMetadata移行
クラスタ・メタデータをOracle Cloud Infrastructureに移行する方法は、Cloudera、Hortonworks、MapRおよびApacheで異なります。
Cloudera
Clouderaクラスタの場合、クラスタ・メタデータに対して3つのタイプのデータベース、Postgres、MySQL、Oracleがサポートされています。
Cloudera Managerデータベースのバックアップのステップは、Cloudera Enterpriseのドキュメントに記載されています。その後、このデータをOracle Cloud Infrastructure上でClouderaを実行するクラスタにインポートできます。
Hortonworks
Hortonworksでは、Clouderaと同じデータベースがサポートされています。金額が異なる場合は、既存のクラスタからブループリントをエクスポートし、それを使用してOracle Cloud Infrastructureホームのデプロイメントを構成できます。
MapR
MapRのバックアップに関するMapRのベスト・プラクティスのドキュメントに記載されているステップに従ってください。その後、このデータをOracle Cloud Infrastructure MapRクラスタにインポートできます。
Apache
Apache Hadoopでは、Ambari、HiveおよびHBaseと同じ手順を使用して、ClouderaおよびHortonworksと同じデータベースがサポートされます。