データ移行オプション

Oracleには、HDFSデータの移行、Oracleデータ転送アプライアンスを使用した一括データ移行、およびクラスタ・メタデータの移行のための複数のオプションが用意されています。

データ移行のガイドライン

どのデータを移動する必要があるか、およびOracle Cloud Infrastructureでどのように構造化されるかを決定したら、現在の場所からOracle Cloud Infrastructureにデータを移動するために使用する方法を決定します。このプロセスの重要なコンポーネントは、Oracle Cloud Infrastructureへの接続です。スループットは、接続のサイズによって異なります。

Oracle Cloud Infrastructureでは、多くのレベルの接続がサポートされています。接続は、10 Mbpsから10 Gbpsまでの範囲です。データ・セットのサイズおよび接続スループットを考慮に入れるには、データの移行がダイレクト・コピーのように単純なものであるか、データの移動に専用のアプライアンス(データ転送サービスなど)が必要な場合があります。

次の表に、接続帯域幅およびデータ・セットのサイズに基づいて、データをOracle Cloud Infrastructureに移動するためにかかる時間の妥当な想定を示します。
  近似データ・アップロード時間
データ・セット・サイズ 10Mbps 100Mbps 1 Gbps 10 Gbps データ転送サービス
10 TB 92日 9日 22時間 2時間 1週
100 TB 1,018日 101日 10日 24時間 1週
500 TB 5,092日 509日 50日 5日 1週
1 PB 10,185日 1,018日 101日 10日 2週

データ転送サービス

Oracleには、Oracle Cloud Infrastructureにデータを移行できるオフライン・データ転送ソリューションが用意されています。現在Oracle Cloud Infrastructureに存在するデータをデータ・センターのオフラインにエクスポートすることもできます。パブリック・インターネットを介したデータの移動は、高ネットワーク・コスト、信頼性の低いネットワーク接続性、長い転送時間、セキュリティ上の問題により、常に実行できるとはかぎりません。転送ソリューションはこれらのペイント・ポイントに対処し、使いやすく、伝送されたデータ転送と比較してすばやくデータ・アップロードを提供します。
  • ディスクベースのデータ転送-暗号化されたコモディティ・ディスク上のファイルとして、Oracle転送サイトにデータを送信します。Oracle転送サイトのオペレータは、テナンシの指定したオブジェクト・ストレージまたはアーカイブ・ストレージ・バケットにファイルをアップロードします。
  • アプライアンスベースのデータ転送-安全性の高い、Oracleが提供する記憶域アプライアンスのファイルとして、Oracle転送サイトにデータを送信します。Oracle転送サイトの演算子では、テナントの指定したオブジェクト・ストレージまたはアーカイブ・ストレージ・バケットにデータをアップロードします。

HDFS移行

外部のHDFSからOracle Cloud Infrastructureにデータを移行するには、いくつかの方法があります。

主な考慮事項は、どの程度のデータを移動する必要があるか、また、データの移動に必要となる時間とリソースに応じて線上にデータを移動するのが現実的かです。十分な帯域幅があり、それをサポートするためにソース・クラスタ・リソースがある場合は、次の2つのオプションが関係します。

  • DistCpからオブジェクト・ストレージへ
  • HDFSへのDistCp

オブジェクト・ストレージ・コピーの場合、ソース・クラスタのみがインターネット接続を必要とし、HDFS Connector (Apache Hadoop)またはS3の互換性の設定(ClouderaおよびHortonworks)のいずれかを必要とします。S3互換性を使用する場合、データはテナンシのホーム・リージョンにのみコピー可能です。

前提条件を満たした後、DistCpをソースHDFSターゲットに対して実行し、オブジェクト・ストレージ・バケットにデータを転送します。次の構文は、US East (Ashburn)リージョンのObject Storage (変数を正しい値で置き換える)にコピーする例です。

hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>' 
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true 
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<object_storage_namespace>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/ 

逆に、HDFSターゲットとS3ターゲットを切り替えて、オブジェクト・ストレージからHDFSにデータをコピーできます。このメソッドは、Cloudera、HortonworksおよびApache Hadoopに対して機能します。

2番目のオプションでは、Oracle Cloud InfrastructureでHadoopクラスタを確立し、ソース・クラスタとOracle Cloud Infrastructureクラスタが接続を持つことを確認して、クラスタ間でDistCpを実行します。この方法は、Apache Hadoop、ClouderaおよびHortonworksにも有効です。

MapRクラスタの場合、クラスタ間でのボリュームのリモート・ミラー化を設定してデータを移行します。

データ転送アプライアンス

ワイヤ上でデータを移動できない場合、Oracleデータ転送アプライアンスもデータ転送のためのもう1つのオプションです。

帯域幅またはリソースの制約は、ソース・クラスタに存在することも、Oracle Cloud Infrastructureリージョンに近接してFastConnectの可用性を制限することもできます。データ・セットが非常に大きいために、コピーに時間がかかりすぎている可能性もあります。このような場合、Oracleでは、データ・センターにデプロイでき、HDFSデータ用のDistCpターゲットとして使用できるデータ転送アプライアンスを送信できます。

クラスタMetadata移行

クラスタ・メタデータをOracle Cloud Infrastructureに移行する方法は、Cloudera、Hortonworks、MapRおよびApacheで異なります。

Cloudera

Clouderaクラスタの場合、クラスタ・メタデータに対して3つのタイプのデータベース、Postgres、MySQL、Oracleがサポートされています。

Cloudera Managerデータベースのバックアップのステップは、Cloudera Enterpriseのドキュメントに記載されています。その後、このデータをOracle Cloud Infrastructure上でClouderaを実行するクラスタにインポートできます。

Hortonworks

Hortonworksでは、Clouderaと同じデータベースがサポートされています。金額が異なる場合は、既存のクラスタからブループリントをエクスポートし、それを使用してOracle Cloud Infrastructureホームのデプロイメントを構成できます。

MapR

MapRのバックアップに関するMapRのベスト・プラクティスのドキュメントに記載されているステップに従ってください。その後、このデータをOracle Cloud Infrastructure MapRクラスタにインポートできます。

Apache

Apache Hadoopでは、Ambari、HiveおよびHBaseと同じ手順を使用して、ClouderaおよびHortonworksと同じデータベースがサポートされます。