データ移行オプション
Oracleには、HDFSデータの移行、Oracleデータ転送アプライアンスを使用した一括データ移行、およびクラスタ・メタデータの移行のための複数のオプションが用意されています。
データ移行のガイドライン
どのデータを移動する必要があるか、およびOracle Cloud Infrastructureでどのように構造化されるかを決定したら、現在の場所からOracle Cloud Infrastructureにデータを移動するために使用する方法を決定します。このプロセスの重要なコンポーネントは、Oracle Cloud Infrastructureへの接続です。スループットは、接続のサイズによって異なります。
Oracle Cloud Infrastructureでは、多くのレベルの接続がサポートされています。接続は、10 Mbpsから10 Gbpsまでの範囲です。データ・セットのサイズおよび接続スループットを考慮に入れるには、データの移行がダイレクト・コピーのように単純なものであるか、データの移動に専用のアプライアンス(データ転送サービスなど)が必要な場合があります。
近似データ・アップロード時間 | |||||
---|---|---|---|---|---|
データ・セット・サイズ | 10Mbps | 100Mbps | 1 Gbps | 10 Gbps | データ転送サービス |
10 TB | 92日 | 9日 | 22時間 | 2時間 | 1週 |
100 TB | 1,018日 | 101日 | 10日 | 24時間 | 1週 |
500 TB | 5,092日 | 509日 | 50日 | 5日 | 1週 |
1 PB | 10,185日 | 1,018日 | 101日 | 10日 | 2週 |
データ転送サービス
- ディスクベースのデータ転送-暗号化されたコモディティ・ディスク上のファイルとして、Oracle転送サイトにデータを送信します。Oracle転送サイトのオペレータは、テナンシの指定したオブジェクト・ストレージまたはアーカイブ・ストレージ・バケットにファイルをアップロードします。
- アプライアンスベースのデータ転送-安全性の高い、Oracleが提供する記憶域アプライアンスのファイルとして、Oracle転送サイトにデータを送信します。Oracle転送サイトの演算子では、テナントの指定したオブジェクト・ストレージまたはアーカイブ・ストレージ・バケットにデータをアップロードします。
HDFS移行
外部のHDFSからOracle Cloud Infrastructureにデータを移行するには、いくつかの方法があります。
主な考慮事項は、どの程度のデータを移動する必要があるか、また、データの移動に必要となる時間とリソースに応じて線上にデータを移動するのが現実的かです。十分な帯域幅があり、それをサポートするためにソース・クラスタ・リソースがある場合は、次の2つのオプションが関係します。
- DistCpからオブジェクト・ストレージへ
- HDFSへのDistCp
オブジェクト・ストレージ・コピーの場合、ソース・クラスタのみがインターネット接続を必要とし、HDFS Connector (Apache Hadoop)またはS3の互換性の設定(ClouderaおよびHortonworks)のいずれかを必要とします。S3互換性を使用する場合、データはテナンシのホーム・リージョンにのみコピー可能です。
前提条件を満たした後、DistCpをソースHDFSターゲットに対して実行し、オブジェクト・ストレージ・バケットにデータを転送します。次の構文は、US East (Ashburn)リージョンのObject Storage (変数を正しい値で置き換える)にコピーする例です。
hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>'
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<object_storage_namespace>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/
逆に、HDFSターゲットとS3ターゲットを切り替えて、オブジェクト・ストレージからHDFSにデータをコピーできます。このメソッドは、Cloudera、HortonworksおよびApache Hadoopに対して機能します。
2番目のオプションでは、Oracle Cloud InfrastructureでHadoopクラスタを確立し、ソース・クラスタとOracle Cloud Infrastructureクラスタが接続を持つことを確認して、クラスタ間でDistCpを実行します。この方法は、Apache Hadoop、ClouderaおよびHortonworksにも有効です。
MapRクラスタの場合、クラスタ間でのボリュームのリモート・ミラー化を設定してデータを移行します。
データ転送アプライアンス
ワイヤ上でデータを移動できない場合、Oracleデータ転送アプライアンスもデータ転送のためのもう1つのオプションです。
帯域幅またはリソースの制約は、ソース・クラスタに存在することも、Oracle Cloud Infrastructureリージョンに近接してFastConnectの可用性を制限することもできます。データ・セットが非常に大きいために、コピーに時間がかかりすぎている可能性もあります。このような場合、Oracleでは、データ・センターにデプロイでき、HDFSデータ用のDistCpターゲットとして使用できるデータ転送アプライアンスを送信できます。
クラスタMetadata移行
クラスタ・メタデータをOracle Cloud Infrastructureに移行する方法は、Cloudera、Hortonworks、MapRおよびApacheで異なります。
Cloudera
Clouderaクラスタの場合、クラスタ・メタデータに対して3つのタイプのデータベース、Postgres、MySQL、Oracleがサポートされています。
Cloudera Managerデータベースのバックアップのステップは、Cloudera Enterpriseのドキュメントに記載されています。その後、このデータをOracle Cloud Infrastructure上でClouderaを実行するクラスタにインポートできます。
Hortonworks
Hortonworksでは、Clouderaと同じデータベースがサポートされています。金額が異なる場合は、既存のクラスタからブループリントをエクスポートし、それを使用してOracle Cloud Infrastructureホームのデプロイメントを構成できます。
MapR
MapRのバックアップに関するMapRのベスト・プラクティスのドキュメントに記載されているステップに従ってください。その後、このデータをOracle Cloud Infrastructure MapRクラスタにインポートできます。
Apache
Apache Hadoopでは、Ambari、HiveおよびHBaseと同じ手順を使用して、ClouderaおよびHortonworksと同じデータベースがサポートされます。