데이터 이전 옵션

Oracle는 HDFS 데이터 마이그레이션, Oracle Data Transfer Appliance를 사용한 대량 데이터 마이그레이션 및 클러스터 메타데이터 마이그레이션을 위한 여러 가지 옵션을 제공합니다.

HDFS 이전

다음과 같은 몇 가지 방법으로 외부 HDFS에서 Oracle Cloud Infrastructure 로 데이터를 마이그레이션할 수 있습니다.

주요 고려 사항은 이동이 필요한 데이터의 양이며 데이터를 이동하는 데 필요한 시간 및 리소스가 제공될 경우 데이터를 "선 위로" 이동합니다. 충분한 대역폭과 소스 클러스터 리소스를 지원할 수 있을 경우 두 가지 옵션이 관련됩니다.

DistCp - 객체 스토리지
HDFS에 대한 DistCp

오브젝트 스토리지 복사본의 경우 소스 클러스터에만 인터넷 연결이 필요하고 HDFS Connector(Apache Hadoop) 또는 S3 호환성 설정(Cloudera 및 Hortonworks) 이 필요합니다. S3 호환성을 사용하는 경우 이 데이터는 테넌시에 대한 홈 영역에만 복사할 수 있습니다.

필요 조건이 발생한 후 소스 HDFS 대상에 대해 DistCp를 실행하여 오브젝트 스토리지 버킷으로 데이터를 전송합니다. 다음 구문은 미국 동부(애슈번) 지역 오브젝트 스토리지로 사본을 보여줍니다(변수를 올바른 값으로 대체).

hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>' 
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true 
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<TENANCY>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/

반대로, HDFS 대상 및 S3 대상을 전환하여 객체 스토리지의 데이터를 HDFS로 복사할 수 있습니다. 이 방법은 Cloudera, Hortonworks 및 Apache Hadoop에 작동합니다.

두번째 옵션은 Oracle Cloud Infrastructure에서 Hadoop 클러스터를 설정하고, 소스 클러스터와 Oracle Cloud Infrastructure 클러스터에 접속이 있는지 확인하고 , 클러스터 간에 DistCp를 실행하는 것입니다. 이 접근 방식은 Apache Hadoop, Cloudera, Hortonworks에 대해서도 작동합니다.

MapR 클러스터의 경우 클러스터 간에 볼륨 원격 미러링을 설정하여 데이터를 마이그레이션합니다.

데이터 전송 어플라이언스

Oracle Data Transfer Appliance는 유선 위로 데이터를 이동할 때 데이터 전송을 위한 또 다른 옵션입니다.

대역폭 또는 리소스 제약 조건이 소스 클러스터에 존재하거나 Oracle Cloud Infrastructure 영역에 근접해 FastConnect 가용성이 제한될 수 있습니다. 데이터 세트가 너무 길어서 복사할 수 없을 수도 있습니다. 이러한 경우 Oracle에서 데이터 센터에 배치하고 HDFS 데이터에 대한 DistCp 대상으로 사용할 수 있는 데이터 전송 어플라이언스를 보낼 수 있습니다.

클러스터 메타데이터 이전

클러스터 메타데이터를 Oracle Cloud Infrastructure 로 마이그레이션하는 접근 방식은 Cloudera, Hortonworks, MapR 및 Apache에 따라 달라집니다.

Cloudera

Cloudera 클러스터의 경우 세 가지 유형의 데이터베이스(Postgres, MySQL 및 Oracle) 가 클러스터 메타 데이터에 지원됩니다.

Cloudera Manager 데이터베이스 백업 단계는 Cloudera Enterprise 설명서에 포함되어 있습니다. 그런 다음 Oracle Cloud Infrastructure 에서 Cloudera를 실행하는 클러스터로 이 데이터를 임포트할 수 있습니다.

Hortonworks

Hortonworks의 경우 Cloudera 에서와 동일한 데이터베이스가 지원됩니다. 주황을 위해 기존 클러스터에서 청사진을 익스포트하고 이를 사용하여 Oracle Cloud Infrastructure Hortonworks 배치를 구성할 수 있습니다.

MapR

MapR 백업 모범 사례 설명서의 단계를 따릅니다. 그런 다음 이 데이터를 Oracle Cloud Infrastructure MapR 클러스터로 임포트할 수 있습니다.

Apache

Apache Hadoop의 경우 Ambari, Hive 및 HBase와 동일한 절차를 사용하여 Cloudera 및 Hortonworks와 동일한 데이터베이스가 지원됩니다.