데이터 이전 옵션

Oracle는 HDFS 데이터 마이그레이션, Oracle Data Transfer Appliance를 사용한 대량 데이터 마이그레이션 및 클러스터 메타데이터 마이그레이션을 위한 여러 가지 옵션을 제공합니다.

데이터 마이그레이션 지침

Oracle Cloud Infrastructure에서 이동할 데이터 및 데이터 구성 방법을 결정한 후 현재 위치에서 Oracle Cloud Infrastructure로 데이터를 이동하는 데 사용할 방법을 결정합니다. 이 프로세스의 주요 구성 요소는 Oracle Cloud Infrastructure에 대한 접속입니다. 접속 크기에 따라 처리량이 달라집니다.

Oracle Cloud Infrastructure는 여러 레벨의 접속을 지원합니다. 연결 범위는 10 Mbps에서 10Gbps까지입니다. 데이터 집합의 크기 및 접속 처리량을 고려하는 경우 데이터 마이그레이션이 직접 복사본만큼 간단할 수도 있고, 데이터를 이동하려면 데이터 전송 서비스와 같은 특수한 어플라이언스가 필요할 수도 있습니다.

다음 표에서는 연결 대역폭 및 데이터 세트의 크기에 따라 데이터를 Oracle Cloud Infrastructure로 이동하는 데 걸리는 시간을 합리적으로 보여 줍니다.
  대략적인 데이터 업로드 시간
데이터 세트 크기 10Mbps 100Mbps 1Gbps 10Gbps 데이터 전송 서비스
10TB 92일 9일 22시간 2시간 1주
100TB 1,018일 101일 10일 24시간 1주
500TB 5,092일 509일 50일 5일 1주
1PB 10,185일 1,018일 101일 10일 2주

데이터 전송 서비스

Oracle는 Oracle Cloud Infrastructure로 데이터를 이전할 수 있는 오프라인 데이터 전송 솔루션을 제공합니다. Oracle Cloud Infrastructure에 현재 있는 데이터를 데이터 센터에 오프라인으로 익스포트할 수도 있습니다. 공용 인터넷을 통한 데이터 이동은 네트워크 비용, 신뢰할 수 없는 네트워크 연결, 장시간 전송 시간 및 보안 문제 때문에 항상 가능하지 않습니다. 오라클의 전송 솔루션은 이러한 통상점을 처리하고, 사용하기 쉽고, 회선을 통한 데이터 전송에 비해 빠른 데이터 업로드를 제공합니다.
  • 디스크 기반 데이터 전송 - 암호화된 상품 디스크의 파일로 데이터를 Oracle 전송 사이트로 전송합니다. Oracle 전송 사이트의 운영자는 테넌시의 지정된 오브젝트 스토리지 또는 아카이브 스토리지 버킷에 파일을 업로드합니다.
  • 어플라이언스 기반 데이터 전송 - 안전한 고용량 Oracle에서 제공한 스토리지 어플라이언스에서 Oracle 전송 사이트에 데이터를 파일로 전송합니다. Oracle 전송 사이트의 운영자는 테넌시의 지정된 오브젝트 스토리지 또는 아카이브 스토리지 버킷에 데이터를 업로드합니다.

HDFS 이전

다음과 같은 몇 가지 방법으로 외부 HDFS에서 Oracle Cloud Infrastructure로 데이터를 마이그레이션할 수 있습니다.

주요 고려 사항은 이동이 필요한 데이터의 양이며 데이터를 이동하는 데 필요한 시간 및 리소스가 제공될 경우 데이터를 "선 위로" 이동합니다. 충분한 대역폭과 소스 클러스터 리소스를 지원할 수 있을 경우 두 가지 옵션이 관련됩니다.

  • DistCp - 객체 스토리지
  • HDFS에 대한 DistCp

오브젝트 스토리지 복사본의 경우 소스 클러스터에만 인터넷 연결이 필요하고 HDFS Connector(Apache Hadoop) 또는 S3 호환성 설정(Cloudera 및 Hortonworks) 이 필요합니다. S3 호환성을 사용하는 경우 이 데이터는 테넌시에 대한 홈 영역에만 복사할 수 있습니다.

필요 조건이 발생한 후 소스 HDFS 대상에 대해 DistCp를 실행하여 오브젝트 스토리지 버킷으로 데이터를 전송합니다. 다음 구문은 미국 동부(애슈번) 지역 오브젝트 스토리지로 사본을 보여줍니다(변수를 올바른 값으로 대체).

hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>' 
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true 
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<object_storage_namespace>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/ 

반대로, HDFS 대상 및 S3 대상을 전환하여 객체 스토리지의 데이터를 HDFS로 복사할 수 있습니다. 이 방법은 Cloudera, Hortonworks 및 Apache Hadoop에 작동합니다.

두번째 옵션은 Oracle Cloud Infrastructure에서 Hadoop 클러스터를 설정하고, 소스 클러스터와 Oracle Cloud Infrastructure 클러스터에 접속이 있는지 확인하고 , 클러스터 간에 DistCp를 실행하는 것입니다. 이 접근 방식은 Apache Hadoop, Cloudera, Hortonworks에 대해서도 작동합니다.

MapR 클러스터의 경우 클러스터 간에 볼륨 원격 미러링을 설정하여 데이터를 마이그레이션합니다.

데이터 전송 어플라이언스

Oracle Data Transfer Appliance는 유선 위로 데이터를 이동할 때 데이터 전송을 위한 또 다른 옵션입니다.

대역폭 또는 리소스 제약 조건이 소스 클러스터에 존재하거나 Oracle Cloud Infrastructure 영역에 근접해 FastConnect 가용성이 제한될 수 있습니다. 데이터 세트가 너무 길어서 복사할 수 없을 수도 있습니다. 이러한 경우 Oracle에서 데이터 센터에 배치하고 HDFS 데이터에 대한 DistCp 대상으로 사용할 수 있는 데이터 전송 어플라이언스를 보낼 수 있습니다.

클러스터 메타데이터 이전

클러스터 메타데이터를 Oracle Cloud Infrastructure로 마이그레이션하는 접근 방식은 Cloudera, Hortonworks, MapR 및 Apache에 따라 달라집니다.

Cloudera

Cloudera 클러스터의 경우 세 가지 유형의 데이터베이스(Postgres, MySQL 및 Oracle) 가 클러스터 메타 데이터에 지원됩니다.

Cloudera Manager 데이터베이스 백업 단계는 Cloudera Enterprise 설명서에 포함되어 있습니다. 그런 다음 Oracle Cloud Infrastructure에서 Cloudera를 실행하는 클러스터로 이 데이터를 임포트할 수 있습니다.

Hortonworks

Hortonworks의 경우 Cloudera 에서와 동일한 데이터베이스가 지원됩니다. 주황을 위해 기존 클러스터에서 청사진을 익스포트하고 이를 사용하여 Oracle Cloud Infrastructure Hortonworks 배치를 구성할 수 있습니다.

MapR

MapR 백업 모범 사례 설명서의 단계를 따릅니다. 그런 다음 이 데이터를 Oracle Cloud Infrastructure MapR 클러스터로 임포트할 수 있습니다.

Apache

Apache Hadoop의 경우 Ambari, Hive 및 HBase와 동일한 절차를 사용하여 Cloudera 및 Hortonworks와 동일한 데이터베이스가 지원됩니다.