데이터 이전 옵션
Oracle는 HDFS 데이터 마이그레이션, Oracle Data Transfer Appliance를 사용한 대량 데이터 마이그레이션 및 클러스터 메타데이터 마이그레이션을 위한 여러 가지 옵션을 제공합니다.
데이터 마이그레이션 지침
Oracle Cloud Infrastructure에서 이동할 데이터 및 데이터 구성 방법을 결정한 후 현재 위치에서 Oracle Cloud Infrastructure로 데이터를 이동하는 데 사용할 방법을 결정합니다. 이 프로세스의 주요 구성 요소는 Oracle Cloud Infrastructure에 대한 접속입니다. 접속 크기에 따라 처리량이 달라집니다.
Oracle Cloud Infrastructure는 여러 레벨의 접속을 지원합니다. 연결 범위는 10 Mbps에서 10Gbps까지입니다. 데이터 집합의 크기 및 접속 처리량을 고려하는 경우 데이터 마이그레이션이 직접 복사본만큼 간단할 수도 있고, 데이터를 이동하려면 데이터 전송 서비스와 같은 특수한 어플라이언스가 필요할 수도 있습니다.
대략적인 데이터 업로드 시간 | |||||
---|---|---|---|---|---|
데이터 세트 크기 | 10Mbps | 100Mbps | 1Gbps | 10Gbps | 데이터 전송 서비스 |
10TB | 92일 | 9일 | 22시간 | 2시간 | 1주 |
100TB | 1,018일 | 101일 | 10일 | 24시간 | 1주 |
500TB | 5,092일 | 509일 | 50일 | 5일 | 1주 |
1PB | 10,185일 | 1,018일 | 101일 | 10일 | 2주 |
데이터 전송 서비스
- 디스크 기반 데이터 전송 - 암호화된 상품 디스크의 파일로 데이터를 Oracle 전송 사이트로 전송합니다. Oracle 전송 사이트의 운영자는 테넌시의 지정된 오브젝트 스토리지 또는 아카이브 스토리지 버킷에 파일을 업로드합니다.
- 어플라이언스 기반 데이터 전송 - 안전한 고용량 Oracle에서 제공한 스토리지 어플라이언스에서 Oracle 전송 사이트에 데이터를 파일로 전송합니다. Oracle 전송 사이트의 운영자는 테넌시의 지정된 오브젝트 스토리지 또는 아카이브 스토리지 버킷에 데이터를 업로드합니다.
HDFS 이전
다음과 같은 몇 가지 방법으로 외부 HDFS에서 Oracle Cloud Infrastructure로 데이터를 마이그레이션할 수 있습니다.
주요 고려 사항은 이동이 필요한 데이터의 양이며 데이터를 이동하는 데 필요한 시간 및 리소스가 제공될 경우 데이터를 "선 위로" 이동합니다. 충분한 대역폭과 소스 클러스터 리소스를 지원할 수 있을 경우 두 가지 옵션이 관련됩니다.
- DistCp - 객체 스토리지
- HDFS에 대한 DistCp
오브젝트 스토리지 복사본의 경우 소스 클러스터에만 인터넷 연결이 필요하고 HDFS Connector(Apache Hadoop) 또는 S3 호환성 설정(Cloudera 및 Hortonworks) 이 필요합니다. S3 호환성을 사용하는 경우 이 데이터는 테넌시에 대한 홈 영역에만 복사할 수 있습니다.
필요 조건이 발생한 후 소스 HDFS 대상에 대해 DistCp를 실행하여 오브젝트 스토리지 버킷으로 데이터를 전송합니다. 다음 구문은 미국 동부(애슈번) 지역 오브젝트 스토리지로 사본을 보여줍니다(변수를 올바른 값으로 대체).
hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>'
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<object_storage_namespace>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/
반대로, HDFS 대상 및 S3 대상을 전환하여 객체 스토리지의 데이터를 HDFS로 복사할 수 있습니다. 이 방법은 Cloudera, Hortonworks 및 Apache Hadoop에 작동합니다.
두번째 옵션은 Oracle Cloud Infrastructure에서 Hadoop 클러스터를 설정하고, 소스 클러스터와 Oracle Cloud Infrastructure 클러스터에 접속이 있는지 확인하고 , 클러스터 간에 DistCp를 실행하는 것입니다. 이 접근 방식은 Apache Hadoop, Cloudera, Hortonworks에 대해서도 작동합니다.
MapR 클러스터의 경우 클러스터 간에 볼륨 원격 미러링을 설정하여 데이터를 마이그레이션합니다.
데이터 전송 어플라이언스
Oracle Data Transfer Appliance는 유선 위로 데이터를 이동할 때 데이터 전송을 위한 또 다른 옵션입니다.
대역폭 또는 리소스 제약 조건이 소스 클러스터에 존재하거나 Oracle Cloud Infrastructure 영역에 근접해 FastConnect 가용성이 제한될 수 있습니다. 데이터 세트가 너무 길어서 복사할 수 없을 수도 있습니다. 이러한 경우 Oracle에서 데이터 센터에 배치하고 HDFS 데이터에 대한 DistCp 대상으로 사용할 수 있는 데이터 전송 어플라이언스를 보낼 수 있습니다.
클러스터 메타데이터 이전
클러스터 메타데이터를 Oracle Cloud Infrastructure로 마이그레이션하는 접근 방식은 Cloudera, Hortonworks, MapR 및 Apache에 따라 달라집니다.
Cloudera
Cloudera 클러스터의 경우 세 가지 유형의 데이터베이스(Postgres, MySQL 및 Oracle) 가 클러스터 메타 데이터에 지원됩니다.
Cloudera Manager 데이터베이스 백업 단계는 Cloudera Enterprise 설명서에 포함되어 있습니다. 그런 다음 Oracle Cloud Infrastructure에서 Cloudera를 실행하는 클러스터로 이 데이터를 임포트할 수 있습니다.
Hortonworks
Hortonworks의 경우 Cloudera 에서와 동일한 데이터베이스가 지원됩니다. 주황을 위해 기존 클러스터에서 청사진을 익스포트하고 이를 사용하여 Oracle Cloud Infrastructure Hortonworks 배치를 구성할 수 있습니다.
MapR
MapR 백업 모범 사례 설명서의 단계를 따릅니다. 그런 다음 이 데이터를 Oracle Cloud Infrastructure MapR 클러스터로 임포트할 수 있습니다.
Apache
Apache Hadoop의 경우 Ambari, Hive 및 HBase와 동일한 절차를 사용하여 Cloudera 및 Hortonworks와 동일한 데이터베이스가 지원됩니다.