WANdisco LiveData Migrator를 사용하여 Oracle로 Hadoop 마이그레이션

Hadoop 데이터 이전 정보

다음은 Apache Hadoop에서 클라우드로 마이그레이션하는 일반적인 단계입니다.

다음 다이어그램은 플로우 구조 및 구성 요소를 보여줍니다.

다음은 hadoop-lakehouse-migration.png에 대한 설명입니다.

그림 hadoop-lakehouse-migration.png에 대한 설명

검색: 클라우드로 마이그레이션할 데이터 세트 및 워크로드를 식별합니다.
계획: 이전이 수행될 단계에 대한 계획 및 타임라인을 개발합니다.
데이터 마이그레이션: 필요한 데이터를 온프레미스 Hadoop 환경에서 클라우드로 마이그레이션합니다.
작업 로드 이전: 온프레미스 환경에서 클라우드로 작업 로드 및/또는 애플리케이션을 이전합니다.
새로운 분석 개발: 새로운 분석, AI 및 머신 러닝을 개발하기 시작하면서 새로운 클라우드 환경을 활용합니다.
측정 및 실행: 분석을 수행하여 KPI를 측정하고 성과를 평가하며 예측을 수행하며 비즈니스가 적절하게 작업을 수행할 수 있도록 합니다.

클라우드 마이그레이션을 시도하고 간소화하기 위해 많은 조직은 "리프트 및 시프트" 마이그레이션 전략을 따르도록 선택합니다. 이 전략을 사용하면 데이터나 응용 프로그램을 변경하지 않고도 마이그레이션을 수행할 수 있다고 가정할 수 있습니다. 논리는 "클라우드로 이전하기만 하면 됩니다." 이러한 가정으로 인해 많은 실패한 프로젝트 또는 프로젝트가 해당 시간과 비용을 초과합니다. 기존 시스템을 중지하여 데이터 변경이 발생하지 않도록 하거나 조직에서 데이터 변경을 처리하기 위해 맞춤형 솔루션을 개발하는 데 시간을 소비해야 합니다. 이 전략의 다른 단점은 조직에서 모든 애플리케이션과 데이터에 대해 동시에 빅뱅 컷오버를 수행해야 한다는 점입니다. 둘째, 새로운 클라우드 기능을 활용하지 못합니다.

WANdisco는 데이터 레이크 마이그레이션에 대한 데이터 우선 접근 방식을 지원합니다. 데이터 우선 접근 방식은 데이터를 신속하게 이동하고 모든 기존 애플리케이션을 동시에 마이그레이션하지 않는 데 중점을 둡니다. 따라서 데이터 과학자가 데이터를 더욱 신속하게 사용할 수 있으므로 첫날부터 마이그레이션된 데이터 작업을 시작할 수 있습니다. 이를 통해 새로운 통찰력과 새로운 AI 혁신에 더욱 빠르게 도달할 수 있습니다. 조직은 클라우드 마이그레이션에 대한 ROI(투자수익률)를 훨씬 더 높이는 반면에 기존 온프레미스 운영 워크로드는 영향을 받지 않습니다. 또한 이 접근 방식은 애플리케이션 및 워크로드 마이그레이션을 위한 유연성을 제공합니다. 모든 Big-bang 접근 방식을 피하고 조직은 새로운 클라우드 환경의 워크로드를 최적화하는 시간을 제공하여 최적으로 실행되도록 보장하며 사용 가능한 새로운 기능을 활용합니다. 조직은 필요에 따라 많은 병렬 테스트를 수행하여 숨겨진 비용이 발생하지 않도록 보장할 수 있으며, 데이터 우선 접근 방식을 사용하면 일부 응용 프로그램을 전혀 마이그레이션할 필요가 없는지 판단할 수 있을 뿐만 아니라 새로 개발된 개발로 대체할 수도 있습니다.

소스 및 대상 정의

배치 중 WANdisco LiveData Migrator는 대상 환경만 정의하면 되도록 소스 Apache Hadoop HDFS(분산 파일 시스템) 클러스터를 자동으로 검색합니다.

WANdisco LiveData Migrator를 배치합니다.
배치 중 LiveData Migrator는 소스 HDFS 클러스터를 자동으로 검색합니다.
대상 환경에 대한 파일 시스템 구성을 정의합니다.
1. Filesystem Type(파일 시스템 유형): 사용 가능한 파일 시스템 유형 목록에서 선택합니다.
  Oracle의 경우 대상이 Oracle의 Apache Hadoop 배포를 활용하는 Oracle Big Data Service(Oracle BDS)인 경우 파일 시스템 유형은 Oracle Cloud Infrastructure Object Storage 또는 Apache Hadoop일 수 있습니다.
2. 표시 이름: 파일 시스템의 표시 이름을 입력합니다.
  예: Oracle BDS Target.
3. 기본 파일 시스템(FS): 파일 시스템 주소를 입력합니다.
  예를 들어, hdfs://localhost:8020입니다.
4. 사용자: 마이그레이션 작업을 수행할 파일 시스템 사용자 이름을 정의합니다. 예를 들어, hdfs입니다.
소스 HDFS의 Kerberos 구성이 대상에 적용되는 경우 소스와 대상 간에 영역 간 인증이 사용으로 설정되었는지 확인합니다.
필요에 따라 연관된 키 및 값을 사용하여 추가 구성 속성 값을 정의합니다.
예를 들어, 구성 속성 대체의 경우 키 및 값을 입력합니다.
- 키: dfs.client.use.datanode.hostname, 값: true
- 키: dfs.datanode.use.datanode.hostname, 값: true

마이그레이션 정의

이전은 기존 데이터를 소스에서 정의된 대상으로 전송합니다. WANdisco LiveData Migrator는 마이그레이션되는 동안 소스 데이터에 대한 변경 사항을 마이그레이션하고 이러한 변경 사항을 적용하여 대상이 최신 상태인지 확인합니다. 마이그레이션을 계속 수행하는 동안 이 작업을 수행합니다.

일반적으로 사용자는 소스 파일 시스템에서 경로별로 특정 컨텐츠를 선택할 수 있도록 다중 마이그레이션을 만듭니다. 여러 마이그레이션 대상을 정의하여 동시에 여러 독립 파일 시스템으로 마이그레이션할 수도 있습니다.

마이그레이션을 만들려면 마이그레이션 이름을 제공하고 소스 및 대상 파일 시스템을 선택한 다음 마이그레이션할 소스 파일 시스템의 경로를 지정합니다. 선택적으로 제외를 적용하여 마이그레이션에서 제외해야 하는 데이터에 대한 규칙을 지정하고 기타 선택적 구성 설정을 적용할 수 있습니다.

LiveData Migrator는 소스에서 대상 메타 저장소로의 Hive 메타 데이터 마이그레이션도 지원합니다. LiveData Migrator는 로컬 또는 원격 메타 데이터 에이전트를 사용하여 메타 저장소에 연결합니다. 메타데이터 규칙은 소스에서 대상으로 마이그레이션할 메타데이터를 정의하는 데 사용됩니다.

마이그레이션을 정의할 때 마이그레이션을 자동으로 시작하고 라이브 마이그레이션이어야 하는지 여부를 결정하도록 지정할 수 있습니다. 즉, 소스에서 대상으로 진행 중인 모든 변경사항을 지속적으로 적용합니다.

마이그레이션 설정을 정의합니다.
1. 이전 이름을 입력합니다.
2. 목록에서 출처를 선택합니다. 예: CDH-SRC.
3. 목록에서 대상을 선택합니다. 예: Oracle BDS Target.
4. 소스의 디렉토리 경로를 입력합니다. 예: /Data_Lake_Directory.
기본 제외를 검토합니다. 필요에 따라 변경하려면 제외 관리를 누릅니다.
겹쳐쓰기 설정을 선택합니다.
이전 옵션을 선택합니다. Auto-start migration 및 Live Migration을 선택합니다.
- 마이그레이션 자동 시작: 데이터 마이그레이션이 자동으로 시작됩니다. 선택하지 않을 경우 "start migration 옵션으로 마이그레이션을 수동으로 시작해야 합니다.
- 라이브 마이그레이션: 마이그레이션이 계속 실행되고 변경 사항이 소스에서 대상으로 실시간으로 복제됩니다. 선택하지 않으면 일회성 마이그레이션이 수행됩니다.
생성을 누릅니다.
데이터가 소스에서 대상으로 즉시 마이그레이션되기 시작합니다.

이전 모니터 및 관리

WANdisco UI(사용자 인터페이스)를 사용하여 마이그레이션을 모니터하고 관리합니다.

WANdisco UI에 로그인합니다.
대시보드로 이동하여 이동 중인 데이터에 대한 대역폭 사용량, 진행 중인 마이그레이션 및 메타데이터 마이그레이션을 확인합니다.

마이그레이션 진행률, 아직 처리되지 않은 이벤트, 마이그레이션되지 않은 이벤트 및 스캔할 경로를 더 잘 파악하는 데 추가 마이그레이션 측정항목을 사용할 수 있습니다.
기존 마이그레이션을 관리하려면 WANdisco UI 및 명령줄 인터페이스를 사용합니다.
사용 가능한 작업은 다음과 같습니다.
- 기존 마이그레이션에서 제외 지정 및 제거
- 마이그레이션 시작, 중지 및 재개
- 이전 삭제
- 이전을 시작하기 전 상태로 재설정
- 실패한 작업을 모니터링하여 날짜/시간, 경로 및 실패 사유 확인