WANdisco LiveData Migrator를 사용하여 Oracle로의 Hadoop 데이터 마이그레이션 자동화에 대해 알아보기

구조

이 아키텍처는 WANdisco LiveData Migrator를 사용하여 Oracle Cloud Infrastructure Lakehouse로의 데이터 마이그레이션을 자동화하는 방법을 보여줍니다.

WANdisco LiveData Migrator는 기존 온프레미스 데이터 레이크, Spark 및 Hadoop 환경에서 OCI(Oracle Cloud Infrastructure)로 대규모 데이터와 메타데이터 이동을 자동화합니다. WANdisco의 LiveData 기능을 활용하면 운영 시스템 다운타임이나 업무 중단 없이 소스 데이터가 활성 상태일 때 데이터 마이그레이션이 수행될 수 있으며 완벽한 무중단 데이터 마이그레이션을 지원합니다.

다음 다이어그램은 OCI의 최신 데이터 플랫폼에 대한 기능적 구조를 보여줍니다.

modern-data-platform.png 그림에 대한 설명

modern-data-platform-oracle.zip의 약어입니다.

데이터는 운영 데이터베이스, 엔터프라이즈 애플리케이션, 기타 애플리케이션, 외부 이벤트 및 센서에서 수집됩니다.
Data is transferred to Oracle Cloud Infrastructure Lakehouse through Oracle GoldenGate, Oracle Cloud Infrastructure Data Integration, partner applications, such as WANdisco, and open source apps, such as Apache and Kafka.
데이터는 OCI 내부 및 OCI 외부 애플리케이션 Oracle Analytics Cloud, Oracle Cloud Infrastructure Data Science, Oracle Cloud Infrastructure AI Services 및 Oracle Machine Learning에서 소비됩니다.

이 구조는 다음 구성 요소를 지원합니다.

Oracle Cloud Infrastructure GoldenGate입니다.
Oracle Cloud Infrastructure GoldenGate는 전담 관리 서비스로, 온프레미스 또는 클라우드에 상주하는 소스로부터 데이터를 입수할 수 있으며, GoldenGate CDC 기술을 활용하여 유연하고 효율적인 데이터 수집과 Oracle Autonomous Data Warehouse로의 전송을 통해 실시간으로 대규모로 소비자에게 관련 정보를 신속하게 제공할 수 있습니다.
통합
Oracle Integration은 애플리케이션을 통합하고 프로세스를 자동화하며 비즈니스 프로세스에 대한 통찰력을 얻으며 시각적 애플리케이션을 생성할 수 있는 전담 관리 서비스입니다.
WANdisco LiveData 이전기
WANdisco LiveData Migrator는 기존 온프레미스 데이터 레이크, Spark 및 Hadoop 환경에서 OCI로 대규모 라이브 데이터를 마이그레이션할 수 있도록 대규모 데이터와 메타데이터의 이동을 자동화합니다. LiveData Migrator는 작동 중지 시간이 필요하지 않으며 마이그레이션 전, 중 및 후의 데이터에 대한 변경 사항을 마이그레이션합니다.
Autonomous Data Warehouse
Oracle Autonomous Data Warehouse는 데이터 웨어하우징 워크로드에 최적화된 자동 구동, 자가 보안, 자가 복구 데이터베이스 서비스입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. Oracle Cloud Infrastructure는 데이터베이스 생성과 데이터베이스 백업, 패치, 업그레이드 및 튜닝을 처리합니다.
Oracle Cloud Infrastructure AI 서비스
Oracle Cloud Infrastructure AI Services는 개발자가 애플리케이션 및 비즈니스 운영에 AI를 쉽게 적용할 수 있도록 사전 구축된 머신 러닝 모델을 갖춘 서비스 모음입니다. 보다 정확한 비즈니스 결과를 위해 모델을 맞춤화할 수 있습니다. 조직 내의 팀은 서비스 전반에서 모델, 데이터세트 및 데이터 레이블을 재사용할 수 있습니다. OCI AI Services를 통해 개발자는 애플리케이션 개발의 속도를 늦추지 않고도 앱에 ML(머신 러닝)을 쉽게 추가할 수 있습니다.
Oracle Machine Learning
Oracle Machine Learning 서비스는 Oracle Autonomous Database를 사용한 머신 러닝 모델 관리 및 배포를 위한 공통 프레임워크를 제공합니다. 전용 머신 러닝 시스템으로 데이터를 이동할 필요가 없으므로 데이터 과학자를 위한 머신 러닝 모델의 생성 및 배포가 가속화됩니다.
오브젝트 스토리지 데이터 레이크
오브젝트 스토리지는 데이터베이스 백업, 애널리틱스 데이터, 이미지 및 비디오와 같은 풍부한 컨텐츠를 포함하여 모든 컨텐츠 유형의 구조적 및 비구조적 대량 데이터에 빠르게 접근할 수 있습니다. 인터넷을 통해 또는 클라우드 플랫폼 내에서 직접 안전하게 데이터를 저장하고 검색할 수 있습니다. 성능 또는 서비스 안정성이 저하되지 않으면서 스토리지를 원활하게 확장할 수 있습니다. 빠르고 즉각적이며 자주 액세스해야 하는 "핫" 스토리지에 표준 스토리지를 사용합니다. 장기간 보존하고 거의 액세스하지 않는 "콜드" 스토리지에 아카이브 스토리지를 사용합니다.

데이터 레이크는 구조적이고 구조화되지 않은 데이터를 저장할 수 있는 장소이자 다양한 소스에서 매우 다양한 대용량 데이터를 구성할 수 있는 방법입니다. 특히 비즈니스와 기술 분야에서 데이터 레이크는 광범위한 데이터 탐색 및 검색을 수행하고자 하므로 점점 더 중요해지고 있습니다. 데이터를 한 곳에 모아두거나 대부분의 데이터를 한 곳에서 간편하게 통합할 수 있습니다.
데이터 카탈로그
Oracle Cloud Infrastructure 데이터 카탈로그는 엔터프라이즈 데이터를 위한 전담 관리 셀프서비스 데이터 검색 및 거버넌스 솔루션입니다. 이 솔루션은 데이터 엔지니어, 데이터 과학자, 데이터 관리인 및 최고 데이터 책임자에게 조직의 기술, 비즈니스 및 운영 메타데이터를 관리하는 단일 협업 환경을 제공합니다.
분석
Oracle Analytics Cloud는 확장 가능하고 안전한 퍼블릭 클라우드 서비스로, 데이터 준비, 시각화, 엔터프라이즈 보고, 증강 분석, 자연어 처리 및 생성을 위한 AI 기반의 최신 셀프서비스 애널리틱스 기능을 통해 비즈니스 애널리스트의 역량을 강화합니다. Oracle Analytics Cloud를 사용하면 빠른 설정, 간편한 확장 및 패치, 자동화된 라이프사이클 관리 등 유연한 서비스 관리 기능도 이용할 수 있습니다.
Oracle Cloud Infrastructure Streaming 서비스
Oracle Cloud Infrastructure Streaming 서비스(OSS)는 대량의 데이터 스트림을 실시간으로 수집 및 소비하기 위한 확장 가능하며 내구성 있는 전담 관리 솔루션을 제공합니다. 게시-구독 메시징 모델에서 데이터가 연속적으로 생성 및 처리되는 모든 사용 사례에 대해 스트리밍을 사용합니다.

Oracle Cloud Infrastructure Lakehouse 정보

데이터 레이크하우스는 모든 데이터를 저장, 이해 및 분석할 수 있는 최신 개방형 아키텍처입니다. 데이터 웨어하우스의 성능과 다양성을 현재 사용하는 가장 인기 있는 오픈 소스 데이터 기술의 광범위하고 유연성을 결합합니다. Oracle Cloud Infrastructure Lakehouse는 처음부터 최신 AI 프레임워크 및 사전 구축된 AI 서비스를 갖춘 OCI(Oracle Cloud Infrastructure)를 기반으로 구축되었습니다. Oracle Cloud Infrastructure Lakehouse는 쉬운 데이터 이동과 통합 거버넌스 함께 작동하는 여러 Oracle 클라우드 서비스의 통합 플랫폼을 제공하고 사용 사례 및 선호도에 따라 최고의 오픈 소스 및 상용 툴을 사용할 수 있는 기능을 제공합니다.

조직은 Oracle Big Data Service, Oracle Cloud Infrastructure Data Flow와 같은 전담 관리 서비스를 사용하여 기존 오픈 소스 데이터 레이크를 쉽게 마이그레이션하거나 Oracle Cloud Infrastructure Lakehouse에서 새로운 오픈 소스 데이터 레이크를 구축할 수 있습니다. OCI에서 Spark, HIVE, Hbase 및 그 이상의 서비스를 손쉽게 배포하고 확장할 수 있습니다.

Oracle Big Data Service는 완벽하게 구성된 안전한 고가용성 및 전용 Apache Hadoop 및 Spark 클러스터를 필요에 따라 제공합니다. 흔히 사용되는 Hadoop 구성요소를 제공하므로 기업은 워크로드를 클라우드로 간편하게 이동하고 온프레미스 솔루션과의 호환성을 보장합니다.

Oracle Cloud Infrastructure Data Flow는 전담 관리 서버 미사용 Spark 서비스로, 인프라 개념을 최소화하여 Spark 워크로드에 집중할 수 있습니다. 개발자는 인프라 관리가 아닌 앱 개발에 집중할 수 있으므로 신속한 애플리케이션 전달이 가능합니다.

많은 조직들이 온프레미스 데이터 레이크를 마이그레이션하여 Oracle Cloud Infrastructure Lakehouse 아키텍처를 활용하고자 합니다. 그러나 온프레미스 Hadoop 환경에서 클라우드로 데이터 레이크를 마이그레이션하는 일은 적절한 지원 없이 수행할 수 있습니다.

LiveData Migrator를 사용하여 Apache Hadoop 데이터 마이그레이션 정보

일반적으로 이러한 시스템에서 발생하는 데이터 양 및 데이터 변경으로 인해 Apache Hadoop 데이터 마이그레이션이 어렵습니다.

기존의 데이터 마이그레이션 방식은 대량 전송 장치 또는 DistCp(Distributed Copy)와 같은 오픈 소스 도구와 같이 정적 데이터 전송을 위해 설계된 도구에 의존합니다. 이러한 경우 마이그레이션 프로세스 중 데이터 변경이 발생하지 않도록 온프레미스 시스템을 실행 중단하거나, 마이그레이션 담당자가 변경 사항을 식별하고 새 데이터와 변경된 데이터를 마이그레이션하기 위한 사용자정의 솔루션을 개발해야 합니다. 이로 인해 데이터 마이그레이션에 소요되는 시간과 위험이 증가하고, 업계 분석가들에 따르면 데이터 마이그레이션 이니셔티브의 60% 이상이 시간이 지남에 따라 예산을 초과하거나 완전히 실패할 수 있습니다.

LiveData Migrator는 다음 소스에서 Apache Hadoop 데이터 및 Hive 메타데이터의 마이그레이션을 지원합니다.

CDP(Cloudera Data Platform)를 포함한 Cloudera
CDH(Cloudera Data Hub)
HDP(Hortonworks Data Platform) HDFS 버전 2.6 이상

소스 시스템은 Oracle Big Data Appliance 또는 커스터마이징 하드웨어 구성에서 실행될 수 있습니다.