Oracle Cloud의 데이터 레이크 설계에 대해 알아보기

조직이 온프레미스 데이터 레이크에서 OCI(Oracle Cloud Infrastructure)로 마이그레이션하는 방법 살펴보기 온프레미스 데이터 레이크를 포함하는 조직에서는 선행 투자 및 유지 관리 비용이 발생하는 문제를 다룹니다. 이러한 관리자는 인프라를 계획, 조달, 관리, 불균형한 워크로드를 처리해야 합니다. 온프레미스 데이터 레이크는 리소스 사용을 최적화하기가 어렵고 서버 리소스를 효율적으로 사용하지 않습니다. 클라우드 서비스를 사용하면 컴퓨트와 스토리지를 독립적으로 확장하고 확장하면서도 관리가 용이하고 복원성이 뛰어난 통합 환경을 제공할 수 있습니다.

OCI는 강력하고 포괄적인 인프라 및 클라우드 플랫폼 데이터 및 AI 서비스 포트폴리오를 제공하여 모든 소스에서 광범위한 데이터 유형을 액세스, 저장 및 처리할 수 있습니다. OCI를 통해 클라우드에서 포괄적인 기업 규모의 데이터 및 AI 아키텍처를 구현할 수 있습니다. 이 솔루션 플레이북에서는 OCI에서 데이터 레이크를 구축하고 운영하는 데 도움이 되는 주요 서비스의 개요를 제공합니다. 또한 다른 사용 가능한 서비스에 대해 배우고, 일부 핵심 패턴과 전문가 지침을 기반으로 데이터 레이크 솔루션을 설계할 수 있습니다.

구조

이 아키텍처는 데이터 레이크와 데이터 웨어하우스의 기능을 결합하여 광범위한 엔터프라이즈 데이터 리소스에서 다양한 유형의 데이터를 처리합니다. 이 아키텍처를 사용하여 OCI에서 엔드투엔드 데이터 레이크 아키텍처를 설계합니다.

이 다이어그램은 Oracle 데이터 및 AI 서비스의 상위 레벨 구조를 보여줍니다.

다음은 data-lakes.png에 대한 설명입니다.
그림 data-lakes.png에 대한 설명

이 구조에서 데이터는 다음 단계로 이동합니다.

  • 데이터 변환

    구조의 각 데이터 계층에서 사용할 데이터를 수집하고 재정의합니다.

  • 데이터 지속성 & 처리(원래 정보 계층)

    데이터에 대한 접근 및 탐색을 용이하게 하여 현재 비즈니스 뷰를 표시합니다. 관계형 기술의 경우 데이터는 단순 관계형, 세로 또는 차원 또는 OLAP 형식으로 논리적으로 또는 물리적으로 구조화될 수 있습니다. 비관계형 데이터의 경우 이 계층에는 분석 프로세스의 출력 또는 특정 분석 작업에 최적화된 데이터 등 하나 이상의 데이터 풀이 포함되어 있습니다.

  • & 해석 액세스

    소비자의 데이터에 대한 논리적 비즈니스 뷰를 추상화합니다. 이 추상화를 통해 기민한 개발, 대상 아키텍처로의 마이그레이션, 여러 통합 소스에서 단일 보고 계층 프로비전이 용이해집니다.

이 구조에는 다음 구성요소가 있습니다.

  • Big Data Service

    Oracle Big Data Service(BDS)는 Hadoop 환경에 클러스터를 제공하는 완전 관리형 자동 클라우드 서비스입니다. BDS를 통해 고객은 모든 규모의 Hadoop 클러스터를 손쉽게 배포하고 Hadoop 클러스터를 고가용성과 보안 방식으로 만드는 프로세스를 간소화할 수 있습니다. Oracle 최적의 사용법을 기반으로 하는 BDS는 고가용성 및 보안을 구현하고 고급 Hadoop 기술의 필요성을 줄여줍니다. BDS는 일반적으로 사용되는 Hadoop 구성요소를 제공하므로 기업이 워크로드를 클라우드로 간편하게 이동하면서 온프레미스 솔루션과의 호환성을 유지할 수 있습니다.

    Oracle Cloud SQL은 고객이 HDFS, Kafka 및 Oracle Object Storage의 데이터에 대해 Oracle SQL 쿼리를 시작할 수 있도록 해주는 사용 가능한 추가 서비스입니다. 모든 사용자, 애플리케이션 또는 분석 툴은 데이터 저장소와 연동하여 데이터 이동을 최소화하고 질의 속도를 높일 수 있습니다. BDS는 데이터 통합, 데이터 과학 및 분석 서비스와 상호 운용되며, 개발자는 Oracle SQL을 사용하여 데이터에 쉽게 액세스할 수 있습니다. 기업은 데이터 사일로를 제거하고 데이터 레이크가 다른 기업 데이터 소스와 구분되지 않도록 할 수 있습니다.

  • 데이터 카탈로그

    Oracle Cloud Infrastructure 데이터 카탈로그는 엔터프라이즈 데이터를 위한 전담 관리 셀프서비스 데이터 검색 및 거버넌스 솔루션입니다. 데이터 카탈로그는 분석할 데이터를 검색하고 찾는 조직의 능력에 필수적입니다. 데이터 전문가들이 데이터를 검색하고 데이터 거버넌스를 지원할 수 있도록 지원합니다.

    데이터 카탈로그를 단일 협업 환경으로 사용하여 기술, 비즈니스 및 운영 메타데이터를 관리합니다. 공용 또는 전용 IP 주소를 사용하여 액세스할 수 있는 광범위한 지원 데이터 소스에서 기술 메타데이터를 수집할 수 있습니다. 이 메타 데이터를 구성, 검색, 액세스, 이해, 보강 및 활성화할 수 있습니다. 온디맨드 또는 일정 기반 자동 수확을 활용하여 데이터 카탈로그에 항상 최신 정보가 포함되도록 보장합니다. Oracle Cloud의 보안, 안정성, 성능, 확장성을 모두 누릴 수 있습니다.

  • 데이터 흐름

    Oracle Cloud Infrastructure Data Flow는 Apache Spark 애플리케이션 실행을 위한 전담 관리 서비스입니다. 데이터 플로우 애플리케이션은 Spark 애플리케이션, 해당 종속성, 기본 매개변수 및 기본 런타임 리소스 사양으로 구성된 재사용 가능한 템플리트입니다. API 게이트웨이 및 사용 가능한 기능을 통해 REST API를 사용하여 데이터 흐름 및 애플리케이션 개발 라이프사이클의 모든 측면을 관리하고 Apache Spark 작업을 추적 및 실행할 수 있습니다.

    데이터 흐름은 개발자가 애플리케이션 개발에 집중할 수 있도록 함으로써 신속한 애플리케이션 제공을 지원합니다. 로그 관리와 런타임 환경을 제공하여 애플리케이션을 실행합니다. 사용자 인터페이스를 통해 애플리케이션과 워크플로우를 통합하고 API에 접근할 수 있습니다. 따라서 인프라, 클러스터 프로비저닝, 소프트웨어 설치, 스토리지 및 보안을 설정할 필요가 없습니다.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse는 데이터 웨어하우징 워크로드에 최적화된 자동 구동의 자가 보안 및 자가 복구 데이터베이스 서비스입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. Oracle Cloud Infrastructure는 데이터베이스 생성과 데이터베이스 백업, 패치, 업그레이드 및 조정을 처리합니다.

  • 데이터 통합

    Oracle Cloud Infrastructure Data Integration은 데이터 과학 및 분석을 위한 데이터를 수집하고 변환하기 위한 전담 관리 서버리스 클라우드 서비스입니다. 데이터 통합은 Oracle의 데이터 플로우 디자이너를 사용하여 복잡한 데이터 추출, 변환 및 로드 프로세스(ETL/E-LT)를 데이터 과학 및 웨어하우스로 단순화합니다. 규칙 기반 통합 플로우를 통한 자동화된 스키마 변경 보호 기능을 제공하여 데이터 스키마가 발전함에 따라 통합 흐름이 중단되지 않도록 방지하고 유지관리를 줄일 수 있습니다.

  • 데이터 과학

    Oracle Cloud Infrastructure Data Science는 데이터 과학자들이 Oracle Cloud Infrastructure에서 머신 러닝 모델을 개발, 훈련 및 관리할 수 있는 전담 관리 서버 미사용 플랫폼입니다. 데이터 과학자들은 Oracle에서 제공하는 ADS(Oracle Accelerated Data Science) 라이브러리를 자동 머신 러닝(AutoML), 모델 평가 및 모델 설명을 이용할 수 있습니다.

    ADS는 데이터 과학자가 다양한 데이터 저장소의 데이터에 접근하여 더 나은 모델을 생성할 수 있도록 하는 종합적인 데이터 연결 세트가 포함된 Python 라이브러리입니다. ADS 라이브러리는 Oracle 고유의 AutoML뿐만 아니라 H2O.ai 및 Auto-Sklearn과 같은 오픈 소스 툴도 지원합니다.

    데이터 과학자 및 인프라 관리자는 OCI에서 확장성이 뛰어난 온디맨드/서버리스 아키텍처인 Oracle Functions로서 데이터 과학 모델을 간편하게 배포할 수 있습니다. 팀 멤버는 모델 카탈로그를 사용하여 완료된 머신 러닝 모델 및 아티팩트를 보존하고 공유하여 이를 재현, 테스트 및 배포할 수 있습니다.

데이터 레이크 정보

데이터 레이크는 확장 가능한 중앙 집중식 리포지터리를 통해 원시 데이터를 저장하고 기업들이 비용 효율적이고 탄력적인 환경에 모든 데이터를 저장할 수 있도록 합니다. 데이터 레이크는 원시 데이터를 저장할 수 있는 유연한 저장 메커니즘을 제공합니다. 데이터 레이크를 효과적으로 이용하려면 조직이 특정 거버넌스 요구 사항, 워크플로우 및 툴을 검사해야 합니다. 이러한 핵심 요소를 중심으로 구축하면 기존 아키텍처에 원활하게 통합되고 사용자에게 데이터를 쉽게 연결할 수 있는 강력한 데이터 레이크가 만들어집니다.

많은 조직에서 데이터 레이크 클라우드 구축으로 전환하는 과정에서 고려해야 할 이유:
  • 분석 및 ML(머신 러닝)을 활용하여 의사 결정 시간 단축
  • 데이터 과학자, 분석가 및 개발자를 위한 빅 데이터의 수집과 마이닝

데이터 레이크에 저장된 비정형 데이터를 유용하게 활용하려면 데이터를 처리 및 준비해야 합니다. 데이터 엔지니어링 리소스가 부족할 경우 이러한 문제가 자주 발생합니다.

다음은 온프레미스 데이터 레이크 유지 관리에 대한 기술적 과제입니다.

  • 선불 비용 및 유연성 부족: 조직이 자체 온프레미스 인프라를 구축할 때 하드웨어 인프라를 계획, 조달 및 관리하고 서버를 가동하며 중단과 다운타임을 처리해야 합니다.
  • 지속적인 유지 관리 비용: 온프레미스 데이터 레이크를 운영할 때 대부분 IT 및 엔지니어링 비용이 드는 경우, 조직은 지속적인 유지 관리 비용을 고려해야 합니다. 여기에는 기본 하드웨어 및 소프트웨어 인프라의 패치 적용, 유지 관리, 업그레이드 및 지원 비용도 포함됩니다.
  • 민첩성 및 관리 작업 부족: IT 조직은 리소스를 프로비저닝하고, 대규모의 불균형 워크로드를 처리하고, 빠르게 변화하는 커뮤니티 기반 오픈 소스 소프트웨어 혁신에 발맞춰야 합니다.
  • 데이터 파이프라인 구축의 복잡성: 데이터 엔지니어는 일괄 처리 ETL 작업을 수집, 구성, 선행 처리 및 통합관리하고 레이크에 저장된 데이터를 쿼리하기 위해 다양한 툴을 통합하는 데 따른 복잡성을 처리해야 합니다.
  • 확장성 및 차선의 리소스 활용: 사용자 기준이 성장함에 따라 조직은 수동으로 리소스 활용을 관리하고 필요에 따라 확장할 추가 서버를 만들어야 합니다. Hadoop 및 Spark의 대부분의 온프레미스 배포는 컴퓨팅 및 스토리지 리소스를 동일한 서버에 직접 연결함으로써 유연성이 떨어지는 모델을 만듭니다.

다음은 데이터 레이크를 클라우드로 전환할 때 따른 비즈니스 이점을 나열한 것입니다.

  • 설계 비용 및 관리 서비스 강화: 클라우드 기반 툴을 사용하여 사전 통합된 데이터 파이프라인을 보다 효율적으로 구축하고 데이터 엔지니어링 비용을 절감할 수 있습니다. 오브젝트 스토리지 및 ADW(Autonomous Data Warehouse)와 같은 클라우드 서비스를 사용하여 확장 관리를 클라우드 제공자에게 전송하여 투명한 확장성을 제공합니다. 클라우드 기반 데이터 레이크에서 머신을 추가하거나 클러스터를 관리할 필요가 없습니다.
  • 민첩한 인프라 및 최신 기술 활용: 오라클의 유연하고 민첩하며 온디맨드 클라우드 인프라를 사용하여 새로운 활용 사례를 위한 데이터 레이크를 설계합니다. 최신 기술로 빠르게 업그레이드하고 아키텍처 재설계 과정 없이 출시되면 새로운 클라우드 서비스를 추가할 수 있습니다.