Hadoop 기반 데이터 레이크에 대해 알아보기

Oracle Big Data Service는 Apache Ambari, Apache Hadoop, Apache HBase, Apache Hive, Apache Spark 및 기타 빅 데이터 관련 작업용 서비스를 포함하는 Hadoop 스택을 제공합니다.

빅데이터 서비스를 사용하면 기업이 워크로드를 클라우드로 간편하게 이동하고 온프레미스 솔루션과의 호환성을 보장할 수 있습니다. 이를 통해 데이터를 오브젝트 스토리지로 이동하여 비용을 절감하고 스토리지에서 컴퓨팅 리소스를 분리할 수 있습니다. OCI 콘솔, OCI CLI, REST API 또는 SDK를 사용하여 BDS에 접근할 수 있습니다. BDS 클러스터에 배치된 항목을 사용자 정의할 수 있는 전체 액세스 권한을 얻을 수 있습니다.

Oracle Cloud SQL은 HDFS, Kafka 및 Object Storage의 데이터에 대해 Oracle SQL 쿼리를 시작할 수 있는 사용 가능한 추가 서비스입니다. 모든 사용자, 애플리케이션 또는 분석 툴은 데이터 저장소와 연동하여 데이터 이동을 최소화하고 질의 속도를 높일 수 있습니다. BDS는 데이터 통합, 데이터 과학 및 기타 분석 서비스와 함께 작동합니다. 개발자는 Oracle SQL을 사용하여 데이터에 액세스할 수 있습니다. 기업은 데이터 사일로를 제거하고 데이터 레이크가 다른 기업 데이터 소스와 구분되지 않도록 할 수 있습니다.

데이터 레이크하우스 정보

Oracle Lakehouse 패턴은 데이터 웨어하우스와 데이터 레이크의 최적의 요소를 결합합니다. 다수의 Oracle 클라우드 서비스를 위한 통합 플랫폼으로서 간편한 데이터 이동과 통합 거버넌스 그리고 사용 사례와 기본 설정을 기반으로 우수한 오픈 소스 및 상용 툴을 사용할 수 있도록 지원합니다.

그림 data-lake-house.png에 대한 설명

Oracle Lakehouse 패턴의 주요 요소:

데이터 웨어하우스와 데이터 레이크 패턴의 통합.
데이터 사일로 제거 - 필요에 따라 웨어하우스와 레이크 간의 손쉬운 데이터 이동
통합 메타데이터 및 거버넌스.
널리 사용되는 오픈 소스 및 상용 툴을 지원합니다.
다양한 데이터 소스, 데이터 형식 및 데이터 유형(구조화, 반구조화 및 비구조화) 지원
모든 산업 전반에서 빅 데이터 분석, SQL 및 BI, 데이터 과학, 머신 러닝을 비롯한 다양한 데이터 소비자 및 워크로드를 지원합니다.

이 플레이북에 사용되는 플랫폼의 주요 서비스는 다음과 같습니다.

빅데이터

Oracle Big Data는 클러스터에 Hadoop 환경을 제공합니다. 빅 데이터는 가용성과 보안성을 모두 갖춘 Hadoop 클러스터를 만드는 프로세스를 단순화합니다. Oracle의 모범 사례를 기반으로 Big Data는 고가용성과 보안을 구현하며 고급 Hadoop 기술의 필요성을 줄입니다. 빅데이터는 일반적으로 사용되는 Hadoop 구성요소를 제공하므로 기업이 워크로드를 클라우드로 간편하게 이동하고 온프레미스 솔루션과의 호환성을 유지할 수 있습니다.

데이터 카탈로그

Oracle Cloud Infrastructure 데이터 카탈로그는 엔터프라이즈 데이터를 위한 전담 관리 셀프서비스 데이터 검색 및 거버넌스 솔루션입니다. 데이터 카탈로그는 분석할 데이터를 검색하고 찾는 조직의 능력에 필수적입니다. 데이터 전문가들이 데이터를 검색하고 데이터 거버넌스를 지원할 수 있도록 지원합니다.

데이터 카탈로그를 단일 협업 환경으로 사용하여 기술, 비즈니스 및 운영 메타데이터를 관리합니다. 공용 또는 전용 IP 주소를 사용하여 액세스할 수 있는 광범위한 지원 데이터 소스에서 기술 메타데이터를 수집할 수 있습니다. 이 메타 데이터를 구성, 검색, 액세스, 이해, 보강 및 활성화할 수 있습니다. 온디맨드 또는 일정 기반 자동 수확을 활용하여 데이터 카탈로그에 항상 최신 정보가 포함되도록 보장합니다. Oracle Cloud의 보안, 안정성, 성능, 확장성을 모두 누릴 수 있습니다.

데이터 흐름

Oracle Cloud Infrastructure Data Flow는 Apache Spark 애플리케이션을 실행하기 위한 전담 관리 서비스입니다. 데이터 플로우 애플리케이션은 Spark 애플리케이션, 종속성, 기본 매개변수 및 기본 런타임 리소스 사양으로 구성된 재사용 가능한 템플리트입니다. API 게이트웨이 및 사용 가능한 기능을 통해 REST API를 사용하여 데이터 플로우와 애플리케이션 개발 라이프사이클의 모든 측면을 관리하고 Apache Spark 작업을 추적 및 실행할 수 있습니다.

데이터 플로우는 개발자가 애플리케이션 개발에 집중할 수 있도록 지원함으로써 신속한 애플리케이션 제공을 지원합니다. 로그 관리와 런타임 환경을 제공하여 애플리케이션을 실행합니다. 사용자 인터페이스를 통해 애플리케이션과 워크플로우를 통합하고 API에 접근할 수 있습니다. 따라서 인프라, 클러스터 프로비저닝, 소프트웨어 설치, 스토리지 및 보안을 설정할 필요가 없습니다.

Autonomous Data Warehouse

Oracle Autonomous Data Warehouse는 데이터 웨어하우징 워크로드에 최적화된 자동 구동, 자가 보안 및 자가 복구 데이터베이스 서비스입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. Oracle Cloud Infrastructure는 데이터베이스 생성과 데이터베이스 백업, 패치, 업그레이드 및 튜닝을 처리합니다.

데이터 통합

Oracle Cloud Infrastructure Data Integration은 전담 관리 서버리스 클라우드 서비스로 데이터 과학 및 분석을 위한 데이터를 수집하고 변환하는 서비스입니다. 데이터 통합은 Oracle Data Flow Designer를 통해 데이터 과학과 분석을 위해 복잡한 데이터 추출, 변환, 로드 프로세스(ETL/E-LT)를 데이터 레이크 및 웨어하우스로 단순화하도록 도와줍니다. 규칙 기반 통합 플로우를 통한 자동화된 스키마 변경 보호 기능을 제공하여 데이터 스키마가 발전함에 따라 통합 흐름이 중단되지 않도록 방지하고 유지관리를 줄일 수 있습니다.

데이터 과학

Oracle Cloud Infrastructure Data Science는 데이터 과학자들이 Oracle Cloud Infrastructure상에서 머신 러닝 모델을 개발, 교육, 배포 및 관리할 수 있는 전담 관리 서버리스 플랫폼입니다. 데이터 과학자들은 Oracle에서 제공하는 ADS(Oracle Accelerated Data Science) 라이브러리를 자동 머신 러닝(AutoML), 모델 평가 및 모델 설명을 이용할 수 있습니다.

분석

Oracle Analytics Cloud는 사용자의 업무 그룹 및 기업에 대한 협업 분석을 탐색하고 수행할 수 있는 모든 기능을 제공하는 확장 가능한 보안 공용 클라우드 서비스입니다. Oracle Analytics Cloud를 통해 빠른 설정, 간편한 확장, 패치 적용, 자동 라이프사이클 관리 등 유연한 서비스 관리 기능도 활용할 수 있습니다.