현대적 앱 개발 - 빅 데이터 및 분석

빅 데이터는 데이터베이스, 비디오, 양식, 문서, 로그 파일, 웹 페이지 또는 이미지 등 원본이건 관계 없이 모든 데이터 유형(구조화되지 않은, 반구조적 및 구조적)을 관리, 수집, 저장, 카탈로그 작성, 처리 및 분석할 수 있는 일련의 기능과 패턴입니다. Oracle의 빅 데이터 기능은 다양한 서비스와 툴에 적용되므로 기술과 선호도에 따라 빅 데이터 여정을 시작할 수 있습니다.

설계 원칙

빅 데이터 및 분석 패턴을 구현할 때는 모던 앱 개발에 대해 다음과 같은 설계 원칙을 따르십시오.

  • 완전하게 관리되는 서비스를 사용하여 애플리케이션 개발, 런타임 및 데이터 관리 전반에서 복잡성 해소

    데이터는 사용자의 사용 능력에 따라 가치 있게 활용됩니다. 오픈 소스 커뮤니티에서 빅 데이터 툴을 사용하고 있으며 Hadoop, Spark, Hive와 같은 오픈소스 프로젝트를 통해 온프레미스에서 대부분의 기능을 채택했습니다.

    Oracle Big Data Service를 사용하면 널리 사용되는 모든 오픈 소스 Hadoop 구성요소를 Oracle Cloud에서 관리되는 서비스로 제공할 수 있습니다. Spark 애플리케이션의 경우 완전하게 관리되는 서버리스 클라우드 전용 Spark 플랫폼을 제공하는 Oracle Cloud Infrastructure Data Flow를 사용하십시오. 이러한 서비스를 사용하면 특정 벤더에 종속되지 않고 오픈 소스 커뮤니티와 팀의 기존 스킬에서 최신 혁신을 활용할 수 있습니다. Oracle Autonomous Data Warehouse 외부 테이블 및 Oracle Cloud SQL과 같은 Oracle의 기본 프리미엄 기능을 통해 오픈 소스의 속도와 가치를 계속해서 사용할 수 있습니다.

    빅 데이터 서비스(특히 오픈 소스 구성요소)의 배포 및 운영은 운영 비용(OpEx)에 기하급수적으로 영향을 미칠 수 있습니다. DIY(Do-It-Yourself) 접근 방식을 취하기 전에 먼저 데이터 흐름과 같은 관리형 Hadoop 서비스 또는 PaaS 서비스로 시작하십시오. 관리되는 오픈 소스 서비스는 OpEx에서 팩토링할 때 시간 경과에 따라 훨씬 비용이 적게 듭니다.

  • 구축, 테스트 및 배포 자동화

    DataOps는 빅 데이터 파이프라인을 통해 최대한의 이점을 얻을 수 있도록 하는 데 중요합니다. Oracle Cloud Infrastructure Data Integration 서비스를 사용하면 데이터를 입수하고, ETL 처리 및 ELT 푸시다운을 구현하며, 작업을 순서대로 또는 병렬로 연결하여 프로세스를 촉진할 수 있습니다. 파이프라인은 Oracle Cloud 내부 및 외부의 다양한 인기 데이터 소스를 포함할 수 있습니다. 데이터 통합 스케줄링 기능을 사용하여 각 태스크를 실행하는 시기와 빈도를 정의합니다. 빅 데이터 서비스의 HDFS(Hadoop Distributed File System) 기반 데이터 레이크의 경우 Oozie 및 Airflow 같은 도구를 사용하여 포괄적 데이터 파이프라인을 통합관리합니다. Oracle Database Cloud Service Management를 사용하여 일정에 따라 일련의 데이터베이스에 대해 실행되는 데이터베이스 작업을 정의합니다.

  • 모든 데이터에 대한 완전한 기능을 갖춘 통합 데이터베이스를 사용합니다.

    데이터 통합을 단순화, 자동화 및 가속화할 수 있는 최적의 툴을 사용하여 비즈니스 가치를 극대화하는 데 사용할 수 있습니다. 비정형, 반구조적 및 정형 데이터로 Oracle Cloud Infrastructure Data Science의 데이터 레이크를 구축하는 경우 데이터 레이크에 오브젝트 스토리지 서비스를 사용합니다. HDFS 및 오픈 소스 Hadoop 툴을 활용하려면 빅 데이터 서비스를 사용하여 데이터 레이크를 구축하십시오. 데이터 웨어하우스, 부서 데이터 마트, 구조화된 데이터로 계층 제공 및 프레젠테이션에 사용되는 경우 해당 시나리오에 최적화된 Autonomous Data Warehouse를 사용하십시오. Autonomous Data Warehouse는 또한 분석, 비즈니스 인텔리전스 및 Oracle Analytics Cloud와 같은 보고 도구에 대한 연결도 제공합니다.

  • 계기 포괄적인 모니터링 및 추적

    빅데이터 앱은 일반적으로 서로 다른 애플리케이션 및 비즈니스 팀이 소유한 여러 서비스로 구성됩니다. 관찰성 도구는 이러한 본질적으로 분산 시스템의 동작을 파악하는 데 중요합니다.

    모든 워크로드에서 건전성 측정지표를 Oracle Cloud Infrastructure Monitoring으로 내보내도록 하여 엔드투엔드 데이터 파이프라인의 운영 상태를 모니터링합니다. 경보에 대한 사용자정의 측정항목 임계값을 정의하고 제공된 임계값에 도달할 때마다 통지를 받거나 작업을 수행합니다. OCI 로깅은 테넌시의 모든 OCI 서비스 로그, 데이터 애플리케이션에서 제출하는 사용자정의 로그에 사용합니다. 문제를 해결하고 성능을 최적화하려면 Autonomous Data Warehouse에 OCI Database Management를 사용하여 데이터베이스 상태, 평균 활성 세션, 알람, CPU 사용량, 스토리지 사용량, 차량 진단 및 튜닝을 확인하십시오.

  • 앱 수명 주기를 보호하기 위한 다계층 접근 방식 구현

    데이터 보안을 유지할 계획입니다. 데이터를 가져와서 데이터 레이크에서 데이터를 제거하고, 데이터 계보 메타데이터를 보관하며, 액세스 제어 정책이 업데이트되도록 하는 모든 작업을 추적합니다. 데이터 카탈로그를 사용하여 거버넌스에 도움이 됩니다.

    최소 권한 원칙을 준수하고 사용자 및 서비스 계정에 해당 작업을 수행하는 데 필요한 최소 권한만 있는지 확인합니다. Oracle Cloud Infrastructure Identity and Access Management를 사용하여 데이터 플랫폼 구성요소에 대한 액세스 권한을 가진 사용자를 제어합니다. Oracle Cloud Infrastructure Identity and Access Management의 다중 요소 인증을 사용하여 관리자에게 강력한 인증을 적용할 수 있습니다. Oracle Cloud Infrastructure Vault 서비스에 암호 및 인증 토큰과 같은 중요한 정보를 저장합니다.

    빅데이터 서비스의 경우 네트워크를 제어하는 데 필요한 보안 규칙만 구성하고 Apache Ranger를 사용하여 Hadoop 클러스터 전체에서 데이터 보안을 관리합니다. Oracle Data Safe를 사용하여 Autonomous Data Warehouse에서 데이터를 보호합니다. 데이터베이스에 대해 강력한 암호를 사용합니다. 전용 서브넷에 데이터베이스 리소스를 생성하고 VCN(가상 클라우드 네트워크) 보안 그룹 또는 보안 목록을 사용하여 데이터베이스 인스턴스에 대한 네트워크 액세스 제어를 적용합니다. Oracle Cloud Infrastructure Identity and Access Management의 최소 사용자 및 그룹에 데이터베이스 삭제 권한을 부여합니다.

    보안 취약성으로부터 데이터 소스를 보호하려면 데이터 카탈로그데이터 통합 서비스에 대해서만 읽기 전용 계정에 인증서를 제공합니다.

구조

다음 의견이 있는 아키텍처 및 기술을 사용하여 설계 원칙을 구현할 수 있습니다. OCI(Oracle Cloud Infrastructure) 데이터 및 분석 서비스를 사용하면 빅 데이터를 수집, 저장, 카탈로그, 준비, 처리 및 분석할 수 있습니다.
다음은 big-data-and-analytics.png에 대한 설명입니다.
그림 big-data-and-analytics.png에 대한 설명

이 구조는 다음 데이터 소스를 사용합니다.

  • Enterprise applications
  • 장치
  • 일반 사용자
  • 이벤트
  • 센서
  • 모든 디지털 자산

이 아키텍처에는 VCN 내의 다음 구성요소가 있습니다.

  • VCN(가상 클라우드 네트워크)

    VCN은 Oracle Cloud Infrastructure 지역에서 설정하는 사용자 정의 가능한 소프트웨어 정의 네트워크입니다. 기존의 데이터 센터 네트워크와 마찬가지로 VCN은 네트워크 환경에 대한 완벽한 제어를 제공합니다. VCN에는 VCN을 생성한 후 변경할 수 있는 겹치지 않는 CIDR 블록이 여러 개 있을 수 있습니다. VCN을 영역 또는 가용성 도메인으로 범위가 지정될 수 있는 서브넷으로 분할할 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속 주소 범위로 구성됩니다. 서브넷 생성 후 서브넷의 크기를 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.

  • 데이터 통합

    Oracle Cloud Infrastructure Data Integration은 전담 관리 서버리스 클라우드 서비스로 데이터 과학 및 분석을 위한 데이터를 수집하고 변환합니다. Oracle의 코드를 사용하지 않는 최신 데이터 플로우 디자이너를 사용하여 데이터 레이크 및 웨어하우스로 복잡한 ETL 및 ELT를 간소화할 수 있습니다. 조인, 집계 또는 표현식과 같이 즉시 사용할 수 있는 연산자 중 하나를 사용하여 데이터를 구성할 수 있습니다.

  • 스트리밍

    Oracle Cloud Infrastructure Streaming 서비스는 대량 데이터 스트림을 실시간으로 수집 및 소비하기 위한 확장 가능하며 내구성 있는 전담 관리 솔루션을 제공합니다. 게시-구독 메시징 모델에서 데이터가 지속적으로 생성되고 순차적으로 처리되는 모든 사용 사례에 대해 스트리밍을 사용합니다. 메시징, 측정지표 및 로그 입수, 웹 또는 모바일 활동 데이터 입수, 인프라 및 앱 이벤트 처리 등을 예로 들 수 있습니다.

  • Oracle Big Data Service

    Oracle Big Data Service는 클러스터에 Hadoop 환경을 제공하는 완전 관리형 자동 클라우드 서비스입니다. 빅데이터 서비스를 사용하면 모든 규모의 Hadoop 클러스터를 손쉽게 배포하고 Hadoop 클러스터를 고가용성과 보안 방식으로 만드는 프로세스를 간소화할 수 있습니다.

  • Oracle Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse는 데이터 웨어하우징 워크로드에 최적화된 자동 구동의 자가 보안 및 자가 복구 데이터베이스 서비스입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. Oracle Cloud Infrastructure는 데이터베이스 생성과 데이터베이스 백업, 패치, 업그레이드 및 조정을 처리합니다.

  • 객체 스토리지

    오브젝트 스토리지를 사용하면 데이터베이스 백업, 분석 데이터, 이미지 및 비디오와 같은 리치 컨텐츠를 비롯한 모든 컨텐츠 유형의 대규모 정형 및 비정형 데이터에 빠르게 접근할 수 있습니다. 인터넷 또는 클라우드 플랫폼 내에서 직접 안전하게 데이터를 저장하고 검색할 수 있습니다. 성능 또는 서비스 신뢰성이 저하되지 않고 스토리지를 원활하게 확장할 수 있습니다. 빠르고 즉시 자주 액세스해야 하는 "핫" 스토리지에 대해 표준 스토리지를 사용합니다. 오래 보존되고 거의 액세스되지 않는 "콜드" 스토리지에 대해 아카이브 스토리지를 사용합니다.

  • 데이터 흐름

    Oracle Cloud Infrastructure Data Flow는 전담 관리 PaaS 레벨 Spark 애널리틱스 플랫폼으로, 클러스터, 운영 팀 또는 고도로 특수화된 Spark 지식 없이도 Spark 작업을 생성, 편집 및 실행할 수 있도록 해줍니다. 서버리스이므로 배포 또는 관리할 인프라가 없습니다. 이는 전적으로 REST API를 기반으로 실행되므로 앱 또는 워크플로우와 손쉽게 통합할 수 있습니다.

  • Oracle Analytics Cloud

    클라우드 환경에서 최신 분석을 위한 동급 최강의 플랫폼은 비즈니스 분석가와 소비자를 지원합니다. Oracle Analytics Cloud는 데이터 준비, 검색 및 시각화를 위한 최신 AI 기반 셀프서비스 분석 기능을 제공하여 지능형 엔터프라이즈 및 온디맨드 보고를 보강된 분석, 자연어 처리 및 생성을 지원합니다. 비즈니스 분석가, 데이터 엔지니어, 시민 데이터 과학자, 부서 관리자, 도메인 전문가 또는 경영진 등 Oracle Analytics Cloud를 통해 데이터를 통찰력으로 전환할 수 있습니다.

  • 분석, ML 및 맞춤형 앱

    분석 서비스, Oracle Machine Learning 및 맞춤형 애플리케이션으로 빅 데이터를 카탈로그화, 준비, 처리 및 분석합니다.

  • 데이터 카탈로그

    Oracle Cloud Infrastructure 데이터 카탈로그는 엔터프라이즈 데이터를 위한 전담 관리 셀프서비스 데이터 검색 및 거버넌스 솔루션입니다. 데이터 엔지니어, 데이터 과학자, 데이터 관리인, 데이터 관리자 및 최고 데이터 관리 책임자들이 조직의 기술, 비즈니스 및 운영 메타데이터를 관리할 수 있는 단일 협업 환경을 제공합니다.

이 아키텍처 패턴을 사용하면 현대적인 데이터 레이크 하우스 패턴으로 구조화되지 않은/반구조화된/구조화되지 않은 모든 유형의 데이터를 관리할 수 있습니다. 데이터 통합 및 스트리밍 서비스를 사용하여 모든 유형의 데이터를 오브젝트 스토리지 기반 데이터 레이크로 수집합니다. 처리에는 Oracle Cloud Infrastructure Data FlowOracle Big Data Service를 사용하고, 카탈로그화에는 Oracle Cloud Infrastructure Data Catalog를 사용하고, 서비스 저장소로 Oracle Autonomous Data Warehouse를 사용하고, 분석 및 비즈니스 인텔리전스에는 Oracle Analytics Cloud를 사용합니다.

다음 프로세스는 다이어그램에 나와 있는 흐름에 대해 설명합니다.

  • Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure 다양한 유형의 소스에서 입수 데이터를 스트리밍합니다. 사용되는 서비스는 데이터가 일괄 처리인지, 스트리밍인지, 동기화된 데이터베이스 레코드인지 여부 및 온프레미스 데이터인지/클라우드인지를 결정합니다.
  • 클라우드 서비스에서 공유하는 공유 접근을 위해 데이터를 오브젝트 스토리지에 제공하고 Oracle Autonomous Data Warehouse 또는 Big Data Service에 저장하기 전에 처리할 수 있습니다.
  • ELT 기능을 사용하여 데이터를 직접 Oracle Autonomous Data Warehouse로 전달한 다음 변환하거나 다른 데이터베이스의 레코드를 직접 입수할 수도 있습니다. 데이터는 빅 데이터 서비스에 있는 그대로 직접 전달될 수도 있습니다.
  • Oracle Autonomous Data Warehouse는 API를 통해 오브젝트 스토리지에서 데이터를 쿼리하거나 오브젝트 스토리지에서 입수하거나 데이터 통합을 통해 데이터를 입수할 수 있습니다. 빅데이터 서비스는 오브젝트 스토리지에서 데이터를 수집하거나 쿼리할 수 있습니다.
  • Oracle Analytics Cloud는 서비스가 제공하는 시각화 및 비즈니스 분석 기능을 위해 Oracle Autonomous Data Warehouse의 데이터에 접근할 수 있습니다.
  • Oracle Cloud Infrastructure Data CatalogOracle Autonomous Data Warehouse, 오브젝트 스토리지 및 Big Data Service Hive 데이터 소스에서 메타데이터를 수집합니다. 데이터 카탈로그와 상호 작용하여 데이터를 수집, 검색 및 관리할 수 있습니다.
  • Oracle Autonomous Data Warehouse, Big Data Service 및 Object Storage의 데이터를 사용하여 분석 및 머신 러닝 워크로드의 커스터마이징 앱을 구현할 수 있습니다.
  • 비즈니스 분석가는 Oracle Analytics Cloud를 사용하여 Oracle Autonomous Data WarehouseBig Data Service의 데이터를 소비할 수 있습니다.
  • 데이터 과학자들은 Oracle Big Data ServiceOracle Autonomous Data WarehouseOracle Machine Learning for Spark에 Oracle Machine Learning Notebooks을 이용해 머신 러닝 모델을 교육하고 공간 및 그래프 데이터로 작업할 수 있습니다.

대체 구조

이 패턴에 설명된 아키텍처의 대안을 고려하십시오.

단일 데이터베이스 또는 데이터 웨어하우스를 사용하여 모든 유형의 데이터를 저장하고 분석할 수 있습니다. 이 대체 아키텍처에서는 다양한 데이터 소스(최종 사용자, 장치, 이벤트, 센서 및 애플리케이션)가 데이터 통합(Oracle GoldenGate) 및 스트리밍 데이터를 위한 Oracle Transactional Event Queue를 통해 데이터베이스에 데이터를 공급합니다. 데이터는 Cloud SQL을 사용하여 빅데이터에 대한 객체 저장소 지원과 함께 Oracle Autonomous Database(Oracle Autonomous Transaction ProcessingOracle Autonomous Data Warehouse)에 저장됩니다. 모델 구축 및 배포에 Oracle Machine Learning을 사용하고 데이터에 대한 통찰력을 얻으려면 Oracle Analytics CloudOracle Data Cloud를 사용합니다.

다음 다이어그램은 이 대체 구조를 보여줍니다.

다음은 alt-architecture-big-data.png에 대한 설명입니다.
그림 alt-architecture-big-data.png에 대한 설명

이 구조는 다음 데이터 소스를 사용합니다.

  • Enterprise applications
  • 장치
  • 일반 사용자
  • 이벤트
  • 센서
  • 모든 디지털 자산

이 아키텍처에는 VCN 내의 다음 구성요소가 있습니다.

  • VCN(가상 클라우드 네트워크)

    VCN은 Oracle Cloud Infrastructure 지역에서 설정하는 사용자 정의 가능한 소프트웨어 정의 네트워크입니다. 기존의 데이터 센터 네트워크와 마찬가지로 VCN은 네트워크 환경에 대한 완벽한 제어를 제공합니다. VCN에는 VCN을 생성한 후 변경할 수 있는 겹치지 않는 CIDR 블록이 여러 개 있을 수 있습니다. VCN을 영역 또는 가용성 도메인으로 범위가 지정될 수 있는 서브넷으로 분할할 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속 주소 범위로 구성됩니다. 서브넷 생성 후 서브넷의 크기를 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.

  • 데이터 통합

    Oracle Cloud Infrastructure Data Integration은 전담 관리 서버리스 클라우드 서비스로 데이터 과학 및 분석을 위한 데이터를 수집하고 변환합니다. Oracle의 코드를 사용하지 않는 최신 데이터 플로우 디자이너를 사용하여 데이터 레이크 및 웨어하우스로 복잡한 ETL 및 ELT를 간소화할 수 있습니다. 조인, 집계 또는 표현식과 같이 즉시 사용할 수 있는 연산자 중 하나를 사용하여 데이터를 구성할 수 있습니다.

  • ADB의 Oracle Cloud Infrastructure 트랜잭션 이벤트 대기열(TEQ)

    자율 데이터베이스의 Oracle Transactional 이벤트 대기열은 데이터베이스 통합 메시지 대기열 기능을 제공합니다. 고도로 최적화되고 분할된 이 구현은 Oracle 데이터베이스의 기능을 활용하여 생산자와 소비자가 메시지를 영구적으로 저장하고 서로 다른 데이터베이스의 대기열 간에 메시지를 전달함으로써 높은 처리량의 메시지를 교환할 수 있도록 합니다. Oracle Transactional 이벤트 대기열은 대기열당 여러 이벤트 스트림을 포함하는 고성능 분할 구현입니다.

  • Oracle Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse는 데이터 웨어하우징 워크로드에 최적화된 자동 구동의 자가 보안 및 자가 복구 데이터베이스 서비스입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. Oracle Cloud Infrastructure는 데이터베이스 생성과 데이터베이스 백업, 패치, 업그레이드 및 조정을 처리합니다.

    이 클라우드 데이터 웨어하우스 서비스는 데이터 웨어하우스 운영, 데이터 보호 및 데이터 기반 애플리케이션 개발의 모든 복잡성을 없애 줍니다. 또한 데이터 웨어하우스의 프로비저닝, 구성, 보안, 튜닝, 확장 및 백업을 자동화합니다. 여기에는 셀프 서비스 데이터 로드, 데이터 변환, 비즈니스 모델, 자동 통찰력, 여러 데이터 유형 및 머신 러닝 분석 전반에서 더 간단한 쿼리를 실행할 수 있는 내장형 데이터베이스 기능이 포함되어 있습니다.

  • 객체 스토리지

    오브젝트 스토리지를 사용하면 데이터베이스 백업, 분석 데이터, 이미지 및 비디오와 같은 리치 컨텐츠를 비롯한 모든 컨텐츠 유형의 대규모 정형 및 비정형 데이터에 빠르게 접근할 수 있습니다. 인터넷 또는 클라우드 플랫폼 내에서 직접 안전하게 데이터를 저장하고 검색할 수 있습니다. 성능 또는 서비스 신뢰성이 저하되지 않고 스토리지를 원활하게 확장할 수 있습니다. 빠르고 즉시 자주 액세스해야 하는 "핫" 스토리지에 대해 표준 스토리지를 사용합니다. 오래 보존되고 거의 액세스되지 않는 "콜드" 스토리지에 대해 아카이브 스토리지를 사용합니다.

    이 인터넷 규모의 고성능 스토리지 플랫폼은 안정적이고 비용 효율적인 데이터 내구성을 제공합니다. 오브젝트 스토리지 서비스는 애널리틱스 데이터 및 이미지, 비디오와 같은 리치 컨텐츠 등 모든 컨텐츠 유형의 비정형 데이터를 무제한으로 저장할 수 있습니다.

  • 자율운영 데이터베이스

    Oracle Cloud Infrastructure 자율 데이터베이스는 트랜잭션 처리 및 데이터 웨어하우징 워크로드에 사용할 수 있는 완전히 관리되는 사전 구성된 데이터베이스 환경입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. Oracle Cloud Infrastructure는 데이터베이스 생성과 데이터베이스 백업, 패치, 업그레이드 및 조정을 처리합니다.

  • 자율 데이터베이스의 Oracle Machine Learning

    Oracle Autonomous Database(Autonomous Transaction Processing 및 Autonomous Data Warehouse)의 Oracle Machine Learning

  • Oracle Analytics Cloud

    This best-in-class platform for modern analytics in the cloud empowers business analysts and consumers. Oracle Analytics Cloud offers modern AI-powered self-service analytics capabilities for data preparation, discovery, and visualization; intelligent enterprise and on demand reporting together with augmented analysis; and natural language processing and generation. Whether you’re a business analyst, data engineer, citizen data scientist, departmental manager, domain expert, or executive, Oracle Analytics Cloud can help you turn data into insights.

  • 분석, ML 및 맞춤형 앱

    분석 서비스, Oracle Machine Learning 및 맞춤형 애플리케이션으로 빅 데이터를 카탈로그화, 준비, 처리 및 분석합니다.

  • 데이터 카탈로그

    Oracle Cloud Infrastructure 데이터 카탈로그는 엔터프라이즈 데이터를 위한 전담 관리 셀프서비스 데이터 검색 및 거버넌스 솔루션입니다. 데이터 엔지니어, 데이터 과학자, 데이터 관리인, 데이터 관리자 및 최고 데이터 관리 책임자들이 조직의 기술, 비즈니스 및 운영 메타데이터를 관리할 수 있는 단일 협업 환경을 제공합니다.

    Oracle Cloud Infrastructure Data Catalog는 데이터 전문가가 데이터를 찾고 데이터 거버넌스를 지원하는 메타데이터 관리 서비스입니다.

  • Oracle GoldenGate

    이 전담 관리 서비스는 현재의 트랜잭션 기반 애플리케이션의 요구사항을 충족하기 위해 실시간 DC(Log-Based Change Data Capture) 및 복제 소프트웨어 플랫폼을 제공합니다. 이 소프트웨어는 이기종 환경 전반에서 트랜잭션 데이터의 캡처, 라우팅, 변환 및 전달을 실시간으로 제공합니다.

또는 Oracle Cloud Infrastructure Compute에서 오픈 소스 플랫폼을 구축하고 실행할 수도 있습니다. 그러나 이 옵션을 사용하면 OpEx가 클 수 있습니다.

고려 사항 및 안티패턴

빅데이터 및 분석을 위해 다음을 고려하십시오.

  • 데이터 사본 및 이동 감소

    데이터 이동은 비용이 많이 들고 자원과 시간을 소비하며 데이터 충실도를 낮출 수 있습니다. 데이터 유형, 데이터 품질 및 필수 변환에 따라 데이터를 저장하고 처리할 적합한 서비스를 선택합니다. 모든 유형의 원시 데이터를 위해 데이터 레이크 스토리지에 오브젝트 스토리지를 사용합니다. Oracle Big Data Service를 사용하여 HDFS 및 Hadoop 에코시스템 툴을 활용할 수 있습니다. Oracle Autonomous Data Warehouse를 사용하여 프레젠테이션에 사용할 변환된 데이터를 저장합니다. 적절한 저장소를 사용하면 데이터를 복사 및 이동하지 않고 데이터의 중복 사본을 줄일 수 있으므로 유지 관리 및 동기화 유지가 어렵습니다.

  • 사용자에게 필요한 데이터 인터페이스 제공

    엔터프라이즈 데이터 및 분석 플랫폼은 데이터 엔지니어, 데이터 분석가, 어플리케이션 개발자, 빅 데이터 엔지니어, 데이터베이스 관리자, 비즈니스 분석가, 데이터 과학자, 데이터 관리인, 기타 소비자 등 다양한 유형의 사용자를 보유하고 있습니다. 데이터 소비에 대한 요구사항과 선호도 모두 다릅니다. 모든 활용 사례와 데이터 소비자 요구 사항을 이해하는 것이 중요합니다. Hadoop 에코시스템 툴을 사용하려면 빅데이터를 사용하십시오. SQL 쿼리와 비즈니스 인텔리전스 툴의 경우 Autonomous Data Warehouse를 사용합니다. Spark 애플리케이션의 경우 Oracle Cloud Infrastructure Data Flow 서비스를 사용합니다.

  • 데이터 자산 카탈로그화 및 공통 인력 구축

    엔터프라이즈의 데이터는 일반적으로 여러 팀에 걸쳐 공유 자산입니다. 데이터 카탈로그를 사용하여 OCI 및 온프레미스 전반의 데이터 소스에서 메타데이터를 수집하고 데이터 자산 인벤토리를 생성합니다. 이를 통해 데이터 소비자가 분석에 필요한 데이터를 쉽게 찾을 수 있습니다. 데이터 카탈로그를 사용하여 범주, 하위 범주 및 비즈니스 용어로 엔터프라이즈 광택을 생성 및 관리하여 검색 생산성을 높이기 위해 사용자 추가 태그로 비즈니스 개념 분류를 작성합니다.

  • 비용 및 성능의 유의성 유지

    플랫폼을 제대로 설계하고 운영하지 않으면 데이터 및 분석 플랫폼 비용이 빠르게 증가할 수 있습니다. 모든 데이터는 대기 시간 및 처리량과 관련된 특정 성능 요구사항을 갖습니다. 성능 요구 사항에 아직 부합하는 가장 작은 컴퓨트 구성과 서비스의 최소 스토리지 용량을 사용하여 작업 환경을 올바르게 조정합니다. 사용되지 않은 리소스를 모두 종료합니다. 작업에 사용할 코어 수를 선택할 수 있으므로 Spark 앱용 데이터 플로우를 사용합니다. 이를 통해 비용을 최소화하면서 필요한 성능을 얻을 수 있습니다. Autonomous Data Warehouse의 경우 필요에 따라 CPU 코어 수 또는 데이터베이스의 스토리지 용량을 확장할 수 있습니다. 또한 자동 크기 조정 기능을 사용하면 데이터베이스가 언제든지 현재 기본 CPU 코어 수의 최대 3배를 자동으로 사용하고 필요하지 않을 경우 코어 수를 자동으로 줄일 수 있습니다.

안티패턴

구현을 설계할 때 다음 사항을 고려하십시오.

  • 데이터 카탈로그화 및 거버넌스 결여는 데이터 레이크를 데이터 스팸으로 전환할 수 있습니다.
  • 오브젝트 스토리지 대신 블록 볼륨에 데이터 레이크 데이터를 저장하면 비용이 더 많이 드는 솔루션이 됩니다.

Big Data and Analytics 패턴

이 아키텍처 패턴은 Oracle Cloud Infrastructure(OCI) 데이터 및 분석 서비스를 사용하여 빅데이터를 수집, 저장, 카탈로그, 준비, 처리 및 분석하여 여러 사용 사례를 구현하는 방법에 대한 지침을 제공합니다.

이러한 사용 사례에는 데이터 웨어하우징, 분석, 비즈니스 인텔리전스 및 보고, ETL(추출, 변환, 로드) 패턴, ELT(추출, 로드 및 변환) 패턴, 데이터 레이크와 하우스 패턴, 교육 머신 러닝 모델 등이 있습니다.

다음 다이어그램은 데이터 및 분석과 관련된 Oracle 서비스를 보여줍니다.

다음은 big-data-and-analytics-pattern.png에 대한 설명입니다.
그림 big-data-and-analytics-pattern.png에 대한 설명
  • Oracle Autonomous Data Warehouse를 사용하여 비정형 데이터와 반구조적 데이터의 외부 테이블에 대한 SQL 쿼리를 작성할 수 있습니다.
  • Oracle Big Data Service를 사용하여 Hive, Spark, Kafka, HBase 등의 Apache Hadoop 에코시스템 툴을 사용하여 모든 종류의 비정형 및 반구조적 데이터를 수집, 저장 및 처리할 수 있습니다.
  • Oracle Cloud Infrastructure Object Storage를 사용하여 빅데이터를 저장하고 모든 유형의 데이터에 대한 데이터 레이크를 구축합니다.
  • Apache Spark 기본 작업에 Oracle Cloud Infrastructure Data Flow를 사용합니다.
  • Oracle Cloud Infrastructure Data Integration을 사용하여 ETL(추출, 변환, 로드) 및 ELT(추출, 로드, 변환) 처리 간소화와 함께 다양한 데이터 소스에서 데이터를 입수합니다.
  • Oracle Cloud Infrastructure 데이터 카탈로그를 사용하면 다양한 데이터 소스에서 메타데이터를 수집하여 데이터 레이크에 대한 자산 인벤토리, 비즈니스 용어집 및 공통 메타 저장소를 작성할 수 있습니다.
  • 스트리밍을 사용해 Kafka 호환 API를 통해 실시간 데이터 스트림을 입수할 수 있습니다.

사용 사례 예

다음은 Oracle Cloud Infrastructure(OCI) 데이터 및 분석 서비스를 사용하여 빅데이터를 수집, 저장, 카탈로그, 준비, 처리 및 분석하는 구현 예입니다.

  • Data Warehousing 및 Business Analytics

    Oracle Analytics Cloud를 사용하여 데이터 웨어하우스 또는 데이터 마트로서 Oracle Autonomous Data Warehouse를 사용합니다.

    • 데이터 통합은 의도한 소스에서 데이터를 입수합니다. 사용되는 데이터 통합의 유형은 데이터가 일괄 처리인지, 스트리밍인지, 동기화된 데이터베이스 레코드인지 여부 및 온프레미스인지 아니면 클라우드인지를 결정합니다.
    • 클라우드 서비스의 공유 접근을 위해 데이터를 오브젝트 스토리지에 제공하고 Autonomous Data Warehouse 또는 Big Data에 저장하기 전에 데이터를 처리할 수 있습니다. 또한 데이터를 Autonomous Data Warehouse로 직접 전달한 다음 ELT 기능을 사용하여 변환할 수도 있고, 다른 데이터베이스의 레코드를 직접 수집할 수도 있습니다.
    • Oracle Analytics Cloud는 머신 러닝 결과를 포함하여 데이터베이스의 데이터를 시각화합니다. Oracle Analytics Cloud는 데이터 플로우 처리를 위해 가능한 한 많은 처리를 Autonomous Data Warehouse에 푸시합니다.
    • 오브젝트 스토리지는 활성 아카이브 또는 데이터 공유의 경우 선택 사항입니다. 활성 아카이브는 자주 사용되지 않는 데이터가 ADW에서 저비용 스토리지 계층(오브젝트 스토리지)으로 이동되는 위치입니다. 오브젝트 스토리지에서 데이터를 계속 질의할 수 있지만 성능이 더 느립니다. 오브젝트 스토리지를 사용하여 클라우드 서비스 간에 공유되는 데이터를 저장할 수도 있습니다.
    • Oracle Cloud Infrastructure Data CatalogAutonomous Data Warehouse 및 오브젝트 스토리지 데이터 소스에서 메타데이터를 수집합니다. 데이터 카탈로그와 상호 작용하여 카탈로그를 사용하고 관리합니다.
  • 호수 하우스 패턴을 위한 데이터 레이크 및 데이터 웨어하우스를 통해 모든 유형의 데이터 관리

    Autonomous Data Warehouse와 빅데이터 모두에서 데이터를 관리하고 데이터 시각화를 위해 Oracle Analytics Cloud를 사용합니다.

    • 데이터 통합은 의도한 소스에서 데이터를 입수합니다. 사용되는 데이터 통합의 유형은 데이터가 일괄 처리인지, 스트리밍인지, 동기화된 데이터베이스 레코드인지 여부 및 온프레미스인지 아니면 클라우드인지를 결정합니다.
    • 클라우드 서비스에서 공유 액세스를 위해 데이터를 오브젝트 스토리지에 제공하고 Autonomous Data Warehouse 또는 Oracle Big Data Service에 저장하기 전에 처리할 수 있습니다. 또한 데이터를 Autonomous Data Warehouse에 직접 전달한 다음 ELT 기능을 사용하여 변환할 수도 있고, 다른 데이터베이스의 레코드를 직접 수집할 수도 있습니다. 데이터는 빅 데이터를 현재 상태 그대로 직접 전송할 수도 있습니다.
    • Autonomous Data Warehouse는 API를 통해 오브젝트 스토리지에서 데이터를 쿼리하거나 Oracle Cloud Infrastructure Data Integration을 사용하여 오브젝트 스토리지에서 데이터를 입수할 수 있습니다. 빅데이터는 오브젝트 스토리지에서 데이터를 수집하거나 쿼리할 수 있습니다.
    • Big Data 커넥터를 사용하여 Big Data에서 Autonomous Data Warehouse로 데이터를 전송할 수 있습니다.
    • Oracle Analytics Cloud는 Autonomous Data Warehouse와 빅데이터를 비롯한 여러 소스의 데이터에 접근하여 강화된 분석, 데이터 시각화 및 셀프 서비스 비즈니스 분석 기능을 제공합니다.
    • 비즈니스 분석가는 Oracle Analytics Cloud를 사용하여 Autonomous Data Warehouse와 빅데이터 모두에서 데이터를 소비할 수 있습니다.
    • 데이터 카탈로그는 Autonomous Data Warehouse, 오브젝트 스토리지 및 빅데이터 Hive 데이터 소스에서 메타데이터를 수집합니다. 데이터 카탈로그와 상호 작용하여 데이터를 수집, 검색 및 관리할 수 있습니다.
  • OCI 클라우드 네이티브 서비스를 이용한 데이터 레이크 구축

    오브젝트 스토리지에서 데이터 레이크를 구축하고 클라우드 네이티브 데이터와 AI 서비스를 이용하여 최신 기술 혁신 기술을 현대화하고 활용하십시오.

    • Spark 뱃치 프로세스 및 임시 Spark 클러스터에 대해 데이터 플로우를 사용합니다.
    • Apache Hadoop 또는 Spark 클러스터 내 HDFS 대신 HDFS(Hadoop Distributed File System) 커넥터가 HDFS 저장소로 오브젝트 스토리지를 사용합니다.
    • Oracle Cloud Infrastructure Data Integration을 사용하여 데이터를 입수하고 ETL 작업을 수행할 수 있습니다.
    • 데이터 검색 및 거버넌스에 Oracle Cloud Infrastructure Data Catalog를 사용합니다.
    • 머신 러닝 요구사항에 따라 Oracle Cloud Infrastructure Data Science를 사용합니다.
    • Oracle Cloud Infrastructure Streaming을 사용하여 스트림 입수를 관리하고, 관리되는 통합 서비스에 Data Integration을 사용합니다. 이러한 서비스는 자체 관리 Kafka 또는 Flume을 대체할 수 있습니다.
    • 관리되는 OCI 전용 서비스를 쉽게 사용할 수 없는 스택의 나머지 구성요소에 대해 Oracle Cloud Infrastructure Compute 및 스토리지 서비스를 사용하십시오.
  • Oracle Big Data Service를 사용하여 HDFS 기반 데이터 레이크 구축

    Oracle Big Data Service를 사용하여 HDFS에 데이터 레이크를 구축하십시오. Hive, HBase, Spark, Oozie를 포함한 모든 Apache Hadoop 구성요소는 Oracle Big Data Service가 제공하는 관리형 Hadoop 클러스터에서 사용할 수 있으며 요구사항에 따라 사용할 수 있습니다. 가능한 경우 관리 클라우드 네이티브 서비스를 사용합니다.

    • Hive, HBase, Oozie를 포함한 HDFS 및 기타 Hadoop 구성요소에 빅데이터를 사용할 수 있습니다.
    • Spark 일괄 처리 프로세스 및 임시 Spark 클러스터의 경우 가능한 경우 Big Data 클러스터 크기를 줄이기 위해 데이터 플로우를 사용했습니다.
    • 데이터 검색 및 거버넌스에는 데이터 카탈로그를 사용합니다.
    • 머신 러닝 요구사항에 따라 데이터 과학을 사용합니다.
  • Oracle Big Data Service 기반 데이터 랩

    데이터를 탐색하고 실험합니다. Oracle Big Data Service는 이러한 사용 사례의 핵심 데이터 관리 및 데이터 과학 툴을 제공합니다.

    • Oracle Analytics Cloud는 소스 데이터와 머신 러닝 결과를 이해하는 데 유용한 데이터를 시각화할 수 있는 추가 기능을 제공합니다.
    • 오브젝트 스토리지는 다른 클라우드 서비스와 데이터를 공유하고 데이터 랩이 일시 중지되었을 때 Oracle Big Data에 데이터를 지속하기 위한 추가 저비용 스토리지를 제공합니다.
    • 필요한 경우 데이터 통합을 추가하여 오브젝트 스토리지로 데이터를 입수할 수 있습니다.
    • 데이터 카탈로그는 오브젝트 스토리지 및 빅데이터 Hive에서 메타데이터를 수집합니다. 데이터 카탈로그와 상호 작용하여 카탈로그를 사용하고 관리합니다.
    • 데이터 과학자들은 Oracle Big Data의 Spark용 Oracle Machine Learning을 사용하여 머신 러닝 모델을 구축합니다.
  • Oracle Cloud Infrastructure Data Catalog를 사용한 셀프 서비스 데이터 검색 및 거버넌스

    데이터 카탈로그는 다양한 유형의 데이터 소스에서 메타데이터를 수집하여 데이터 엔티티 및 해당 속성의 카탈로그를 생성합니다. 비즈니스 분석가, 데이터 과학자, 데이터 엔지니어 및 데이터 관리인은 카탈로그를 검색하고 비즈니스 용어집에서 속성을 찾을 수 있습니다.

  • Oracle Cloud Infrastructure Data Flow를 사용한 Spark 처리

    Spark 작업이 데이터 플로우에 제출됩니다. 작업이 실행되면 오브젝트 스토리지에서 데이터를 읽고 작업 코드에 따라 처리하며 결과가 오브젝트 스토리지에 다시 기록됩니다. 다른 서비스는 필요에 따라 오브젝트 스토리지에서 결과를 검색할 수 있습니다.

  • Oracle Autonomous Data WarehouseOracle Big Data Service에서 직접 ML(머신 러닝) 모델 교육

    Oracle Cloud Infrastructure Data Science를 사용하여 머신 러닝 모델을 교육하는 방법에 대한 자세한 내용은 데이터 과학 기반 머신 러닝 모델을 참조하십시오. 이 사용 사례의 목표는 Oracle Autonomous Data WarehouseOracle Big Data Service에서 데이터를 관리하는 것입니다. Oracle Analytics Cloud는 머신 러닝 결과를 포함하여 데이터 시각화를 제공합니다. 기능은 Oracle Machine Learning의 기능으로 제한됩니다.

    • Oracle Cloud Infrastructure Data Integration은 의도한 소스에서 데이터를 입수합니다. 사용되는 데이터 통합의 유형은 데이터가 일괄 처리인지, 스트리밍인지, 동기화된 데이터베이스 레코드인지 여부 및 온프레미스인지 아니면 클라우드인지를 결정합니다.

    • 클라우드 서비스에서 공유하는 공유 접근을 위해 데이터를 오브젝트 스토리지에 제공하고 Oracle Autonomous Data Warehouse 또는 Oracle Big Data Service에 저장하기 전에 처리할 수 있습니다. 데이터를 Oracle Autonomous Data Warehouse로 직접 전달한 다음 ELT 기능을 사용하여 변환할 수도 있고, 다른 데이터베이스의 레코드를 직접 수집할 수도 있습니다. 데이터를 Oracle Big Data Service에 있는 그대로 직접 전달할 수도 있습니다.
    • Oracle Autonomous Data Warehouse는 API를 통해 오브젝트 스토리지에서 데이터를 쿼리하거나 오브젝트 스토리지의 데이터를 입수하거나 데이터 통합을 통해 쿼리할 수 있습니다. Oracle Big Data Service는 오브젝트 스토리지에서 데이터를 수집하거나 쿼리할 수 있습니다.
    • Big Data 커넥터를 사용하여 데이터를 Oracle Big Data Service에서 Oracle Autonomous Data Warehouse로 전송할 수 있습니다.
    • Oracle Analytics CloudOracle Autonomous Data WarehouseOracle Big Data Service를 비롯한 여러 소스의 데이터에 액세스하여 강화된 분석, 데이터 시각화 및 셀프 서비스 비즈니스 분석 기능을 제공할 수 있습니다.
    • 비즈니스 분석가와 데이터 과학자는 Oracle Analytics Cloud를 사용하여 Oracle Autonomous Data WarehouseOracle Big Data Service의 데이터를 모두 사용할 수 있습니다.
    • 데이터 과학자들은 Oracle Autonomous Data WarehouseOracle Machine Learning Notebooks을 이용해 머신 러닝 모델을 생성하고 공간 데이터로 작업할 수 있습니다. 빅데이터에서 Spark용 Oracle Machine Learning을 사용하여 머신 러닝 모델을 생성하고 공간 및 그래프 데이터로 작업할 수도 있습니다.
    • Oracle Cloud Infrastructure Data CatalogOracle Autonomous Data Warehouse, Big Data Hive 및 오브젝트 스토리지 데이터 소스에서 메타데이터를 수집합니다. 데이터 카탈로그와 상호 작용하여 카탈로그를 사용하고 관리합니다.

추가 탐색

관련 리소스에 대해 자세히 알아봅니다.