데이터 플랫폼 - 데이터 통합

데이터 레이크하우스 아키텍처는 실시간으로 디바이스에서 이벤트 데이터와 스트리밍 데이터를 효과적으로 수집 및 분석하고 이를 광범위한 엔터프라이즈 데이터 리소스와 상호 연결하여 데이터 투자를 활용하고 원하는 통찰력을 얻을 수 있도록 지원합니다.

그러나 데이터 레이크하우스의 데이터와 이기종 데이터 소스에 상주하거나 데이터를 복제할 필요 없이 다른 클라우드 또는 온프레미스 시스템에 배포된 데이터의 상관관계를 어떻게 파악하고 계십니까?

정답은 데이터 레이크하우스 데이터와 타사 클라우드 저장소의 통합 데이터, 물리적 위치에 관계없이 클라우드 및 온프레미스 데이터베이스의 데이터를 결합하는 데이터 페더레이션 접근 방식을 활용하는 것입니다.

이 참조 아키텍처는 전체 비즈니스 컨텍스트 내에서 기술 솔루션을 포지셔닝합니다.

그림 데이터 기반 비즈니스에 대한 설명-context.png

데이터 통합은 단일 쿼리를 소스 데이터 저장소에 제공되는 하위 쿼리로 변환하는 통합 쿼리 엔진을 사용하여 여러 데이터 저장소에 저장된 데이터의 통합, 통합 및 거버넌스를 허용하는 기술입니다. 그런 다음 아래 그림과 같이 결과가 병합되어 사용자나 응용 프로그램에 표시됩니다.

다음은 data-platform-federation-overview.png에 대한 설명입니다.

그림 data-platform-federation-overview.png에 대한 설명

데이터 플랫폼-연합-개요-oracle.zip

종종 데이터 통합은 데이터 가상화와 상호 변경됩니다. 데이터 가상화는 데이터를 복제하지 않고도 여러 소스의 데이터에 대한 통합 뷰를 생성하고 실시간으로 새로운 데이터를 제공합니다.

이 참조 아키텍처에서는 아래에 설명된 기능이 페더레이션과 가상화를 모두 처리하더라도 데이터 페더레이션이라는 용어가 사용됩니다.

데이터 페더레이션을 사용하면 분석 및 데이터 과학 엔진과 같은 소비자가 여러 데이터 소스를 상호 연결하는 대신 페더레이션 서비스 엔진에 연결하여 페더레이션 데이터의 재사용성, 거버넌스 및 보안을 강화할 수 있습니다.

분석 엔진은 전통적으로 통합 서비스 엔진을 보완하는 데 사용할 수 있는 데이터 통합 기능을 제공합니다. 일반적으로 페더레이션 데이터 서비스 엔진은 성능을 높이고 확장성을 해소할 수 있는 더 많은 기능을 갖추고 있어 분석 엔진에 암시적으로 도움이 됩니다.

이 문서는 Oracle Cloud Infrastructure 내의 데이터 페더레이션을 위한 하나의 잠재적 솔루션에 대해 설명하지만, 다양한 시나리오에 서로 다른 기술을 사용하는 대안이 있을 수 있습니다.

기능 구조

이 아키텍처는 데이터 레이크하우스를 사용하여 구성이나 양식에 관계없이 데이터를 저장하고 작업합니다. 이 아키텍처의 핵심은 Oracle Autonomous Data Warehouse에 배포된 데이터 웨어하우스입니다.

또한 아키텍처는 통합 쿼리 엔진을 사용하여 선택한 소스의 선별된 데이터를 레이크하우스의 데이터와 통합합니다. 통합 데이터는 데이터 저장소에 따라 External Table, 데이터베이스 링크 및 데이터 공유와 같은 방식을 사용하여 얻습니다.

레이크하우스 데이터와 기존 데이터 저장소를 결합한 페더레이션 아키텍처를 통해 다음을 수행할 수 있습니다.

저장된 위치에 관계없이 모든 데이터 조인
다른 클라우드 및 온프레미스에 저장된 데이터를 통합하는 멀티클라우드 및 하이브리드 클라우드 데이터 플랫폼 지원
다양한 엔진에서 데이터를 가져오고 쿼리하는 데이터 소비자 경험 간소화
통합 쿼리 엔진에서 단일 데이터 보안 모델을 적용할 수 있으므로 보안 강화
레이크하우스에 저장된 엔티티의 메타데이터를 통합하고 질의 엔진과 통합되는 데이터 카탈로그를 사용하여 거버넌스를 향상시킵니다.
데이터 구체화 및 자율운영 데이터베이스 캐싱을 활용하여 성능 향상
분석 대시보드, SQL 인터페이스, API 엔드포인트 및 데이터 공유를 사용하여 여러 소비자에게 통합 및 선별된 데이터 노출
다중 모델 데이터베이스를 통합 쿼리 엔진으로 활용

다음 다이어그램은 기능 아키텍처를 보여 줍니다. 간단히 말해서 레이크하우스의 모든 기능이 표시되지는 않습니다.

다음은 data-platform-federation-functional.png에 대한 설명입니다.

그림 data-platform-federation-functional.png에 대한 설명

data-platform-federation-functional-oracle.zip

이 아키텍처는 대부분 일괄 처리를 사용하는 통합 데이터 플랫폼을 묘사하지만 스트리밍 데이터를 처리하기 위한 데이터 레이크하우스 실시간 기능으로 증강될 수 있습니다.

스트리밍 데이터 처리는 종종 데이터 파이프라인 내에서 상황별 데이터를 소비해야 합니다. 컨텍스트 데이터는 여러 데이터 소스에 저장될 수 있지만 데이터 파이프라인에 모든 컨텍스트 데이터를 제공하는 데이터 통합 엔진은 이러한 파이프라인을 단순화합니다.

이 아키텍처는 다음과 같은 논리적 분할에 중점을 둡니다.

수집, 변환

아키텍처의 각 데이터 계층에서 사용할 데이터를 수집하고 세분화합니다.

통합 데이터는 클라우드 스토리지, 데이터베이스 및 데이터 공유에서 온디맨드로 사용됩니다. 데이터가 출처 데이터 저장소에서 이미 선별되었으므로 이 계층에서 변환되지 않습니다.

지속, 선별, 생성

데이터 액세스 및 탐색을 용이하게 하여 현재 비즈니스 뷰를 표시합니다. 관계형 기술의 경우 데이터는 단순한 관계형, 종단형, 차원형 또는 OLAP 형식으로 논리적으로 또는 물리적으로 구조화될 수 있습니다. 비관계형 데이터의 경우 이 계층에는 분석 프로세스의 출력 또는 특정 분석 작업에 최적화된 데이터 중 하나 이상의 데이터 풀이 포함됩니다.

이 계층에는 데이터 웨어하우스, 데이터 레이크 및 통합 데이터 소스에 상주하는 데이터를 통합하고 제공하는 통합 서비스 엔진이 포함되어 있습니다. 요청 시 통합 데이터를 쿼리하고 향상된 쿼리 성능을 위해 통합 데이터를 구체화하는 기능을 제공합니다.

페더레이션 엔진은 SQL, REST API 또는 데이터 공유를 사용하여 데이터를 제공할 수 있는 기능을 제공하므로 데이터 소비자가 여러 데이터 저장소가 아닌 단일 서비스 엔진에 연결함에 따라 상호 운용성이 향상되고 연결이 간소화됩니다.

분석, 학습, 예측

소비자에 대한 데이터의 논리적 비즈니스 뷰를 추상화합니다. 이러한 추상화는 개발에 대한 민첩한 접근 방식, 대상 아키텍처로의 마이그레이션 및 여러 통합 소스에서 단일 보고 계층의 프로비저닝을 용이하게 합니다.

이 계층은 서빙 엔진을 활용하여 이 계층에서 사용 가능하고 시각화 또는 데이터 과학 서비스에서 제공하는 데이터 커넥터로 추가 증강될 수 있는 통합 데이터를 가져옵니다.

통합 쿼리 엔진을 사용하면 기본 데이터 저장소에서 데이터 소비자 액세스를 추상화할 수 있으므로 데이터가 한 번 통합되고 많은 데이터 소비자가 소비할 때 생산성이 향상됩니다. 또한 SQL, REST API 또는 데이터 공유와 상호 운용할 수 있는 모든 소비자가 레이크하우스 및 통합 데이터를 사용하고 결합할 수 있으므로 시스템 상호 운용성이 향상됩니다.

아키텍처에는 다음과 같은 기능 구성요소가 있습니다.

뱃치 수집

일괄 수집은 실시간으로 수집할 수 없거나 실시간 수집에 적응하기에는 너무 많은 비용이 드는 데이터에 유용합니다. 데이터를 신뢰할 수 있고 신뢰할 수 있는 정보로 변환하여 정기적으로 사용할 수 있도록 선별하고 유지하는 것도 중요합니다.

일괄 처리 수집은 통합 엔진에 고유 액세스 권한이 없는 데이터를 수집하거나 레이크하우스 데이터 모델을 준수하도록 데이터를 변환해야 하는 특정 사용 사례에 대해 데이터 통합 엔진을 보완합니다.

다음 서비스를 함께 또는 독립적으로 사용하여 매우 유연하고 효과적인 데이터 통합 및 변환 워크플로우를 달성할 수 있습니다.

Oracle Cloud Infrastructure Data Integration은 다양한 데이터 소스의 데이터를 추출, 로드, 변환, 정리 및 대상 Oracle Cloud Infrastructure 서비스(예: Autonomous Data Warehouse 및 Oracle Cloud Infrastructure Object Storage)로 재구성하는 완전 관리형 서버리스 클라우드 전용 서비스입니다. ETL(변환 로드 추출)은 Spark에서 완전 관리형 스케일 아웃 처리를 활용하며 ELT(로드 변환 추출)는 데이터 이동을 최소화하고 새로 수집된 데이터의 가치 실현 시간을 개선하기 위해 Autonomous Data Warehouse의 전체 SQL 푸시 다운 기능을 활용합니다. 사용자는 통합 플로우를 최적화하여 가장 효율적인 엔진 및 통합관리를 생성하고 실행 환경을 자동으로 할당 및 확장하는 직관적인 코드 없는 사용자 인터페이스를 사용하여 데이터 통합 프로세스를 설계합니다. Oracle Cloud Infrastructure Data Integration은 대화식 탐색 및 데이터 준비를 제공하며 데이터 엔지니어가 스키마 변경을 처리하는 규칙을 정의하여 스키마 드리프트로부터 보호할 수 있도록 지원합니다.
Oracle Data Integrator는 고용량 및 고성능 일괄 처리 로드에서 이벤트 중심, 트릭 피드 통합 프로세스, SOA 지원 데이터 서비스에 이르기까지 포괄적인 데이터 통합을 제공합니다. 선언적 설계 접근 방식은 더 빠르고 간단한 개발 및 유지 관리를 보장하며, 데이터 변환 및 검증 프로세스에 가능한 최고 수준의 성능을 보장하는 데 도움이 되는 ELT(로드 변환) 추출에 대한 고유한 접근 방식을 제공합니다. Oracle 데이터 변환은 웹 인터페이스를 사용하여 ELT의 구성 및 실행을 단순화하고 선언적 설계 접근 방식을 사용하여 사용자가 데이터 및 작업 흐름을 작성하고 예약할 수 있도록 지원합니다.
Oracle Data Transforms에서는 선택한 지원 기술에 대해 ELT를 사용으로 설정하여 사용자가 선언적으로 데이터 플로우 및 워크플로우를 구축하고 일정을 잡을 수 있는 웹 사용자 인터페이스를 사용하여 데이터 파이프라인 구성 및 실행을 간소화합니다. Oracle Data Transforms는 Oracle Autonomous Data Warehouse 내에서 완전 관리형 환경으로 제공되어 여러 데이터 소스의 데이터를 ADW 인스턴스로 로드하고 변환할 수 있습니다.

사용 사례에 따라 이러한 구성요소를 독립적으로 또는 함께 사용하여 매우 유연하고 성능이 뛰어난 데이터 통합 및 변환을 달성할 수 있습니다.

뱃치 처리 중

일괄 처리는 데이터 레이크하우스에 저장된 대규모 데이터 집합을 변환합니다. 일괄 처리는 Oracle Cloud Infrastructure Object Storage와 원활하게 통합되는 Oracle Cloud Infrastructure 네이티브 서비스를 활용하여 데이터 집계 및 보강, 데이터 웨어하우스 수집, 머신 러닝 및 AI 데이터 사용과 같은 사용 사례에 대해 선별된 데이터를 대규모로 생성할 수 있습니다.

위에서 설명한 Oracle Cloud Infrastructure Data Integration은 다양한 데이터 소스의 데이터를 추출, 로드, 변환, 정리 및 대상 Oracle Cloud Infrastructure 서비스(예: Oracle Autonomous Data Warehouse 및 Oracle Cloud Infrastructure Object Storage)로 재구성하는 완전 관리형 서버리스 클라우드 전용 서비스입니다.

Oracle Cloud Infrastructure Data Flow는 인프라를 배포하거나 관리할 필요 없이 Apache Spark 애플리케이션을 실행할 수 있는 완전 관리형 빅데이터 서비스입니다. 운영 관리 없이도 애플리케이션에 집중할 수 있기 때문에 빅데이터 및 AI 애플리케이션을 더 빠르게 제공할 수 있습니다. 데이터 플로우 애플리케이션은 Spark 애플리케이션과 종속성, 기본 매개변수 및 기본 런타임 리소스 사양으로 구성된 재사용 가능한 템플리트입니다.

제공

Oracle Autonomous Data Warehouse는 데이터 웨어하우징 워크로드에 최적화된 자동 구동, 자가 보안, 자가 복구 데이터베이스 서비스입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. Oracle Cloud Infrastructure는 데이터베이스 생성은 물론 데이터베이스 백업, 패치, 업그레이드 및 튜닝을 처리합니다.

프로비저닝 후 가용성 또는 성능에 영향을 주지 않고 언제든지 CPU 코어 수 또는 데이터베이스의 스토리지 용량을 확장할 수 있습니다.

또한 ADW는 객체 스토리지에 있는 데이터를 외부 및 하이브리드 분할 테이블로 가상화하여 다른 소스에서 파생된 데이터를 웨어하우스 데이터와 조인하고 소비할 수 있습니다. 또한 웨어하우스의 기록 데이터를 객체 스토리지로 이동한 다음 하이브리드 분할 테이블을 사용하여 원활하게 소비할 수 있습니다.

ADW는 Oracle Cloud Infrastructure Data Catalog에 저장된 이전에 수집한 메타데이터를 사용하여 외부 테이블을 생성할 수 있으며, Oracle Cloud Infrastructure Data Catalog의 메타데이터 업데이트를 외부 테이블 정의와 자동으로 동기화하여 일관성을 유지하고 관리를 간소화하며 작업을 줄일 수 있습니다.

Autonomous Database 기능인 분석 뷰는 기존 데이터베이스 테이블 및 뷰에 저장된 데이터의 분석 쿼리를 생성하는 빠르고 효율적인 방법을 제공합니다. 분석 뷰는 차원 모델을 사용하여 데이터를 구성합니다. 이렇게 하면 데이터 집합에 집계 및 계산을 쉽게 추가하고 비교적 간단한 SQL을 통해 질의될 수 있는 뷰에 데이터를 표시할 수 있습니다. 이 기능을 사용하면 내부 및 외부에 저장된 데이터를 사용하여 ADW에서 직접 스타 또는 눈송이 스키마를 의미상 모델링할 수 있으며 SQL 및 모든 SQL 준수 데이터 소비자를 사용하여 모델을 사용할 수 있습니다.

ADW는 타사 클라우드 저장소(예: AWS S3, Azure Blob 및 GCP CGS), 타사 클라우드 데이터베이스(예: AWS Redshift, Azure Synapse Analytics, Google BigQuery 및 Snowflake), 타사 데이터베이스(예: IBM DB2, MongoDB, PostrgreSQL, Hive) 및 SaaS 애플리케이션에 저장된 데이터를 통합하고 쿼리하는 기능을 제공합니다.

단일 쿼리에서 ADW는 클라우드 저장소, 클라우드 데이터베이스 및 기타 인기 있는 데이터베이스의 데이터를 쿼리 및 조인하여 여러 쿼리 엔진을 별도로 쿼리하는 복잡성에서 추상화되어 단일화된 결과를 얻을 수 있으므로 서빙 엔진 소비자에 대한 데이터 액세스를 간소화할 수 있습니다. 또한 이 데이터를 델타 공유 오픈 프로토콜을 준수하는 생산자가 제공한 데이터 공유에서 얻은 데이터와 결합할 수 있습니다.

Cloud Storage

Oracle Cloud Infrastructure Object Storage는 안정적이고 비용 효율적인 데이터 내구성을 제공하는 인터넷 규모의 고성능 스토리지 플랫폼입니다. Oracle Cloud Infrastructure Object Storage는 분석 데이터를 포함하여 모든 콘텐츠 유형의 구조화되지 않은 데이터를 무제한으로 저장할 수 있습니다. 인터넷 또는 클라우드 플랫폼 내에서 직접 안전하고 안전하게 데이터를 저장하거나 검색할 수 있습니다. 여러 관리 인터페이스를 통해 성능 또는 서비스 안정성의 저하 없이 소규모로 쉽게 시작하고 원활하게 확장할 수 있습니다.

Oracle Cloud Infrastructure Object Storage는 자주 사용되지 않는 데이터를 저장한 다음 Oracle Autonomous Data Warehouse에서 하이브리드 테이블을 사용하여 가장 최근 데이터와 원활하게 조인함으로써 데이터 웨어하우스의 콜드 스토리지 계층으로도 사용할 수 있습니다.

시각화/학습

Oracle Analytics Cloud는 확장 가능하고 안전한 퍼블릭 클라우드 서비스로, 사용자, 사용자의 작업 그룹 및 기업에 대한 협업 분석을 탐색하고 수행할 수 있는 전체 기능을 제공합니다. 시민 데이터 과학자, 고급 비즈니스 분석가 교육 및 머신 러닝(ML) 모델 실행을 지원합니다. 머신 러닝 모델은 분석 서비스 또는 Oracle Autonomous Data Warehouse에서 Oracle Cloud Infrastructure Vision과 같은 웨어하우스 및 OCI AI 서비스의 처리 능력, 확장성 및 탄력성을 활용하는 대규모 일괄 예측을 위한 OML 내장 모델로 직접 실행할 수 있습니다.

또한 Oracle Analytics Cloud를 사용하면 빠른 설정, 손쉬운 확장 및 패치 적용, 자동화된 라이프사이클 관리 등 유연한 서비스 관리 기능을 사용할 수 있습니다.

학습 및 예측

Oracle Cloud Infrastructure Data Science는 데이터 과학 팀이 Oracle Cloud Infrastructure에서 머신 러닝(ML) 모델을 구축, 교육 및 관리할 수 있는 인프라, 오픈 소스 기술, 라이브러리, 패키지 및 데이터 과학 도구를 제공합니다. 협업 및 프로젝트 기반 작업 공간은 엔드투엔드 통합 사용자 경험을 제공하고 예측 모델의 수명 주기를 지원합니다. 데이터 사이언스를 사용하면 데이터 사이언티스트와 머신 러닝 엔지니어가 무료로 Anaconda 저장소에서 직접 패키지를 다운로드하여 설치할 수 있으므로 머신 러닝 라이브러리의 선별된 데이터 사이언스 생태계로 프로젝트를 혁신할 수 있습니다.

데이터 과학 작업 기능을 사용하면 데이터 과학자가 완전 관리형 인프라에서 반복 가능한 머신 러닝 작업을 정의하고 실행할 수 있습니다.

데이터 과학 모델 배치 기능을 통해 데이터 과학자는 학습된 모델을 완전 관리형 HTTP 엔드포인트로 배포할 수 있습니다. 이 엔드포인트는 예측을 실시간으로 제공하고, 인텔리전스를 프로세스 및 애플리케이션에 주입하며, 비즈니스가 관련 이벤트에 대응할 수 있도록 합니다.

Oracle Machine Learning은 Python 및 AutoML을 지원하는 강력한 머신 러닝 기능을 Oracle Autonomous Database에 긴밀하게 통합하여 제공합니다. 오픈 소스 및 확장 가능한 데이터베이스 내 알고리즘을 사용하여 데이터 준비 및 이동을 줄이는 모델을 지원합니다. AutoML 데이터 과학자는 자동 알고리즘 선택, 적응형 데이터 샘플링, 자동 기능 선택 및 자동 모델 튜닝을 사용하여 회사의 머신 러닝 이니셔티브 가치 실현 시간을 단축할 수 있습니다. Oracle Autonomous Data Warehouse에서 사용할 수 있는 Oracle Machine Learning 서비스를 사용하면 모델을 관리할 수 있을 뿐만 아니라 해당 모델을 REST 엔드포인트로 배포하여 회사 내에서 실시간 예측을 민주화함으로써 비즈니스가 사실이 아닌 관련 이벤트에 대응할 수 있습니다.

AI 서비스

Oracle Cloud Infrastructure AI Services 서비스는 텍스트 분석에서 예측 유지보수에 이르기까지 다양한 사용 사례를 지원하는 데 사용할 수 있는 즉시 사용 가능한 AI 서비스 세트를 제공합니다. 이러한 서비스에는 API를 사용하여 데이터 파이프라인, 분석 및 애플리케이션에 통합할 수 있는 사전 구축되고 정밀하게 조정된 모델이 있습니다.

Oracle Cloud Infrastructure Anomaly Detection은 비즈니스 중단을 방지하기 위한 조치를 취할 수 있도록 비즈니스 데이터의 바람직하지 않은 이벤트 또는 관찰을 실시간으로 식별하는 다양한 도구를 제공합니다.

Oracle Cloud Infrastructure AI Language는 정교한 텍스트 분석을 대규모로 수행합니다. 사전 학습된 맞춤형 모델을 통해 개발자는 데이터 과학 전문 지식 없이도 비정형 텍스트를 처리하고 통찰력을 추출할 수 있습니다. 사전 학습 모델은 감정 분석, 핵심 구문 추출, 텍스트 분류 및 명명된 개체 인식을 지원합니다. 도메인별 데이터 세트를 사용하여 명명된 개체 인식 및 텍스트 분류에 대한 사용자정의 모델을 교육할 수도 있습니다. 번역 서비스를 사용하면 21개 언어로 텍스트를 번역할 수 있습니다.

Oracle Cloud Infrastructure Speech는 사람의 연설이 포함된 미디어 파일을 매우 정확한 텍스트 번역으로 쉽게 변환할 수 있도록 함으로써 음성 언어의 성능을 활용합니다. OCI 음성을 사용하면 고객 서비스 통화를 필사하고, 자막을 자동화하고, 미디어 자산의 메타데이터를 생성하여 완전히 검색 가능한 아카이브를 생성할 수 있습니다.

Oracle Cloud Infrastructure Vision은 이미지 분류, 감지 및 얼굴, 텍스트 추출, 테이블 인식 등의 이미지 인식 및 문서 분석 작업을 수행합니다. 사전 학습 모델을 활용하거나 산업 및 고객별 시나리오를 위한 맞춤형 비전 모델을 손쉽게 생성할 수 있습니다. Vision Service는 모든 일반적인 컴퓨터 비전 작업에 도움이 되는 완전 관리형 다중 테넌트 기본 클라우드 서비스입니다.

Oracle Cloud Infrastructure Document Understanding은 텍스트 추출 및 테이블 인식과 같은 문서 분석 작업을 수행합니다. OCI Document Understanding 서비스는 모든 공통 문서 분석 작업을 지원하는 완전 관리형 다중 테넌트 기본 클라우드 서비스입니다.

데이터 보강

데이터 보강은 머신 러닝 모델을 교육하는 데 사용되는 데이터를 개선하여 더 정확하고 더 나은 예측 결과를 달성할 수 있습니다.

Oracle Cloud Infrastructure Data Labeling을 사용하면 데이터 세트를 생성 및 탐색하고, 데이터 레코드(텍스트 또는 이미지)를 보고, AI/ML 모델을 구축할 목적으로 레이블을 적용할 수 있습니다. 또한 이 서비스는 레이블 지정 프로세스를 지원하도록 설계된 대화식 사용자 인터페이스를 제공합니다. 레코드에 레이블이 지정된 후에는 AI/ML 모델 개발에 사용할 데이터 세트를 라인으로 구분된 JSON으로 익스포트할 수 있습니다.

API

API 계층을 사용하면 Data Science 및 Oracle Machine Learning에서 파생된 인텔리전스를 애플리케이션, 비즈니스 프로세스, 운영 및 기능에 영향을 미치고 개선할 사항에 주입할 수 있습니다. API 계층은 Data Science 배포 모델을 Oracle Machine Learning REST 엔드포인트에 안전하게 사용하고 런타임 환경의 가용성을 보장하기 위해 시스템을 제어할 수 있는 기능을 제공합니다. 함수를 활용하여 필요에 따라 추가 논리를 수행할 수도 있습니다.

Oracle Cloud Infrastructure API Gateway를 사용하면 네트워크 내에서 액세스할 수 있는 전용 끝점이 있는 API를 게시하고, 인터넷 트래픽을 수락하려는 경우 공용 IP 주소로 노출할 수 있습니다. 엔드포인트는 API 검증, 요청 및 응답 변환, CORS, 인증 및 권한 부여, 요청 제한을 지원합니다. API 관찰을 통해 사용량을 모니터링하고 SLA를 보장할 수 있습니다. 또한 사용 계획을 사용하여 API에 액세스하는 API 소비자와 API 클라이언트를 모니터 및 관리하고 API를 사용하여 소비되는 데이터 사용량을 추적하기 위해 서로 다른 고객에 대해 서로 다른 액세스 계층을 설정할 수 있습니다. 사용 계획은 데이터 수익 창출을 지원하는 핵심 기능입니다.

Oracle Cloud Infrastructure Functions는 확장성이 뛰어난 완전 관리형 다중 테넌트, 온디맨드 FaaS(Functions-as-a-Service) 플랫폼입니다. 엔터프라이즈급 Oracle Cloud Infrastructure를 기반으로 구축되었으며 Fn Project 오픈 소스 엔진을 기반으로 합니다.

Oracle REST Data Services(ORDS)는 개발자가 SQL 및 데이터베이스 기술을 사용하여 Oracle Database용 REST API를 개발할 수 있도록 하는 Java 애플리케이션입니다. 모든 애플리케이션 개발자는 가장 널리 사용되는 API 기술인 REST를 사용하여 다른 외부 서비스에 액세스하는 것과 동일한 방식으로 클라이언트 드라이버를 설치 및 유지 관리하지 않고 모든 언어 환경에서 이러한 API를 사용할 수 있습니다. ORDS는 ADW에서 완전 관리형 기능으로 배포되며 API를 사용하여 데이터 소비자에게 레이크하우스 정보를 노출하는 데 사용할 수 있습니다.

데이터 거버넌스

Oracle Cloud Infrastructure Data Catalog는 메타데이터 및 해당 속성과 같은 기술 자산의 위치를 파악하고 해당 기술 메타데이터에 매핑된 비즈니스 용어집을 유지 관리할 수 있는 기능을 제공합니다. Oracle Cloud Infrastructure Data Catalog는 Oracle Autonomous Data Warehouse 웨어하우스에 메타데이터를 제공하여 데이터 웨어하우스에서 외부 테이블을 쉽게 생성할 수 있습니다.

데이터 보안

데이터 보안은 레이크하우스 데이터를 최대한 탐색하고 사용하는 데 중요합니다. 심층 방어 및 RBAC 기능을 갖춘 제로 트러스트 보안 모델을 활용하고 가장 엄격한 규제 준수를 보장하는 데이터 보안은 예방, 탐지 및 시정 보안 제어를 제공하여 데이터 유출 및 침해를 방지합니다.

Oracle Data Safe는 데이터 보안을 중심으로 완전히 통합된 Oracle Cloud 서비스입니다. Oracle Cloud 데이터베이스(예: Oracle Autonomous Data Warehouse)에서 규제된 민감한 데이터를 보호하기 위한 완전하고 통합된 기능 집합을 제공합니다. 기능에는 보안 평가, 사용자 평가, 데이터 검색, 데이터 마스킹 및 작업 감사가 포함됩니다.

Oracle Cloud Infrastructure Audit는 Oracle Cloud Infrastructure(OCI) 리소스 및 테넌시와 관련된 작업에 대한 가시성을 제공합니다. 감사 로그 이벤트를 보안 감사에 사용하면 OCI 리소스 사용량 및 변경사항을 추적하고 표준 및 규정 준수 여부를 확인할 수 있습니다.

Oracle Cloud Infrastructure Logging은 감사 로그를 포함하여 테넌시의 모든 로그에 대해 확장성이 뛰어난 완전 관리형 단일 인터페이스를 제공합니다. OCI 로깅을 사용하여 모든 OCI 리소스의 로그에 액세스하면 활성화, 관리 및 검색할 수 있습니다.

Oracle Cloud Infrastructure Vault는 암호화 키와 암호를 저장 및 관리하여 리소스에 안전하게 액세스하는 암호화 관리 서비스입니다. 고객 관리 키를 Oracle Autonomous Data Warehouse 및 데이터 레이크 암호화에 사용하여 유휴 데이터 보호를 강화할 수 있습니다. 암호가 서비스 및 사용자 인증서를 안전하게 저장하여 보안 상태를 개선하고 인증서가 손상되지 않고 부적절하게 사용되도록 합니다.

물리적 구조

이 데이터 플랫폼의 물리적 아키텍처는 다음을 지원합니다.

Oracle Autonomous Data Warehouse(ADW)는 Oracle이 관리하는 이기종 연결 기능을 사용하여 통합 데이터 소스에서 데이터를 가져옵니다.
ADW는 들어오는 SSL/TLS 연결을 구성하고 허용하는 공용 인터넷에서 액세스할 수 있는 Target Database를 사용하므로 Oracle 관리 이기종 연결이 안전하게 데이터를 연결하고 Query할 수 있습니다.
ADW가 데이터 공유를 사용하여 데이터브릭에서 데이터 읽기
데이터브릭스 데이터 공유는 공용 인터넷을 통해 액세스할 수 있지만 데이터브릭스에서 제공하는 자격 증명 파일을 사용하여 보안됩니다.
AWS S3, Azure Blob 및 Google Cloud Storage의 데이터는 통합되어 외부 테이블을 사용하여 요청 시 읽거나 사용 사례 및 요구 사항에 따라 ADW로 복사됩니다.
통합되지 않은 데이터 소스의 데이터는 통합되지 않은 관계형 및 비관계형 데이터 소스의 파일과 마이크로 배치를 사용하여 안전하게 수집됩니다.
Oracle Cloud Infrastructure Data Integration과 Oracle Cloud Infrastructure Data Flow의 조합을 활용하여 데이터가 처리됩니다.
데이터는 ADW 및 Oracle Cloud Infrastructure Object Storage에 저장되며 품질과 가치에 따라 구성됩니다.
ADW, 웨어하우스, 레이크 및 통합 데이터를 소비자에게 안전하게 제공
Oracle Analytics Cloud는 시각화를 사용하여 비즈니스 사용자에게 데이터를 표시합니다.
Oracle Analytics Cloud는 Oracle Cloud Infrastructure Web Application Firewall(WAF)로 보호되는 Oracle Cloud Infrastructure Load Balancing을 사용하여 인터넷을 통해 액세스를 제공함으로써 노출됩니다.
Oracle Cloud Infrastructure Data Science는 머신 러닝(ML) 모델을 구축, 교육 및 배포하는 데 사용됩니다.
Oracle Cloud Infrastructure API Gateway는 데이터 과학 ML 모델 배포를 관리하는 데 활용됩니다.
Oracle Cloud Infrastructure Data Catalog는 ADW 및 오브젝트 스토리지에서 메타데이터를 수집합니다.
Oracle Cloud Infrastructure Bastion은 관리자가 프라이빗 클라우드 리소스를 관리하는 데 사용됩니다.

다음 다이어그램에는 구조를 보여 줍니다.

다음은 data-platform-federation-physical.png에 대한 설명입니다.

그림 data-platform-federation-physical.png에 대한 설명

데이터 플랫폼-연합-물리적-oracle.zip

물리적 아키텍처 설계:

허브용 VCN 2개, 워크로드 자체용 VCN 1개 활용
온프레미스 연결은 리던던시를 위해 Oracle Cloud Infrastructure FastConnect 및 사이트 간 VPN을 모두 활용합니다.
온프레미스 및 인터넷에서 수신되는 모든 트래픽은 먼저 허브 VCN으로 라우팅된 다음 워크로드 VCN으로 라우팅됩니다.
모든 데이터는 전송 중 및 저장 상태에서도 안전합니다.
보안 태세를 높이기 위해 전용 엔드포인트와 함께 서비스가 배포됩니다.
VCN은 보안 상태를 높이기 위해 여러 전용 서브넷으로 분리됩니다.
레이크 데이터는 메달 아키텍처를 활용하여 오브젝트 스토리지의 여러 버킷으로 분리됩니다.
통합 데이터 소스 및 클라우드 저장소는 워크로드 VCN에 연결된 NAT 게이트웨이와 공용 연결을 사용하여 액세스합니다.

단순성을 위해 이 배포에 명시되지 않은 잠재적인 설계 개선 사항은 다음과 같습니다.

Oracle Database Gateway를 사용하여 고객 관리 이기종 연결을 활용하여 전용 연결을 사용하여 통합 데이터 소스에 연결합니다.
전체 CIS 호환 랜딩존 활용
네트워크 방화벽을 활용하여 모든 트래픽을 검사하고 정책을 적용함으로써 전반적인 보안 상태를 개선합니다.

권장사항

다음 권장 사항을 비즈니스 분석 및 머신 러닝을 위해 이기종 데이터 소스의 데이터를 사용하는 시작점으로 사용하십시오.

요구 사항은 여기에 설명된 아키텍처와 다를 수 있습니다.

Oracle Autonomous Data Warehouse

이 아키텍처는 공유 인프라에서 Oracle Autonomous Data Warehouse(ADW)를 사용합니다.

통합 데이터에 액세스할 때 성능을 높이려면 Materialized view를 사용하는 것이 좋습니다.
통합 데이터가 정지되지 않도록 하려면 필요한 빈도로 구체화된 뷰를 새로 고치는 것이 좋습니다.
향상된 데이터 거버넌스를 위해 이러한 뷰를 수집하여 Oracle Cloud Infrastructure Data Catalog에 카탈로그화할 수 있도록 통합 소스의 데이터베이스 링크를 사용하여 데이터를 쿼리할 뷰를 생성하는 것이 좋습니다.
보안 태세를 높이려면 Oracle Cloud Infrastructure Vault에서 통합 데이터 소스 인증서를 암호로 저장해 보십시오.
데이터 보안을 강화하기 위해 통합 데이터를 표시하는 뷰에서 개정(동적 데이터 마스킹)과 같은 Autonomous Database 보안 기능을 사용하는 것이 좋습니다.
데이터 공유를 사용하여 델타 공유 개방형 프로토콜과 호환되는 이기종 데이터 소스의 통합 데이터를 사용하는 것이 좋습니다.
데이터 공유를 사용하여 Delta Sharing 개방형 프로토콜과 호환되는 선별된 데이터를 소비자에게 공유하는 것이 좋습니다.
Oracle Database Gateway와 고객 관리 이기종 연결(Customer-Managed Heterogeneous Connectivity)을 사용하여 보안 향상, 대기 시간 단축 또는 둘 다 필요한 전용 연결(Private Connectivity)을 통해 페더레이션 데이터 소스에 연결해 보십시오.

Oracle Analytics Cloud

이 아키텍처는 Oracle Analytics Cloud(OAC)를 활용하여 최종 사용자에게 증강 분석을 제공합니다.

OAC의 다양한 데이터 소스를 사용하여 ADW에서 사용하는 통합 데이터 소스를 보완하는 것이 좋습니다.
성능 향상, 캐싱, 서빙 엔진으로의 오프로드 처리, 분석 의미 계층 단순화를 위해 ADW의 OAC에 필요한 데이터 소스를 통합해 보십시오.

이 아키텍처는 귀사의 아키텍처에 적용되는 권장사항을 포함한 데이터 레이크하우스 참조 아키텍처에 의존합니다. 레이크하우스 참조 아키텍처 및 기타 리소스에 대한 링크는 자세히 탐색 섹션을 참조하십시오.

고려사항

분석을 위해 데이터를 통합할 때는 다음 구현 옵션을 고려하십시오.

지도	권장사항	기타 옵션	근거
데이터 변환 모듈	Oracle Cloud Infrastructure Data Integration	Oracle Data Integrator Oracle Autonomous Database 데이터 변환	Oracle Cloud Infrastructure Data Integration은 확장 가능하고 비용 효율적인 클라우드 네이티브 서버리스 완전 관리형 ETL 플랫폼을 제공합니다.
데이터 지속성	Oracle Autonomous Data Warehouse Oracle Cloud Infrastructure Object Storage	Oracle Exadata Database Service	Oracle Autonomous Data Warehouse는 탄력적으로 스케일링되고 빠른 쿼리 성능을 제공하며 데이터베이스 관리가 필요 없는 사용하기 쉽고 완전히 자율적인 데이터베이스입니다. 또한 오브젝트 스토리지 외부 또는 하이브리드 분할 테이블에서 데이터에 직접 액세스할 수 있습니다. Oracle Cloud Infrastructure Object Storage는 원시 형식으로 무제한 데이터를 저장합니다.
데이터 처리	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure Data Flow	타사 툴	Oracle Cloud Infrastructure Data Integration은 확장 가능하고 비용 효율적인 클라우드 네이티브 서버리스 완전 관리형 ETL 플랫폼을 제공합니다. Oracle Cloud Infrastructure Data Flow는 매우 탄력적인 종량제 모델을 사용하여 대규모 데이터를 처리할 수 있는 서버리스 Spark 환경을 제공합니다.
액세스 및 해석	Oracle Analytics Cloud Oracle Cloud Infrastructure Data Science Oracle Machine Learning Oracle Cloud Infrastructure AI 서비스	타사 툴	Oracle Analytics Cloud는 Oracle Autonomous Data Warehouse의 선별된 데이터와 완전히 관리되고 긴밀하게 통합됩니다. 데이터 과학은 데이터 과학 팀이 Oracle Cloud Infrastructure에서 머신 러닝(ML) 모델을 구축, 교육 및 관리할 수 있는 완전 관리형 셀프 서비스 플랫폼입니다. 데이터 과학 서비스는 AutoML와 같은 인프라 및 데이터 과학 도구와 모델 배포 기능을 제공합니다. Oracle Machine Learning은 데이터 과학을 위한 완전 관리형 셀프 서비스 플랫폼으로, Oracle Autonomous Data Warehouse와 함께 제공됩니다. 웨어하우스의 처리 능력을 활용하여 웨어하우스 외부로 데이터를 이동할 필요 없이 대규모로 ML 모델을 구축, 교육, 테스트 및 배포할 수 있습니다. Oracle Cloud Infrastructure AI 서비스는 잠재적인 이상을 추론하거나 감정을 감지하는 등의 작업을 수행하기 위해 특별히 구축 및 훈련된 사전 구축 모델을 제공하는 서비스 세트입니다.

추가 탐색

이 아키텍처의 기능 및 관련 아키텍처에 대해 자세히 알아보십시오.

확인

Author: José Cruz

Contributors: Robert Lies