데이터 플랫폼 - 분산형 데이터 플랫폼
데이터 레이크하우스를 사용하여 실시간으로 디바이스에서 이벤트 및 스트리밍 데이터를 수집 및 분석하고 이를 광범위한 엔터프라이즈 데이터 리소스와 연관시켜 원하는 통찰력을 얻을 수 있습니다.
도메인별 데이터로 작업할 수 있는 유연성을 갖춘 마케팅, 재무, 물류 등 조직의 다양한 팀을 지원하고 역량을 강화하는 동시에 데이터를 복제하고 데이터 사일로를 생성하지 않고도 도메인 간 데이터 공유 및 소비를 안전하게 보호할 수 있는 방법은 무엇입니까?
조직 전반의 팀 및 부서에 데이터를 효율적으로 사용하고 비즈니스에 필수적인 데이터 제품을 개발하는 데 필요한 민첩성과 유연성을 제공하는 도메인 기반 데이터 아키텍처를 채택하십시오.
이 참조 아키텍처는 전략적 의도가 측정 가능한 전략적 결과를 창출하는 전반적인 비즈니스 맥락에서 기술 솔루션을 포지셔닝합니다. 이러한 결과는 새로운 전략적 의도를 생성하여 지속적인 데이터 기반 비즈니스 개선을 효과적으로 제공합니다.
각 도메인은 도메인 데이터 제품을 만들기 위해 위에 표시된 상위 레벨 프로세스를 독립적으로 따릅니다. 도메인 기반 데이터 아키텍처는 완전한 중앙 집중식 데이터 플랫폼 및 IT 팀과 같은 단일 경합 지점에 의존하지 않고 민첩한 혁신을 촉진하여 각 도메인 내에서 신뢰할 수 있는 데이터 제품을 생산함으로써 조직에 필요한 유연성을 제공합니다.
각 도메인의 목표는 도메인 관련 데이터를 확보한 다음 다른 도메인이나 최종 데이터 소비자가 소비하는 데이터 제품을 생산하는 것입니다.
도메인은 다음과 같습니다.
- 소스 정렬: 관련 도메인 데이터 소스(예: 엔터프라이즈 애플리케이션)에서 직접 데이터를 소싱하고 집계 또는 소비자 정렬 도메인에서 소비되는 데이터 제품을 생성합니다. 이러한 데이터 제품은 특정 도메인에 대한 신뢰 소스를 나타냅니다. 데이터는 세분화되고 선별되며 도메인 내부 및 도메인 전반에 걸쳐 기초가 됩니다.
- 집계: 소스 정렬 데이터를 소비 및 결합하고, 집계 및 부가 가치 데이터 제품을 생성하여 재사용을 촉진하고, 중복을 줄이고, 소비자 정렬 도메인에 필요한 기본 비즈니스 로직을 구성합니다.
- 소비자 조정: 소스 정렬 및 집계 도메인의 데이터를 사용하여 특정 사용 사례를 제공하고 지정된 도메인 내에서 데이터 소비자의 요구를 해결하는 데이터 제품을 생성합니다.
데이터 도메인 팀과 해당 주제 전문가(SME)는 데이터 제품을 선별하는 데 필요한 기술을 유연하게 선택하고, 긴 기술 선택 프로세스의 마찰과 복잡성을 줄이고, 데이터 제품 제공 시간을 단축할 수 있습니다.
선택한 기술은 일반적으로 엔터프라이즈 수준에서 결정되므로 보안, 확장성, 복원성 및 고가용성 요구 사항을 준수합니다. 이 아키텍처는 데이터 레이크하우스와 함께 사용되는 모든 Oracle Cloud Infrastructure(OCI) 서비스를 모든 도메인에서 활용할 수 있다고 가정합니다.
데이터 도메인 팀은 종종 자동화를 사용하여 도메인 유형을 배포하므로 사전 구성된 기술을 사용하여 새로운 도메인을 신속하게 온보딩하는 동시에 보안과 같은 엔터프라이즈 수준의 요구 사항을 적용할 수 있습니다.
그런 다음 데이터 제품이 생성되면 다른 도메인이나 일반 사용자 및 응용 프로그램에 서비스됩니다. 데이터 제품은 지속적으로 선별되어 정보와 통찰력을 제공합니다.
- 데이터 집합
- API
- 대시보드
- 스트림
- 특정 요구 사항을 해결하는 AI 및 머신 러닝(ML) 모델
이 참조 아키텍처는 주로 데이터 공유를 기본 메커니즘으로 사용하여 도메인 간에 데이터 제품을 제공하고 소비합니다.
Oracle Autonomous Data Warehouse는 데이터 공유를 가능하게 하며, Autonomous Data Warehouse 인스턴스 간 또는 Delta Sharing 개방형 프로토콜을 준수하는 모든 기술의 버전 지정 데이터를 실시간으로 공유할 수 있게 해줍니다.
기능적 구조
이 아키텍처는 각 도메인이 전체 데이터 플랫폼의 하위 세트이며 각 도메인이 사용되는 기술과 서비스를 선택할 수 있는 분산형 플랫폼을 보여줍니다.
이 아키텍처는 데이터 레이크하우스를 사용하여 형태나 형태에 관계없이 데이터를 저장하고 제공합니다. 단순성을 위해 아키텍처는 사용 가능한 데이터 레이크하우스 서비스의 하위 세트를 사용하는 몇 가지 도메인을 보여줍니다.
데이터 레이크하우스 아키텍처를 사용하는 분산형 데이터 플랫폼은 다음과 같은 이점을 제공합니다:
- 데이터 도메인이 모든 사용 사례를 위해 모든 유형의 데이터를 입수 및 선별할 수 있는 상호 운용 가능한 모듈식 레이크하우스 아키텍처
- 각 데이터 도메인에 대한 유연성으로 데이터 제품 생성을 지원하는 데 필요한 Oracle Cloud Infrastructure(OCI) 서비스를 사용할 수 있습니다.
- 데이터 공유, 스트리밍, API, 대시보드 또는 애플리케이션을 사용하여 안전하게 공유할 수 있는 데이터 제품 큐레이션
- 데이터 제품 생성의 민첩성, 데이터 제품 교환에 필요한 것 외에 도메인 간 종속성 감소
- 수락된 데이터 교환 메커니즘 및 계약을 사용하여 도메인 간 데이터를 교환함으로써 데이터 도메인 격리 증가 및 데이터 교환 복잡성 감소
- 지식이 있는 주제 전문가(SME)가 도메인에 대한 데이터 및 데이터 제품을 선별하기 때문에 데이터 거버넌스 및 데이터 신뢰도 향상
- 코드형 인프라(IaC)를 사용하여 새 데이터 도메인을 간편하게 온보딩하여 사전 구축되고 테스트된 Terraform 스택을 사용하여 배포 자동화
- 데이터 도메인 팀이 데이터 제품 생성에 사용하는 특정 서비스의 크기를 적절히 조정함에 따라 리소스 및 비용 효율성 향상
- 특정 도메인 내에서 세분화된 비용 제어 옵션을 통해 각 데이터 도메인에 대한 적절한 비용 책임
다음 다이어그램은 기능적 구조를 보여 줍니다. 단순성을 위해 데이터 도메인 4개만 표시되고 데이터 도메인에서 사용할 수 있는 데이터 레이크하우스 기능 중 일부만 표시됩니다.
분산형 데이터 플랫폼을 배포하는 특정 산업 및 조직이 데이터 도메인을 결정하므로 이 참조 아키텍처는 데이터 도메인을 정의하는 방법을 규정하지 않습니다. 표시된 데이터 도메인은 한 가지 예입니다.
이 아키텍처는 모든 도메인에서 사용되는 다음과 같은 논리적 부문에 중점을 둡니다.
- 연결, 수집, 변환
데이터 소스에 연결하고 아키텍처의 각 데이터 계층에서 사용할 데이터를 수집 및 세분화합니다.
소스 정렬 데이터 도메인은 내부 및 외부 데이터 소스와 데이터 제품을 소비하는 다른 도메인의 데이터를 소싱합니다. 집계 및 소비자 조정 데이터 도메인은 일반적으로 다른 도메인 데이터 제품에서 데이터를 소싱합니다. 모든 도메인은 외부 소스의 관련 도메인 데이터를 소싱할 수 있습니다.
- 유지, 선별, 생성
현재 비즈니스 뷰를 표시할 수 있도록 데이터 접근 및 탐색을 지원합니다. 관계형 기술의 경우 데이터는 단순한 관계형, 종단, 치수 또는 OLAP 형식으로 논리적으로 또는 물리적으로 구조화될 수 있습니다. 비관계형 데이터의 경우 이 계층에는 분석 프로세스의 출력 또는 특정 분석 작업에 최적화된 데이터 중 하나 이상의 데이터 풀이 포함됩니다.
이 계층에서 각 데이터 도메인은 데이터 제품을 만들고 노출하는 데 사용하는 데이터를 선별합니다. 일반적으로 데이터는 그 가치와 품질에 따라 청동, 은, 금으로 데이터를 홍보하는 메달리온 아키텍처를 사용하여 선별되고 구성됩니다.
데이터 제품은 종종 골드 또는 실버 레이어에 있는 데이터를 제공합니다. 데이터 제품이 세분화된 데이터를 제공하는 경우 해당 데이터는 실버 계층에서 제공됩니다. 데이터 제품이 집계되었거나 이미 추가 증강된 데이터 세트인 데이터를 제공하는 경우 해당 데이터는 일반적으로 골드 계층에서 제공됩니다.
- 분석, 학습, 예측
소비자의 데이터에 대한 논리적 비즈니스 뷰를 추상화합니다. 이 추상화는 개발에 대한 민첩한 접근 방식, 대상 아키텍처로의 마이그레이션 및 여러 데이터 소스에서 단일 보고 계층을 프로비저닝하는 데 도움이 됩니다.
각 데이터 도메인에는 일반적으로 대시보드, 데이터 애플리케이션, 스트리밍 또는 API 형태로 선별된 데이터를 소비하는 도메인 사용자, 애플리케이션 또는 시스템과 같은 자체 데이터 소비자가 있습니다.
데이터 도메인은 프로젝트 간 데이터 공유를 구성하는 방법으로 다른 데이터 도메인과 자체 도메인 내에서 데이터 제품을 제공할 수 있습니다.
구조에는 다음과 같은 기능적 특성이 있습니다.
- 네 개의 데이터 도메인이 표시됩니다. 각 도메인은 해당 도메인과 관련된 데이터를 선별하고, 선별된 데이터를 기반으로 데이터 제품을 생성한 다음, 해당 데이터 제품을 조직 내 다른 도메인이나 외부 엔티티에 공유합니다.
- 도메인은 내부 데이터 소스, 다른 도메인에서 선별된 데이터 제품 또는 외부 엔티티에서 공유하는 데이터에서 데이터를 소싱할 수 있습니다.
- 고객 및 재무 도메인은 내부 시스템에서 데이터를 수집 및 선별하고, 자체 사용자를 보유하고, 다른 도메인에 서비스를 제공할 데이터 제품을 선별하는 소스 정렬 도메인입니다.
- 위험 도메인은 고객 및 재무 도메인에서 데이터를 소싱하여 고객 프로파일과 재무 증강 트랜잭션을 각각 가져오는 집계 도메인입니다. 이 데이터는 대시보드에서 사용되고 마케팅 도메인과 공유되는 머신 러닝(ML) 위험 모델 및 주요 성과 지표(KPI)를 구축하고 교육하는 데 사용됩니다.
- 마케팅 도메인은 고객 및 위험 도메인의 고객 프로파일 및 위험 성향 데이터를 독점적으로 소싱하는 소비자 정렬 도메인입니다. 이 도메인은 최고의 개인화된 오퍼링을 결정하는 세분화 ML 모델을 생성합니다. 이는 추론 API를 사용하여 내부 애플리케이션에서 사용할 수 있으며, 뱃치 추론 결과는 아웃바운드 캠페인을 실행하는 파트너에게 데이터 제품으로 공유됩니다.
- 모든 도메인은 해당 데이터 자산, 데이터 엔티티 및 비즈니스 용어집에 대한 정보가 포함된 공통 데이터 카탈로그를 공유합니다.
- 각 데이터 도메인 팀과 해당 데이터 제품 소유자는 특정 데이터 카탈로그 객체를 유지 관리합니다. 보안 격리는 어떤 팀이 어떤 데이터 카탈로그 엔티티를 관리할 수 있는지 정의하는 Oracle Cloud Infrastructure Identity and Access Management 정책을 사용하여 보장됩니다.
- 조직 전체에서 사용되는 비즈니스 용어집 용어와 같은 공통 데이터 카탈로그 엔티티는 모든 도메인 제품 소유자로 구성된 데이터 거버넌스 본문에 의해 유지 관리됩니다.
- 데이터 제품은 검색 가능하고 고유의 의미를 포함하며 비즈니스 용어집과 관련되도록 데이터 카탈로그에 표시됩니다.
- 데이터 공유는 도메인 간에 라이브 또는 버전이 지정된 데이터 제품을 공유하는 데 사용됩니다. 라이브 또는 버전 지정 데이터 제품을 사용하는 선택은 각 데이터 제품 및 사용 사례에 따라 달라집니다.
아키텍처의 주요 기능 구성 요소는 다음과 같습니다.
- 소스 정렬 도메인: 고객 및 재무
이러한 도메인은 정형 및 비정형 데이터에서 파생된 고객 및 재무 데이터를 선별하는 데 중점을 둡니다.
고객 도메인은 다음 기능을 사용하여 고객 프로파일 데이터 제품을 생성합니다.
- 일괄 수집(Oracle Cloud Infrastructure Data Integration): CRM, 웹 사이트 및 고객 대면 애플리케이션에서 데이터를 수집합니다.
- 일괄 처리(Oracle Cloud Infrastructure Data Integration, Oracle Cloud Infrastructure Data Flow): 로우 코드 ELT, 코드 중심 ETL 또는 둘 다를 사용하여 구조적 및 비구조적 데이터를 처리하여 고객 프로파일 데이터 제품을 생성합니다.
- 서비스 제공(Oracle Autonomous Data Warehouse): 위험 및 마케팅 도메인에 고객 프로파일 데이터를 선별하고 제공합니다.
- 클라우드 스토리지/데이터 레이크(Oracle Cloud Infrastructure Object Storage): 고객 문서, 계약 또는 양식을 저장합니다.
- 시각화/학습(Oracle Analytics Cloud): LTV(Life Time Value), 보존율, CSA(Customer Satisfaction Score) 및 NPS(Net Promoter Score: 순 추천고객 지수)와 같은 고객 관련 KPI를 비롯한 도메인 최종 사용자에게 증강 분석을 제공합니다.
- AI 및 생성형 AI 서비스: Oracle Cloud Infrastructure Document Understanding은 고객 양식 및 문서에서 데이터를 추출하고, Oracle Cloud Infrastructure Language는 텍스트 데이터를 처리하고, 감정 분석, 명명된 엔티티 인식 또는 텍스트 분류를 통해 데이터를 강화합니다.
재무 도메인은 다음 기능을 사용하여 증강 재무 트랜잭션 데이터 제품을 생성합니다.
- 실시간 수집(Oracle Cloud Infrastructure GoldenGate): 핵심 뱅킹 시스템의 재무 트랜잭션을 거의 실시간으로 비간섭적인 방식으로 캡처합니다.
- 일괄 처리(Oracle Cloud Infrastructure Data Transforms): 로우 코드 ELT를 사용하면 지출 범주, 가맹점 세부 정보 또는 위치 데이터로 재무 트랜잭션 데이터를 분류 및 보강하여 원시 데이터를 검증, 구성 및 선별된 데이터 제품으로 변환할 수 있습니다.
- 서비스 제공(Oracle Autonomous Data Warehouse): 선별된 데이터를 보관하고 위험 도메인에 증강 트랜잭션을 제공합니다.
- 클라우드 스토리지/데이터 레이크(Oracle Cloud Infrastructure Object Storage): Oracle Autonomous Data Warehouse에 저장된 재무 트랜잭션 레코드에서 참조되는 재무 관련 양식을 저장합니다.
- 집계 도메인: 위험
이 도메인은 머신 러닝 모델을 구축, 교육 및 실행하여 고객 프로필 및 증강 거래와 같은 내부 데이터와 경제 및 거시 경제 데이터와 같은 외부 데이터를 기반으로 위험을 감지하는 데 중점을 둡니다.
이 도메인은 위험 분석 및 예방을 전문으로하는 SME를 보유하고 있으며 데이터 제품이 필요한 다른 모든 도메인을 제공합니다. 도메인에는 증강 분석을 사용하는 내부 사용자가 있지만 대부분의 작업은 머신 러닝 일괄 추론 결과를 공유하는 것입니다. 예를 들어 배치 추론은 라이프스타일과 지출을 기준으로 금융 서비스를 구독하는 고객의 위험 성향과 경제 성장, 인플레이션 또는 실업률과 같은 거시경제적 요인을 계산할 수 있습니다.
이 도메인은 다음 기능을 사용하여 위험 성향 데이터 제품을 생성합니다.
- 서비스 제공(Oracle Autonomous Data Warehouse): ML 모델을 공급하고 일괄 추론 결과를 저장하며 위험 관련 KPI를 생성하기 위해 변환 및 기능 엔지니어링을 처리합니다. 위험 집계 도메인은 고객 프로파일 및 증강 트랜잭션 데이터의 소비자이며, 각각 고객과 재무 도메인이 공유합니다. 마케팅 도메인에 위험 성향 데이터를 제공합니다.
- 학습 및 예측(Oracle Cloud Infrastructure Data Science): 탐색 데이터 분석, 모델 개발, 실행, 지속적인 개선에 이르기까지 전체 머신 러닝 운영 수명 주기를 다룹니다. 위험 성향 공유 데이터의 기반이 되는 뱃치 추론 결과를 생성합니다.
- 소비자 연계 도메인: 마케팅
이 도메인은 개인화되고 타겟팅된 캠페인을 지원하기 위해 데이터를 큐레이팅하는 데 중점을 둡니다. 다른 도메인에서 공유된 데이터를 입력으로 사용하며, API 기반 추론을 사용하고 캠페인을 실행하고 캠페인 실행 결과를 다시 공유하는 타사 마케팅 파트너와 데이터를 공유함으로써 세분화 및 차선 제안 데이터를 실시간으로 제공합니다.
이 도메인은 다음 기능을 사용하여 캠페인 세분화 데이터 제품을 생성합니다.
- 일괄 처리(Oracle Cloud Infrastructure 데이터 변환): 데이터 공유에서 소비된 데이터를 처리하고 구성합니다. 또한 데이터 공유의 데이터를 Oracle Autonomous Data Warehouse로 복제하는 데도 사용할 수 있습니다.
- 서비스 제공(Oracle Autonomous Data Warehouse): 주어진 캠페인에 대해 선별된 데이터, 캠페인 정보, 세그먼트 및 타겟팅된 오퍼를 저장합니다.
- 클라우드 스토리지/데이터 레이크(Oracle Cloud Infrastructure Object Storage): 도메인에서 사용되는 모든 비정형 데이터를 저장합니다.
- 시각화/학습(Oracle Analytics Cloud): 도메인 최종 사용자에게 캠페인 목표 및 실행 KPI와 같은 증강 분석을 제공합니다.
- 학습 및 예측(Oracle Machine Learning): 탐색 데이터 분석에서 모델 배포에 이르기까지 전체 머신 러닝 운영 수명 주기를 다룹니다. 사용자는 AutoML를 활용하여 모델 구축 및 교육 속도를 높일 수 있습니다. 캠페인에 따라 캠페인을 실행하는 외부 파트너에 대한 데이터 공유를 사용하거나 고객 대면 애플리케이션에서 호출되는 실시간 추론을 위해 Oracle Machine Learning 배포를 통해 제공되는 뱃치 추론 모델 결과가 제공됩니다.
- API(Oracle Cloud Infrastructure API Gateway): Oracle Machine Learning 배포 API 엔드포인트를 보호 및 관리합니다.
- Shared Service
데이터 거버넌스 및 보안을 위해 모든 도메인에서 사용하는 서비스는 다음과 같습니다.
- 데이터 거버넌스(Oracle Cloud Infrastructure Data Catalog): 비즈니스 용어집 및 모든 도메인 데이터 엔티티를 카탈로그화하여 검색할 수 있도록 데이터 제품을 분류합니다.
- 데이터 보안(Oracle Data Safe, OCI Audit, OCI Logging, OCI Vault): 모든 도메인의 보안 상태를 향상시킵니다.
구조 변형: 공유 배치
공통 서비스 인스턴스 세트가 여러 데이터 도메인 팀을 지원하는 공유 데이터 플랫폼에서 분산형 플랫폼을 실행할 수 있습니다.
기본 아키텍처는 각 도메인에 대해 최고 수준의 격리 및 유연성을 제공하며, 다수의 도메인으로 분산된 데이터 플랫폼을 처리할 수 있도록 확장성이 뛰어납니다. 분산형 데이터 플랫폼에 대한 요구 사항은 다를 수 있으며 특정 사용 사례의 경우 다른 아키텍처 패턴 변형이 더 적합할 수 있습니다.
다음 다이어그램은 분산 플랫폼 패턴의 공유 배치 변형을 보여줍니다.
단일 Oracle Autonomous Data Warehouse 인스턴스는 모든 도메인 간에 공유되며, 이는 RBAC(역할 기반 액세스)와 다른 스키마를 사용하여 격리됩니다. 레이크에 상주하는 데이터도 Oracle Cloud Infrastructure Identity and Access Management 정책 및 개별 구획을 사용하여 각 도메인에 대해 격리됩니다. 데이터 제품은 해당 스키마 내에서 선별되고 카탈로그화되며 라이브 및 버전 지정 공유를 사용하여 공유됩니다.
데이터 수집 및 처리를 위해 도메인 A와 B는 동일한 Oracle Cloud Infrastructure Data Integration 및 Oracle Cloud Infrastructure Data Flow 인스턴스와 애플리케이션을 사용합니다. 도메인 C 및 D는 데이터 수집 및 처리에 대한 매우 구체적인 요구 사항을 가지므로 별도의 인스턴스를 갖습니다.
도메인 A와 B가 RBAC를 사용하여 분리된 단일 Analytics Cloud 인스턴스를 공유하는 반면 도메인 C와 D는 자체 서비스 인스턴스를 사용하는 소비 계층에도 동일한 논리가 적용됩니다.
하이브리드 솔루션을 사용할 수도 있습니다. 모든 도메인 또는 도메인당 인스턴스에 대해 단일 인스턴스를 사용하는 대신 일부 도메인은 공유 인스턴스를 사용하는 반면 다른 도메인에는 전용 인스턴스가 있을 수 있습니다.
이러한 하이브리드 솔루션은 일반적으로 성능, 보안, 고가용성, 재해 복구 요구 사항 등 일부 도메인에 대해 더 까다로운 기능 요구 사항 이외의 요구 사항에 따라 결정되며, 다른 도메인의 워크로드에 부정적인 영향을 주지 않고 이러한 요구 사항을 해결하기 위해 별도의 인스턴스가 필요합니다.
아키텍처 변형: 허브 및 스포크
종종 여러 지역 및 국가에 자회사를 둔 대기업은 모든 자회사 워크로드를 지원하는 중앙 집중식 데이터 플랫폼 없이도 데이터 플랫폼을 독립적으로 실행해야 하지만, 글로벌 가시성 및 주요 성과 지표(KPI)를 위해 본사와 데이터를 공유해야 합니다.
분산형 데이터 플랫폼은 데이터를 안전하고 효율적으로 교환해야 하는 허브(본사) 및 여러 스포크(자회사)가 있는 이 시나리오에 적합한 솔루션입니다.
이 변형은 지역을 허브 및 스포크 패턴의 예로 사용하지만 지주 회사 및 자회사와 같은 다른 예에도 동일한 패턴을 적용할 수 있습니다.
스포크는 허브와 동일한 테넌시 또는 다른 테넌시에 배치할 수 있습니다.
다음 다이어그램은 허브 및 여러 지역에 배치되고 델타 공유 프로토콜에서 사용으로 설정된 버전 지정 공유를 사용하여 데이터를 교환하는 여러 스포크를 보여줍니다. 이 다이어그램은 서비스 엔진 기능 구성요소만 보여줍니다. 나머지 기능 구조는 기본 기능 구조에 표시된 것과 유사합니다.
데이터가 안전하게 교환되고 인터넷을 통해 여러 지역에 전송되므로 대기 시간을 고려해야 합니다. 스포크와 허브 간에 공유되는 데이터 제품이 대량의 세분화된 데이터가 아닌 집계된 데이터 세트 및 KPI인 경우 이 패턴은 배포, 유지 관리 및 운영이 간편합니다.
또 다른 접근 방식은 Oracle Autonomous Database 클라우드 링크를 사용하여 다른 지역에 있더라도 인스턴스 간에 원활한 데이터 공유를 가능하게 하는 것입니다.
For cross-regional data sharing, the source Oracle Autonomous Data Warehouse instance must be cloned into the destination region so that it can be accessed seamlessly by the hub Autonomous Data Warehouse instance. 수동으로 또는 자동으로 복제본을 주기적으로 새로 고칠 수 있으므로 허브 Autonomous Data Warehouse가 스포크에서 공유하는 최신 데이터 제품을 소비할 수 있습니다.
허브는 스포크가 선별한 전체 데이터 세트의 하위 세트인 데이터 제품을 소비할 가능성이 높으므로 스포크에는 허브와 공유할 데이터 제품을 보관하기 위한 전용 Autonomous Data Warehouse 인스턴스가 있을 수 있으므로 새로고침 가능 복제본을 최적화할 수 있습니다.
새로고침 가능한 복제본에 대한 네트워크 트래픽은 Oracle 백본을 통해 라우팅되며, 스포크 Autonomous Data Warehouse 인스턴스에 상주하는 대규모 데이터 제품을 이동할 때 대기 시간이 짧고 대역폭이 더 높습니다.
버전 지정 공유 또는 클라우드 링크 사용 사이의 선택은 기능 요구 사항이 아닌 주로 성능 및 비용에 의해 영향을 받습니다.
사용 된 옵션에 관계없이 허브와 스포크는이 아키텍처에 표시된 분산 된 접근 방식을 사용할 수있는 자체 로컬 데이터 플랫폼을 가지고 있습니다.
아키텍처 변형: 이기종 데이터 에코시스템
그러나 동일한 아키텍처를 사용하여 서로 다른 기술을 사용하여 서로 다른 목적을 위해 데이터를 공유하는 여러 조직의 이기종 데이터 에코시스템을 지원할 수 있습니다.
사용 사례에는 연구 목적으로 익명화된 데이터를 대학과 공유하는 병원 또는 자동차 제조업체와 부품 데이터를 공유하는 공급업체가 포함될 수 있습니다.
Oracle Autonomous Data Warehouse를 서빙 엔진으로 사용하는 조직은 델타 공유 개방형 프로토콜을 지원하는 다른 기술에서 공유 데이터를 제공하고 소비할 수 있습니다.
델타 공유는 광범위한 지원과 데이터를 안전하게 제공하고 소비하는 단순성으로 인해 데이터 에코시스템을 지원하는 데 좋은 선택입니다.
API 또는 데이터 스트리밍과 같은 다른 메커니즘을 사용하여 데이터를 공유할 수도 있습니다.
물리적 구조
이 분산형 데이터 플랫폼의 물리적 아키텍처는 다음을 지원합니다.
- Oracle Cloud Infrastructure Identity and Access Management 구획 및 정책을 사용하여 도메인 격리. 각 팀은 해당 구획에서 클라우드 리소스를 사용하고 배포할 수 있는 권한만 부여받습니다.
- 격리 수준이 높아지고 보안 상태가 향상되도록 각 워크로드 VCN에 도메인 배포
- 구획 및 VCN에 배포된 클라우드 리소스를 사용하여 도메인 팀이 관리하는 데이터 수집, 스토리지, 처리 및 서비스 프로세스
- 각 도메인 팀이 특정 도메인 요구사항에 따라 별도의 클라우드 리소스를 사용하기 때문에 확장성, 고가용성, 재해 복구, 보안 및 SLO(서비스 레벨 목표)와 같은 비기능 요구사항을 지원합니다.
- 각 도메인 클라우드 리소스 사용에 대한 세분화된 비용 제어
- 프라이빗 서브넷에 배치된 프라이빗 끝점과 인스턴스를 사용하여 완전하게 안전한 프라이빗 끝점 트래픽
기업 보안 규칙을 준수하면서 도메인별로 공용 엔드포인트로 일부 서비스를 배포할 수도 있습니다.
- Oracle Autonomous Data Warehouse에서 사용 가능한 데이터 공유는 사용 사례에 따라 라이브 공유 또는 버전 지정된 공유를 사용하고 최신 또는 버전 지정된 데이터를 제공할지 여부를 사용합니다.
- Oracle Cloud Infrastructure Identity and Access Management 정책을 사용하여 도메인별로 격리된 데이터 카탈로그 하위 엔티티를 사용하여 모든 도메인에 대한 중앙화된 데이터 카탈로그를 제공합니다. 단, 검색 가능해야 하는 데이터 제품은 제외됩니다.
- 기존 데이터 도메인에 영향을 주지 않고 코드형 인프라(IaC) 자동화를 사용하여 각 새 도메인을 온보딩할 수 있는 확장성이 뛰어난 배포
다음 다이어그램은 이 참조 아키텍처를 보여 줍니다.
물리적 아키텍처 다이어그램은 각 도메인에 대해 클라우드 네트워킹 및 서비스가 어떻게 배치되는지 보여주는 두 개의 도메인을 보여줍니다. 일반적으로 모든 도메인 네트워킹 및 구획은 작동하지 않는 특정 요구 사항에 따라 예외가 발생하지 않는 한 동일합니다.
물리적 구조 설계:
- 해당 도메인에 대한 작업 로드를 포함하는 각 데이터 도메인에 대해 허브 VCN과 하나의 VCN을 활용합니다.
- 리던던시를 위해 Oracle Cloud Infrastructure FastConnect 및 사이트 간 VPN을 모두 사용하여 온프레미스 연결 활용
- 온프레미스 및 인터넷에서 먼저 허브 VCN으로 모든 수신 트래픽을 라우팅한 다음 데이터 도메인 워크로드 VCN으로 라우팅합니다.
- 전송 중이거나 보관 중인 모든 데이터 보호
- 프라이빗 끝점을 사용하여 서비스를 배치하여 보안 상태 향상
- 보안 상태를 높이기 위해 VCN을 여러 전용 서브넷으로 분리
- 리소스 격리를 위해 각 도메인에 대한 컴파트먼트를 제공합니다.
- 클라우드 리소스가 다른 도메인 VCN에 대한 인바운드 및 아웃바운드 트래픽을 지원하도록 DRG(동적 경로 지정 게이트웨이) 사용
- 보안 향상을 위해 데이터 전용 서브넷에 Autonomous Data Warehouse 인스턴스를 배치하지만, 해당 트래픽을 사용으로 설정하도록 경로가 설정된 경우 다른 도메인 Autonomous Data Warehouse 인스턴스에서 실시간 및 버전 지정 공유를 제공하고 소비할 수 있습니다.
단순성을 위해 이 배치에 명시되지 않은 잠재적 설계 향상은 다음과 같습니다.
- 전체 CIS 호환 랜딩 존 활용
- 허브 VCN에 네트워크 방화벽을 배포하여 모든 트래픽을 검사하고 정책을 적용하여 전반적인 보안 상태를 개선합니다.
권장사항
다음 권장 사항을 시작점으로 사용하여 데이터를 안전하게 공유합니다. 요구 사항은 여기에 설명된 아키텍처와 다를 수 있습니다.
Oracle Autonomous Data Warehouse
이 아키텍처는 공유 인프라에서 Oracle Autonomous Data Warehouse를 사용합니다.
- 레이크하우스에 메달리온 아키텍처를 사용하고 실버(세분화, 증강) 및 골드(강화, 집계) 계층을 기반으로 데이터 제품을 생성합니다.
- Autonomous Data Warehouse를 이기종 데이터 공유에 대한 기본 지원과 함께 사용하여 데이터 제품을 공유함으로써 보다 간단하고 안전하며 신뢰할 수 있는 아키텍처를 제공하는 것이 좋습니다.
- Autonomous Data Warehouse에 외부 테이블 또는 하이브리드 테이블로 노출된 외부 데이터를 공유하여 버전 지정 또는 실시간 공유의 보안 기능을 활용하는 것이 좋습니다.
- 기본 객체(테이블)와 공유 객체(뷰)를 구분하려면 데이터 제품 테이블에 대한 뷰를 생성하는 것이 좋습니다.
- 라이브 공유와 데이터를 공유할 때 보안을 강화하려면 기본 스키마 및 테이블과 다른 이름 공간 및 이름 값을 사용하여 내부 객체 이름을 숨기는 것이 좋습니다.
- 클라우드 링크와 함께 실시간 공유를 사용할 때 보안을 강화하려면 데이터 세트 등록 관리자가 사용 사례에 대해 가장 제한적인 데이터 세트 범위를 정의하도록 합니다.
- 클라우드 링크와 실시간 공유를 사용하는 경우 데이터 소비자 질의 성능 향상을 위해 캐싱을 사용으로 설정하는 것이 좋습니다.
- 대량의 데이터 제품과 함께 클라우드 링크와 함께 실시간 공유를 사용하는 경우 데이터 소비자 성능 및 작업 로드 분리를 개선하기 위해 질의를 새로고침 가능한 복제본으로 오프로드하는 것이 좋습니다.
- 많은 수의 도메인 Autonomous Data Warehouse 인스턴스가 있거나 인스턴스 컴퓨트 요구사항이 높은 경우 탄력적 풀로 통합하는 것이 좋습니다.
OCI 오브젝트 스토리지
이 아키텍처는 확장성이 뛰어나고 내구성이 뛰어난 Oracle Cloud Infrastructure Object Storage를 레이크 스토리지로 사용합니다.
Oracle Cloud Infrastructure Identity and Access Management 정책으로 워크로드를 분리하는 데 도움이 되도록 여러 개의 세분화된 구획을 사용하여 데이터 도메인과 데이터 도메인 내의 팀을 구성하는 것이 좋습니다.
Oracle Cloud Infrastructure Data Catalog
이 아키텍처는 Oracle Cloud Infrastructure Data Catalog를 사용하여 데이터 제품에 대한 기술, 비즈니스 및 운영 메타데이터를 관리하므로 자체 검색이 가능합니다.
- 모든 도메인에 대해 단일 데이터 카탈로그 인스턴스를 사용하여 메타데이터 및 데이터 제품 거버넌스를 중앙 집중화하는 것이 좋습니다.
- 데이터 자산에 대해서만 도메인 사용자에게 관리 액세스 권한을 부여하는 것이 좋습니다.
- 조직 전체에서 유지 관리되는 데이터 제품을 찾을 수 있도록 모든 사용자에게 읽기 액세스 권한을 부여하는 것이 좋습니다.
- 사용자정의 속성을 사용하여 데이터 제품 소유자, 가용성, 최종 업데이트 날짜, 버전 등과 같은 속성으로 운영 메타데이터를 보강하는 것이 좋습니다.
데이터 도메인 배치
이 아키텍처는 데이터 레이크하우스 패턴 및 사용 가능한 OCI 서비스를 사용하여 엔드투엔드 데이터, 분석 및 AI 워크로드를 지원합니다.
- 클라우드 리소스를 배치할 때 보안 상태 및 도메인 유연성을 높이기 위해 각 도메인에 대해 별도의 VCN을 사용하여 도메인을 분리하는 것이 좋습니다.
- 구획 및 IAM 정책을 활용하여 각 도메인에서 사용하는 다양한 OCI 서비스를 분리해 보십시오.
데이터 제품 공유
- API를 사용하여 데이터 제품을 제공해야 하는 경우 Oracle REST Data Services 사용을 고려해 보십시오.
- Oracle REST Data Services를 사용하여 데이터 제품을 공유하는 경우 Oracle Cloud Infrastructure API Gateway를 사용하여 API 보안을 고려해 보십시오.
- 데이터 제품을 스트리밍해야 하는 경우 Oracle Cloud Infrastructure GoldenGate 및 Oracle Cloud Infrastructure Streaming 사용을 고려해 보십시오.