멀티 클라우드 데이터 레이크 통합 아키텍처 구현
이 참조 아키텍처는 조직이 여러 소스의 데이터를 OCI(Oracle Cloud Infrastructure) 데이터 레이크에 통합하는 방법을 보여줍니다.
이 참조 아키텍처는 장기적인 성장 계획의 일부로 새로운 조직을 확보하는 비즈니스 전략을 갖춘 대규모 엔터프라이즈 조직의 사용 사례를 나타냅니다. 조직은 분석 플랫폼으로 데이터 레이크를 구축하고 비용 분석은 범위 내 모듈 중 하나입니다.
이 조직은 송장 데이터가 저장되는 재무를 위해 Oracle Fusion Cloud Applications를 구현했습니다.
최근 새 조직을 인수했으며 송장 처리 애플리케이션을 호스팅하기 위해 AWS(Amazon Web Services)를 사용하고 있습니다. 데이터 레이크로 로드하기 전에 데이터 레이크가 구현되고 비용 센터/공급자 정보로 대용량 송장 데이터를 보강하는 AWS에서 OCI(Oracle Cloud Infrastructure)로 송장 데이터를 가져와야 합니다. 비용 센터 데이터를 Oracle Fusion Cloud Applications에서 가져오고 공급자 데이터를 온프레미스 MySQL 데이터베이스에서 가져옵니다.
구조
이 참조 아키텍처는 다양한 클라우드 제공업체 및 온프레미스 데이터 소스의 데이터를 OCI에 호스팅된 데이터 레이크로 가져오는 방법을 설명합니다. 이 아키텍처에서는 일괄 처리 통합, 데이터 통합, 실시간 통합 및 이벤트 기반 통합 시나리오를 다룹니다.
다음 다이어그램은 이 참조 아키텍처에 대한 데이터 플로우를 보여 줍니다.
oci_multicloud_datalake_flow.png 그림에 대한 설명
oci-multicloud-datalake-flow-oracle.zip를 입력합니다.
- 다음에서 데이터를 연결하고 추출합니다.
- 네이티브 어댑터를 통한 AWS 서비스 및 Azure 서비스
- 전용 연결(FastConnect/VPN)을 통한 온프레미스 데이터 소스
- BICC 커넥터를 통한 Oracle SaaS 애플리케이션.
- 추출된 데이터에 대한 변환을 수행합니다.
- 어댑터(ADB/객체 스토리지)를 통해 OCI 데이터 레이크로 데이터를 로드합니다.
- 네이티브 어댑터를 통해 Oracle SaaS 애플리케이션/IOT/스트리밍 서비스/소셜 미디어/온프레미스 시스템/기타 클라우드 제공업체와 같은 다양한 소스 시스템에서 실시간 데이터를 수신합니다.
- 변환/조정 논리를 수행합니다.
- 어댑터(ADB/객체 스토리지)를 통해 OCI 데이터 레이크로 데이터를 로드합니다.
다음 다이어그램은 이 참조 아키텍처를 보여줍니다.
oci-multicloud-datalake-oracle.zip
- 여러 이기종 소스 시스템에서 데이터를 캡처하고 단일 영구 저장소에 통합하여 데이터를 통합합니다. 일반적으로 ETL(추출, 변환 및 로드) 루틴을 사용하여 이 작업을 수행합니다.
- 전용/공용 네트워크(고객 온프레미스, 타사 클라우드 네트워크(Azure VNet, AWS VPC)에서 호스팅된 소스 시스템(HDFS, Oracle Autonomous Database, MySQL, Oracle Database, Azure Synapse, AWS Redshift, Object Storage, S3, Microsoft SQL, PostgreSQL 등)에서 대용량 데이터를 추출한 다음 OCI 데이터 레이크로 로드합니다.
- BICC/BI Publisher 커넥터를 통해 Oracle Fusion Cloud Applications에서 데이터를 추출한 다음 OCI 데이터 레이크로 로드합니다.
- 통합관리 패턴을 사용하여 다중 소스에서 대량 데이터 추출
- 스케줄링된(일별, 월별, 주별, 월별, cron 표현식 등) ETL 작업을 구현합니다.
Oracle Integration Cloud(OIC)는 다음 시나리오에 사용됩니다.
- Oracle Cloud 애플리케이션, CRM, 전자 상거래 및 온프레미스/타사 클라우드 애플리케이션에서 실시간으로 데이터를 수신한 다음 데이터 레이크로 로드합니다.
- 데이터 소스에 의해 생성된 파일(더 적은 볼륨)에서 데이터 레이크로 데이터를 로드합니다.
- Webhook 플랫폼에 Oracle Integration Cloud REST API를 표시하여 실시간으로 데이터를 받고 데이터 레이크로 로드합니다.
- 일부 IOT 플랫폼(Geotab, CheckSafe 등)에는 Webhook 기능이 있으며 새 이벤트에 대한 데이터를 https api로 전송하여 API 게이트웨이에 직접 연결할 수 있습니다.
- 소셜 미디어 플랫폼(Facebook, LinkedIn, Twitter, Slack 등)에서 데이터를 수신하고 OCI 데이터 레이크로 로드합니다.
- 네트워크 내에서 액세스할 수 있는 전용 끝점으로 OIC API 및 애플리케이션 API를 게시하거나, 필요한 경우 공용 인터넷에 노출할 수 있습니다. 엔드포인트는 API 검증, 요청 및 응답 변환, CORS, 인증 및 권한 부여, 요청 제한 등을 지원합니다.
- API 개발에서 보안 및 비즈니스 논리를 분리합니다.
- 데이터를 다운스트림 데이터 레이크에 공급할 수 있는 보안 제어를 통해 제한된 소스에 API 노출
이 구조에는 다음과 같은 구성 요소가 있습니다.
- 지역
Oracle Cloud Infrastructure 지역은 가용성 도메인이라고 하는 하나 이상의 데이터 센터를 포함하는 지역화된 지리적 영역입니다. 지역은 다른 지역과 독립적이며 거리가 멀면 국가 또는 대륙을 가로질러 분리할 수 있습니다.
- 가용성 도메인
가용성 도메인은 한 지역 내에 있는 독립형 독립형 데이터 센터입니다. 각 가용성 도메인의 물리적 리소스는 내결함성을 제공하는 다른 가용성 도메인의 리소스와 격리됩니다. 가용성 도메인은 전원, 냉각 또는 내부 가용성 도메인 네트워크와 같은 인프라를 공유하지 않습니다. 따라서 특정 가용성 도메인에서 장애가 발생하면 해당 지역의 다른 가용성 도메인에 영향을 주지 않습니다.
- VCN(가상 클라우드 네트워크) 및 서브넷
VCN은 Oracle Cloud Infrastructure 지역에서 설정한 커스터마이징 가능한 소프트웨어 정의 네트워크입니다. 기존 데이터 센터 네트워크와 마찬가지로 VCN은 네트워크 환경을 완벽하게 제어할 수 있습니다. VCN에는 VCN 생성 후 변경할 수 있는 겹치지 않는 여러 CIDR 블록이 있을 수 있습니다. VCN을 서브넷으로 세그먼트할 수 있으며, 지역 또는 가용성 도메인으로 범위를 지정할 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속된 주소 범위로 구성됩니다. 생성 후 서브넷의 크기를 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.
- 통합
Oracle Integration은 애플리케이션을 통합하고, 프로세스를 자동화하고, 비즈니스 프로세스에 대한 통찰력을 얻고, 시각적 애플리케이션을 생성할 수 있는 전담 관리 서비스입니다.
- Oracle Data Integration
Oracle Cloud Infrastructure Data Integration은 전담 관리되는 서버 미사용 클라우드 전용 서비스로, 다양한 데이터 소스의 데이터를 Oracle Cloud Infrastructure 서비스(예: Autonomous Data Warehouse 및 Oracle Cloud Infrastructure Object Storage)로 추출, 로드, 변환, 정리 및 재구성합니다. ETL(추출 변환 로드)은 Spark에서 완전히 관리되는 스케일아웃 프로세스를 활용하며, ELT(추출 로드 변환)는 데이터 이동을 최소화하고 새로 수집된 데이터의 가치 창출 시간을 개선하기 위해 Autonomous Data Warehouse의 전체 SQL 푸시다운 기능을 활용합니다. 사용자는 통합 플로우를 최적화하여 가장 효율적인 엔진 및 통합관리를 생성하고 실행 환경을 자동으로 할당하고 확장하는 직관적인 코드 없는 사용자 인터페이스를 사용하여 데이터 통합 프로세스를 설계합니다. Oracle Cloud Infrastructure Data Integration은 대화식 탐색 및 데이터 준비를 제공하고 데이터 엔지니어가 스키마 변경을 처리하는 규칙을 정의하여 스키마 드리프트로부터 보호할 수 있도록 합니다.
- Oracle Business Intelligence 클라우드 커넥터
Oracle BICC(BI Cloud Connector)는 Fusion에서 데이터를 추출하고 이를 UCM(Oracle Universal Content Management) 서버 또는 클라우드 스토리지와 같은 공유 리소스에 CSV 형식으로 저장하는 데 유용한 도구입니다.
- OIC 접속 에이전트
OIC 연결 에이전트를 사용하면 하이브리드 통합을 만들고 전용 또는 온프레미스 네트워크와 Oracle Integration Cloud에서 애플리케이션 간에 메시지를 교환할 수 있습니다.
- 데이터 레이크
데이터 레이크는 원시 데이터를 저장할 수 있고 기업이 비용 효율적이고 탄력적인 환경에 모든 데이터를 저장할 수 있는 확장 가능한 중앙 집중식 저장소입니다. 데이터 레이크는 원시 데이터를 저장하기 위한 유연한 저장 메커니즘을 제공합니다.
- 객체 스토리지
오브젝트 스토리지를 사용하면 데이터베이스 백업, 애널리틱스 데이터, 이미지 및 비디오와 같은 풍부한 컨텐츠를 비롯하여 모든 컨텐츠 유형의 구조적 및 비구조적 데이터에 신속하게 접근할 수 있습니다. 인터넷 또는 클라우드 플랫폼 내에서 직접 안전하게 데이터를 저장하고 검색할 수 있습니다. 성능 또는 서비스 신뢰성의 저하를 경험하지 않고도 스토리지를 원활하게 확장할 수 있습니다. 빠르고 즉각적이며 자주 액세스하는 데 필요한 "핫" 스토리지에 표준 스토리지를 사용합니다. 장기간 보존하고 거의 액세스하지 않는 "콜드" 스토리지에 아카이브 스토리지를 사용합니다.
- Autonomous Database
Oracle Cloud Infrastructure Autonomous Database는 트랜잭션 처리 및 데이터 웨어하우징 워크로드에 사용할 수 있는 사전 구성된 전담 관리 데이터베이스 환경입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. Oracle Cloud Infrastructure는 데이터베이스 생성, 데이터베이스 백업, 패치, 업그레이드 및 조정을 처리합니다.
- 분석
Oracle Analytics Cloud는 데이터 준비, 시각화, 엔터프라이즈 보고, 증강 분석, 자연어 처리 및 생성을 위한 최신 AI 기반 셀프 서비스 분석 기능을 통해 비즈니스 분석가를 지원하는 확장 가능하고 안전한 퍼블릭 클라우드 서비스입니다. Oracle Analytics Cloud를 사용하면 빠른 설정, 손쉬운 확장 및 패치 적용, 자동화된 라이프사이클 관리 등 유연한 서비스 관리 기능을 이용할 수 있습니다.
- 데이터 카탈로그
Oracle Cloud Infrastructure Data Catalog는 엔터프라이즈 데이터를 위한 완전 관리형 셀프서비스 데이터 검색 및 거버넌스 솔루션입니다. 데이터 엔지니어, 데이터 과학자, 데이터 관리자 및 최고 데이터 책임자는 조직의 기술, 비즈니스 및 운영 메타데이터를 관리할 수 있는 단일 협업 환경을 제공합니다.
추천
- 보안
모든 연결은 개인 네트워크를 통해 설정되며 모든 ETL 거래는 온프레미스의 Fastconnect, AWS의 Colt, Azure용 Azure Interconnect를 통해 라우팅됩니다. 또한 소스 및 대상에서 암호화 및 암호 해독을 사용하는 것이 좋습니다. 이렇게 하면 전송 중 보안이 보장됩니다.
고려 사항
이 참조 아키텍처를 배치할 때는 다음 사항을 고려하십시오.
- 보안OCI IAM(ID 및 접근 관리) 정책을 사용하여 클라우드 리소스에 접근 가능한 사용자와 수행 가능한 작업을 제어할 수 있습니다. 데이터베이스 암호 또는 기타 암호를 보호하려면 OCI Vault 서비스 사용을 고려하십시오.
dis-family
에서 IAM 사용자 및 그룹에 대한 최소 권한 액세스를 리소스 유형에 지정합니다.- 승인된 사용자 또는 악의적인 삭제로 인한 부주의한 삭제로 인한 데이터 손실을 최소화하기 위해 Oracle은 가능한 최소 IAM 사용자 및 그룹 세트에
DIS_WORKSPACE_DELETE
권한을 지정할 것을 권장합니다. 테넌시 및 구획 관리자에게만DIS_WORKSPACE_DELETE
권한을 지정합니다. - 보안 취약성으로부터 데이터 소스를 보호하려면 읽기 전용 계정에만 인증서를 제공하십시오. 데이터 자산에서 데이터를 수집하려면 데이터 통합에 읽기 접근 권한만 필요합니다.
- 비용
- 대규모 데이터가 클라우드 경계를 넘어 자주 전송되는 경우 데이터 플로우 방향이 필수적입니다. 클라우드 공급자는 일반적으로 데이터 수신에 대해 요금을 부과하지 않지만 모든 공급자는 데이터 송신 요금을 부과합니다. 데이터 송신 속도는 클라우드 제공업체마다 다릅니다. 송신 비용을 멀티 클라우드 설계 고려 사항으로 고려해야 합니다. 또한 데이터를 이동할 때 데이터 상주를 고려해야 합니다.
- OCI FastConnect: FastConnect 비용은 모든 OCI 리전에서 동일합니다.
- Microsoft Azure ExpressRoute: Microsoft Azure ExpressRoute 비용은 지역마다 다릅니다. Azure에는 익스프레스 경로에 사용할 수 있는 SKU가 두 개 이상 있습니다. Oracle은 별도의 수신 또는 송신 요금이 없으며 최소 대역폭인 1Gbps부터 시작하므로 로컬 설정을 사용할 것을 권장합니다. 표준 및 프리미엄 구성은 더 낮은 대역폭을 제공하지만 종량제 설정에서 별도의 송신 요금이 발생합니다.
- 저비용 아카이브 스토리지 서비스를 사용하여 접근은 드물지만 장기간 보존해야 하는 데이터를 저장할 수 있습니다. 라이프사이클 관리 정책을 정의하여 데이터를 아카이브 스토리지로 자동으로 이동하거나 지정된 기간 이후에 데이터를 삭제합니다.
- 고가용성
모든 상호 연결 회로(ExpressRoute 및 FastConnect)에는 동일한 POP에서는 중복 회로가 제공되지만 물리적 라우터는 다르므로 고가용성이 제공됩니다.