이 다이어그램은 데이터 레이크하우스에 대한 메달리온 아키텍처의 구성요소 및 단계를 보여줍니다.
아키텍처에 대한 엔터프라이즈 데이터 관리는 Microsoft Purview에서 제공합니다. 아카이브를 위해 제공되는 인프라 및 보안 서비스에는 모니터링, DevOps 및 CI/CD, ID 및 액세스 관리와 암호화, 다중 지역 재해 복구 페일오버가 포함됩니다.
데이터 소스에는 소스 시스템, 온프레미스 관계형 데이터베이스 관리 시스템(RDBMS), 클라우드 RDBMS, 사물인터넷(IoT) 장치 및 기타 비정형 데이터 소스가 포함됩니다.
메달리온 아키텍처는 소스 데이터 이동을 다이어그램 상단에 나열된 개별 단계로 나눕니다.
- Bronze 단계: 다양한 소스의 데이터가 수집, 검증 및 선별됩니다.
- 실버 단계: 데이터는 분석 및 보고를 위해 저장 및 처리됩니다.
- Gold 단계: 세분화된 데이터가 분석 및 보고를 위해 제공됩니다.
이러한 단계에서는 컴포넌트 그룹이 컴퓨팅 또는 스토리지 기능을 제공하는지 여부에 따라 추가로 식별됩니다.
- 컴퓨팅: 데이터 처리 및 변환을 수행하고 데이터 중복 제거, 데이터 품질, 스타 스키마에 대한 데이터 모델링 규칙 적용 등과 같은 다양한 변환 규칙을 실행하여 분석 및 보고를 위해 데이터를 준비하는 데 중요한 역할을 하는 데이터 엔지니어링 파이프라인입니다.
- 스토리지: 데이터는 Azure Data Lake Service, Oracle Database@Azure, SQL 풀 등에 의한 데이터 검색의 기반으로 수집, 저장 및 관리됩니다.
메달리온 단계는 데이터를 순차적으로 이동하는 다음 배치 영역으로 더 나뉩니다.
- Azure SQL Database(컴퓨트): Azure Data Factory를 사용하여 데이터를 수집합니다.
- 랜딩 - 원시 영역 뷰(스토리지): 파일은 Azure Data Lake Storage에 저장됩니다.
- Raw - 원시 영역 뷰(스토리지): Ingestion Framework 단계는 Delta Lake 및 모니터링 서비스를 사용하여 Azure Data Lake Storage의 데이터 파일 및 변경 사항을 관리합니다.
- 큐레이션(컴퓨트): 검증 단계에서는 중복 제거 및 데이터 품질 확인을 위해 원시 데이터를 Oracle Autonomous Data Warehouse Serverless 또는 Oracle Exadata Database Service로 수집합니다.
- 데이터 레이크 - 선별(스토리지): 거부 워크플로우 단계에서 데이터 거버넌스는 검증 오류 또는 기타 처리 오류로 인해 수집 단계 중 거부된 모든 레코드가 별도의 Azure 데이터 레이크 스토리지 경로에 스테이지되도록 보장합니다. DevOps 및 CI/CD 서비스는 이 단계에 대한 입력을 제공합니다.
- 표준화됨(컴퓨트): 거부 워크플로우 단계에서 데이터 거버넌스는 검증 오류 또는 기타 처리 오류로 인해 수집 단계 중 거부된 모든 레코드가 별도의 Azure 데이터 레이크 스토리지 경로에 스테이지되도록 보장합니다. DevOps 및 CI/CD 서비스는 이 단계에 대한 입력을 제공합니다.
- 데이터 웨어하우스 - 소비 계층(저장소): 통합관리 단계에서 스케줄링 시스템은 데이터 처리 작업, 스케줄링 및 작업 종속성을 관리합니다. Azure Data Factory는 ETL 작업의 통합관리에 사용할 수 있습니다. 통합관리 단계에는 Oracle Autonomous Data Warehouse Serverless 또는 Oracle Exadata Database Service, Delta Lake, Azure Data Lake Storage Gen 2가 포함됩니다.
- Reporting/Analytics: 이 단계에는 Power BI 및 외부 피드 및 데이터 수익 창출과 같은 데이터 서비스가 포함됩니다.This stage includes Power BI and data services such as external feeds and data monetization.