Este diagrama mostra os componentes e estágios na arquitetura do medalhão de um data lakehouse.
O gerenciamento de dados empresariais para a arquitetura é fornecido pelo Microsoft Purview. Os serviços de infraestrutura e segurança fornecidos para a arquitetura incluem monitoramento, DevOps e CI/CD, gerenciamento e criptografia de identidade e acesso e failover de recuperação de desastres em várias regiões.
As origens de dados incluem sistemas de origem, sistemas de gerenciamento de banco de dados relacional (RDBMS) on-prmises, RDBMS na nuvem, dispositivos Internet das Coisas (IoT) e outras origens de dados não estruturadas.
A arquitetura do medalhão divide o movimento dos dados de origem em estágios distintos listados na parte superior do diagrama:
- Estágio de bronze: Dados de várias fontes são ingeridos, validados e curados.
- Estágio Silver: Os dados são armazenados e processados para análise e geração de relatórios.
- Estágio Gold: dados refinados são fornecidos para análise e geração de relatórios.
Nesses estágios, os grupos de componentes são identificados posteriormente devido à funcionalidade de computação ou armazenamento:
- Computação: pipelines de engenharia de dados que processam e transformam dados e desempenham um papel crítico na preparação de dados para análise e geração de relatórios, executando várias regras de transformação, como desduplicação, qualidade de dados, aplicação de regras de modelagem de dados para esquema estrela etc.
- Armazenamento: Os dados são ingeridos, armazenados e gerenciados como base para recuperação de dados pelo Azure Data Lake Service, Oracle Database@Azure, pools de SQL e assim por diante.
Os estágios de medalhão são divididos nas seguintes áreas de implantação através das quais os dados se movem sequencialmente:
- Banco de Dados SQL do Azure (computação): Sugere dados usando o Azure Data Factory.
- Destino - exibição de zona bruta (armazenamento): Os arquivos são armazenados no Armazenamento do Azure Data Lake.
- Visualização bruta - zona bruta (armazenamento): O estágio Estrutura de Ingestão gerencia arquivos e alterações nos dados no Armazenamento do Azure Data Lake usando um Delta Lake e o serviço de monitoramento.
- Curadoria (computação): O estágio de Validação ingere dados brutos no Oracle Autonomous Data Warehouse Serverless ou no Oracle Exadata Database Service para deduplicação e verificação da qualidade dos dados.
- Data Lake - com curadoria (armazenamento): No estágio Rejection Workflow, a governança de dados garante que qualquer registro rejeitado durante o estágio de ingestão devido a erros de validação ou outros erros de processamento seja preparado em um caminho separado do Azure Data Lake Storage. O serviço DevOps e CI/CD fornece entrada para esse estágio.
- Padronizado (computação): No estágio de Workflow de Rejeição, a governança de dados garante que qualquer registro rejeitado durante o estágio de ingestão devido a erros de validação ou outros erros de processamento seja preparado em um caminho separado do Armazenamento do Azure Data Lake. O serviço DevOps e CI/CD fornece entrada para esse estágio.
- Data Warehouse - Camada de Consumo (armazenamento): No estágio Orquestração, um sistema de programação gerencia tarefas de processamento de dados, programação e dependências de tarefas. O Azure Data Factory pode ser usado para a orquestração de jobs de ETL. O estágio de Orquestração inclui o Oracle Autonomous Data Warehouse Serverless ou o Oracle Exadata Database Service, o Delta Lake e o Azure Data Lake Storage Gen 2
- Relatório/Análise: Este estágio inclui o Power BI e serviços de dados, como feeds externos e monetização de dados.