Esta arquitetura mostra como um data lakehouse a Oracle Cloud Infrastructure (OCI) é usada para criar uma plataforma de dados moderna para ingerir, processar, armazenar, atender e visualizar dados de fontes estruturadas e não estruturadas.
Os componentes arquitetônicos são divididos em 4 estágios e apresentados como um fluxo de dados funcional:
- Produtores de Dados: Os produtores de dados de streaming incluem produtores Kafka para dados de preço e taxa de câmbio e produtores de eventos para dados de negociações. Os dados não estruturados são enviados diretamente para o armazenamento de objetos ("bronze" data lake). Os produtores de dados programados ou acionados por eventos incluem dados de lote do armazenamento de arquivos e dados de referência dos sistemas de banco de dados.
- Ingestão/Carga: Dados de streaming persistentes são transmitidos para o armazenamento de objetos "bronze". Os dados de transmissão também são processados como dados comerciais anômalos e insights de fundos em tempo real. Os dados programados ou acionados por evento são processados pelo Data Integration e transmitidos para o armazenamento de objetos "bronze".
- Persistir/Transformar/Computação:
- Os dados de streaming são processados pelo Kafka Connect para produzir insights de fundos em tempo real e análise de streaming. O Service Connector Hub coordena dados comerciais anômalos e com o Oracle Cloud Infrastructure Notifications, para insights dos usuários.
- O Oracle Cloud Infrastructure Events, o Oracle Functions e o OCI Vision fornecem OCR e extração de texto para imagens de fax do armazenamento de objetos bronze e passam os dados resultantes para o armazenamento de objetos "prata".
- No data lakehouse, o Oracle Cloud Infrastructure Data Flow limpa dados do armazenamento de objetos em bronze e os transmite para armazenamento de objetos em prata. O serviço Data Flow também processa dados do armazenamento de objetos Silver e os transmite para o armazenamento de objetos "ouro". O Oracle Autonomous Data Warehouse (ADW) e o Oracle Cloud Infrastructure Data Catalog fornecem dados "ouro" para usuários finais e análises.
- Servir/Visualizar: os usuários finais acessam o streaming de dados anômalos ou usam OpenSearch para análises e insights em tempo real. Os usuários podem usar o Oracle Analytics Cloud ou análises de terceiros para aproveitar os dados do data lakehouse. Os cientistas de dados também podem usar o Oracle Cloud Infrastructure Data Science para aproveitar os dados do data lakehouse.