Planeje o Data Lakehouse
Ao planejar o data lakehouse, considere os seguintes casos de uso relevantes para bancos, corretores e serviços financeiros que têm bilhões de registros de dados:
- Estabeleça um hub de dados em toda a empresa que consiste em um data warehouse para dados estruturados e um data lake para dados semiestruturados e não estruturados. Este data lakehouse se torna a única fonte de verdade para seus dados.
- Integre origens de dados relacionais com outros conjuntos de dados não estruturados usando tecnologias de processamento de big data.
- Use a modelagem semântica e ferramentas de visualização avançadas para simplificar a análise de dados.
Compreender o Caso de Uso de Negócios
Abaixo está a visão de alto nível de um sistema de avaliação de fundos que usa um sistema de contabilidade legado para fornecer os dados de avaliação em lotes para um data mart.
O data mart também obtém dados de referência de lote de outras origens de dados de referência. O data mart envia os dados de avaliação do fundo em lotes para os sistemas de downstream no workflow.
Como o preço é feito da maneira estática, geralmente no final do dia, o sistema legado, mesmo quando todos os sistemas estão funcionando bem, ele não é tão responsivo quanto os usuários precisam.
Por exemplo, no segundo trimestre de 2022, quando havia extrema volatilidade no mercado, todos os grupos de usuários estavam em alerta alto, e todos queriam saber o preço e o valor de mercado mais recentes para que pudessem identificar as posições de retenção ao longo do dia. Capturar o preço mais recente e obter o valor de mercado em tempo real foi uma grande solicitação para o sistema de avaliação de fundos tradicional.
Para capturar o preço mais recente e obter o valor de mercado em tempo real, o sistema de contabilidade legado deve capturar o preço mais recente, enviar os dados para o data mart e repetir os fluxos de trabalho em lote várias vezes por dia, o que não é responsivo o suficiente nem sustentável.
Compreender a Solução
A solução não requer alterações no sistema legado, que continua a publicar dados de avaliação em lote como sempre.
Os preços e as taxas de câmbio em tempo real são capturados de seus respectivos fluxos e aplicados aos preços para encontrar o valor de mercado em moedas diferentes.
Uma arquitetura do Oracle Cloud Infrastructure sem servidor fornece suporte para dados em lote e em tempo real. Os dados de lote incluem um fluxo de instantâneo para dados de referência de portfólio, delta incremental e fluxo de captura de dados de alteração (CDC) para dados de avaliação. Os dados em tempo real incluem fluxos de preços e de taxas de câmbio. A arquitetura inclui um processo para agrupar dados em lote e em tempo real para obter o preço em tempo real, o valor de mercado na moeda base e o valor de mercado em moedas estrangeiras.
Exemplo de Arquitetura
O diagrama abaixo mostra uma arquitetura moderna da plataforma de dados inspirada no cliente no Oracle Cloud Infrastructure (OCI).
Essa arquitetura pode ser usada em casos de uso financeiro, como aqueles para obter insights de fundos em tempo real, detectar negociações anômalas e para limpeza, agregação e visualização de dados financeiros em geral.
oci-fund-lakehouse-arch-oracle.zip
Uma das características centrais desta arquitetura é o seu data lakehouse multicamadas. Ele consiste em três níveis distintos de tratamento de dados no data lake, Oracle Autonomous Data Warehouse (ADW) para warehousing estruturado, Oracle Cloud Infrastructure Data Catalog para metadados e governança, e Data Flow para processamento e transformação de big data usando jobs do Spark.
O data lake de bronze é o primeiro destino de dados em um formato que geralmente é bruto ou próximo a ele. Isso inclui dados que residem na OCI e dados de plataformas de terceiros. O Oracle Data Integration (ODI) é uma das ferramentas usadas para essa integração.
O aplicativo do serviço Data Flow trata a maior parte da transformação e limpeza de dados bronze para prata. O Oracle Cloud Infrastructure Vision extrai texto de imagens de fax com tecnologia OCR (optical Character Recognition). Os dados de saída (texto) da Vision são enviados do lago bronze para o lago prateado com a ajuda do Oracle Functions.
O serviço Data Flow executa transformação de dados adicionais da camada Silver Lake para o gold data lake, onde os dados são carregados para ADW, que, por sua vez, fornece ferramentas de análise e visualização do Oracle Analytics Cloud e de terceiros.
A arquitetura inclui os seguintes recursos adicionais:
- As notificações comerciais anômalas são fornecidas usando o OCI Streaming e o OCI Notifications, integrados usando o OCI Service Connector Hub.
- A análise de streaming é fornecida para insights de fundos em tempo real enviando dados do OCI Streaming para o OCI Search Service com o OpenSearch usando o Kafka Connect. OpenSearch Os painéis, um componente integrado do Serviço de Pesquisa do OCI, podem fornecer visualização direta de dados OpenSearch.
- Os cientistas de dados podem explorar o data lakehouse usando a OCI Data Science, uma plataforma totalmente gerenciada e sem servidor que você pode usar para consultar ADW, Object Storage, nuvens de terceiros e sistemas locais devidamente conectados.