Plataforma de Dados - Plataforma de Dados Descentralizada
Use um data lakehouse para coletar e analisar dados de eventos e streaming de dispositivos em tempo real e correlacioná-los com uma ampla gama de recursos de dados corporativos para obter os insights desejados.
Qual a melhor forma de dar suporte e capacitar as várias equipes de sua organização, como marketing, finanças ou logística, com a flexibilidade de trabalhar com seus dados específicos de domínio, além de permitir o compartilhamento e o consumo seguros de dados entre domínios sem duplicar dados e criar silos de dados?
Adote uma arquitetura de dados orientada por domínio que forneça às equipes e departamentos de toda a organização a agilidade e a flexibilidade necessárias para usar com eficiência seus dados e desenvolver os produtos de dados essenciais para seus negócios.
Essa arquitetura de referência posiciona a solução de tecnologia dentro do contexto geral de negócios, onde as intenções estratégicas impulsionam a criação de resultados estratégicos mensuráveis. Esses resultados geram novas intenções estratégicas, oferecendo efetivamente melhorias de negócios contínuas e orientadas por dados.
Cada domínio segue independentemente o processo de alto nível mostrado acima para criar seus produtos de dados de domínio. As arquiteturas de dados orientadas por domínio fornecem a flexibilidade que as organizações exigem, evitando a dependência de um único ponto de discórdia, como uma plataforma de dados totalmente centralizada e uma equipe de TI, e promovendo a inovação ágil para produzir produtos de dados confiáveis em cada domínio.
visão geral da plataforma de dados descentralizada-oracle.zip
O objetivo de cada domínio é adquirir dados relacionados ao domínio e, em seguida, produzir produtos de dados que são consumidos por outros domínios ou consumidores finais de dados.
Os domínios podem ser:
- Alinhado à origem: obtém dados diretamente de origens de dados de domínio relevantes, como aplicativos empresariais, e produz produtos de dados que são consumidos por domínios agregados ou alinhados ao consumidor. Esses produtos de dados representam a origem da verdade para um domínio específico. Os dados são granulares, selecionados e fundamentais dentro e entre domínios.
- Agregar: Consome e combina dados alinhados à origem, criando produtos de dados agregados e de valor agregado que promovem a reutilização, reduzem a duplicação e compreendem a lógica de negócios fundamental necessária aos domínios alinhados ao consumidor.
- Alinhado ao consumidor: Consome dados de domínios agregados e alinhados à origem para criar produtos de dados que atendam a casos de uso específicos e atendam às necessidades do consumidor de dados em um determinado domínio.
As equipes de domínio de dados e seus especialistas no assunto (PMEs) têm a flexibilidade de escolher a tecnologia necessária para selecionar seus produtos de dados, reduzindo o atrito e a complexidade dos longos processos de seleção de tecnologia e reduzindo o tempo para entregar produtos de dados.
A tecnologia escolhida geralmente é determinada em nível empresarial para que ela atenda aos requisitos de segurança, escalabilidade, resiliência e alta disponibilidade. Essa arquitetura pressupõe que qualquer serviço do Oracle Cloud Infrastructure (OCI) usado com um data lakehouse possa ser aproveitado por qualquer domínio.
As equipes de domínio de dados geralmente usam automação para implantar arquétipos de domínio, disponibilizando tecnologias pré-configuradas para integrar rapidamente novos domínios, garantindo que os requisitos de nível empresarial, como segurança, sejam aplicados.
Depois que eles são criados, os produtos de dados são fornecidos para outros domínios ou usuários finais e aplicativos. Os produtos de dados são continuamente selecionados para fornecer informações e insights.
- Conjuntos de dados
- APIs
- Dashboards
- Fluxos
- Modelos de IA e machine learning (ML) que atendem a uma necessidade específica
Essa arquitetura de referência usa principalmente o compartilhamento de dados como o mecanismo subjacente para fornecer e consumir produtos de dados entre domínios.
O Oracle Autonomous Data Warehouse permite o compartilhamento de dados e permite o compartilhamento ao vivo de dados entre instâncias do Autonomous Data Warehouse ou com dados com controle de versão de qualquer tecnologia compatível com o protocolo aberto Delta Sharing.
Arquitetura Funcional
Esta arquitetura representa uma plataforma descentralizada onde cada domínio é um subconjunto da plataforma de dados geral e onde cada domínio pode escolher as tecnologias e serviços usados.
A arquitetura usa um data lakehouse para armazenar e fornecer dados, independentemente de sua forma ou forma. Por uma questão de simplicidade, a arquitetura representará alguns domínios que usam um subconjunto dos serviços de data lakehouse disponíveis.
Uma plataforma de dados descentralizada que usa uma arquitetura de data lakehouse fornece:
- Uma arquitetura de lakehouse interoperável e modular na qual os domínios de dados podem ingerir e selecionar qualquer tipo de dados para qualquer caso de uso
- Flexibilidade para que cada domínio de dados use os serviços da Oracle Cloud Infrastructure (OCI) necessários para dar suporte à criação de seus produtos de dados
- Curadoria de produtos de dados que podem ser compartilhados com segurança usando compartilhamento de dados, streaming, APIs, painéis de controle ou aplicativos
- Agilidade na criação de produtos de dados, reduzindo as dependências entre domínios, exceto as necessárias para a troca de produtos de dados
- Aumento do isolamento do domínio de dados e redução da complexidade do intercâmbio de dados usando mecanismos e contratos de intercâmbio de dados aceitos para trocar dados entre domínios
- Maior governança de dados e confiança de dados porque especialistas experientes em assuntos (SMEs) selecionam dados e produtos de dados para seus domínios
- Facilidade de integração de novos domínios de dados usando infraestrutura como código (IaC) para automatizar a implantação usando pilhas Terraform pré-construídas e testadas
- Eficiência de recursos e custos como equipes de domínio de dados dimensionam corretamente os serviços específicos que usam para criar produtos de dados
- Responsabilidade de custos apropriada para cada domínio de dados com a opção de controle de custos detalhado dentro dos domínios específicos
O diagrama a seguir ilustra a arquitetura funcional. Para simplificar, apenas quatro domínios de dados são mostrados e apenas alguns dos recursos de data lakehouse que podem ser usados por domínios de dados são mostrados.
descentralizada-data-platform-logical-oracle.zip
Como o setor e a organização específicos que implantam uma plataforma de dados descentralizada determinam os domínios de dados, essa arquitetura de referência não prescreve como os domínios de dados devem ser definidos. Os domínios de dados representados são apenas um exemplo.
A arquitetura concentra-se nas seguintes divisões lógicas usadas por todos os domínios:
- Conexão, Ingestão, Transformação
Conecta-se a fontes de dados e ingere e refina seus dados para uso em cada uma das camadas de dados na arquitetura.
Os domínios de dados alinhados à origem obtêm dados de origens de dados internas e externas e de outros domínios que consomem seus produtos de dados. Domínios de dados agregados e alinhados ao consumidor geralmente obtêm seus dados de outros produtos de dados de domínios. Todos os domínios podem obter dados de domínio relevantes de origens externas.
- Persistir, Curar, Criar
Facilita o acesso e a navegação dos dados para mostrar a exibição de negócios atual. Para tecnologias relacionais, os dados podem ser lógica ou fisicamente estruturados em formas relacionais, longitudinais, dimensionais ou OLAP simples. Para dados não relacionais, essa camada contém um ou mais pools de dados, saída de um processo analítico ou dados otimizados para uma tarefa analítica específica.
Nessa camada, cada domínio de dados seleciona os dados que eles usam para criar e expor produtos de dados. Normalmente, os dados são curados e organizados usando uma arquitetura de medalhão que promove dados de bronze, prata, ouro, de acordo com seu valor e qualidade.
Os produtos de dados geralmente fornecem dados que estão na camada de ouro ou prata. Se o produto de dados serve dados granulares, esses dados são servidos a partir da camada de prata. Se o produto de dados fornecer dados agregados ou já for um conjunto de dados aumentado, esses dados geralmente serão fornecidos a partir da camada gold.
- Analise, Aprenda, Preveja
Abstrai a visão lógica de negócios dos dados para os consumidores. Essa abstração facilita abordagens ágeis de desenvolvimento, migração para a arquitetura de destino e o fornecimento de uma única camada de relatórios de várias origens de dados.
Cada domínio de dados geralmente tem seus próprios consumidores de dados, como usuários de domínio, aplicativos ou sistemas que consomem dados selecionados na forma de painéis, aplicativos de dados, streaming ou APIs.
Os domínios de dados podem servir produtos de dados para outros domínios de dados e dentro de seu próprio domínio como uma maneira de organizar o compartilhamento de dados entre projetos.
A arquitetura tem as seguintes características funcionais:
- Quatro domínios de dados são representados. Cada domínio seleciona dados específicos desse domínio, cria produtos de dados com base nesses dados selecionados e, em seguida, compartilha esses produtos de dados para outros domínios dentro da organização ou para entidades externas.
- Os domínios podem obter dados de fontes de dados internas, produtos de dados selecionados por outros domínios ou dados compartilhados por entidades externas.
- Os domínios Cliente e Finanças são domínios alinhados à origem que ingerem e fazem a curadoria de dados de sistemas internos, têm seus próprios usuários e fazem a curadoria de produtos de dados para servir a outros domínios.
- O domínio Risco é um domínio agregado que obtém dados dos domínios Cliente e Finanças para obter perfis de Cliente e transações financeiras aumentadas, respectivamente. Esses dados são usados para criar e treinar modelos de risco de machine learning (ML) e indicadores-chave de desempenho (KPIs) usados por painéis e compartilhados com o domínio Marketing.
- O domínio Marketing é um domínio alinhado ao consumidor que obtém exclusivamente os perfis do Cliente e os dados de Propensão de Risco dos domínios Cliente e Risco. Esse domínio cria modelos de ML de segmentação que determinam as melhores ofertas personalizadas. Eles são disponibilizados para aplicativos internos usando APIs de inferência e os resultados de inferência em lote são compartilhados como um produto de dados para parceiros que executam campanhas de saída.
- Todos os domínios compartilham um catálogo de dados comum que contém informações sobre seus ativos de dados, entidades de dados e glossários de negócios.
- Cada equipe de domínio de dados e seus proprietários de produtos de dados mantêm seus objetos de catálogo de dados específicos. O isolamento de segurança é garantido usando políticas do Oracle Cloud Infrastructure Identity and Access Management que definem qual equipe pode gerenciar quais entidades do catálogo de dados.
- As entidades comuns do catálogo de dados, como termos do glossário de negócios usados em toda a organização, são mantidas por um órgão de governança de dados composto por todos os proprietários de produtos de domínio.
- Os produtos de dados são marcados no catálogo de dados para que sejam pesquisáveis, contenham sua própria semântica e estejam relacionados ao glossário de negócios.
- O compartilhamento de dados é usado para compartilhar produtos de dados ativos ou com controle de versão entre domínios. A escolha de usar produtos de dados ativos ou com controle de versão depende de cada produto de dados e caso de uso.
Os principais componentes funcionais da arquitetura são:
- Domínios alinhados à origem: Cliente e Finanças
Esses domínios se concentram na curadoria de dados de clientes e finanças derivados de dados estruturados e não estruturados.
O domínio Cliente usa os seguintes recursos para criar um produto de dados Perfis do Cliente:
- Ingestão em Lote (Oracle Cloud Infrastructure Data Integration): Ingere dados de aplicativos de CRM, site e voltados para o cliente.
- Processamento em Batch (Oracle Cloud Infrastructure Data Integration, Oracle Cloud Infrastructure Data Flow): Processa dados estruturados e não estruturados usando ELT de baixo código, ETL centrado em código ou ambos, para criar os produtos de dados Perfis do Cliente.
- Servindo (Oracle Autonomous Data Warehouse): Seleciona e fornece dados de Perfis de Cliente para os domínios Risco e Marketing.
- Cloud Storage/Data Lake (Oracle Cloud Infrastructure Object Storage): Armazena documentos, contratos ou formulários do cliente.
- Visualize/Aprenda (Oracle Analytics Cloud): Atende a análises aumentadas de usuários finais de domínio, incluindo KPIs relacionados ao cliente, como valor de tempo de vida (LTV), taxa de retenção, pontuação de satisfação do cliente (CSAT) e pontuação líquida do promotor (NPS).
- Serviços de IA e IA Generativa: O Oracle Cloud Infrastructure Document Understanding extrai dados de formulários e documentos do cliente e o Oracle Cloud Infrastructure Language processa dados de texto e os enriquece com análise de sentimento, reconhecimento de entidade nomeada ou classificação de texto.
O domínio Finanças usa os seguintes recursos para criar um produto de dados de Transações Financeiras Aumentadas:
- Ingestão em Tempo Real (Oracle Cloud Infrastructure GoldenGate): Captura transações financeiras do sistema bancário principal quase em tempo real e de maneira não intrusiva.
- Processamento em Lote (Transformações de Dados do Oracle Cloud Infrastructure): Usando o ELT de baixo código, ele valida, molda e transforma dados brutos em um produto de dados selecionado, categorizando e aumentando dados de transações financeiras com categorias de gastos, detalhes do comerciante ou dados de localização.
- Servindo (Oracle Autonomous Data Warehouse): Contém dados selecionados e fornece Transações Aumentadas para o domínio Risco.
- Cloud Storage/Data Lake (Oracle Cloud Infrastructure Object Storage): Armazena formulários relacionados a finanças que são referenciados nos registros de transações financeiras armazenados no Oracle Autonomous Data Warehouse.
- Domínio agregado: Risco
Este domínio se concentra na criação, treinamento e execução de modelos de machine learning para detectar riscos com base em dados internos, como perfis de clientes e transações aumentadas, e dados externos, como dados econômicos e macroeconômicos.
Este domínio tem PMEs especializadas em análise e prevenção de riscos e atende a todos os outros domínios que precisam de seus produtos de dados. O domínio tem usuários internos que consomem análise aumentada, mas a maioria de seu trabalho é compartilhar resultados de inferência em lote de machine learning. Por exemplo, a inferência em lote pode calcular a propensão de risco dos clientes que assinam serviços financeiros com base em seu estilo de vida e gastos e em fatores macroeconômicos, como crescimento da economia, inflação ou taxa de desemprego.
Este domínio usa os seguintes recursos para criar um produto de dados de propensão a riscos:
- Servindo (Oracle Autonomous Data Warehouse): Processa transformações e engenharia de recursos para alimentar os modelos de ML, bem como armazenar os resultados de inferência em lote e produzir KPIs relacionados ao risco. O domínio agregado Risco é um consumidor de perfis de clientes e dados de transações aumentadas, compartilhados pelos Domínios Cliente e Finanças, respectivamente. Ele fornece dados de propensão de risco para o domínio Marketing.
- Aprenda e Preveja (Oracle Cloud Infrastructure Data Science): Abrange todo o ciclo de vida das operações de machine learning, desde análise exploratória de dados, desenvolvimento de modelos, execução até melhoria contínua. Ele produz resultados de inferência em lote que são a base para os dados compartilhados de propensão ao risco.
- Domínio alinhado com o consumidor: Marketing
Este domínio se concentra na curadoria de dados para dar suporte a campanhas personalizadas e direcionadas. Ele usa dados compartilhados de outros domínios como entrada e fornece a segmentação e os dados da próxima melhor oferta em tempo real usando inferências baseadas em API e compartilhando dados com parceiros de marketing de 3 partes que executam campanhas e compartilham de volta os resultados da execução da campanha.
Este domínio usa os seguintes recursos para criar produtos de dados de segmentação de campanha:
- Processamento em Batch (Transformações de Dados do Oracle Cloud Infrastructure): Processos e formas de dados consumidos dos compartilhamentos de dados. Ele também pode ser usado para replicar dados dos compartilhamentos de dados no Oracle Autonomous Data Warehouse.
- Servindo (Oracle Autonomous Data Warehouse): Armazena dados selecionados, informações da campanha, segmentos e ofertas direcionadas para uma determinada campanha.
- Cloud Storage/Data Lake (Oracle Cloud Infrastructure Object Storage): Armazena todos os dados não estruturados usados pelo domínio.
- Visualize/Aprenda (Oracle Analytics Cloud): Atende a análises aumentadas de usuários finais de domínio, como destinos de campanha e KPIs de execução.
- Aprenda e Preveja (Oracle Machine Learning): Abrange todo o ciclo de vida das operações de machine learning, desde a análise exploratória de dados até a implantação de modelos. Os usuários aproveitam o AutoML para acelerar a criação e o treinamento de modelos. Dependendo das campanhas, os resultados do modelo de inferência em lote são atendidos usando o compartilhamento de dados para parceiros externos que executam as campanhas ou são atendidos por meio de implantações do Oracle Machine Learning para inferência em tempo real chamada por aplicativos voltados para o cliente.
- API (Oracle Cloud Infrastructure API Gateway): Protege e controla os pontos finais da API de implantação do Oracle Machine Learning.
- Shared services
Os serviços usados por todos os domínios para governança e segurança de dados incluem:
- Governança de Dados (Oracle Cloud Infrastructure Data Catalog): Cataloga o glossário de negócios e todas as entidades de dados de domínio, categorizando quais são produtos de dados para que possam ser descobertos.
- Segurança de Dados (Oracle Data Safe, OCI Audit, OCI Logging, OCI Vault): Aumenta a postura de segurança de todos os domínios.
Variante de Arquitetura: Implantação Compartilhada
É possível ter uma plataforma descentralizada em execução em uma plataforma de dados compartilhados, em que um conjunto comum de instâncias de serviço suporta as diferentes equipes de domínio de dados.
A arquitetura principal permite o mais alto nível de isolamento e flexibilidade para cada domínio e é altamente escalável para abordar plataformas de dados descentralizadas com um grande número de domínios. Os requisitos para uma plataforma de dados descentralizada podem variar e, para casos de uso específicos, uma variante de padrão de arquitetura diferente pode ser mais adequada.
O diagrama a seguir mostra uma variação de implantação compartilhada do padrão de plataforma distribuída.
variável descentralizada-compartilhada-oracle.zip
Uma única instância do Oracle Autonomous Data Warehouse é compartilhada entre todos os domínios, que são isolados usando acesso baseado em atribuição (RBAC) e diferentes esquemas. Os dados que residem no lake também são isolados para cada domínio usando políticas do Oracle Cloud Infrastructure Identity and Access Management e compartimentos distintos. Os produtos de dados são selecionados em seus respectivos esquemas, catalogados e compartilhados usando compartilhamento ao vivo e com controle de versão.
Para ingestão e processamento de dados, os Domínios A e B usam as mesmas instâncias e aplicativos do Oracle Cloud Infrastructure Data Integration e do Oracle Cloud Infrastructure Data Flow. Os domínios C e D têm requisitos muito específicos para ingestão e processamento de dados e, portanto, têm instâncias separadas.
A mesma lógica se aplica à camada de consumo em que os Domínios A e B compartilham uma única instância de nuvem de análise, segregada usando RBAC, enquanto os Domínios C e D usam suas próprias instâncias de serviços.
Também é possível usar uma solução híbrida; em vez de ter uma única instância para todos os domínios ou uma instância por domínio, alguns domínios podem estar usando uma instância compartilhada, enquanto outros têm uma instância dedicada.
Essa solução híbrida geralmente é orientada por requisitos diferentes dos funcionais, como requisitos de desempenho, segurança, alta disponibilidade ou recuperação de desastres mais exigentes para alguns domínios e exigem instâncias separadas para atender a esses requisitos, sem afetar negativamente as cargas de trabalho de outros domínios.
Variante de Arquitetura: Hub e Spoke
Muitas vezes, grandes organizações com subsidiárias em diferentes regiões e países precisam executar suas plataformas de dados de forma independente, sem uma plataforma de dados centralizada que atenda a todas as cargas de trabalho subsidiárias, enquanto ainda precisam compartilhar dados com a sede para visibilidade global e principais indicadores de desempenho (KPIs).
Uma plataforma de dados descentralizada é uma boa solução para esse cenário, onde há um hub (a sede) e vários porta-vozes (as subsidiárias) que precisam trocar dados de forma segura e eficiente.
Essa variante usa a geografia como exemplo para um padrão hub e spoke, mas o mesmo padrão também pode ser aplicado a outros exemplos, como uma holding e suas subsidiárias.
Os porta-vozes podem ser implantados na mesma tenancy do hub ou em tenancies diferentes.
O diagrama a seguir mostra um hub e os vários porta-vozes implantados em diferentes regiões e que usam compartilhamentos com controle de versão, ativados pelo protocolo Delta Sharing, para trocar dados. Este diagrama mostra apenas os componentes funcionais do mecanismo de serviço. O resto da arquitetura funcional é semelhante ao mostrado na arquitetura funcional primária.
variante descentralizada-hub-spoke-oracle.zip
Como os dados são trocados com segurança e transmitidos entre regiões pela Internet, você deve levar em consideração a latência. Se os produtos de dados compartilhados entre os porta-vozes e o hub forem conjuntos de dados agregados e KPIs, e não grandes volumes de dados granulares, esse padrão será simples de implantar, manter e operar.
Uma abordagem alternativa é usar Links na Nuvem do Oracle Autonomous Database que permitem o compartilhamento contínuo de dados entre instâncias, mesmo que estejam em outras regiões.
Para compartilhamento de dados entre regiões, a instância do Oracle Autonomous Data Warehouse de origem deve ser clonada na região de destino para que possa ser acessada perfeitamente pela instância hub do Autonomous Data Warehouse. Os clones podem ser atualizados periodicamente, manual ou automaticamente, para que o hub Autonomous Data Warehouse possa consumir produtos de dados atualizados compartilhados pelos porta-vozes.
Como o hub provavelmente consumirá produtos de dados que são um subconjunto de todo o conjunto de dados selecionado pelos porta-vozes, os porta-vozes podem ter uma instância dedicada do Autonomous Data Warehouse apenas para manter os produtos de dados a serem compartilhados com o hub, otimizando o clone atualizável.
O tráfego de rede para clones atualizáveis é roteado por meio do backbone da Oracle e tem menor latência e maior largura de banda ao mover produtos de dados grandes que residem nas instâncias do Autonomous Data Warehouse spoke.
A escolha entre usar compartilhamentos com controle de versão ou links na nuvem é influenciada principalmente pelo desempenho e custo, em vez de pelos requisitos funcionais.
Independentemente da opção usada, o hub e os raios têm sua própria plataforma de dados local que poderia usar a abordagem descentralizada mostrada nesta arquitetura.
Variante de Arquitetura: Ecossistema de Dados Heterogêneos
Você pode, no entanto, usar a mesma arquitetura para suportar um ecossistema de dados heterogêneo com diferentes organizações compartilhando dados usando diferentes tecnologias e para diferentes fins.
Os casos de uso podem incluir hospitais que compartilham dados anônimos com universidades para fins de pesquisa ou fornecedores que compartilham dados de peças com fabricantes de automóveis.
As organizações que usam o Oracle Autonomous Data Warehouse como mecanismo de serviço podem fornecer e consumir dados compartilhados de outras tecnologias que suportam o protocolo aberto Delta Sharing.
O Delta Sharing é uma boa opção para suportar ecossistemas de dados devido ao seu amplo suporte e à simplicidade pela qual fornece e consome dados com segurança.
Você também pode compartilhar dados usando outros mecanismos, como APIs ou streaming de dados.
Arquitetura Física
A arquitetura física dessa plataforma de dados descentralizada suporta o seguinte:
- Isolamento de domínio usando compartimentos e políticas do Oracle Cloud Infrastructure Identity and Access Management em que as respectivas equipes só estão autorizadas a usar e implantar recursos de nuvem em seu compartimento
- Implantação de domínio em suas respectivas VCNs de carga de trabalho para um nível de isolamento mais alto e maior postura de segurança
- Processos de ingestão, armazenamento, processamento e atendimento de dados gerenciados por equipes de domínio usando recursos de nuvem implantados em seus compartimentos e VCNs
- Suporte para requisitos não funcionais, como escalabilidade, alta disponibilidade, recuperação de desastres, segurança e objetivos de nível de serviço (SLOs), porque cada equipe de domínio usa recursos de nuvem separados de acordo com seus requisitos de domínio específicos
- Controle de custos refinado para cada uso de recursos de nuvem de domínio
- Tráfego de ponta a ponta totalmente seguro e privado usando pontos finais privados e instâncias implantadas em sub-redes privadas
Também é possível ter alguns serviços implantados com pontos finais públicos em uma base por domínio, aderindo às regras de segurança corporativa.
- Compartilhamento de dados ativado pelo Oracle Autonomous Data Warehouse usando compartilhamentos ao vivo ou com controle de versão e se fornecerá dados atualizados ou com controle de versão, dependendo do caso de uso
- Catálogo de dados centralizado para todos os domínios, com as subentidades do catálogo de dados isoladas por domínio usando políticas do Oracle Cloud Infrastructure Identity and Access Management, exceto para produtos de dados que precisam ser detectáveis
- Implantação altamente escalável, pois cada novo domínio pode ser integrado usando a infraestrutura como automação de código (IaC) sem afetar os domínios de dados existentes
O diagrama a seguir ilustra essa arquitetura de referência.
descentralizado-data-platform-physical-oracle.zip
O diagrama de arquitetura física descreve dois domínios para exemplificar como a rede e os serviços em nuvem são estabelecidos para cada domínio. Normalmente, todas as redes e compartimentos de domínio são iguais, a menos que haja uma exceção orientada por requisitos específicos e não funcionais.
O design para a arquitetura física:
- Utiliza uma VCN hub e uma VCN para cada domínio de dados que contém a carga de trabalho desse domínio
- Aproveita a conectividade on-premises usando o Oracle Cloud Infrastructure FastConnect e a VPN site a site para redundância
- Roteia todo o tráfego de entrada do local e da internet primeiro para a VCN hub e, em seguida, para as VCNs de carga de trabalho do domínio de dados
- Protege todos os dados em trânsito e em repouso
- Implanta serviços com pontos finais privados para aumentar a postura de segurança
- Divide VCNs em várias sub-redes privadas para aumentar a postura de segurança
- Fornece um compartimento para cada domínio para isolamento de recursos
- Usa um gateway de roteamento dinâmico (DRG) para que os recursos da nuvem suportem tráfego de entrada e saída para outras VCNs de domínios
- Coloca instâncias do Autonomous Data Warehouse na sub-rede privada de dados para maior segurança, mas pode fornecer e consumir compartilhamentos ativos e com controle de versão de outras instâncias do Autonomous Data Warehouse de domínio se forem estabelecidas rotas para permitir esse tráfego
As possíveis melhorias de design não descritas nesta implantação para simplificar incluem:
- Aproveitando uma zona de destino completa em conformidade com o CIS
- Implantando um firewall de rede na VCN hub para melhorar a postura de segurança geral inspecionando todo o tráfego e impondo políticas
Recomendações
Use as recomendações a seguir como ponto de partida para compartilhar dados com segurança. Seus requisitos podem ser diferentes da arquitetura descrita aqui.
Oracle Autonomous Data Warehouse
Essa arquitetura usa o Oracle Autonomous Data Warehouse em infraestrutura compartilhada.
- Use uma arquitetura de medalhão para o lakehouse e crie produtos de dados com base nas camadas de prata (granular, aumentada) e ouro (enriquecida, agregada).
- Considere o compartilhamento de produtos de dados usando o Autonomous Data Warehouse com seu suporte nativo para compartilhamento de dados heterogêneos para fornecer uma arquitetura mais simples, segura e confiável.
- Considere o compartilhamento de dados externos, expostos no Autonomous Data Warehouse como tabelas externas ou tabelas híbridas, para se beneficiar dos recursos de segurança do compartilhamento em versão ou em tempo real.
- Considere a criação de views para suas tabelas de produtos de dados para diferenciar os objetos base (tabelas) dos objetos compartilhados (views).
- Para aumentar a segurança ao compartilhar dados com compartilhamentos ao vivo, considere o uso de espaço de nome e valores de nome diferentes dos esquemas e tabelas subjacentes para ocultar nomes de objetos internos.
- Para aumentar a segurança ao usar o compartilhamento ao vivo com links de nuvem, peça ao administrador de registro do conjunto de dados que defina o escopo de conjunto de dados mais restritivo para seus casos de uso.
- Ao usar o compartilhamento ao vivo com links de nuvem, considere ativar o armazenamento em cache para melhorar o desempenho da consulta do consumidor de dados.
- Ao usar o compartilhamento ao vivo com links de nuvem com um grande volume de produtos de dados, considere descarregar as consultas em clones atualizáveis para melhorar o desempenho do consumidor de dados e a segregação da carga de trabalho.
- Se você tiver um grande número de instâncias do Autonomous Data Warehouse de domínio ou se os requisitos de computação da sua instância forem altos, considere consolidá-los em um pool elástico.
OCI Object Storage
Essa arquitetura usa o Oracle Cloud Infrastructure Object Storage altamente escalável e durável como armazenamento no lake.
Considere o uso de vários compartimentos granulares para organizar os domínios de dados e as equipes dentro dos domínios de dados para ajudar a segregar suas cargas de trabalho com as políticas do Oracle Cloud Infrastructure Identity and Access Management.
Oracle Cloud Infrastructure Data Catalog
Essa arquitetura usa o Oracle Cloud Infrastructure Data Catalog para gerenciar metadados técnicos, comerciais e operacionais para produtos de dados para que eles sejam auto-descobertos.
- Considere o uso de uma única instância do catálogo de dados para todos os domínios para centralizar a governança de metadados e produtos de dados
- Considere conceder acesso de gerenciamento a usuários de domínio apenas para seus ativos de dados
- Considere conceder acesso de leitura a todos os usuários para que eles possam encontrar produtos de dados mantidos em toda a organização
- Considere o uso de propriedades personalizadas para enriquecer metadados operacionais com propriedades como proprietário do produto de dados, disponibilidade, data da última atualização, versão etc.
Implantação de domínios de dados
Essa arquitetura usa o padrão Data Lakehouse e os serviços OCI disponíveis para oferecer suporte a dados, análises e cargas de trabalho de IA de ponta a ponta.
- Considere a segregação de domínios usando VCNs separadas para cada domínio para aumentar a postura de segurança e a flexibilidade do domínio ao implantar recursos de nuvem.
- Considere segregar os diferentes serviços do OCI que cada domínio usa, aproveitando compartimentos e políticas do serviço IAM.
Compartilhamento de produtos de dados
- Se você precisar fornecer produtos de dados usando APIs, considere o uso do Oracle REST Data Services.
- Se você compartilhar produtos de dados usando o Oracle REST Data Services, considere o uso do Oracle Cloud Infrastructure API Gateway para proteger as APIs.
- Se você precisar transmitir produtos de dados, considere o uso do Oracle Cloud Infrastructure GoldenGate e do Oracle Cloud Infrastructure Streaming.
Explorar Mais
Saiba mais sobre os recursos desta arquitetura e sobre arquiteturas relacionadas.