Plataforma de Dados - Federação de Dados

Uma arquitetura de data lakehouse ajudará você a coletar e analisar efetivamente dados de eventos e dados de streaming de dispositivos em tempo real e correlacioná-los com uma ampla gama de recursos de dados corporativos para aproveitar seu investimento em dados e obter os insights desejados.

Mas como você correlaciona dados em seu data lakehouse com dados que residem em suas origens de dados heterogêneas ou que são implantados em outras nuvens ou sistemas locais, sem a necessidade de duplicar dados?

A resposta é aproveitar uma abordagem de federação de dados que combina seus dados de data lakehouse com dados federados de armazenamentos de nuvem de terceiros e dados de bancos de dados na nuvem e on-premises, independentemente de sua localização física.

Essa arquitetura de referência posiciona a solução de tecnologia dentro do contexto geral de negócios:



A federação de dados é uma técnica que permite integração, unificação e governança de dados armazenados em diferentes armazenamentos de dados usando um mecanismo de consulta federada que converte uma única consulta em subconsultas que são enviadas para os armazenamentos de dados de origem. Os resultados são então mesclados e apresentados ao usuário ou aplicativo, conforme descrito abaixo.



visão geral da plataforma de dados-federação-oracle.zip

Muitas vezes, a federação de dados é intercambiada com a virtualização de dados. A virtualização de dados cria uma visão unificada dos dados de várias fontes sem duplicar os dados e serve dados novos em tempo real.

Para os fins desta arquitetura de referência, o termo federação de dados é usado, embora os recursos descritos abaixo abordem tanto a federação quanto a virtualização.

O uso da federação de dados simplifica o acesso aos dados para os consumidores, como mecanismos de análise e ciência de dados, conectando-os a um mecanismo de serviço federado em vez de a várias fontes de dados, aumentando assim a reutilização, governança e segurança dos dados federados.

Os mecanismos de análise tradicionalmente oferecem recursos de federação de dados que podem ser usados como complemento ao mecanismo de serviço federado. Normalmente, os mecanismos de serviço de dados federados têm mais recursos para aumentar o desempenho e a escalabilidade de endereços, o que beneficia implicitamente esses mecanismos de análise.

Este documento descreve uma possível solução para federação de dados no Oracle Cloud Infrastructure, mas pode haver alternativas que usam diferentes tecnologias para diferentes cenários.

Arquitetura Funcional

Essa arquitetura usa um data lakehouse para armazenar e trabalhar com dados, independentemente de sua forma ou forma. No centro dessa arquitetura está o data warehouse implantado no Oracle Autonomous Data Warehouse.

Além disso, a arquitetura usa um mecanismo de consulta unificado para federar dados selecionados de fontes selecionadas com os dados no lakehouse. Os dados federados são obtidos usando mecanismos como tabelas externas, links de banco de dados e compartilhamento de dados, dependendo do armazenamento de dados.

Uma arquitetura de federação que combina dados de lakehouse e armazenamentos de dados existentes permite:

  • Unir todos os dados, independentemente de onde estejam armazenados
  • Ofereça suporte a uma plataforma de dados multinuvem e em nuvem híbrida que federe dados armazenados em outras nuvens e no local
  • Simplifique a experiência do consumidor de dados de obter e consultar dados de diferentes mecanismos
  • Aumente a segurança, pois um único modelo de segurança de dados pode ser aplicado no mecanismo de consulta federada
  • Aumente a governança usando um catálogo de dados que unifica metadados para entidades armazenadas no lakehouse e federadas com o mecanismo de consulta
  • Aumente o desempenho aproveitando a materialização de dados e o armazenamento em cache do banco de dados autônomo
  • Exponha dados unificados e selecionados para diferentes consumidores usando painéis de controle analíticos, interfaces SQL, pontos finais de API e compartilhamento de dados
  • Aproveite um banco de dados multimodelo como mecanismo de consulta federada

O diagrama a seguir ilustra a arquitetura funcional. Para simplificar, nem todas as capacidades do lakehouse são mostradas.



data-plataforma-federação-funcional-oracle.zip

Observe que essa arquitetura representa uma plataforma de dados federados que usa principalmente processamento em lote, mas pode ser aumentada com os recursos de data lakehouse em tempo real para processar dados de streaming.

O processamento de dados de streaming geralmente precisa consumir dados contextuais dentro de seus pipelines de dados. Os dados contextuais podem ser armazenados em diferentes origens de dados, mas um mecanismo de federação de dados que serve todos os dados contextuais para os pipelines de dados simplifica esses pipelines.

A arquitetura se concentra nas seguintes divisões lógicas:

Ingerir, Transformar

Sugere e refina os dados para uso em cada uma das camadas de dados na arquitetura.

Os dados federados são consumidos sob demanda de armazenamento em nuvem, bancos de dados e compartilhamentos de dados. Os dados não são transformados nesta camada porque já foram selecionados no armazenamento de dados de origem.

Persistência, Curadoria, Criação

Facilita o acesso e a navegação dos dados para mostrar a exibição de negócios atual. Para tecnologias relacionais, os dados podem ser estruturados lógica ou fisicamente em formulários relacionais, longitudinais, dimensionais ou OLAP simples. Para dados não relacionais, essa camada contém um ou mais pools de dados, saída de um processo analítico ou dados otimizados para uma tarefa analítica específica.

Essa camada contém o mecanismo de serviço federado que unifica e atende dados que residem no data warehouse, no data lake e nas origens de dados federadas. Ele oferece a capacidade de consultar dados federados sob demanda e materializar dados federados para melhorar o desempenho da consulta.

O mecanismo de federação oferece a capacidade de fornecer dados usando SQL, APIs REST ou compartilhamento de dados, o que aumenta a interoperabilidade e simplifica a conectividade, à medida que os consumidores de dados se conectam a um único mecanismo de serviço em vez de a vários armazenamentos de dados.

Analise, Aprenda, Preveja

Resume a visão lógica de negócios dos dados para os consumidores. Essa abstração facilita abordagens ágeis de desenvolvimento, migração para a arquitetura de destino e fornecimento de uma única camada de relatórios de várias origens federadas.

Essa camada aproveita o mecanismo de serviço para obter dados federados que podem ser aumentados ainda mais com os conectores de dados disponíveis nessa camada e fornecidos pelos serviços de visualização ou ciência de dados.

O uso de um mecanismo de consulta federada permite que o acesso do consumidor de dados seja abstraído dos armazenamentos de dados subjacentes, aumentando a produtividade à medida que os dados são federados uma vez e consumidos por muitos consumidores de dados. Isso também torna o sistema mais interoperável, pois qualquer consumidor que possa interoperar com SQL, APIs REST ou compartilhamento de dados pode usar e ingressar no lakehouse e em dados federados.

A arquitetura tem os seguintes componentes funcionais:

Ingestão de Lote

A ingestão em lote é útil para dados que não podem ser ingeridos em tempo real ou que são muito caros para se adaptar à ingestão em tempo real. Também é importante transformar dados em informações confiáveis e confiáveis que podem ser curadas e persistidas para consumo regular.

A Ingestão de Batch complementa o mecanismo de federação de dados, pois ele pode ingerir dados aos quais o mecanismo de federação não tem acesso nativo ou para casos de uso específicos em que os dados precisam ser transformados para se adequarem ao modelo de dados do lakehouse.

Você pode usar os serviços a seguir juntos ou de forma independente para obter um fluxo de trabalho de integração e transformação de dados altamente flexível e eficaz.

  • O Oracle Cloud Infrastructure Data Integration é um serviço totalmente gerenciado, sem servidor e nativo da nuvem que extrai, carrega, transforma, limpa e remodela dados de várias origens de dados para os serviços de destino do Oracle Cloud Infrastructure, como Autonomous Data Warehouse e Oracle Cloud Infrastructure Object Storage. O ETL (extract transform load) aproveita o processamento de expansão totalmente gerenciado no Spark, e o ELT (extract load transform) aproveita os recursos completos de push-down de SQL do Autonomous Data Warehouse para minimizar a movimentação de dados e melhorar o tempo de retorno dos dados recém-ingeridos. Os usuários projetam processos de integração de dados usando uma interface de usuário intuitiva e sem código que otimiza fluxos de integração para gerar o mecanismo e a orquestração mais eficientes, alocando e dimensionando automaticamente o ambiente de execução. O Oracle Cloud Infrastructure Data Integration fornece exploração interativa e preparação de dados e ajuda os engenheiros de dados a se protegerem contra divergências de esquema definindo regras para tratar alterações de esquema.

  • O Oracle Data Integrator fornece integração de dados abrangente, de cargas de lote de alto volume e alto desempenho, a processos de integração orientados a eventos e infiltrados, a serviços de dados habilitados para SOA. Uma abordagem de design declarativo garante desenvolvimento e manutenção mais rápidos e simples e fornece uma abordagem exclusiva para extrair transformação de carga (ELT) que ajuda a garantir o mais alto nível de desempenho possível para processos de transformação e validação de dados. As transformações de dados da Oracle usam uma interface da Web para simplificar a configuração e a execução do ELT e para ajudar os usuários a criar e programar dados e fluxos de trabalho usando uma abordagem de design declarativo.

  • O Oracle Data Transforms permite o ELT para tecnologias suportadas selecionadas, simplificando a configuração e a execução de pipelines de dados usando uma interface de usuário da Web que permite aos usuários criar e programar de forma declarativa fluxos de dados e workflows. O Oracle Data Transforms está disponível como um ambiente totalmente gerenciado no Oracle Autonomous Data Warehouse para carregar e transformar dados de várias origens de dados em uma instância do ADW.

Dependendo do caso de uso, esses componentes podem ser usados de forma independente ou em conjunto para obter integração e transformação de dados altamente flexíveis e de alto desempenho.

Processamento Batch

O processamento em lote transforma conjuntos de dados em larga escala armazenados no data lakehouse. O processamento em lote aproveita os serviços nativos do Oracle Cloud Infrastructure que se integram perfeitamente ao Oracle Cloud Infrastructure Object Storage e permite criar dados selecionados para casos de uso, como agregação e enriquecimento de dados, ingestão de data warehouse e aprendizado de máquina e uso de dados de IA em escala.

O Oracle Cloud Infrastructure Data Integration, descrito acima, é um serviço totalmente gerenciado, sem servidor e nativo da nuvem que extrai, carrega, transforma, limpa e remodela dados de uma variedade de origens de dados para os serviços de destino do Oracle Cloud Infrastructure, como o Oracle Autonomous Data Warehouse e o Oracle Cloud Infrastructure Object Storage.

O Oracle Cloud Infrastructure Data Flow é um serviço de big data totalmente gerenciado que permite executar aplicativos Apache Spark sem precisar implantar ou gerenciar a infraestrutura. Ele permite que você entregue aplicativos de big data e IA mais rapidamente, porque você pode se concentrar em seus aplicativos sem precisar gerenciar operações. Os aplicativos de fluxo de dados são modelos reutilizáveis que consistem em um aplicativo Spark e suas dependências, seus parâmetros padrão e sua especificação de recurso de runtime padrão.

Serviço

O Oracle Autonomous Data Warehouse é um serviço de banco de dados autônomo, de segurança e autorreparo otimizado para cargas de trabalho de data warehousing. Você não precisa configurar nem gerenciar nenhum hardware, nem instalar nenhum software. O Oracle Cloud Infrastructure trata da criação do banco de dados, bem como do backup, da aplicação de patches, do upgrade e do ajuste do banco de dados.

Após o provisionamento, você pode dimensionar o número de núcleos de CPU ou a capacidade de armazenamento do banco de dados a qualquer momento, sem afetar a disponibilidade ou o desempenho.

O ADW também pode virtualizar dados que residem no armazenamento de objetos como tabelas particionadas externas e híbridas para que você possa unir e consumir dados derivados de outras origens com os dados do warehouse. Você também pode mover dados históricos do warehouse para o armazenamento de objetos e consumi-los perfeitamente usando tabelas particionadas híbridas.

O ADW pode usar metadados coletados anteriormente armazenados no Oracle Cloud Infrastructure Data Catalog para criar tabelas externas e pode sincronizar automaticamente atualizações de metadados no Oracle Cloud Infrastructure Data Catalog com a definição de tabelas externas para manter a consistência, simplificar o gerenciamento e reduzir o esforço.

As views analíticas, um recurso do Autonomous Database, fornecem uma maneira rápida e eficiente de criar consultas analíticas de dados armazenados em tabelas e views de banco de dados existentes. As views analíticas organizam dados usando um modelo dimensional. Eles permitem que você adicione facilmente agregações e cálculos a conjuntos de dados e apresente dados em views que podem ser consultadas com SQL relativamente simples. Esse recurso permite modelar semanticamente um esquema star ou snowflake diretamente no ADW, usando dados armazenados interna e externamente, e permite o consumo do modelo usando SQL e qualquer consumidor de dados compatível com SQL.

O ADW fornece a capacidade de federar e consultar dados armazenados em armazenamentos de nuvem de terceiros (ou seja, AWS S3, Azure Blob e GCP CGS), em bancos de dados de nuvem de terceiros (ou seja, AWS Redshift, Azure Synapse Analytics, Google BigQuery e Snowflake), bancos de dados de terceiros (ou seja, IBM DB2, MongoDB, PostrgreSQL, Hive) e até aplicativos SaaS.

Em uma única consulta, o ADW pode consultar e unir dados de armazenamentos em nuvem, bancos de dados em nuvem e outros bancos de dados populares, simplificando o acesso aos dados para os consumidores do mecanismo de serviço, pois eles são abstraídos da complexidade da consulta separadamente, vários mecanismos de consulta, para obter um resultado unificado. Também pode combinar esses dados com dados obtidos de compartilhamentos de dados fornecidos por produtores em conformidade com o protocolo aberto Delta Sharing.

Serviço Cloud Storage

O Oracle Cloud Infrastructure Object Storage é uma plataforma de armazenamento de alto desempenho em escala de internet que oferece durabilidade de dados confiável e econômica. O Oracle Cloud Infrastructure Object Storage pode armazenar uma quantidade ilimitada de dados não estruturados de qualquer tipo de conteúdo, incluindo dados analíticos. Você pode armazenar ou recuperar dados de forma segura diretamente da internet ou de dentro da plataforma da nuvem. Várias interfaces de gerenciamento permitem que você comece pequeno e dimensione facilmente sem problemas, sem experimentar qualquer degradação no desempenho ou na confiabilidade do serviço.

O Oracle Cloud Infrastructure Object Storage também pode ser usado como uma camada de armazenamento frio para o data warehouse armazenando dados que são usados com pouca frequência e depois unindo-os perfeitamente aos dados mais recentes usando tabelas híbridas no Oracle Autonomous Data Warehouse.

Visualize/Saiba mais

O Oracle Analytics Cloud é um serviço de nuvem pública escalável e seguro que fornece um conjunto completo de recursos para explorar e executar análises colaborativas para você, seu grupo de trabalho e sua empresa. Ele oferece suporte a cientistas de dados de cidadãos, treinamento avançado de analistas de negócios e execução de modelos de machine learning (ML). Os modelos de machine learning podem ser executados no serviço de análise ou diretamente no Oracle Autonomous Data Warehouse como modelos incorporados ao OML para previsões de lotes em larga escala que aproveitam o poder de processamento, a escalabilidade e a elasticidade dos serviços de warehouse e IA da OCI, como o Oracle Cloud Infrastructure Vision.

Com o Oracle Analytics Cloud, você também obtém recursos flexíveis de gerenciamento de serviços, incluindo configuração rápida, fácil dimensionamento e aplicação de patches e gerenciamento automatizado do ciclo de vida.

Aprenda e preveja

O Oracle Cloud Infrastructure Data Science fornece infraestrutura, tecnologias de código-fonte aberto, bibliotecas, pacotes e ferramentas de ciência de dados para que as equipes de ciência de dados criem, treinem e gerenciem modelos de machine learning (ML) no Oracle Cloud Infrastructure. O espaço de trabalho colaborativo e orientado a projetos fornece uma experiência de usuário coesa de ponta a ponta e suporta o ciclo de vida de modelos preditivos. O serviço Data Science permite que cientistas de dados e engenheiros de machine learning façam download e instalem pacotes diretamente do Repositório Anaconda sem custo e, assim, permitindo que eles inovem em seus projetos com um ecossistema de ciência de dados selecionado de bibliotecas de machine learning.

O recurso Jobs do serviço Data Science permite que os cientistas de dados definam e executem tarefas de aprendizado de máquina repetíveis em uma infraestrutura totalmente gerenciada.

O recurso Implantação de Modelo do serviço Data Science permite que os cientistas de dados implantem modelos treinados como pontos finais HTTP totalmente gerenciados que podem fornecer previsões em tempo real, infundindo inteligência em processos e aplicativos e permitindo que a empresa reaja a eventos relevantes à medida que eles ocorrem.

O Oracle Machine Learning fornece recursos avançados de machine learning totalmente integrados no Oracle Autonomous Database, com suporte para Python e AutoML. Ele suporta modelos usando algoritmos de código-fonte aberto e escaláveis no banco de dados que reduzem a preparação e a movimentação de dados. O AutoML ajuda os cientistas de dados a acelerar o tempo de valorização das iniciativas de machine learning da empresa usando seleção automática de algoritmos, amostragem adaptativa de dados, seleção automática de recursos e ajuste automático de modelos. Com os serviços do Oracle Machine Learning disponíveis no Oracle Autonomous Data Warehouse, você pode não apenas gerenciar modelos, mas também implantar esses modelos como pontos finais REST para democratizar previsões em tempo real dentro da empresa, permitindo que os negócios reajam a eventos relevantes à medida que ocorrem, em vez de após o fato.

Serviços de IA

Os serviços do Oracle Cloud Infrastructure AI Services fornecem um conjunto de serviços de IA prontos para consumo que podem ser usados para suportar uma variedade de casos de uso, desde análise de texto até manutenção preditiva. Esses serviços têm modelos predefinidos e ajustados com precisão que você pode integrar a pipelines de dados, análises e aplicativos usando APIs.

O Oracle Cloud Infrastructure Anomaly Detection fornece um rico conjunto de ferramentas para identificar eventos indesejáveis ou observações em dados de negócios em tempo real para que você possa tomar ações para evitar interrupções nos negócios.

O Oracle Cloud Infrastructure AI Language executa análises de texto sofisticadas em escala. Com modelos pré-treinados e personalizados, os desenvolvedores podem processar texto não estruturado e extrair insights sem experiência em ciência de dados. Os modelos pré-treinados oferecem suporte à análise de sentimentos, extração de palavras-chave, classificação de texto e reconhecimento de entidade nomeada. Você também pode treinar modelos personalizados para reconhecimento de entidade nomeada e classificação de texto com conjuntos de dados específicos do domínio. O serviço de tradução permite traduzir texto em 21 idiomas diferentes.

O Oracle Cloud Infrastructure Speech aproveita o poder da linguagem falada, permitindo que você converta facilmente arquivos de mídia que contêm fala humana em transcrições de texto altamente precisas. O OCI Speech pode ser usado para transcrever chamadas do atendimento ao cliente, automatizar legendas e gerar metadados para ativos de mídia, a fim de criar um arquivo compactado totalmente pesquisável.

O Oracle Cloud Infrastructure Vision executa tarefas de reconhecimento de imagem e análise de documentos, como classificação de imagens, detecção e faces, extração de texto e reconhecimento de tabelas. Você pode aproveitar modelos pré-treinados ou criar facilmente modelos de visão personalizados para cenários específicos do setor e do cliente. O serviço Vision é um serviço de nuvem nativo totalmente gerenciado e multitenant que ajuda com todas as tarefas comuns de visão computacional.

O Oracle Cloud Infrastructure Document Understanding executa tarefas de análise de documentos, como extrair texto e reconhecer tabelas. O serviço OCI Document Understanding é um serviço de nuvem nativo totalmente gerenciado e multitenant que ajuda com todas as tarefas comuns de análise de documentos.

Aprimoramento de Dados

O enriquecimento de dados pode melhorar os dados usados para treinar modelos de machine learning para obter resultados de previsão melhores e mais precisos.

O Oracle Cloud Infrastructure Data Labeling permite que você crie e procure conjuntos de dados, exiba registros de dados (texto ou imagens) e aplique labels para fins de criação de modelos de AI/ML. O serviço também fornece interfaces de usuário interativas projetadas para auxiliar no processo de rotulagem. Depois que os registros são rotulados, o conjunto de dados pode ser exportado como JSON delimitado por linha para uso no desenvolvimento do modelo de IA/ML.

API

A camada de API permite que você infunda a inteligência derivada do serviço Data Science e do Oracle Machine Learning em aplicativos, processos de negócios e coisas para influenciar e melhorar sua operação e função. A camada de API fornece consumo seguro dos modelos implantados pelo serviço Data Science para pontos finais REST do Oracle Machine Learning e a capacidade de controlar o sistema para garantir a disponibilidade de ambientes de runtime. Você também pode aproveitar as funções para executar lógica adicional, conforme necessário.

O Oracle Cloud Infrastructure API Gateway permite que você publique APIs com pontos finais privados acessíveis na sua rede e que você pode expor com endereços IP públicos se quiser que eles aceitem o tráfego da internet. Os pontos finais suportam validação de API, transformação de solicitação e resposta, CORS, autenticação e autorização e limitação de solicitação. Ele permite a observabilidade da API para monitorar o uso e garantir SLAs. Os planos de uso também podem ser usados para monitorar e gerenciar os consumidores de API e clientes de API que acessam APIs e para configurar diferentes camadas de acesso para diferentes clientes, a fim de rastrear o uso de dados consumido pelo uso de APIs. Os planos de uso são um recurso-chave para dar suporte à monetização de dados.

O Oracle Cloud Infrastructure Functions é uma plataforma de funções como um serviço totalmente gerenciada, multitenant, altamente escalável, sob demanda. Ela foi criada no Oracle Cloud Infrastructure de nível empresarial e desenvolvida pelo mecanismo de código-fonte aberto Fn Project.

O Oracle REST Data Services (ORDS) é um aplicativo Java que permite aos desenvolvedores com habilidades em SQL e em banco de dados desenvolver APIs REST para Oracle Database. Qualquer desenvolvedor de aplicativo pode usar essas APIs em qualquer ambiente de idioma, sem instalar e manter drivers de cliente, da mesma forma que acessam outros serviços externos usando o REST, a tecnologia de API mais usada. O ORDS é implantado como um recurso totalmente gerenciado no ADW e pode ser usado para expor informações do lakehouse usando APIs para consumidores de dados.

Governança de Dados

O Oracle Cloud Infrastructure Data Catalog fornece visibilidade para onde residem ativos técnicos, como metadados e respectivos atributos, e oferece a capacidade de manter um glossário de negócios mapeado para esses metadados técnicos. O Oracle Cloud Infrastructure Data Catalog também pode fornecer metadados ao Oracle Autonomous Data Warehouse Warehouse para facilitar a criação de tabelas externas no data warehouse.

Segurança dos Dados

A segurança dos dados é crucial para explorar e usar os dados do lakehouse em toda a extensão. Aproveitando um modelo de segurança de confiança zero com recursos de defesa em profundidade e RBAC e garantindo a conformidade com a regulamentação mais rigorosa, a segurança de dados fornece controles de segurança preventivos, detectivos e corretivos para garantir que a exfiltração e as violações de dados sejam evitadas.

O Oracle Data Safe é um serviço Oracle Cloud totalmente integrado com foco na segurança de dados. Ele fornece um conjunto completo e integrado de recursos para proteger dados confidenciais e regulamentados em bancos de dados Oracle Cloud, como o Oracle Autonomous Data Warehouse. Os recursos incluem avaliação de segurança, avaliação do usuário, descoberta de dados, mascaramento de dados e auditoria de atividades.

O Oracle Cloud Infrastructure Audit fornece visibilidade em atividades relacionadas a recursos e tenancies do Oracle Cloud Infrastructure (OCI). Os eventos de log de auditoria podem ser usados para auditorias de segurança para rastrear o uso e as alterações nos recursos do OCI, bem como para ajudar a garantir conformidade com padrões e regulamentos.

O Oracle Cloud Infrastructure Logging oferece uma única interface altamente escalável e totalmente gerenciada para todos os logs na tenancy, incluindo logs de auditoria. Use o OCI Logging para acessar logs de todos os recursos do OCI para que você possa ativá-los, gerenciá-los e pesquisá-los.

O Oracle Cloud Infrastructure Vault é um serviço de gerenciamento de criptografia que armazena e gerencia chaves de criptografia e segredos para acessar recursos com segurança. Permite que as chaves gerenciadas pelo cliente sejam usadas para o Oracle Autonomous Data Warehouse e a criptografia do data lake para maior proteção de dados em repouso. Permite que segredos armazenem com segurança serviços e credenciais de usuário para melhorar sua postura de segurança e garantir que as credenciais não sejam comprometidas e usadas de forma inadequada.

Arquitetura Física

A arquitetura física dessa plataforma de dados suporta o seguinte:
  • O Oracle Autonomous Data Warehouse (ADW) obtém dados das origens de dados federadas usando recursos de Conectividade Heterogênea Gerenciada pela Oracle
  • O ADW usa bancos de dados de destino acessíveis pela internet pública que estão configurados e permitem conexões SSL/TLS de entrada, para que a Conectividade Heterogênea Gerenciada pela Oracle possa conectar e consultar dados com segurança
  • O ADW lê dados do Databricks usando compartilhamentos de dados
  • Os compartilhamentos de dados do Databricks são acessíveis usando a internet pública, mas são protegidos usando arquivos de credenciais fornecidos pelo Databricks
  • Os dados do AWS S3, do Azure Blob e do Google Cloud Storage são federados e lidos sob demanda usando tabelas externas ou copiados para o ADW, dependendo do caso de uso e dos requisitos
  • Os dados de origens de dados não federadas são ingeridos com segurança usando micro lotes e arquivos de origens de dados relacionais e não relacionais que não são federadas
  • Os dados são processados utilizando uma combinação do Oracle Cloud Infrastructure Data Integration e do Oracle Cloud Infrastructure Data Flow
  • Os dados são armazenados no ADW e no Oracle Cloud Infrastructure Object Storage e são organizados de acordo com sua qualidade e valor
  • O ADW atende dados de warehouse, lake e federados de forma segura aos consumidores
  • O Oracle Analytics Cloud apresenta dados para usuários comerciais usando visualizações
  • O Oracle Analytics Cloud é exposto usando o Oracle Cloud Infrastructure Load Balancing que é protegido pelo Oracle Cloud Infrastructure Web Application Firewall (WAF) para fornecer acesso usando a internet
  • O Oracle Cloud Infrastructure Data Science é usado para criar, treinar e implantar modelos de machine learning (ML)
  • O Oracle Cloud Infrastructure API Gateway é aproveitado para controlar as implantações do modelo de ML do Data Science
  • O Oracle Cloud Infrastructure Data Catalog coleta metadados do ADW e do armazenamento de objetos
  • O Oracle Cloud Infrastructure Bastion é usado por administradores para gerenciar recursos de nuvem privada

O diagrama a seguir ilustra a arquitetura:



data-platform-federation-physical-oracle.zip

Design para a arquitetura física:

  • Utiliza 2 VCNs, uma para hub e outra para a própria carga de trabalho
  • A conectividade local aproveita o Oracle Cloud Infrastructure FastConnect e a VPN site a site para redundância
  • Todo o tráfego recebido do local e da internet é roteado primeiro para a VCN hub e, em seguida, para a VCN da carga de trabalho
  • Todos os dados são seguros em trânsito e em repouso
  • Os serviços são implantados com pontos finais privados para aumentar a postura de segurança
  • A VCN é segregada em várias sub-redes privadas para aumentar a postura de segurança
  • Os dados do lago são segregados em vários buckets no armazenamento de objetos, aproveitando uma arquitetura medalhão
  • Origens de dados federados e armazenamentos na nuvem são acessados usando conectividade pública e o gateway NAT anexado à VCN de carga de trabalho

As possíveis melhorias de design não descritas nesta implantação por motivos de simplicidade incluem:

  • Aproveite a Conectividade Heterogênea Gerenciada pelo Cliente, usando um Oracle Database Gateway, para estabelecer conexão com origens de dados federadas usando conectividade privada
  • Aproveitando uma zona de destino totalmente compatível com CIS
  • Aproveite um firewall de rede para melhorar a postura de segurança geral inspecionando todo o tráfego e aplicando políticas

Recomendações

Use as recomendações a seguir como ponto de partida para usar dados de fontes de dados heterogêneas para análise de negócios e machine learning.

Seus requisitos podem ser diferentes da arquitetura descrita aqui.

Oracle Autonomous Data Warehouse

Essa arquitetura usa o Oracle Autonomous Data Warehouse (ADW) em infraestrutura compartilhada.

  • Considere o uso de views materializadas para aumentar o desempenho ao acessar dados federados.
  • Considere atualizar as views materializadas com a frequência necessária para evitar que os dados federados sejam interrompidos.
  • Considere criar views para consultar dados usando links de banco de dados de origens federadas para que essas views sejam coletadas e catalogadas no Oracle Cloud Infrastructure Data Catalog para maior governança de dados.
  • Considere armazenar as credenciais da origem de dados federada em um segredo no Oracle Cloud Infrastructure Vault para aumentar a postura de segurança.
  • Considere usar os recursos de segurança do Autonomous Database, como redação (mascaramento dinâmico de dados), em views que mostram dados federados para aumentar a segurança dos dados.
  • Considere usar o compartilhamento de dados para consumir dados federados de origens de dados heterogêneas compatíveis com o protocolo aberto Delta Sharing.
  • Considere usar o compartilhamento de dados para compartilhar dados selecionados para consumidores compatíveis com o protocolo aberto Delta Sharing.
  • Considere usar a Conectividade Heterogênea Gerenciada pelo Cliente com um Oracle Database Gateway para estabelecer conexão com origens de dados federadas com conectividade privada para as quais você precisa de maior segurança, menor latência ou ambos.

Oracle Analytics Cloud

Essa arquitetura aproveita o Oracle Analytics Cloud (OAC) para fornecer análises aumentadas aos usuários finais.

  • Considere usar a ampla gama de origens de dados do OAC para complementar as origens de dados federadas usadas pelo ADW.
  • Considere a federação de fontes de dados necessárias no OAC no ADW para maior desempenho, armazenamento em cache, transferência de processamento para o mecanismo de serviço e simplificação da camada semântica analítica.

Observe que essa arquitetura depende de uma arquitetura de referência do data lakehouse, incluindo as recomendações aplicáveis à sua arquitetura. Consulte a seção Explorar Mais para obter um link para a arquitetura de referência do lakehouse e os recursos.

Considerações

Ao federar dados para análise, considere as seguintes opções de implementação.

Orientação Recomendado Outras Opções Análise Racional
Refinaria de Dados

Oracle Cloud Infrastructure Data Integration

  • Oracle Data Integrator
  • Transformações de Dados do Oracle Autonomous Database

O Oracle Cloud Infrastructure Data Integration fornece uma plataforma ETL nativa da nuvem, sem servidor e totalmente gerenciada, escalável e econômica.

Persistência de Dados
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

O Oracle Autonomous Data Warehouse é um banco de dados fácil de usar e totalmente autônomo que é dimensionado elasticamente, oferece rápido desempenho para consultas e não exige administração de banco de dados. Ele também oferece acesso direto aos dados de tabelas particionadas externas ou híbridas de armazenamento de objetos.

O Oracle Cloud Infrastructure Object Storage armazena dados ilimitados em formato bruto.

Processamento de Dados
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
Ferramentas de terceiros

O Oracle Cloud Infrastructure Data Integration fornece uma plataforma ETL nativa da nuvem, sem servidor e totalmente gerenciada, escalável e econômica.

O Oracle Cloud Infrastructure Data Flow fornece um ambiente Spark sem servidor para processar dados em escala com um modelo extremamente elástico de pagamento por uso.

Acesso e interpretação
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Serviços de IA do Oracle Cloud Infrastructure
Ferramentas de terceiros

O Oracle Analytics Cloud é totalmente gerenciado e totalmente integrado aos dados selecionados no Oracle Autonomous Data Warehouse.

O serviço Data Science é uma plataforma de autoatendimento totalmente gerenciada para que as equipes de ciência de dados possam criar, treinar e gerenciar modelos de machine learning (ML) no Oracle Cloud Infrastructure. O serviço Data Science fornece ferramentas de infraestrutura e ciência de dados, como AutoML e recursos de implantação de modelo.

O Oracle Machine Learning é uma plataforma de autoatendimento totalmente gerenciada para ciência de dados disponível com o Oracle Autonomous Data Warehouse que aproveita o poder de processamento do warehouse para criar, treinar, testar e implementar modelos de ML em escala sem a necessidade de mover os dados para fora do warehouse.

Os serviços de IA do Oracle Cloud Infrastructure são um conjunto de serviços que fornecem modelos predefinidos especificamente criados e treinados para executar tarefas como inferir possíveis anomalias ou detectar sentimentos.

Confirmações

  • Author: José Cruz
  • Contributors: Robert Lies