Plataforma de Dados - Federação de Dados
Mas como você correlaciona dados em seu data lakehouse com dados que residem em suas fontes de dados heterogêneas ou que são implementados em outras nuvens ou sistemas on-premises, sem a necessidade de duplicar dados?
A resposta é aproveitar uma abordagem de federação de dados que combina seus dados de data lakehouse com dados federados de armazenamentos em nuvem de terceiros e dados de bancos de dados na nuvem e on-premises, independentemente de sua localização física.
Essa arquitetura de referência posiciona a solução de tecnologia dentro do contexto geral de negócios:
A federação de dados é uma técnica que permite a integração, unificação e governança de dados armazenados em diferentes armazenamentos de dados usando um mecanismo de consulta federada que converte uma única consulta em subconsultas que são enviadas para os armazenamentos de dados de origem. Os resultados são então mesclados e apresentados ao usuário ou aplicativo, conforme descrito abaixo.
plataforma de dados-visão geral-oracle.zip#GUID-6CFF3896-837A-4379-90C4-C1797B831AA6
Muitas vezes, a federação de dados é intercambiada com a virtualização de dados. A virtualização de dados cria uma visão unificada dos dados de várias fontes sem duplicar os dados e atende a novos dados em tempo real.
Para os fins desta arquitetura de referência, o termo federação de dados é usado, embora os recursos descritos abaixo abordem tanto a federação quanto a virtualização.
O uso da federação de dados simplifica o acesso aos dados para os consumidores, como mecanismos de análise e ciência de dados, conectando-os a um mecanismo de serviço federado em vez de a várias fontes de dados, aumentando assim a reutilização, a governança e a segurança dos dados federados.
Os mecanismos de análise tradicionalmente oferecem recursos de federação de dados que podem ser usados como um complemento ao mecanismo de serviço federado. Geralmente, os mecanismos de serviço de dados federados têm mais recursos para aumentar o desempenho e abordar a escalabilidade, o que beneficia implicitamente esses mecanismos de análise.
Este documento descreve uma possível solução para federação de dados no Oracle Cloud Infrastructure, mas pode haver alternativas que usam diferentes tecnologias para diferentes cenários.
Arquitetura Funcional
Essa arquitetura usa um data lakehouse para armazenar e trabalhar com dados, independentemente de sua forma ou forma. No centro dessa arquitetura está o data warehouse implantado no Oracle Autonomous AI Lakehouse.
Além disso, a arquitetura usa um mecanismo de consulta unificado para federar dados selecionados de fontes selecionadas com os dados no lakehouse. Os dados federados são obtidos usando mecanismos como tabelas externas, vínculos de banco de dados e compartilhamento de dados, dependendo do armazenamento de dados.
Uma arquitetura de federação que combina dados de lakehouse e armazenamentos de dados existentes permite que você:
- Unir todos os dados, independentemente de onde estejam armazenados
- Ofereça suporte a uma plataforma de dados multicloud e de nuvem híbrida que federe dados armazenados em outras nuvens e on-premises
- Simplifique a experiência do consumidor de dados de obter e consultar dados de diferentes mecanismos
- Aumente a segurança à medida que um único modelo de segurança de dados pode ser aplicado no mecanismo de consulta federada
- Aumente a governança usando um catálogo de dados que unifica metadados para entidades armazenadas no lakehouse e federadas com o mecanismo de consulta
- Aumente o desempenho aproveitando a materialização de dados e o armazenamento em cache do banco de dados autônomo
- Exponha dados unificados e selecionados para diferentes consumidores usando painéis de análise, interfaces SQL, pontos finais de API e compartilhamento de dados
- Aproveite um banco de dados multimodelo como um mecanismo de consulta federado
O diagrama a seguir ilustra a arquitetura funcional. Para simplificar, nem todas as capacidades do lakehouse são mostradas.
plataforma de dados-federação-funcional-oracle-1.zip#GUID-827999E3-20E0-4D6C-B343-7AD45CF085A9
Observe que essa arquitetura representa uma plataforma de dados federada que usa principalmente processamento em lote, mas pode ser aumentada com os recursos em tempo real do data lakehouse para processar dados de streaming.
O processamento de dados em streaming geralmente precisa consumir dados contextuais em seus pipelines de dados. Os dados contextuais podem ser armazenados em diferentes origens de dados, mas um mecanismo de federação de dados que atende a todos os dados contextuais para os pipelines de dados simplifica esses pipelines.
A arquitetura se concentra nas seguintes divisões lógicas:
Ingestão, Transformação
Ingestão e refinação dos dados para uso em cada uma das camadas de dados na arquitetura.
Os dados federados são consumidos sob demanda de armazenamento na nuvem, bancos de dados e compartilhamentos de dados. Os dados não são transformados nesta camada porque já foram selecionados no armazenamento de dados de origem.
Persistir, Curar, Criar
Facilita o acesso e a navegação dos dados para mostrar a exibição de negócios atual. Para tecnologias relacionais, os dados podem ser lógica ou fisicamente estruturados em formas relacionais, longitudinais, dimensionais ou OLAP simples. Para dados não relacionais, essa camada contém um ou mais pools de dados, seja de saída de um processo analítico ou de dados otimizados para uma tarefa analítica específica.
Essa camada contém o mecanismo de serviço federado que unifica e atende dados que residem no data warehouse, data lake e fontes de dados federadas. Ele oferece a capacidade de consultar dados federados sob demanda e materializar dados federados para obter maior desempenho de consulta.
O mecanismo de federação oferece a capacidade de atender dados usando SQL, APIs REST ou compartilhamento de dados, o que aumenta a interoperabilidade e simplifica a conectividade, pois os consumidores de dados se conectam a um único mecanismo de serviço em vez de a vários armazenamentos de dados.
Analise, Aprenda, Preveja
Resume a visão lógica de negócios dos dados para os consumidores. Essa abstração facilita abordagens ágeis para desenvolvimento, migração para a arquitetura de destino e o fornecimento de uma única camada de relatório de várias origens federadas.
Essa camada aproveita o mecanismo de serviço para obter dados federados que podem ser ainda mais aumentados com os conectores de dados disponíveis nessa camada e fornecidos pelos serviços de visualização ou ciência de dados.
O uso de um mecanismo de consulta federada permite que o acesso do consumidor de dados seja abstraído dos armazenamentos de dados subjacentes, aumentando a produtividade à medida que os dados são federados uma vez e consumidos por muitos consumidores de dados. Isso também torna o sistema mais interoperável, pois qualquer consumidor que possa interoperar com SQL, APIs REST ou compartilhamento de dados pode usar e participar de lakehouse e dados federados.
A arquitetura tem os seguintes componentes funcionais:
Ingestão de Lote
A ingestão em lote é útil para dados que não podem ser ingeridos em tempo real ou que são muito caros para se adaptar à ingestão em tempo real. Também é importante transformar dados em informações confiáveis e confiáveis, que podem ser selecionadas e persistidas para consumo regular.
O Batch Ingest complementa o mecanismo de federação de dados porque ele pode ingerir dados aos quais o mecanismo de federação não tem acesso nativo ou para casos de uso específicos em que os dados precisam ser transformados para se adequarem ao modelo de dados do lakehouse.
Você pode usar os seguintes serviços juntos ou de forma independente para obter um fluxo de trabalho de integração e transformação de dados altamente flexível e eficaz.
-
O Oracle Cloud Infrastructure Data Integration é um serviço totalmente gerenciado e sem servidor para projetar e executar pipelines de dados. Ele permite a extração, transformação e carregamento contínuos de dados em destinos da OCI, como Autonomous AI Lakehouse e OCI Object Storage. Os usuários podem criar fluxos de integração por meio de uma interface intuitiva e sem código que dimensiona automaticamente os ambientes de execução. Ele suporta ETL com processamento baseado em Spark e ELT usando o SQL Pushdown para desempenho e eficiência. O serviço também oferece ferramentas para preparação de dados e protege contra a divergência de esquema com tratamento baseado em regras.
-
O Oracle Data Integrator fornece integração abrangente de dados, desde cargas em lote de alto volume e alto desempenho até processos de integração orientados a eventos e alimentados por recursos, até serviços de dados habilitados para SOA. Uma abordagem de design declarativo garante um desenvolvimento e manutenção mais rápidos e simples e fornece uma abordagem exclusiva para extrair a transformação de carga (ELT) que ajuda a garantir o mais alto nível de desempenho possível para processos de transformação e validação de dados. As transformações de dados da Oracle usam uma interface web para simplificar a configuração e a execução do ELT e para ajudar os usuários a criar e programar dados e fluxos de trabalho usando uma abordagem de design declarativo.
-
As transformações de dados da Oracle permitem o ELT para tecnologias suportadas selecionadas, simplificando a configuração e a execução de pipelines de dados usando uma interface de usuário web que permite aos usuários criar e programar fluxos de dados e workflows de forma declarativa. O Oracle Data Transforms está disponível como um ambiente totalmente gerenciado no Oracle Autonomous AI Lakehouse para carregar e transformar dados de várias origens de dados em uma instância do Oracle Autonomous AI Lakehouse.
Dependendo do caso de uso, esses componentes podem ser usados de forma independente ou em conjunto para obter integração e transformação de dados altamente flexíveis e de alto desempenho.
Processamento em lote
O processamento em lote transforma conjuntos de dados em grande escala armazenados no data lakehouse. O processamento em lote aproveita os serviços nativos do Oracle Cloud Infrastructure que se integram perfeitamente ao Oracle Cloud Infrastructure Object Storage e permite criar dados selecionados para casos de uso como agregação e enriquecimento de dados, ingestão de data warehouse e machine learning e uso de dados de IA em escala.
O Oracle Cloud Infrastructure Data Integration, descrito acima, é um serviço nativo da nuvem totalmente gerenciado e sem servidor que extrai, carrega, transforma, limpa e remodela dados de uma variedade de origens de dados em serviços de destino da Oracle Cloud Infrastructure, como o Oracle Autonomous AI Lakehouse e o Oracle Cloud Infrastructure Object Storage.
O Oracle Cloud Infrastructure Data Flow é um serviço de big data totalmente gerenciado que permite executar aplicativos Apache Spark sem precisar implantar ou gerenciar a infraestrutura. Ele permite que você entregue aplicativos de big data e IA com mais rapidez, pois você pode se concentrar em seus aplicativos sem precisar gerenciar operações. Os aplicativos de fluxo de dados são modelos reutilizáveis que consistem em um aplicativo Spark e suas dependências, parâmetros padrão e uma especificação de recurso padrão de tempo de execução.
Porção
O Oracle Autonomous AI Lakehouse é um serviço de banco de dados autônomo, autoprotegido e autorreparável, otimizado para cargas de trabalho de data warehousing. Você não precisa configurar nem gerenciar nenhum hardware, nem instalar nenhum software. A OCI lida com a criação, o backup, a aplicação de patches, o upgrade e o ajuste do banco de dados.
Após o provisionamento, você pode dimensionar o número de núcleos de CPU ou a capacidade de armazenamento do banco de dados a qualquer momento, sem afetar a disponibilidade ou o desempenho.
O Oracle Autonomous AI Lakehouse também pode virtualizar dados que residem no armazenamento de objetos como tabelas particionadas externas e híbridas para que você possa unir e consumir dados derivados de outras fontes com os dados do warehouse. Você também pode mover dados históricos do warehouse para o armazenamento de objetos e consumi-los perfeitamente usando tabelas particionadas híbridas.
O Oracle Autonomous AI Lakehouse pode usar metadados coletados anteriormente armazenados no Oracle Cloud Infrastructure Data Catalog para criar tabelas externas e pode sincronizar automaticamente atualizações de metadados no Oracle Cloud Infrastructure Data Catalog com a definição de tabelas externas para manter a consistência, simplificar o gerenciamento e reduzir o esforço.
As views analíticas, um recurso do Autonomous AI Database, fornecem uma maneira rápida e eficiente de criar consultas analíticas de dados armazenados em tabelas e views de banco de dados existentes. As views analíticas organizam dados usando um modelo dimensional. Elas permitem adicionar facilmente agregações e cálculos a conjuntos de dados e apresentar dados em views que podem ser consultadas com SQL relativamente simples. Esse recurso permite modelar semanticamente um esquema estrela ou floco de neve diretamente no Oracle Autonomous AI Lakehouse, usando dados armazenados interna e externamente, e permite o consumo do modelo usando SQL e qualquer consumidor de dados compatível com SQL.
O Oracle Autonomous AI Lakehouse permite federar e consultar dados armazenados em armazenamentos de nuvem de terceiros (nomeadamente AWS S3, Azure Blob e GCP CGS), em bancos de dados de nuvem de terceiros (nomeadamente AWS Redshift, Azure Synapse Analytics, Google BigQuery e Snowflake), bancos de dados de terceiros (nomeadamente IBM DB2, MongoDB, PostrgreSQL, Hive) e até mesmo aplicativos SaaS.
Em uma única consulta, o Oracle Autonomous AI Lakehouse pode consultar e unir dados de armazenamentos em nuvem, bancos de dados em nuvem e outros bancos de dados populares, simplificando o acesso aos dados para os consumidores de mecanismos de atendimento, à medida que eles são abstraídos da complexidade da consulta separadamente, vários mecanismos de consulta, para obter um resultado unificado. Também pode combinar esses dados com dados obtidos de compartilhamentos de dados fornecidos pelos produtores em conformidade com o protocolo aberto Delta Sharing.
Cloud Storage
O Oracle Cloud Infrastructure Object Storage é uma plataforma de armazenamento de alto desempenho e em escala da internet que oferece durabilidade dos dados confiável e econômica. O Oracle Cloud Infrastructure Object Storage pode armazenar uma quantidade ilimitada de dados não estruturados de qualquer tipo de conteúdo, incluindo dados analíticos. Você pode armazenar ou recuperar dados com segurança e diretamente da internet ou de dentro da plataforma na nuvem. Várias interfaces de gerenciamento permitem que você comece facilmente pequeno e dimensione perfeitamente, sem sofrer qualquer degradação no desempenho ou na confiabilidade do serviço.
O Oracle Cloud Infrastructure Object Storage também pode ser usado como camada de armazenamento a frio para o data warehouse, armazenando dados que são usados com pouca frequência e, em seguida, unindo-os perfeitamente aos dados mais recentes usando tabelas híbridas no Oracle Autonomous AI Lakehouse.
Visualize/Aprenda
O Oracle Analytics Cloud é um serviço público de nuvem escalável e seguro que fornece um conjunto completo de recursos para explorar e executar análises colaborativas para você, seu grupo de trabalhos e sua empresa. Ele oferece suporte a cientistas de dados de cidadãos, treinamento avançado de analistas de negócios e execução de modelos de machine learning (ML). Os modelos de machine learning podem ser executados no serviço de análise ou diretamente no Oracle Autonomous AI Lakehouse como modelos incorporados ao OML para previsões em lote em larga escala que aproveitam o poder de processamento, a escalabilidade e a elasticidade do warehouse e dos serviços de IA da OCI, como a Oracle Cloud Infrastructure Vision.
Com o Oracle Analytics Cloud, você também obtém recursos flexíveis de gerenciamento de serviços, incluindo configuração rápida, fácil dimensionamento e aplicação de patches e gerenciamento automatizado do ciclo de vida.
Aprenda e preveja
O Oracle Cloud Infrastructure Data Science fornece infraestrutura, tecnologias de código aberto, bibliotecas, pacotes e ferramentas de ciência de dados para que as equipes de ciência de dados criem, treinem e gerenciem modelos de machine learning (ML) no Oracle Cloud Infrastructure. O espaço de Trabalho colaborativo e orientado a projetos fornece uma experiência do usuário coesa de ponta a extremidade e suporta o ciclo de vida dos modelos preditivos.
O recurso Jobs do serviço Data Science permite que os cientistas de dados definam e executem tarefas repetíveis de aprendizado de máquina em uma infraestrutura totalmente gerenciada.
O recurso Implantação de Modelo do serviço Data Science permite que os cientistas de dados implantem modelos treinados como pontos finais HTTP totalmente gerenciados que podem fornecer previsões em tempo real, infundindo inteligência em processos e aplicativos e permitindo que a empresa reaja a eventos relevantes à medida que ocorrem.
O Oracle Machine Learning fornece recursos avançados de machine learning totalmente integrados ao Oracle Autonomous AI Database, com suporte para Python e AutoML. Ele suporta modelos usando algoritmos de código aberto e escaláveis no banco de dados que reduzem a preparação e a movimentação de dados. O AutoML ajuda os cientistas de dados a acelerar o tempo de valorização das iniciativas de machine learning da empresa usando seleção automática de algoritmos, amostragem de dados adaptável, seleção automática de recursos e ajuste automático de modelos. Com os serviços do Oracle Machine Learning disponíveis no Oracle Autonomous AI Lakehouse, você pode não apenas gerenciar modelos, mas também implantar esses modelos como pontos finais REST para democratizar as previsões em tempo real dentro da empresa, permitindo que a empresa reaja a eventos relevantes à medida que ocorrem, em vez de após o fato.
Serviços da IA
Os serviços Oracle Cloud Infrastructure AI Services fornecem um conjunto de serviços de IA prontos para consumo que podem ser usados para dar suporte a uma variedade de casos de uso, desde análise de texto até manutenção preditiva. Esses serviços têm modelos pré-construídos e ajustados que você pode integrar em pipelines de dados, análises e aplicativos usando APIs.
O Oracle Cloud Infrastructure Anomaly Detection fornece um rico conjunto de ferramentas para identificar eventos ou observações indesejáveis em dados comerciais em tempo real, a fim de que você possa tomar ações para evitar interrupções de negócios,
O Oracle Cloud Infrastructure Language executa análises de texto sofisticadas em escala. Com modelos pré-treinados e personalizados, os desenvolvedores podem processar texto não estruturado e extrair insights sem experiência em ciência de dados. Os modelos pré-treinados suportam análise de sentimento, extração de frase-chave, classificação de texto e reconhecimento de entidade nomeada. Você também pode treinar modelos personalizados para reconhecimento de entidade nomeada e classificação de texto com conjuntos de dados específicos do domínio. O serviço de tradução permite que você traduza texto em 21 idiomas diferentes.
O Oracle Cloud Infrastructure Speech aproveita o poder da linguagem falada, permitindo que você converta facilmente arquivos de mídia que contêm fala humana em transcrições de texto altamente precisas. O OCI Speech pode ser usado para transcrever chamadas de serviço de cliente, automatizar a legenda e gerar metadados para ativos de mídia para criar um arquivo compactado totalmente pesquisável.
O Oracle Cloud Infrastructure Vision executa tarefas de reconhecimento de imagem e análise de documentos, como classificar imagens, detectar e enfrentar, extrair texto e reconhecer tabelas. Você pode aproveitar modelos pré-treinados ou criar facilmente modelos de visão personalizados para cenários específicos do setor e do cliente. O OCI Vision é um serviço de nuvem nativo totalmente gerenciado e multitenant que ajuda em todas as tarefas comuns de visão computacional.
O Oracle Cloud Infrastructure Document Understanding executa tarefas de análise de documentos, como extrair texto e reconhecer tabelas. O serviço OCI Document Understanding é um serviço de nuvem nativo, multitenant e totalmente gerenciado que ajuda em todas as tarefas comuns de análise de documentos.
Enriquecimento de Dados
O enriquecimento de dados pode melhorar os dados usados para treinar modelos de machine learning para obter resultados de previsão melhores e mais precisos.
O Oracle Cloud Infrastructure Data Labeling permite criar e procurar conjuntos de dados, exibir registros de dados (texto ou imagens) e aplicar labels para fins de criação de modelos de IA/ML. O serviço também fornece interfaces de usuário interativas projetadas para auxiliar no processo de rotulagem. Depois que os registros são rotulados, o conjunto de dados pode ser exportado como JSON delimitado por linha para uso no desenvolvimento de modelos de IA/ML.
API
A camada de API permite que você infunda a inteligência derivada do serviço Data Science e do Oracle Machine Learning em aplicativos, processos de negócios e coisas para influenciar e melhorar sua operação e função. A camada de API fornece consumo seguro dos modelos implantados do serviço Data Science para pontos finais REST do Oracle Machine Learning e a capacidade de controlar o sistema para garantir a disponibilidade de ambientes de runtime. Você também pode aproveitar as funções para executar lógica adicional, conforme necessário.
O Oracle Cloud Infrastructure API Gateway permite publicar APIs com pontos finais privados acessíveis de dentro da sua rede e que você possa expor com endereços IP públicos se desejar que eles aceitem o tráfego da internet. Os pontos finais suportam validação da API, transformação de solicitação e resposta, CORS, autenticação e autorização e limitação de solicitação. Ele permite a observabilidade da API para monitorar o uso e garantir SLAs. Os planos de uso também podem ser usados para monitorar e gerenciar os consumidores de API e os clientes de API que acessam APIs e para configurar diferentes camadas de acesso para diferentes clientes, a fim de rastrear o uso de dados que é consumido usando APIs. Os planos de uso são um recurso fundamental para dar suporte à monetização de dados.
O Oracle Cloud Infrastructure Functions é uma plataforma de funções como serviço totalmente gerenciada, multitenant, altamente escalável e sob demanda. Ele é criado no Oracle Cloud Infrastructure de nível empresarial e desenvolvido pelo mecanismo de origem aberta Fn Project.
O Oracle REST Data Services (ORDS) é um aplicativo Java que permite aos desenvolvedores com habilidades de SQL e banco de dados desenvolver APIs REST para o Oracle Database. Qualquer desenvolvedor de aplicativos pode usar essas APIs de qualquer ambiente de linguagem, sem instalar e manter drivers de cliente, da mesma forma que acessam outros serviços externos usando REST, a tecnologia de API mais usada. O ORDS é implantado como um recurso totalmente gerenciado no Oracle Autonomous AI Lakehouse e pode ser usado para expor informações do lakehouse usando APIs para consumidores de dados.
Governança de Dados
O Oracle Cloud Infrastructure Data Catalog fornece visibilidade de onde residem ativos técnicos, como metadados e respectivos atributos, e oferece a capacidade de manter um glossário de negócios mapeado para esses metadados técnicos. O Oracle Cloud Infrastructure Data Catalog também pode fornecer metadados ao Oracle Autonomous AI Lakehouse Warehouse para facilitar a criação de tabelas externas no data warehouse.
Segurança dos Dados
A segurança dos dados é crucial para explorar e usar os dados do lakehouse em toda a extensão. Aproveitando um modelo de segurança de confiança zero com recursos de defesa em profundidade e RBAC, e garantindo a conformidade com a regulamentação mais rigorosa, a segurança de dados fornece controles de segurança preventivos, de detecção e corretivos para garantir que a exfiltração e as violações de dados sejam evitadas.
O Oracle Data Safe é um serviço Oracle Cloud totalmente integrado, focado na segurança de dados. Ele fornece um conjunto completo e integrado de recursos para proteção de dados confidenciais e regulamentados em bancos de dados Oracle Cloud, como o Oracle Autonomous AI Lakehouse. Os recursos incluem avaliação de segurança, avaliação do usuário, descoberta de dados, mascaramento de dados e auditoria de atividades.
O Oracle Cloud Infrastructure Audit fornece visibilidade das atividades relacionadas aos recursos e tenancies do Oracle Cloud Infrastructure (OCI). Podem ser usados eventos de log de auditoria para fins de auditoria e rastreamento de uso de recursos e alterações em recursos da OCI, bem como para ajudar a assegurar conformidade com padrões e regulamentos.
O Oracle Cloud Infrastructure Logging fornece uma interface única altamente escalável e totalmente gerenciada para todos os logs da tenancy, incluindo logs de auditoria. Use o OCI Logging para acessar logs de todos os recursos da OCI para que você possa ativá-los, gerenciá-los e pesquisá-los.
O Oracle Cloud Infrastructure Vault é um serviço de gerenciamento de criptografia que armazena e gerencia chaves e segredos de criptografia para acessar recursos de forma segura. Permite que as chaves gerenciadas pelo cliente sejam usadas para o Oracle Autonomous AI Lakehouse e a criptografia do data lake para maior proteção de dados em repouso. Ele permite que os segredos armazenem com segurança serviços e credenciais de usuário para melhorar sua postura de segurança e garantir que as credenciais não sejam comprometidas e usadas de forma inadequada.
Arquitetura Física
- O Oracle Autonomous AI Lakehouse obtém dados das origens de dados federadas usando recursos de conectividade heterogênea gerenciados pela Oracle
- O Oracle Autonomous AI Lakehouse usa bancos de dados de destino acessíveis pela internet pública que são configurados e permitem conexões SSL/TLS recebidas, para que a conectividade heterogênea gerenciada pela Oracle possa conectar e consultar dados com segurança
- O Oracle Autonomous AI Lakehouse lê dados do Databricks usando compartilhamentos de dados
- Os compartilhamentos de dados do Databricks podem ser acessados usando a internet pública, mas são protegidos usando arquivos de credenciais fornecidos pelo Databricks
- Os dados do AWS S3, do Azure Blob e do Google Cloud Storage são federados e lidos sob demanda usando tabelas externas ou copiados no Oracle Autonomous AI Lakehouse, dependendo do caso de uso e dos requisitos
- Os dados de origens de dados não federadas são ingeridos com segurança usando micro batch e arquivos de origens de dados relacionais e não relacionais que não são federados
- Os dados são processados utilizando uma combinação de Oracle Cloud Infrastructure Data Integration e Oracle Cloud Infrastructure Data Flow
- Os dados são armazenados no Oracle Autonomous AI Lakehouse e no Oracle Cloud Infrastructure Object Storage e são organizados de acordo com sua qualidade e valor
- O Oracle Autonomous AI Lakehouse atende dados de warehouse, lake e federados com segurança aos consumidores
- O Oracle Analytics Cloud fornece dados para usuários de negócios usando visualizações
- O Oracle Analytics Cloud é exposto usando o Oracle Cloud Infrastructure Load Balancer que é protegido pelo Oracle Cloud Infrastructure Web Application Firewall (WAF) para fornecer acesso usando a internet
- O Oracle Cloud Infrastructure Data Science é usado para criar, treinar e implantar modelos de machine learning (ML)
- O Oracle Cloud Infrastructure API Gateway é aproveitado para controlar as implantações de modelo de ML do serviço Data Science
- O Oracle Cloud Infrastructure Data Catalog coleta metadados do Oracle Autonomous AI Lakehouse e do armazenamento de objetos
- O Oracle Cloud Infrastructure Bastion é usado pelos administradores para gerenciar recursos de nuvem privada
O diagrama a seguir ilustra a arquitetura:
plataforma de dados-federação-física-oracle-1.zip#GUID-3A90BC57-5F07-494F-B23D-7E50E7D1ED7A
O design da arquitetura física:
- Aproveita 2 VCNs, uma para hub e outra para a própria carga de trabalho
- A conectividade local aproveita o Oracle Cloud Infrastructure FastConnect e a Oracle Cloud Infrastructure Site-to-Site VPN para redundância
- Todo o tráfego de entrada do local e da internet é primeiro roteado para a VCN hub e depois para a VCN de carga de trabalho
- Todos os dados estão seguros em trânsito e em repouso
- Serviços são implantados com pontos finais privados para aumentar a postura de segurança
- A VCN é segregada em várias sub-redes privadas para aumentar a postura de segurança
- Os dados do lago são segregados em vários buckets no armazenamento de objetos, aproveitando uma arquitetura medalhão
- Origens de dados federados e armazenamentos em nuvem são acessados usando conectividade pública e o gateway NAT anexado à VCN de carga de trabalho
As possíveis melhorias de design não descritas nesta implantação por motivos de simplicidade incluem:
- Aproveite a conectividade heterogênea gerenciada pelo cliente, usando um Oracle Database Gateway, para se conectar a origens de dados federadas usando conectividade privada
- Utilização de uma zona de aterragem completa em conformidade com o Sistema de Informações do Cliente
- Aproveite um firewall de rede para melhorar a postura de segurança geral, inspecionando todo o tráfego e aplicando políticas
Recomendações
Use as recomendações a seguir como ponto de partida para usar dados de origens de dados heterogêneas para análise de negócios e machine learning.
Seus requisitos podem ser diferentes da arquitetura descrita aqui.
Oracle Autonomous AI Lakehouse
Essa arquitetura usa o Oracle Autonomous AI Lakehouse em infraestrutura compartilhada.
- Considere o uso de views materializadas para aumentar o desempenho ao acessar dados federados.
- Considere atualizar as views materializadas com a frequência necessária para evitar que os dados federados sejam paralisados.
- Considere criar views para consultar dados usando links de banco de dados de origens federadas para que essas views sejam coletadas e catalogadas no Oracle Cloud Infrastructure Data Catalog para maior governança de dados.
- Considere armazenar as credenciais da origem de dados federada em um segredo no Oracle Cloud Infrastructure Vault para aumentar a postura de segurança.
- Considere usar os recursos de segurança do Autonomous AI Database, como redação (mascaramento de dados dinâmico), em views que mostram dados federados para aumentar a segurança dos dados.
- Considere o uso do compartilhamento de dados para consumir dados federados de origens de dados heterogêneas compatíveis com o protocolo aberto Delta Sharing.
- Considere usar o compartilhamento de dados para compartilhar dados selecionados para consumidores compatíveis com o protocolo aberto Delta Sharing.
- Considere o uso de conectividade heterogênea gerenciada pelo cliente com um Oracle Database Gateway para estabelecer conexão com origens de dados federadas com conectividade privada para a qual você precisa de maior segurança, menor latência ou ambos.
Oracle Analytics Cloud
Essa arquitetura utiliza o Oracle Analytics Cloud (OAC) para fornecer análises aumentadas aos usuários finais.
- Considere usar a ampla gama de fontes de dados da OAC para complementar as fontes de dados federadas usadas pelo Oracle Autonomous AI Lakehouse.
- Considere federar as fontes de dados necessárias no OAC no Oracle Autonomous AI Lakehouse para aumentar o desempenho, o armazenamento em cache, o processamento offload no mecanismo de serviço e a simplificação da camada semântica analítica.
Observe que essa arquitetura depende de uma arquitetura de referência do data lakehouse, incluindo as recomendações aplicáveis à sua arquitetura. Consulte a seção Explorar Mais para obter um link para a arquitetura de referência do lakehouse e os recursos.
Considerações
Ao federar dados para análise, considere as seguintes opções de implementação.
| Orientação | Recomendado | Outras Opções | Análise Racional |
|---|---|---|---|
| Refinaria de Dados |
Oracle Cloud Infrastructure Data Integration |
|
O Oracle Cloud Infrastructure Data Integration fornece uma plataforma ETL nativa da nuvem, serverless e totalmente gerenciada, escalável e econômica. |
| Persistência de Dados |
|
Oracle Exadata Database Service |
O Oracle Autonomous AI Lakehouse é um banco de Dados totalmente autônomo e fácil de usar que tem escala elástica, oferece desempenho rápido em consultas e não requer administração de banco de Dados. Ele também oferece acesso direto aos dados de tabelas particionadas externas ou híbridas de armazenamento de objetos. O Oracle Cloud Infrastructure Object Storage armazena dados ilimitados em formato bruto. |
| Processamento de Dados |
|
Ferramentas de terceiros |
O Oracle Cloud Infrastructure Data Integration fornece uma plataforma ETL nativa da nuvem, serverless e totalmente gerenciada, escalável e econômica. O Oracle Cloud Infrastructure Data Flow fornece um ambiente Spark serverless para processar dados em escala com um modelo pay-per-use extremamente elástico. |
| Acesso e interpretação |
|
Ferramentas de terceiros |
O Oracle Analytics Cloud é totalmente gerenciado e totalmente integrado aos dados selecionados no Oracle Autonomous AI Lakehouse. O Data Science é uma plataforma self-service totalmente gerenciada para que as equipes possam criar, treinar e gerenciar modelos de aprendizado de máquina (ML) no Oracle Cloud Infrastructure. O serviço Data Science fornece ferramentas de infraestrutura e ciência de dados, como recursos de implantação de AutoML e modelo. O Oracle Machine Learning é uma plataforma de autoatendimento totalmente gerenciada para ciência de dados disponível com o Oracle Autonomous AI Lakehouse que aproveita o poder de processamento do warehouse para criar, treinar, testar e implementar modelos de ML em escala sem a necessidade de mover os dados para fora do warehouse. Os serviços de IA da Oracle Cloud Infrastructure são um conjunto de serviços que fornecem modelos predefinidos especificamente criados e treinados para executar tarefas como inferência de possíveis anomalias ou detecção de sentimento. |
Explorar Mais
Saiba mais sobre os recursos desta arquitetura e sobre arquiteturas relacionadas.



