Plataforma de Dados - Data Lakehouse

Arquitetura Funcional

Você pode combinar as habilidades de um data lake e um data warehouse para fornecer uma plataforma moderna de data lakehouse que processa streaming e outros tipos de dados de uma ampla gama de recursos de dados corporativos para que você possa aproveitar os dados para análise de negócios, machine learning, serviços de dados e produtos de dados.

Uma arquitetura de data lakehouse combina os recursos do data lake e do data warehouse para aumentar a eficiência operacional e fornecer recursos aprimorados que permitem:

Uso contínuo de dados e informações sem a necessidade de replicá-los no data lake e no data warehouse
Suporte a diversos tipos de dados em uma arquitetura multimodelo e poliglota aprimorada
Ingestão contínua de dados de qualquer consumidor usando mecanismos de ingestão em tempo real, streaming, lote, interface de programação de aplicativos (API) e em massa
Extração de inteligência contínua de dados usando serviços de inteligência artificial (IA), IA generativa e machine learning (ML)
A capacidade de infundir e fornecer inteligência a qualquer consumidor de dados usando API, interface do usuário, streaming e mecanismos de integração
Governança e segurança de dados refinada que aproveita um modelo de segurança de confiança zero
A capacidade de dissociar totalmente os recursos de armazenamento e computação e consumir apenas os recursos necessários a qualquer momento
A capacidade de aproveitar vários mecanismos de computação, incluindo mecanismos de código aberto, para processar os mesmos dados em diferentes casos de uso para obter o máximo de reaproveitamento, liquidez e uso de dados
A capacidade de armazenar dados usando diferentes formatos de arquivo e tabela abertos no data lake
A capacidade de aproveitar os serviços nativos da Oracle Cloud Infrastructure (OCI) que são gerenciados pela Oracle e que reduzem a sobrecarga operacional
Melhor economia da nuvem com dimensionamento automático que ajusta a infraestrutura de recursos da nuvem para atender à demanda real
Modularidade para que o uso do serviço seja orientado por caso de uso
Interoperabilidade com qualquer sistema ou nuvem que adira a padrões abertos
Suporte para um conjunto diversificado de casos de uso, incluindo streaming, análise, ciência de dados e machine learning
Suporte para diferentes abordagens arquitetônicas, desde um lakehouse centralizado até uma malha de dados descentralizada

O diagrama a seguir ilustra a arquitetura funcional.

Descrição da ilustração lakehouse-functional.png

lakehouse-funcional-oracle-1.zip#GUID-43E61AD0-9E20-4DC0-BFB2-EFF8365A6694

A arquitetura se concentra nas seguintes divisões lógicas:

Conectar, Ingerir, Transformar
Conecta-se a origens de dados, ingere e refina seus dados para uso em cada uma das camadas de dados na arquitetura.
Persistir, Curar, Criar
Facilita o acesso e a navegação dos dados para mostrar a exibição de negócios atual. Para tecnologias relacionais, os dados podem ser lógica ou fisicamente estruturados em formas relacionais, longitudinais, dimensionais ou OLAP simples. Para dados não relacionais, essa camada contém um ou mais pools de dados, seja de saída de um processo analítico ou de dados otimizados para uma tarefa analítica específica.
Analise, Aprenda, Preveja
Resume a visão lógica de negócios dos dados para os consumidores. Essa abstração facilita abordagens ágeis para desenvolvimento, migração para a arquitetura de destino e o fornecimento de uma única camada de relatório de várias origens federadas.

A arquitetura tem os seguintes componentes funcionais:

Ingestão em lote
A ingestão em lote é útil para dados que não podem ser ingeridos em tempo real ou que são muito caros para se adaptar à ingestão em tempo real. Também é importante transformar dados em informações confiáveis e confiáveis, que podem ser selecionadas e persistidas para consumo regular. Você pode usar os serviços a seguir juntos ou de forma independente para obter um fluxo de trabalho de integração e transformação de dados altamente flexível e eficaz.
- O Oracle Cloud Infrastructure Data Integration é um serviço totalmente gerenciado e sem servidor para projetar e executar pipelines de dados. Ele permite a extração, transformação e carregamento contínuos de dados em destinos da OCI, como Autonomous AI Lakehouse e OCI Object Storage. Os usuários podem criar fluxos de integração por meio de uma interface intuitiva e sem código que dimensiona automaticamente os ambientes de execução. Ele suporta ETL com processamento baseado em Spark e ELT usando o SQL Pushdown para desempenho e eficiência. O serviço também oferece ferramentas para preparação de dados e protege contra a divergência de esquema com tratamento baseado em regras.
- O Oracle Data Integrator fornece integração abrangente de dados, desde cargas em lote de alto volume e alto desempenho até processos de integração orientados a eventos e alimentados por recursos, até serviços de dados habilitados para SOA. Uma abordagem de design declarativo garante um desenvolvimento e manutenção mais rápidos e simples e fornece uma abordagem exclusiva para extrair a transformação de carga (ELT) que ajuda a garantir o mais alto nível de desempenho possível para processos de transformação e validação de dados. As transformações de dados da Oracle usam uma interface web para simplificar a configuração e a execução do ELT e para ajudar os usuários a criar e programar dados e fluxos de trabalho usando uma abordagem de design declarativo.
- O Oracle Data Transforms permite o ELT para tecnologias suportadas selecionadas, simplificando a configuração e a execução de pipelines de dados usando uma interface de usuário web que permite aos usuários criar e programar fluxos de dados e workflows de forma declarativa. O Oracle Data Transforms está disponível como um ambiente totalmente gerenciado no Oracle Autonomous AI Lakehouse para carregar e transformar dados de várias origens de dados em uma instância do Oracle Autonomous AI Lakehouse.
Dependendo do caso de uso, esses componentes podem ser usados de forma independente ou em conjunto para obter integração e transformação de dados altamente flexíveis e de alto desempenho.
Ingestão Baseada em API
A ingestão baseada em API permite que aplicativos e sistemas enviem dados de eventos usando APIs ou Webhooks.
- O Oracle Integration é um ambiente pré-configurado totalmente gerenciado que permite integrar aplicativos na nuvem e on-premises, automatizar processos de negócios e desenvolver aplicativos visuais. Ele usa um servidor de arquivos compatível com SFTP para armazenar e recuperar arquivos e permite que você troque documentos com parceiros comerciais business-to-business usando um portfólio de centenas de adaptadores e receitas para se conectar com aplicativos Oracle e de terceiros.
- O Oracle Cloud Infrastructure API Gateway permite que você publique APIs com pontos finais privados acessíveis de dentro da sua rede e que você pode expor à internet pública, se necessário. Os pontos finais suportam validação da API, transformação de solicitação e resposta, CORS, autenticação e autorização e limitação de solicitação.
  
  O OCI API Gateway permite que a observabilidade da API monitore o uso e garanta SLAs. Os planos de uso também podem ser usados para monitorar e gerenciar clientes e consumidores de API e para configurar diferentes camadas de acesso de API para diferentes clientes. Os planos de uso são um recurso fundamental para dar suporte à monetização de dados.
  
  Os planos de uso suportam a monetização de dados criando planos de uso em camadas para gerenciar clientes e consumidores de API e rastrear seu uso de dados.
- O Oracle Cloud Infrastructure Functions é uma plataforma FaaS (Funções como Serviço) totalmente gerenciada, multitenant, altamente escalável e sob demanda. Ele é alimentado pelo mecanismo de open source do Fn Project. O OCI Functions permite que você implante o código da sua conta e o chame diretamente ou o acione em resposta a eventos. O OCI Functions usa contêineres Docker hospedados no Oracle Cloud Infrastructure Registry.
- O Oracle REST Data Services (ORDS) é um aplicativo Java que permite a qualquer desenvolvedor com habilidades de SQL e banco de dados desenvolver APIs REST para o Oracle Database. Qualquer desenvolvedor de aplicativos pode usar essas APIs de qualquer ambiente de idioma sem instalar e manter os drivers do cliente da mesma forma que acessam outros serviços externos usando REST, a tecnologia de API mais usada.
  
  O ORDS é implantado como um recurso totalmente gerenciado no Oracle Autonomous AI Lakehouse e pode ser usado para expor informações do lakehouse usando APIs para consumidores de dados.
Ingestão em tempo real

O Oracle Cloud Infrastructure GoldenGate é um serviço totalmente gerenciado que permite a ingestão de dados de origens que residem on-premise ou em qualquer nuvem. Ele aproveita a tecnologia GoldenGate CDC para uma captura e entrega de dados não intrusiva e eficiente para o Oracle Autonomous AI Lakehouse, o Oracle Cloud Infrastructure Object Storage ou o Oracle Cloud Infrastructure Streaming em tempo real e em escala para disponibilizar informações relevantes aos consumidores o mais rápido possível.
Transferência em lote
A transferência em massa permite mover grandes volumes de dados em lote usando diferentes métodos. Para data lakehouses em larga escala, recomendamos os serviços Oracle Cloud Infrastructure FastConnect e Data Transfer.
- O Oracle Cloud Infrastructure FastConnect cria uma conexão privada dedicada entre seu data center e a OCI. O FastConnect fornece opções da largura de banda maior e uma experiência da rede mais confiável quando comparada às conexões baseadas na internet.
- A interface de linha de comando (CLI) do Oracle Cloud Infrastructure (OCI) permite executar e automatizar a transferência de dados do local para o OCI, aproveitando o circuito privado do Oracle Cloud Infrastructure FastConnect. Os SDKs da OCI permitem que você crie código para copiar ou sincronizar dados e arquivos on-premises ou de outras nuvens no Oracle Cloud Infrastructure Object Storage, aproveitando uma variedade de linguagens de programação, como Python, Java ou Go, para citar algumas. As APIs REST permitem que você faça interface com os serviços do OCI e os controle, como mover dados para o armazenamento de objetos usando a API do Object Storage Service.
- O Oracle Cloud Infrastructure Data Transfer é um serviço de migração de dados off-line que permite mover com segurança conjuntos de dados em escala de petabytes do seu data center para o Oracle Cloud Infrastructure Object Storage ou Archive Storage. Usar a internet pública para transferir dados para a nuvem nem sempre é viável em decorrência dos altos custos de rede, da conectividade de rede não confiável, dos longos tempos de transferência e das preocupações com a segurança. O serviço Data Transfer supera esses desafios e pode reduzir significativamente o tempo necessário para migrar dados para a nuvem. O Data Transfer está disponível por meio do Disk ou do Appliance. A escolha de um sobre o outro depende principalmente da quantidade de dados, com o Data Transfer Appliance suportando conjuntos de dados maiores para cada appliance.
Ingestão de streaming
A ingestão de streaming é suportada usando serviços nativos da OCI que permitem a ingestão em tempo real de conjuntos de dados em larga escala de um amplo conjunto de produtores de dados. A ingestão de streaming persiste e sincroniza os dados no armazenamento de objetos, que é o coração do data lakehouse. A sincronização de dados com o armazenamento de objetos permite que você mantenha dados históricos que podem ser selecionados e transformados para extrair insights valiosos.
- O Oracle Cloud Infrastructure Streaming fornece uma solução em armazenamento totalmente gerenciada, escalável e durável para a ingestão de streams contínuos de alto volume de dados que você pode consumir e processar em tempo real. O streaming pode ser usado para mensagens, logs do aplicativo de alto volume, telemetria operacional, dados de sequência de cliques da Web ou outros casos de uso do modelo public-subscribe de mensagens nos quais os dados são produzidos e processados continuamente e sequencialmente. Os dados são sincronizados com o Oracle Cloud Infrastructure Object Storage e podem ser selecionados e transformados para extrair insights valiosos.
- O Oracle Cloud Infrastructure Queue é um serviço totalmente gerenciado e sem servidor que ajuda a dissociar sistemas e a ativar operações assíncronas. O serviço Queue trata dados transacionais de alto volume que exigem mensagens processadas de forma independente sem perda ou duplicação.
- O Oracle Cloud Infrastructure Service Connector Hub é uma plataforma de barramento de mensagens na nuvem que oferece um único painel de vidro para descrever, executar e monitorar a movimentação de dados entre serviços no Oracle Cloud Infrastructure. Para essa arquitetura de referência específica, ela será usada para mover dados do Oracle Cloud Infrastructure Streaming ou do OCI Queue para o Oracle Cloud Infrastructure Object Storage para persistir os dados brutos e preparados na camada de persistência do data lakehouse.
Processamento de streaming

O processamento de streaming enriquece os dados de streaming, detecta padrões de eventos e cria um conjunto diferente de fluxos que são persistidos no data lakehouse.
- O Stream Analytics do Oracle Cloud Infrastructure GoldenGate é um serviço totalmente gerenciado e escalável que processa e analisa informações em larga escala e em tempo real usando padrões de correlação sofisticados, enriquecimento de dados e machine learning. Os usuários podem explorar dados em tempo real usando gráficos, mapas e visualizações ao vivo. Os usuários podem criar pipelines de streaming sem qualquer codificação manual usando ferramentas gráficas.
- O Oracle Cloud Infrastructure Data Flow é um serviço de big data totalmente gerenciado que permite executar aplicativos Apache Spark e Spark Streaming sem precisar implantar ou gerenciar a infraestrutura. Ele permite que você entregue aplicativos de big data e IA com mais rapidez, pois você pode se concentrar em seus aplicativos sem precisar gerenciar operações. Os aplicativos de fluxo de dados são modelos reutilizáveis que consistem em um aplicativo Spark e suas dependências, parâmetros padrão e uma especificação de recurso padrão de tempo de execução.
Ecossistema de código aberto
Você pode usar o ecossistema Open Source:
- Para processamento em lote e em fluxo, aproveitando vários mecanismos populares de código aberto, como Hadoop, Spark, Flink ou Trino
- Com o Oracle Cloud Infrastructure Streaming tanto como produtor quanto como consumidor
- Com o Oracle Cloud Infrastructure Object Storage, ele pode persistir dados e consumir dados
Você pode usar o Oracle Cloud Infrastructure Object Storage como data lake para persistir conjuntos de dados que deseja compartilhar entre os diferentes serviços do Oracle Cloud Infrastructure em diferentes momentos.
O Big Data Service provisiona clusters Hadoop, Spark ou Flink totalmente configurados, seguros, altamente disponíveis e dedicados, entre outras tecnologias, sob demanda. Dimensione o cluster para ajustar suas cargas de trabalho big dados e de análise usando uma faixa de formas de computação do Oracle Cloud Infrastructure que suportam tudo, desde pequenos clusters de teste e desenvolvimento até grandes clusters de produção. Ajuste rapidamente à demanda dos negócios e otimize os custos aproveitando as configurações de dimensionamento automático, com base em métricas ou no cronograma. Aproveite os perfis de cluster para criar clusters ideais para uma carga de trabalho ou tecnologia específica.
Processamento em lote
O processamento em lote transforma conjuntos de dados em grande escala armazenados no data lakehouse. O processamento em lote aproveita os serviços nativos do Oracle Cloud Infrastructure que se integram perfeitamente ao Oracle Cloud Infrastructure Object Storage e permite criar dados selecionados para casos de uso como agregação e enriquecimento de dados, ingestão de data warehouse e machine learning e uso de dados de IA em escala.
- O Oracle Cloud Infrastructure Data Integration, descrito acima, é um serviço nativo da nuvem totalmente gerenciado e sem servidor que extrai, carrega, transforma, limpa e remodela dados de uma variedade de origens de dados em serviços de destino do Oracle Cloud Infrastructure, como o Autonomous AI Lakehouse e o Oracle Cloud Infrastructure Object Storage.
- O Oracle Cloud Infrastructure Data Flow é um serviço de big data totalmente gerenciado que permite executar aplicativos Apache Spark e Spark Streaming sem precisar implantar ou gerenciar a infraestrutura. Ele permite que você entregue aplicativos de big data e IA com mais rapidez, pois você pode se concentrar em seus aplicativos sem precisar gerenciar operações. Os aplicativos de fluxo de dados são modelos reutilizáveis que consistem em um aplicativo Spark e suas dependências, parâmetros padrão e uma especificação de recurso padrão de tempo de execução.
- O Oracle Data Transforms permite extrair-carregar-transformar (ELT) para tecnologias suportadas selecionadas, simplificando a configuração e a execução de pipelines de dados usando uma interface de usuário web que permite aos usuários criar e programar declarativamente fluxos de dados e fluxos de trabalho. O Oracle Data Transforms está disponível como um ambiente totalmente gerenciado no Oracle Autonomous AI Lakehouse para carregar e transformar dados de várias origens de dados em uma instância do Oracle Autonomous AI Lakehouse.
  
  Dependendo do caso de uso, esses componentes podem ser usados de forma independente ou em conjunto para obter um processamento de dados altamente flexível e eficiente.
Porção
O Oracle Autonomous AI Lakehouse é um serviço de banco de dados autônomo, autoprotegido e autorreparável, otimizado para cargas de trabalho de data warehousing. Você não precisa configurar nem gerenciar nenhum hardware, nem instalar nenhum software. A OCI lida com a criação, o backup, a aplicação de patches, o upgrade e o ajuste do banco de dados.

Após o provisionamento, você pode dimensionar o número de núcleos de CPU ou a capacidade de armazenamento do banco de dados a qualquer momento, sem afetar a disponibilidade ou o desempenho.

O Oracle Autonomous AI Lakehouse também pode virtualizar dados que residem no armazenamento de objetos como tabelas particionadas externas e híbridas para que você possa unir e consumir dados derivados de outras fontes com os dados do warehouse. Você também pode mover dados históricos do warehouse para o armazenamento de objetos e consumi-los perfeitamente usando tabelas particionadas híbridas.

O Oracle Autonomous AI Lakehouse pode usar metadados coletados anteriormente armazenados no serviço Data Catalog para criar tabelas externas e pode sincronizar automaticamente atualizações de metadados no serviço Data Catalog com a definição de tabelas externas para manter a consistência, simplificar o gerenciamento e reduzir o esforço.

Os vetores são suportados no Autonomous Database, pois ele é um banco de dados multimodelo que suporta vários tipos de dados, ou seja, relacional, JSON, espacial e gráfico. O tipo de dados de vetores permite carregar e armazenar incorporações de vetores, bem como criar índices vetoriais que podem ser usados para aplicações de Geração Aumentada de Recuperação (RAG), tudo em uma única instância do Autonomous AI Lakehouse na nuvem. Esse recurso multimodelo permite a análise usando todos os tipos de dados que podem ser unidos em uma única consulta, reduzindo assim a complexidade e o risco de ter bancos de dados isolados especializados por tipo de dados, garantindo ao mesmo tempo maior segurança, confiabilidade, escalabilidade e facilidade de analisar todos os dados.

O Select AI, um recurso do Autonomous AI Database, permite consultar dados usando linguagem natural, usando LLMs para converter o texto de entrada do usuário em Oracle SQL. Selecione AI processa o prompt de linguagem natural, complementa o prompt com metadados e, em seguida, gera e executa uma consulta SQL.

O Compartilhamento de Dados, um recurso do Autonomous AI Database, permite fornecer e consumir dados e metadados com segurança, de outras partes que usam o Autonomous AI Database ou uma tecnologia compatível com o Delta-Sharing. O Compartilhamento de Dados facilita o consumo contínuo de dados de provedores de compartilhamento, como visualizações que abstraem as tabelas compartilhadas subjacentes. Além disso, os compartilhamentos ao vivo, que permitem que os destinatários consumam dados ao vivo e novos, podem ser usados quando o provedor e o destinatário usam o Autonomous AI Database.

As views analíticas, um recurso do Autonomous AI Database, fornecem uma maneira rápida e eficiente de criar consultas analíticas de dados armazenados em tabelas e views de banco de dados existentes. As views analíticas organizam dados usando um modelo dimensional. Elas permitem adicionar facilmente agregações e cálculos a conjuntos de dados e apresentar dados em views que podem ser consultadas com SQL relativamente simples. Esse recurso permite modelar semanticamente um esquema estrela ou floco de neve diretamente no Oracle Autonomous AI Lakehouse, usando dados armazenados interna e externamente, e permite o consumo do modelo usando SQL e qualquer consumidor de dados compatível com SQL.

Além disso, o Autonomous Data Lake Accelerator, um componente do Autonomous AI Database, pode consumir perfeitamente dados de armazenamento de objetos, dimensionar o processamento para fornecer consultas rápidas, dimensionar automaticamente a instância de computação do banco de dados quando necessário e reduzir o impacto na carga de trabalho do banco de dados, isolando as consultas de armazenamento de objetos da instância de computação do banco de dados.
Armazenamento na nuvem
O Oracle Cloud Infrastructure Object Storage é uma plataforma de armazenamento de alto desempenho e em escala da internet que oferece durabilidade dos dados confiável e econômica. O Oracle Cloud Infrastructure Object Storage pode armazenar uma quantidade ilimitada de dados não estruturados de qualquer tipo de conteúdo, incluindo dados analíticos. Você pode armazenar ou recuperar dados com segurança e diretamente da internet ou de dentro da plataforma na nuvem. Várias interfaces de gerenciamento permitem que você comece facilmente pequeno e dimensione perfeitamente, sem sofrer qualquer degradação no desempenho ou na confiabilidade do serviço.

O Oracle Cloud Infrastructure Object Storage também pode ser usado como camada de armazenamento a frio para o data warehouse, armazenando dados que são usados com pouca frequência e, em seguida, unindo-os perfeitamente aos dados mais recentes usando tabelas híbridas no Oracle Autonomous AI Lakehouse.

O controle de acesso granular no nível do objeto pode ser imposto usando políticas do IAM para objetos, aumentando a segurança dos dados para acessos diretos do data lake.
Visualizar e aprender
O Oracle Analytics Cloud é um serviço público de nuvem escalável e seguro que fornece um conjunto completo de recursos para explorar e executar análises colaborativas para você, seu grupo e sua empresa. Ele oferece suporte a cientistas de dados de cidadãos, treinamento avançado de analistas de negócios e execução de modelos de machine learning (ML). Os modelos de machine learning podem ser executados no serviço de análise ou diretamente no Oracle Autonomous AI Lakehouse como modelos incorporados ao OML para previsões em lote em larga escala que aproveitam o poder de processamento, a escalabilidade e a elasticidade dos serviços de warehouse e OCI AI, como a Oracle Cloud Infrastructure Vision.

Com o Oracle Analytics Cloud, você também obtém recursos flexíveis de gerenciamento de serviços, incluindo configuração rápida, fácil dimensionamento e aplicação de patches e gerenciamento automatizado do ciclo de vida.
Aprenda e preveja
- O serviço Data Science fornece infraestrutura, tecnologias de código aberto, bibliotecas, pacotes e ferramentas de ciência de dados para que as equipes de ciência de dados criem, treinem e gerenciem modelos de machine learning (ML) no Oracle Cloud Infrastructure. O espaço de Trabalho colaborativo e orientado a projetos fornece uma experiência do usuário coesa de ponta a extremidade e suporta o ciclo de vida dos modelos preditivos.
  
  O recurso Jobs do serviço Data Science permite que os cientistas de dados definam e executem tarefas repetíveis de aprendizado de máquina em uma infraestrutura totalmente gerenciada.
  
  O recurso Implantação de Modelo do serviço Data Science permite que os cientistas de dados implantem modelos treinados como pontos finais HTTP totalmente gerenciados que podem fornecer previsões em tempo real, infundindo inteligência em processos e aplicativos e permitindo que a empresa reaja a eventos relevantes à medida que ocorrem.
- O Oracle Machine Learning fornece recursos avançados de machine learning totalmente integrados ao Autonomous AI Database, com suporte para Python e AutoML. Ele suporta modelos usando algoritmos de código aberto e escaláveis no banco de dados que reduzem a preparação e a movimentação de dados. O AutoML ajuda os cientistas de dados a acelerar o tempo de valorização das iniciativas de machine learning da empresa usando seleção automática de algoritmos, amostragem de dados adaptável, seleção automática de recursos e ajuste automático de modelos. Com os serviços do Oracle Machine Learning disponíveis no Oracle Autonomous AI Lakehouse, você pode não apenas gerenciar modelos, mas também implantar esses modelos como pontos finais REST para democratizar as previsões em tempo real dentro da empresa, permitindo que a empresa reaja a eventos relevantes à medida que ocorrem, em vez de após o fato.
Serviços de IA e IA generativa
Os serviços de IA do Oracle Cloud Infrastructure fornecem um conjunto de serviços de IA prontos para consumo que podem ser usados para dar suporte a uma variedade de casos de uso, desde análise de texto até manutenção preditiva. Esses serviços têm modelos pré-construídos e ajustados que você pode integrar em pipelines de dados, análises e aplicativos usando APIs.
- O Oracle Cloud Infrastructure Language executa análises e traduções de texto sofisticadas em escala. Com modelos pré-treinados e personalizados, os desenvolvedores podem processar texto não estruturado e extrair insights sem experiência em ciência de dados. Realize análise de sentimento, extração de frase-chave, classificação de texto, reconhecimento de entidade nomeada e detecte dados de PII no texto. Personalize modelos para tarefas específicas de domínio e traduza texto sem esforço em vários idiomas. O Oracle Cloud Infrastructure Language também suporta tradução de documentos e jobs assíncronos para processar com eficiência cargas de trabalho de grande volume.
- O Oracle Cloud Infrastructure Speech aproveita o poder da linguagem falada, permitindo que você converta facilmente arquivos de mídia que contêm fala humana em transcrições de texto altamente precisas. O OCI Speech pode ser usado para transcrever chamadas de serviço de cliente, automatizar a legenda e gerar metadados para ativos de mídia para criar um arquivo compactado totalmente pesquisável. O OCI Speech suporta jobs de transcrição em lote e ao vivo.
- O Oracle Cloud Infrastructure Vision é um serviço de IA para realizar análises de imagens em escala com base no aprendizado profundo. O OCI Vision executa tarefas de reconhecimento de imagem e análise de vídeo, como classificar imagens, detectar objetos e rostos e extrair texto. Você pode aproveitar modelos pré-treinados ou criar facilmente modelos de visão personalizados para cenários específicos do setor e do cliente. O OCI Vision é um serviço de nuvem nativo totalmente gerenciado e multitenant que ajuda em todas as tarefas comuns de visão computacional. Com modelos pré-construídos disponíveis prontos para uso, os desenvolvedores podem facilmente criar reconhecimento de imagem e reconhecimento de texto em suas aplicações sem experiência em machine learning (ML).
- O Oracle Cloud Infrastructure Document Understanding executa tarefas de classificação e análise de documentos, como extração de texto, valores-chave e tabelas. O OCI Document Understanding é um serviço de nuvem nativo, multitenant e totalmente gerenciado que ajuda em todas as tarefas comuns de análise de documentos.
- O Oracle Cloud Infrastructure Generative AI é totalmente gerenciado que fornece um conjunto de modelos de linguagem grandes (LLMs) personalizáveis e de última geração que abrangem uma ampla variedade de casos de uso, incluindo chat, geração do texto, resumo e criação de incorporações de texto. Use o playground para testar os modelos já treinados prontos ou crie e hospede seus próprios modelos personalizados ajustados com base em seus próprios dados em clusters dedicados de IA.
Enriquecimento de Dados
O enriquecimento de dados pode melhorar os dados usados para treinar modelos de machine learning para obter resultados de previsão melhores e mais precisos.
O Oracle Cloud Infrastructure Data Labeling permite que você crie e procure conjuntos de dados, exiba registros de dados (texto ou imagens) e aplique labels para fins de criação de modelos de IA/ML. O serviço também fornece interfaces de usuário interativas projetadas para auxiliar no processo de rotulagem. Depois que os registros são rotulados, o conjunto de dados pode ser exportado como JSON delimitado por linha para uso no desenvolvimento de modelos de IA/ML.
Pesquisar
Os recursos de pesquisa podem ser usados como uma função complementar para expor dados a usuários finais que exigem dados de análise operacional que são pré-indexados e, portanto, são atendidos com baixa latência.
O Oracle Cloud Infrastructure Search with OpenSearch é um mecanismo de pesquisa de texto completo distribuído, totalmente gerenciado e sem manutenção. O OpenSearch permite armazenar, pesquisar e analisar grandes volumes de dados rapidamente com tempos de resposta rápidos. O serviço suporta APIs OpenSearch de código-fonte aberto e visualização de dados do OpenSearch Dashboards.
Análise de streaming
A análise de streaming fornece painéis de controle que fornecem análise em tempo real de dados transmitidos contextualizados com dados selecionados e mestre armazenados no data lakehouse para detectar padrões de interesse que podem servir a usuários, aplicativos e coisas.

O Oracle Cloud Infrastructure GoldenGate Stream Analytics processa e analisa informações em larga escala e em tempo real usando padrões de correlação sofisticados, enriquecimento de dados e machine learning. Os usuários podem explorar dados em tempo real por meio de gráficos ao vivo, mapas, visualizações e criar graficamente pipelines de streaming sem qualquer codificação manual. Esses pipelines são executados em um serviço totalmente gerenciado e escalável para tratar de casos de uso críticos em tempo real de empresas modernas.
Estornar ETL/Gravação
O ETL reverso, às vezes chamado de write-back, permite a ativação de dados em sistemas e dispositivos operacionais, permitindo infundir inteligência derivada de dados, diretamente em aplicativos e dispositivos usados para suportar processos de negócios.

Os dados são servidos aos consumidores através de vários mecanismos, nomeadamente através da utilização de fluxos e filas que suportam um grande conjunto de consumidores que extraem simultaneamente informações que se encontram quase em tempo real e são dissociadas do sistema de análise de streaming para aumentar a resiliência e a escalabilidade, usando a integração de aplicativos ou dados para enviar dados usando adaptadores predefinidos ou usando funções sem servidor para chamar praticamente qualquer aplicativo ou ponto final do dispositivo.
- O serviço Streaming do Oracle Cloud Infrastructure fornece uma solução totalmente gerenciada, escalável e durável de armazenamento para a ingestão de streams contínuos de alto volume de dados que você pode consumir e processar em tempo real. O streaming pode ser usado para mensagens, logs do aplicativo de alto volume, telemetria operacional, dados de sequência de cliques da web ou outros casos de uso do modelo public-subscribe de mensagens nos quais os dados são produzidos e processados continuamente e sequencialmente.
- O Oracle Cloud Infrastructure Queue é um serviço sem servidor totalmente gerenciado que ajuda a desacoplar sistemas e ativar operações assíncronas. O serviço Queue trata dados transacionais de alto volume que exigem mensagens processadas de forma independente sem perda ou duplicação.
- O Oracle Integration é um ambiente totalmente gerenciado e pré-configurado que permite integrar aplicativos na nuvem e on-premises, automatizar processos de negócios, desenvolver aplicativos visuais, usar um servidor de arquivos compatível com SFTP para armazenar e recuperar arquivos e trocar documentos de negócios com um parceiro comercial B2B usando um portfólio de centenas de adaptadores e receitas para se conectar com aplicativos Oracle e de terceiros.
- O Oracle Data Transforms permite o ELT para tecnologias suportadas selecionadas, simplificando a configuração e a execução de pipelines de dados usando uma interface de usuário web que permite aos usuários criar e programar fluxos de dados e workflows de forma declarativa. O Oracle Data Transforms está disponível como um ambiente totalmente gerenciado no Oracle Autonomous AI Lakehouse para carregar e transformar dados de várias origens de dados em uma instância do Oracle Autonomous AI Lakehouse.
- O Oracle Cloud Infrastructure Functions é uma plataforma de funções como serviço totalmente gerenciada, multitenant, altamente escalável e sob demanda. Ele é criado no Oracle Cloud Infrastructure de nível empresarial e desenvolvido pelo mecanismo de origem aberta Fn Project.
API
A camada de API permite que você infunda a inteligência derivada do serviço Data Science e do Oracle Machine Learning em aplicativos, processos de negócios e coisas para influenciar e melhorar sua operação e função. A camada de API fornece consumo seguro dos modelos implantados do serviço Data Science para pontos finais REST do Oracle Machine Learning e a capacidade de controlar o sistema para garantir a disponibilidade de ambientes de runtime. Você também pode aproveitar as funções para executar lógica adicional, conforme necessário.
- O Gateway de API do Oracle Cloud Infrastructure permite publicar APIs com pontos finais privados que podem ser acessados por dentro da sua rede e que você possa expor com endereços IP públicos se desejar que eles aceitem o tráfego da internet. Os pontos finais suportam validação da API, transformação de solicitação e resposta, CORS, autenticação e autorização e limitação de solicitação. Ele permite a observabilidade da API para monitorar o uso e garantir SLAs. Os planos de uso também podem ser usados para monitorar e gerenciar os consumidores de API e os clientes de API que acessam APIs e para configurar diferentes camadas de acesso para que diferentes clientes rastreiem o uso de dados consumidos usando APIs. Os planos de uso são um recurso importante para dar suporte à monetização de dados.
- O Oracle Cloud Infrastructure Functions é uma plataforma de funções como serviço totalmente gerenciada, multitenant, altamente escalável e sob demanda. Ele é criado no Oracle Cloud Infrastructure de nível empresarial e desenvolvido pelo mecanismo de origem aberta Fn Project.
- O Oracle REST Data Services (ORDS) é um aplicativo Java que permite aos desenvolvedores com habilidades de SQL e banco de dados desenvolver APIs REST para o Oracle Database. Qualquer desenvolvedor de aplicativos pode usar essas APIs de qualquer ambiente de linguagem, sem instalar e manter drivers de cliente, da mesma forma que acessam outros serviços externos usando REST, a tecnologia de API mais usada. O ORDS é implantado como um recurso totalmente gerenciado no Oracle Autonomous AI Lakehouse e pode ser usado para expor informações do lakehouse usando APIs para consumidores de dados.
Governança de Dados
O Oracle Cloud Infrastructure Data Catalog fornece visibilidade de onde residem ativos técnicos, como metadados e respectivos atributos, e oferece a capacidade de manter um glossário de negócios mapeado para esses metadados técnicos. O serviço Data Catalog também pode fornecer metadados ao Oracle Autonomous AI Lakehouse para facilitar a criação de tabelas externas no data warehouse.
Segurança dos Dados

A segurança dos dados é crucial para explorar e usar os dados do lakehouse em toda a extensão. Aproveitando um modelo de segurança de confiança zero com recursos de defesa em profundidade e RBAC, e garantindo a conformidade com a regulamentação mais rigorosa, a segurança de dados fornece controles de segurança preventivos, de detecção e corretivos para garantir que a exfiltração e as violações de dados sejam evitadas.
- O Oracle Data Safe é um serviço Oracle Cloud totalmente integrado, focado na segurança de dados. Ele fornece um conjunto completo e integrado de recursos para proteção de dados confidenciais e regulados em bancos de dados Oracle Cloud, como o Oracle Autonomous AI Lakehouse. Os recursos incluem avaliação de segurança, avaliação do usuário, descoberta de dados, mascaramento de dados e auditoria de atividades.
- O Oracle Cloud Infrastructure Audit fornece visibilidade das atividades relacionadas aos recursos e tenancies do Oracle Cloud Infrastructure (OCI). Podem ser usados eventos de log de auditoria para fins de auditoria e rastreamento de uso de recursos e alterações em recursos da OCI, bem como para ajudar a assegurar conformidade com padrões e regulamentos.
- O Oracle Cloud Infrastructure Logging fornece uma interface única altamente escalável e totalmente gerenciada para todos os logs da tenancy, incluindo logs de auditoria. Use o OCI Logging para acessar logs de todos os recursos do OCI para que você possa ativá-los, gerenciá-los e pesquisá-los.
- O Oracle Cloud Infrastructure Vault é um serviço de gerenciamento de criptografia que armazena e gerencia chaves e segredos de criptografia para acessar recursos de forma segura. Permite que as chaves gerenciadas pelo cliente sejam usadas para o Oracle Autonomous AI Lakehouse e a criptografia do data lake para maior proteção de dados em repouso. Permite que os segredos armazenem com segurança serviços e credenciais de usuário para melhorar sua postura de segurança e garantir que as credenciais não sejam comprometidas e usadas de forma inadequada.

Arquitetura Física

A arquitetura física desse data lakehouse suporta o seguinte:

Os dados são ingeridos com segurança usando micro batch, streaming, APIs e arquivos de fontes de dados relacionais e não relacionais
Os dados são processados utilizando uma combinação de Oracle Cloud Infrastructure Data Integration e Oracle Cloud Infrastructure Data Flow
Os dados são armazenados no Oracle Autonomous AI Lakehouse e no Oracle Cloud Infrastructure Object Storage e são organizados de acordo com sua qualidade e valor
O Oracle Autonomous AI Lakehouse atende aos serviços de data warehouse e lake com segurança aos consumidores
O Oracle Analytics Cloud fornece dados para usuários de negócios usando visualizações
O Oracle Analytics Cloud é exposto usando o Oracle Cloud Infrastructure Load Balancer que é protegido pelo Oracle Cloud Infrastructure Web Application Firewall (WAF) para fornecer acesso usando a internet
O Oracle Cloud Infrastructure Data Science é usado para criar, treinar e implantar modelos de machine learning (ML)
O Oracle Cloud Infrastructure API Gateway é aproveitado para controlar as implantações de modelo de ML do serviço Data Science
O Oracle Cloud Infrastructure Data Catalog coleta metadados do Oracle Autonomous AI Lakehouse e do armazenamento de objetos
O Oracle Data Safe avalia riscos para dados, implementa e monitora controles de segurança, avalia a segurança do usuário, monitora a atividade do usuário e atende aos requisitos de conformidade de segurança de dados
O Oracle Cloud Infrastructure Bastion é usado pelos administradores para gerenciar recursos de nuvem privada

O diagrama a seguir ilustra essa arquitetura de referência.

Descrição da ilustração lakehouse-architecture.png

lakehouse-arquitetura-oracle-1.zip#GUID-EE46F831-C10F-432F-A664-D78609670EB6

O design da arquitetura física:

Aproveita 2 VCNs, uma para hub e outra para a própria carga de trabalho
A conectividade local utiliza o Oracle Cloud Infrastructure FastConnect e a VPN site a site para redundância
Todo o tráfego de entrada do local e da internet é primeiro roteado para a VCN hub e depois para a VCN de carga de trabalho
Todos os dados estão seguros em trânsito e em repouso
Serviços são implantados com pontos finais privados para aumentar a postura de segurança
A VCN é segregada em várias sub-redes privadas para aumentar a postura de segurança
Os dados do lago são segregados em vários buckets no armazenamento de objetos, aproveitando uma arquitetura medalhão

As possíveis melhorias de design não descritas nesta implantação por motivos de simplicidade incluem:

Utilização de uma zona de aterragem completa em conformidade com o Sistema de Informações do Cliente
Aproveite um firewall de rede para melhorar a postura de segurança geral, inspecionando todo o tráfego e aplicando políticas

Recomendações

Use as recomendações a seguir como ponto de partida para processar dados de streaming e uma ampla gama de recursos de dados empresariais para análise de negócios e machine learning.

Seus requisitos podem ser diferentes da arquitetura descrita aqui.

Oracle Autonomous AI Lakehouse
Essa arquitetura usa o Oracle Autonomous AI Lakehouse em infraestrutura compartilhada.
- Ative o dimensionamento automático para fornecer às cargas de trabalho do banco de dados até três vezes o poder de processamento.
- Considere usar o Oracle Autonomous AI Lakehouse em uma infraestrutura dedicada se quiser o recurso de banco de dados de autoatendimento em um ambiente de nuvem de banco de dados privado em execução na nuvem pública.
- Considere usar o recurso de tabelas particionadas híbridas do Autonomous AI Lakehouse para mover partições de dados para o Oracle Cloud Infrastructure Object Storage e atendê-las a usuários e aplicativos de forma transparente. Recomendamos que você use esse recurso para dados que não são consumidos com frequência e para os quais não precisa do mesmo desempenho dos dados armazenados no Autonomous AI Lakehouse.
- Considere usar o recurso de tabelas externas para consumir dados armazenados no Oracle Cloud Infrastructure Object Storage em tempo real sem a necessidade de replicá-los no Autonomous AI Lakehouse. Esse recurso une de forma transparente e integrada conjuntos de dados selecionados fora do Autonomous AI Lakehouse, independentemente do formato (parquet, avro, orc, json, csv etc.), com dados que residem no Autonomous AI Lakehouse.
- Considere usar o recurso de banco de dados na memória para melhorar significativamente o desempenho para análises em tempo real e cargas de trabalho mistas. Carregue dados do lakehouse na memória que precisam ser atendidos com baixa latência e que residam em tabelas internas, híbridas ou externas do Autonomous AI Lakehouse.
- Considere o uso do Autonomous AI Lakehouse Accelerator ao consumir dados de armazenamento de objetos para oferecer uma experiência melhorada e mais rápida aos usuários que consomem e unem dados entre o data warehouse e o data lake.
- Considere armazenar incorporações de vetores no Autonomous AI Lakehouse juntamente com outros tipos de dados, como dados relacionais ou dados JSON, para simplificar a engenharia e a análise de dados em todos os dados e fundamentar com eficiência os agentes de RAG usando todos os dados.
- Considere o uso do Select AI como um acelerador para criar SQL simples e complexo que possa ser usado em engenharia de dados, business intelligence, desenvolvimento de aplicativos ou qualquer tarefa que precise de SQL para ser criada.
- Considere usar o Select AI com aplicativos de baixo código para simplificar ainda mais a camada de aplicativos.
- Considere usar Views Analíticas para modelar semanticamente o esquema subjacente estrela ou floco de neve DW diretamente no Autonomous AI Lakehouse para que dados granulares sejam agregados automaticamente sem a necessidade de pré-agregá-lo, o modelo semântico é consumido usando SQL de forma consistente com qualquer cliente compatível com SQL, incluindo o Oracle Analytics Cloud, garantindo que fatos e KPIs sejam servido de forma consistente, independentemente do cliente, e todos os dados podem ser usados no modelo semântico, independentemente de ele ser armazenado no Autonomous AI Lakehouse ou no OCI Object Storage, tornando esse recurso uma camada de modelagem semântica perfeita para uma arquitetura de lakehouse na qual fatos e dimensões podem atravessar a DW e o Lake.
- Considere usar Chaves Gerenciadas pelo Cliente aproveitando o OCI Vault se for necessário um controle total das chaves de criptografia do Autonomous AI Lakehouse em decorrência de políticas de regulamentação ou da empresa.
- Considere usar o Database Vault no Autonomous AI Lakehouse para impedir que usuários privilegiados não autorizados acessem dados confidenciais e, assim, evitem a exfiltração e as violações de dados.
- Considere o uso do Oracle Autonomous Data Guard para dar suporte a um plano de continuidade de negócios configurando e mantendo os dados replicados em uma instância stand-by na mesma região ou em outra.
- Considere usar o mascaramento de dados dinâmico com o Data Redaction para fornecer dados mascarados aos usuários, dependendo de sua função e, portanto, garantir o acesso apropriado aos dados sem a necessidade de duplicação de dados e mascaramento estático.
- Considere usar clones do Autonomous AI Lakehouse para criar rapidamente outros ambientes transitórios ou não transitórios. Use clones atualizáveis se o ambiente de destino precisar ter dados atualizados. Use o Oracle Data Safe para mascarar estaticamente dados confidenciais nos clones para maior segurança.
- Considere usar o Compartilhamento de Dados como uma maneira segura e fácil de consumir e fornecer dados, seja com outras instâncias do Autonomous AI Database ou com qualquer tecnologia compatível com o Compartilhamento Delta.
- Considere usar o compartilhamento de dados ao vivo entre instâncias do Autonomous AI Database para consumir e fornecer dados em tempo real.
- Considere usar o compartilhamento de dados com controle de versão para compartilhar dados com os consumidores. Isso evita o custo de consulta dos dados, pois eles são processados pelos consumidores e não pelo provedor.
- Considere o uso de URLs de solicitação pré-autenticada para acesso de dados limitado a tempo e somente leitura no Autonomous AI Lakehouse para permitir o compartilhamento de dados não confidenciais para casos de uso em que o consumidor não suporta o Compartilhamento Delta.
Object Storage/Data Lake
Essa arquitetura usa o Oracle Cloud Infrastructure Object Storage, um armazenamento em nuvem altamente escalável e durável, como o armazenamento em lake.
- Considere organizar seu lago em diferentes conjuntos de buckets, aproveitando uma arquitetura medalhão (bronze, prata, ouro) ou outra lógica de particionamento para segregar dados com base em sua qualidade e enriquecimento, impor segurança refinada para os consumidores que leem os dados e aplicar diferentes políticas de gerenciamento de ciclo de vida às diferentes camadas.
- Considere o uso de diferentes camadas de armazenamento de objetos e políticas de ciclo de vida para otimizar os custos de armazenamento de dados do lake em escala.
- Considere o uso de Chaves Gerenciadas pelo Cliente utilizando o serviço Vault se for necessário um controle total das chaves de criptografia do OCI Object Storage devido a políticas de regulamentação ou da empresa.
- Considere o uso da replicação do OCI Object Storage para dar suporte a um plano de continuidade de negócios configurando a replicação de bucket para outra região. Como o OCI Object Storage é altamente durável e mantém várias cópias do mesmo objeto em uma única região para recuperação na mesma replicação de bucket de região não é necessária.
- Considere usar políticas do Oracle Cloud Infrastructure Identity and Access Management (IAM) para objetos, usando nomes ou padrões de objetos, aumentando a segurança dos dados para acessos diretos do data lake.
- Considere o uso de pontos finais privados no OCI Object Storage para garantir acesso seguro e privado ao data lake da VCN da plataforma de dados.
- Considere o uso de origens de rede e políticas do serviço IAM para fazer referência a elas e gerenciar os endereços IP autorizados a acessar os buckets e objetos do data lake.
- Considere usar o OCIFS, um utilitário baseado em python, para montar buckets do OCI Object Storage como sistemas de arquivos, permitindo suporte a aplicativos que só funcionam com NFS e precisam fazer upload de arquivos para o armazenamento de objetos.
Oracle Machine Learning e Oracle Cloud Infrastructure Data Science
Essa arquitetura utiliza o Oracle Machine Learning e o Oracle Cloud Infrastructure Data Science para executar e fornecer previsões em tempo real para pessoas e aplicativos.
- Considere usar o AutoML no Oracle Cloud Infrastructure Data Science ou no Oracle Machine Learning para acelerar o desenvolvimento de modelos de ML.
- Considere usar o Open Neural Networks Exchange (ONNX) para interoperabilidade. Os modelos de 3ª parte do ONNX podem ser implantados no OML e expostos como um ponto final REST ou no serviço Data Science e expostos como um ponto final HTTP.
- Considere salvar o modelo no serviço Data Science como ONNX e importá-lo para o OCI GoldenGate Stream Analytics se houver necessidade de executar pontuação e previsão em um pipeline de dados em tempo real para ter previsões mais oportunas que possam gerar resultados de negócios em tempo real.
- Considere o uso de ambientes Conda do serviço Data Science para melhor gerenciamento e empacotamento de dependências Python dentro de sessões de notebook Jupyter.
- Considere usar o Oracle Cloud Infrastructure Data Science AI Quick Actions para implementar, avaliar e ajustar modelos básicos no serviço Data Science. Trabalhe com LLMs selecionados de código aberto disponíveis no explorador de modelos ou para trazer seu próprio modelo.
- Considere o uso de Operadores de IA de baixo código do serviço Data Science, disponíveis no pacote Accelerated Data Science Python, para executar previsões, detecção de anomalias de forma rápida e eficiente ou para criar a funcionalidade de recomendação.
- Considere o uso do Oracle Cloud Infrastructure Data Flow no ambiente Jupyter do serviço Data Science para executar Análise de Dados Exploratória, criação de perfil de dados e preparação de dados em escala, aproveitando o processamento de expansão do Spark.
- Considere usar o Oracle Cloud Infrastructure Data Labeling para rotular dados como imagens, texto ou documentos e usá-lo para treinar modelos de ML criados no Data Science ou no Oracle Cloud Infrastructure AI Services e, assim, melhorar a precisão das previsões.
- Considere implantar um OCI API Gateway para proteger e controlar o consumo do modelo implantado se as previsões em tempo real estiverem sendo consumidas por parceiros e entidades externas.
Oracle Cloud Infrastructure Data Integration
Essa arquitetura usa o Oracle Cloud Infrastructure Data Integration para dar suporte ao desenvolvimento de ETL e pipeline de dados declarativos e no-code ou low-code.
- Aproveite o Oracle Cloud Infrastructure Data Integration para coordenar e programar execuções de aplicativos do Oracle Cloud Infrastructure Data Flow e ser capaz de misturar e corresponder ETL declarativo com lógica de código Spark personalizada. Use funções do Oracle Cloud Infrastructure Data Integration para estender ainda mais os recursos dos pipelines de dados.
- Considere usar o pushdown SQL para transformações que têm o Autonomous AI Lakehouse como destino para usar uma abordagem ELT mais eficiente, eficiente e segura em comparação com o ETL.
- Considere permitir que o OCI Data Integration trate da divergência de esquema de origens de dados para ter pipelines de dados mais resilientes e à prova de futuro que sustentarão as alterações de esquema de origens de dados.
Oracle Cloud Infrastructure Data Flow
Essa arquitetura usa o Oracle Cloud Infrastructure Data Flow para oferecer suporte ao processamento de streaming Spark e Spark em larga escala sem a necessidade de ter e gerenciar clusters permanentes.
- Considere o uso do Oracle Cloud Infrastructure Data Catalog como um metastore do Hive para o Oracle Cloud Infrastructure Data Flow para armazenar e recuperar com segurança definições de esquema para objetos em ativos de dados não estruturados e semiestruturados, como o Oracle Cloud Infrastructure Object Storage.
- Considere o uso do Delta Lake no serviço Data Flow se as transações ACID e a unificação do streaming e do processamento em lote forem necessárias para os dados do lake.
Big Data Service
Essa arquitetura utiliza o Oracle Cloud Infrastructure Big Data Service para implantar clusters altamente disponíveis e escaláveis de várias tecnologias de código-fonte aberto, como Spark, Hadoop, Trino ou Flink, que podem processar dados em batch e de streaming. O Big Data Service persiste os dados no HDFS, persiste e lê os dados do OCI Object Storage e pode trocar conjuntos de dados com outros serviços do Oracle Cloud Infrastructure, como Data Flow e Oracle Autonomous AI Lakehouse.
- Considere usar o dimensionamento automático para dimensionar automaticamente horizontal ou verticalmente os nós de trabalho com base em métricas ou programação para otimizar continuamente os custos com base na demanda de recursos.
- Considere usar o conector HDFS do OCI para o OCI Object Storage para ler e gravar dados do OCI Object Storage e, assim, fornecer um mecanismo para produzir/consumir dados compartilhados com outros serviços do OCI sem a necessidade de replicá-los e duplicá-los.
- Considere o uso do Delta Lake no OCI BDS se as transações ACID e a unificação de streaming e processamento em lote forem necessárias para os dados do lake.
- Se você precisar usar outro software de código-fonte aberto, considere o uso do Oracle Cloud Infrastructure Registry, de instâncias de contêiner ou do Oracle Cloud Infrastructure Kubernetes Engine para implantar qualquer software de código-fonte aberto que possa ser conteinerizado.
Oracle Cloud Infrastructure Streaming
Essa arquitetura utiliza o Oracle Cloud Infrastructure Streaming para consumir dados de streaming de origens, bem como para fornecer dados de streaming aos consumidores.

Considere aproveitar o Oracle Cloud Infrastructure Service Connector Hub para mover dados do OCI Streaming e persistir no OCI Object Storage para suportar análises de dados históricos adicionais.
Oracle Analytics Cloud
Essa arquitetura utiliza o Oracle Analytics Cloud (OAC) para fornecer análises aumentadas aos usuários finais.

Considere aproveitar a integração predefinida que o OAC tem com o Oracle Cloud Infrastructure AI Services (Language and Vision Models) e o OML (qualquer modelo) para incorporar inteligência em fluxos de dados e visualizações que os usuários finais consomem e, assim, democratizar o consumo de IA e ML.
Oracle Cloud Infrastructure AI Services
Essa arquitetura pode aproveitar o Oracle Cloud Infrastructure AI Services, dependendo dos casos de uso implantados.

Considere usar o OCI Data Labeling para rotular dados de treinamento que serão usados para ajustar e obter previsões mais precisas para o Oracle Cloud Infrastructure AI Services, como OCI Vision, OCI Document Understanding e .
Serviços do Oracle Cloud Infrastructure Generative AI
Essa arquitetura pode aproveitar os serviços do Oracle Cloud Infrastructure Generative AI, dependendo dos casos de uso implantados.
- Considere usar o playground sob demanda e as APIs que usam LLMs pré-treinados para abordar geração de texto, conversa, extração de dados, sumarização, classificação, transferência de estilo ou similaridade semântica e incorporar rapidamente a IA generativa em seus pipelines e processos.
- Considere usar clusters de IA dedicados para adaptar e ajustar com eficiência LLMs fundamentais aos seus dados, garantindo isolamento completo e segurança de dados.
- Considere compartilhar a hospedagem de clusters de IA dedicados em diferentes equipes em toda a organização para obter eficiência de custos. Um único cluster pode ser usado para hospedar vários modelos personalizados, tudo o que pode ser servido com pontos finais independentes e pode ser protegido com políticas dedicadas do IAM.
Gateway de API do OCI
Essa arquitetura utiliza o OCI API Gateway para expor com segurança os serviços de dados e a inferência em tempo real aos consumidores de dados.
- Considere usar o Oracle Cloud Infrastructure Functions para adicionar lógica de tempo de execução eventualmente necessária para suportar processamento de API específico que esteja fora do escopo das camadas de processamento e acesso e interpretação de dados.
- Considere o uso de Planos de Uso para gerenciar o acesso do assinante a APIs, monitorar e gerenciar o consumo de API, configurar diferentes camadas de acesso para diferentes consumidores e dar suporte à monetização de dados, rastreando métricas de uso que podem ser fornecidas a um sistema de faturamento externo.
Oracle Cloud Infrastructure Data Catalog
Para ter uma visão completa e holística de ponta a ponta dos dados armazenados e fluindo na plataforma, considere coletar não apenas armazenamentos de dados que suportam a camada de persistência de dados, mas também os armazenamentos de dados de origem. O mapeamento desses metadados técnicos coletados para o glossário de negócios e o enriquecimento com propriedades personalizadas permitem mapear conceitos de negócios e documentar e controlar definições de segurança e acesso.
- Para facilitar a criação de tabelas externas do Oracle Autonomous AI Lakehouse que virtualizam dados armazenados no OCI Object Storage, aproveite os metadados coletados anteriormente pelo Data Catalog. Isso simplifica a criação de tabelas externas, impõe a consistência dos metadados entre os armazenamentos de dados e é menos suscetível a erros humanos.
- Considere usar o rastreamento de linhagem para o Oracle Cloud Infrastructure Data Integration e o Oracle Cloud Infrastructure Data Flow para ter visibilidade de como os dados foram ingeridos, transformados e armazenados. Para maior cobertura, use a ingestão baseada em API para aproveitar a estrutura aberta OpenLineage para rastrear a linhagem de qualquer fonte e sistema.
Serviço Oracle Cloud Infrastructure Data Transfer
Não é possível usar o serviço Oracle Cloud Infrastructure Data Transfer ao fazer upload de dados usando conectividade pública com a internet. Recomendamos que você considere o uso do Data Transfer se o upload de dados na internet pública levar mais de 1 a 2 semanas.
Data Safe e Auditoria
Aumentar a postura de segurança, aproveitando os recursos de auditoria e alerta, permitirá evitar a exfiltração de dados e poderá realizar análises forenses caso haja uma violação de dados.
- Considere o uso do Oracle Data Safe para auditar a atividade no data warehouse e considere o uso do Oracle Cloud Infrastructure Audit para auditar o tráfego para os dados do lake.
- Considere usar o Oracle Data Safe para descoberta de dados confidenciais no Autonomous AI Lakehouse e mascará-los estaticamente ao criar clones do Autonomous AI Lakehouse para ambientes de não produção, evitando assim riscos de segurança.
- Considere usar o Oracle Data Safe SQL Firewall com o Autonomous AI Lakehouse para aumentar a postura de segurança dos dados, protegendo contra riscos como ataques de injeção de SQL ou contas comprometidas.
Implantação e Automação
Essa arquitetura física é implantada usando a automação de infraestrutura como código (IaC) para criar os recursos para implantar um data lakehouse

O Oracle Cloud Infrastructure Resource Manager permite criar pilhas do Terraform de recursos implantáveis na nuvem, compartilhar e gerenciar configurações da infraestrutura, e definir arquivos em várias equipes e plataformas. Considere o uso do Oracle Cloud Infrastructure Resource Manager para criar pilhas de implantação para criação de ambiente de não produção, integrar novas equipes que precisam de serviços adicionais e padronizar e incorporar políticas consistentes de IAM e proteções de segurança que aderem às políticas definidas de segurança e governança da organização.
Continuidade de Negócios
Essa arquitetura descreve uma implantação em uma única região e pode ser estendida para duas regiões para oferecer suporte à recuperação de desastres e permitir um plano de continuidade de negócios.
Oracle Cloud Infrastructure Full Stack Disaster Recovery é um serviço para orquestração e gerenciamento da recuperação do desastre que fornece recursos abrangentes da recuperação do desastre para todas as camadas de uma pilha do aplicativo, incluindo infraestrutura, middleware, banco de Dados e aplicativo.
Considere o uso do OCI Full Stack Disaster Recovery para configurar planos de switchover e failover para o data lakehouse para automatizar tarefas de recuperação de desastres e reduzir etapas manuais no caso de uma transição planejada ou não planejada para a região stand-by.
Otimização de Custos
Considere usar o rastreamento de custos e uso do Oracle Cloud Infrastructure, bem como recursos de otimização de custos para oferecer suporte contínuo às suas operações financeiras.
- Considere o uso de relatórios de custo e uso para obter e rastrear o uso de recursos da nuvem e os respectivos custos. Aproveite os relatórios de custo CSV FOCUS padrão do setor que são produzidos para integração com soluções de operações financeiras de 3ª parte.
- Considere o uso da análise de custos para rastrear os custos incorridos por diferentes equipes, projetos e ambientes.
- Considere o uso de tags de rastreamento de custos para marcar recursos de nuvem para equipes, projetos ou ambientes específicos.
- Considere usar orçamentos para definir limites flexíveis de gastos e definir alertas para informar quando você pode exceder seu orçamento para projetos, equipes ou gastos gerais.
Interoperabilidade
Essa arquitetura aproveita extensivamente os padrões do setor para interoperar com o cenário heterogêneo de TI mais amplo de qualquer organização, para que ela possa consumir e fornecer quaisquer dados a qualquer aplicativo, sistema ou pessoa.
A arquitetura suporta formatos de arquivo abertos, como Parquet ou Avro, para que os dados possam ser armazenados no formato mais apropriado para cada caso de uso. Além disso, ele suporta formatos de mesa aberta, como Iceberg e Delta Lake, para garantir a interoperabilidade entre as tecnologias Oracle e outras tecnologias de 3ª parte.
- Considere usar o suporte ao Oracle Autonomous AI Lakehouse Iceberg para ler tabelas de Iceberg persistidas no data lake e atendê-las aos consumidores. As tabelas de iceberg podem ser servidas como tabelas externas ou carregadas no Autonomous AI Lakehouse.
- Considere o uso do suporte ao Formato Universal do Delta Lake do serviço Data Flow para ler, processar e persistir dados no data lake. Usar o Delta Lake ao gerar metadados para outros formatos de tabela aberta, como Iceberg e Hudi, permite que diferentes mecanismos de processamento leiam os mesmos dados.
Abordagem Organizacional
Esta arquitetura é flexível e pode suportar diferentes tipos de abordagens organizacionais que vão desde uma abordagem centralizada até uma abordagem completamente descentralizada e, portanto, pode ser adotada e usada por qualquer organização que queira extrair valor de seus dados.

Essa arquitetura utiliza controles detalhados e extensivos para autenticação e autorização com o OCI Identity and Access Management (IAM).

Considere o uso do IAM para segregar as diferentes linhas de negócios e equipes usando o lakehouse para descentralizar a propriedade da criação de produtos de dados e impor a segregação de domínios de dados se sua organização quiser adotar uma abordagem organizacional descentralizada.

A OCI tem recursos de automação e Infraestrutura como Código como chaves para uma implantação de arquitetura bem-sucedida, aproveitando estruturas como Terraform e Ansible.

Se sua organização estiver adotando uma abordagem descentralizada e implementando domínios de dados sob essa abordagem, considere aproveitar modelos Terraform predefinidos e o OCI Resource Manager para integrar domínios de dados de forma rápida e consistente na plataforma de dados.

Considerações

Ao coletar, processar e selecionar dados de aplicativos para análise e machine learning, considere as seguintes opções de implementação.

Orientação	Recomendado	Outras Opções	Análise Racional
Refinaria de Dados	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure GoldenGate	Oracle Data Integrator Transformações de Dados do Oracle Autonomous Database	O Oracle Cloud Infrastructure Data Integration fornece uma plataforma ETL nativa da nuvem, serverless e totalmente gerenciada, escalável e econômica. O Oracle Cloud Infrastructure GoldenGate fornece uma plataforma de replicação de dados nativa da nuvem, serverless, totalmente gerenciada e não intrusiva que é escalável, econômica e pode ser implantada em ambientes híbridos.
Persistência de Dados	Oracle Autonomous AI Lakehouse Oracle Cloud Infrastructure Object Storage	Oracle Exadata Database Service	O Oracle Autonomous AI Lakehouse é um banco de Dados totalmente autônomo e fácil de usar que tem escala elástica, oferece desempenho rápido em consultas e não requer administração de banco de Dados. Ele também oferece acesso direto aos dados de tabelas particionadas externas ou híbridas de armazenamento de objetos. O Oracle Cloud Infrastructure Object Storage armazena dados ilimitados em formato bruto.
Processamento de Dados	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure Data Flow Serviço Big Data do Oracle Cloud Infrastructure	Ferramentas de terceiros	O Oracle Cloud Infrastructure Data Integration fornece uma plataforma ETL nativa da nuvem, serverless e totalmente gerenciada, escalável e econômica. O Oracle Cloud Infrastructure Data Flow fornece um ambiente Spark serverless para processar dados em escala com um modelo pay-per-use extremamente elástico. O Oracle Cloud Infrastructure Big Data Service fornece Hadoop-as-a-service de nível empresarial com segurança de ponta a ponta, alto desempenho e facilidade de gerenciamento e possibilidade de upgrade.
Acesso e interpretação	Oracle Analytics Cloud Oracle Cloud Infrastructure Data Science Oracle Machine Learning Serviços de IA do Oracle Cloud Infrastructure	Ferramentas de terceiros	O Oracle Analytics Cloud é totalmente gerenciado e totalmente integrado aos dados selecionados no Oracle Autonomous AI Lakehouse. O Oracle Cloud Infrastructure Data Science é uma plataforma de autoatendimento totalmente gerenciada para que as equipes de ciência de dados possam criar, treinar e gerenciar modelos de machine learning (ML) em Oracle Cloud Infrastructure. O serviço Data ScienceData Science fornece ferramentas de infraestrutura e ciência de dados, como AutoML e recursos de implantação de modelos. O Oracle Machine Learning é uma plataforma de autoatendimento totalmente gerenciada para ciência de dados disponível com o Oracle Autonomous AI Lakehouse que aproveita o poder de processamento do warehouse para criar, treinar, testar e implementar modelos de ML em escala sem a necessidade de mover os dados para fora do warehouse. Os serviços de IA da Oracle Cloud Infrastructure são um conjunto de serviços que fornecem modelos predefinidos especificamente criados e treinados para executar tarefas como inferência de possíveis anomalias ou detecção de sentimento.

Implante

O código do Terraform para essa arquitetura de referência está disponível no GitHub. Você pode extrair o código para o Oracle Cloud Infrastructure Resource Manager com um único clique, criar a pilha e implantá-la. Como alternativa, você pode fazer download do código do GitHub para o seu computador, personalizar o código e implantar a arquitetura usando a CLI do Terraform.

Implante usando o Oracle Cloud Infrastructure Resource Manager:
1. Clique
  Se você ainda não estiver conectado, informe a tenancy e as credenciais do usuário.
2. Analise e aceite os termos e condições.
3. Selecione a região em que deseja implantar a pilha
4. Siga os prompts na tela e as instruções para criar a pilha.
5. Após criar a pilha, clique em Ações do Terraform e selecione Planejar.
6. Aguarde a conclusão do job e revise o plano.
  Para fazer qualquer alteração, retorne à página Detalhes da Pilha, clique em Editar Pilha e faça as alterações necessárias. Em seguida, execute a ação Planejar novamente.
7. Se nenhuma outra alteração for necessária, retorne à página Detalhes da Pilha, clique em Ações do Terraform e selecione Aplicar.
Implante usando a CLI do Terraform:
1. Vá para GitHub.
2. Clone ou faça download do repositório para seu computador local.
3. Siga as instruções no documento README.

Explorar Mais

Saiba mais sobre os recursos desta arquitetura e sobre arquiteturas relacionadas.

Confirmações

Author: José Cruz

Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies

Alterar Log

Este log lista alterações significativas:

28 outubro de 2024

A amplitude funcional da arquitetura foi atualizada para incluir produtos expandidos e ofertas funcionais, incluindo o seguinte:
- Adicionado Compartilhamento de Dados como uma origem de dados e um consumidor de dados.
- Ingestão baseada em API adicionada.
- Adicionadas ofertas expandidas para IA (Language, Speech, Vision, Document Understanding) e para serviços de IA generativa.
- Adicionado Reverse ETL/Writeback para fornecer inteligência derivada de dados diretamente para aplicativos e dispositivos.
Atualizações correspondentes foram feitas nas seções Recomendações e Considerações.
Várias atualizações relacionadas ao produto foram feitas ao longo do texto.

Junho de 21, 2023

Foram adicionadas instruções para implantar a arquitetura usando o Oracle Cloud Infrastructure Resource Manager.
Link do GitHub atualizado.
Diagramas de arquitetura atualizados.