Plataforma de Dados - Data Lakehouse
Você pode efetivamente coletar e analisar dados de eventos e dados de streaming da internet das coisas (IoT) e fontes de mídia social, mas como você os correlaciona com a ampla gama de recursos de dados corporativos para aproveitar seu investimento e obter os insights que deseja?
Aproveite um data lakehouse na nuvem que combina as habilidades de um data lake e um data warehouse para processar uma ampla gama de dados corporativos e de streaming para análise de negócios e machine learning.
Essa arquitetura de referência posiciona a solução de tecnologia dentro do contexto geral de negócios, onde as intenções estratégicas impulsionam a criação de resultados estratégicos mensuráveis. Esses resultados geram novas intenções estratégicas, oferecendo efetivamente melhorias de negócios contínuas e orientadas por dados.
Um data lake permite que uma empresa armazene todos os seus dados em um ambiente elástico e econômico, fornecendo o processamento, a persistência e os serviços analíticos necessários para descobrir novos insights de negócios. Um data lake armazena e seleciona dados estruturados e não estruturados e fornece métodos para organizar grandes volumes de dados altamente diversos de várias fontes.
Com um data warehouse, você executa a transformação e a limpeza de dados antes de confirmar os dados para o warehouse. Com um data lake, você ingere dados rapidamente e os prepara rapidamente à medida que as pessoas os acessam. Um data lake suporta relatórios operacionais e monitoramento de negócios que exigem acesso imediato a dados e análise flexível para entender o que está acontecendo nos negócios enquanto está acontecendo.
Arquitetura Funcional
Você pode combinar as habilidades de um data lake e um data warehouse para fornecer uma plataforma moderna de data lakehouse que processa streaming e outros tipos de dados de uma ampla gama de recursos de dados corporativos para que você possa aproveitar os dados para análise de negócios, machine learning, serviços de dados e produtos de dados.
Uma arquitetura de data lakehouse combina os recursos do data lake e do data warehouse para aumentar a eficiência operacional e fornecer recursos aprimorados que permitem:
- Uso contínuo de dados e informações sem a necessidade de replicá-los em todo o data lake e data warehouse
- Suporte a vários tipos de dados em uma arquitetura multimodelo e poliglota aprimorada
- Ingestão contínua de dados de qualquer consumidor usando tempo real, streaming, lote, interface de programação de aplicativos (API) e mecanismos de ingestão em massa
- Extração contínua de inteligência de dados usando serviços de inteligência artificial (IA), IA generativa e machine learning (ML)
- A capacidade de infundir e fornecer inteligência a qualquer consumidor de dados usando API, interface do usuário, streaming e mecanismos de integração
- Governança e segurança de dados refinada que aproveita um modelo de segurança de confiança zero
- A capacidade de desacoplar totalmente os recursos de armazenamento e computação e consumir apenas os recursos necessários a qualquer momento
- A capacidade de aproveitar vários mecanismos de computação, incluindo mecanismos de código-fonte aberto, para processar os mesmos dados para diferentes casos de uso a fim de obter o máximo de reutilização, liquidez e uso de dados
- A capacidade de armazenar dados usando diferentes formatos de arquivo e tabela abertos no data lake
- A capacidade de aproveitar os serviços nativos da Oracle Cloud Infrastructure (OCI) gerenciados pela Oracle e que reduzem a sobrecarga operacional
- Melhor economia na nuvem com dimensionamento automático que ajusta a infraestrutura de recursos na nuvem para atender à demanda real
- Modularidade para que o uso do serviço seja orientado por casos de uso
- Interoperabilidade com qualquer sistema ou nuvem que adira aos padrões abertos
- Suporte para um conjunto diversificado de casos de uso, incluindo streaming, análise, ciência de dados e machine learning
- Suporte para diferentes abordagens arquitetônicas, de um lakehouse centralizado a uma malha de dados descentralizada
O diagrama a seguir ilustra a arquitetura funcional.
lakehouse-funcional-oracle.zip
A arquitetura concentra-se nas seguintes divisões lógicas:
- Conexão, Ingestão, Transformação
Conecta-se a origens de dados, ingere e refina seus dados para uso em cada uma das camadas de dados na arquitetura.
- Persistir, Curar, Criar
Facilita o acesso e a navegação dos dados para mostrar a exibição de negócios atual. Para tecnologias relacionais, os dados podem ser lógica ou fisicamente estruturados em formas relacionais, longitudinais, dimensionais ou OLAP simples. Para dados não relacionais, essa camada contém um ou mais pools de dados, saída de um processo analítico ou dados otimizados para uma tarefa analítica específica.
- Analise, Aprenda, Preveja
Abstrai a visão lógica de negócios dos dados para os consumidores. Essa abstração facilita abordagens ágeis de desenvolvimento, migração para a arquitetura de destino e o fornecimento de uma única camada de relatórios de várias fontes federadas.
A arquitetura tem os seguintes componentes funcionais:
- Ingestão de lote
A ingestão em lote é útil para dados que não podem ser ingeridos em tempo real ou que são muito caros para se adaptar à ingestão em tempo real. Também é importante transformar dados em informações confiáveis e confiáveis que possam ser curadas e persistidas para consumo regular. Você pode usar os serviços a seguir juntos ou de forma independente para obter um fluxo de trabalho de integração e transformação de dados altamente flexível e eficaz.
-
O Oracle Cloud Infrastructure Data Integration é um serviço totalmente gerenciado, sem servidor e nativo da nuvem que extrai, carrega, transforma, limpa e reformula dados de uma variedade de origens de dados para serviços de destino do Oracle Cloud Infrastructure, como o Autonomous Data Warehouse e o Oracle Cloud Infrastructure Object Storage. Os usuários projetam processos de integração de dados usando uma interface de usuário intuitiva e sem código que otimiza os fluxos de integração para gerar o mecanismo e a orquestração mais eficientes, alocando e dimensionando automaticamente o ambiente de execução.
O ETL (carga de transformação de extração) aproveita o processamento de expansão totalmente gerenciado no Spark e o ELT (transformação de carga de extração) aproveita os recursos completos de push-down SQL do Autonomous Data Warehouse para minimizar a movimentação de dados e melhorar o tempo de valorização dos dados recém-ingerados.
O Oracle Cloud Infrastructure Data Integration fornece exploração interativa e preparação de dados e ajuda os engenheiros de dados a se protegerem contra divergências de esquema definindo regras para lidar com alterações de esquema.
-
O Oracle Data Integrator fornece integração de dados abrangente de carregamentos em lote de alto volume e alto desempenho, a processos de integração orientados a eventos e repletos de recursos, a serviços de dados habilitados para SOA. Uma abordagem de design declarativa garante desenvolvimento e manutenção mais rápidos e simples, e fornece uma abordagem exclusiva para extrair a transformação de carga (ELT) que ajuda a garantir o mais alto nível de desempenho possível para processos de transformação e validação de dados. As transformações de dados da Oracle usam uma interface Web para simplificar a configuração e a execução do ELT e ajudar os usuários a criar e programar dados e fluxos de trabalho usando uma abordagem de design declarativa.
-
O Oracle Data Transforms permite o ELT para tecnologias suportadas selecionadas, simplificando a configuração e a execução de pipelines de dados usando uma interface de usuário da Web que permite aos usuários criar e programar de forma declarativa fluxos de dados e fluxos de trabalho. O Oracle Data Transforms está disponível como um ambiente totalmente gerenciado no Oracle Autonomous Data Warehouse (ADW) para carregar e transformar dados de várias origens de dados em uma instância do ADW.
Dependendo do caso de uso, esses componentes podem ser usados de forma independente ou em conjunto para obter integração e transformação de dados altamente flexíveis e de alto desempenho.
-
- Ingestão Baseada em API
A ingestão baseada em API permite que aplicativos e sistemas enviem dados de eventos usando APIs ou Webhooks.
-
O Oracle Integration é um ambiente totalmente gerenciado e pré-configurado que permite integrar aplicativos na nuvem e on-premises, automatizar processos de negócios e desenvolver aplicativos visuais. Ele usa um servidor de arquivos compatível com SFTP para armazenar e recuperar arquivos e permite que você troque documentos com parceiros comerciais business-to-business usando um portfólio de centenas de adaptadores e receitas para se conectar com aplicativos Oracle e de terceiros.
-
O Oracle Cloud Infrastructure API Gateway permite que você publique APIs com pontos finais privados acessíveis na sua rede e que você pode expor à internet pública, se necessário. Os pontos finais suportam validação de API, transformação de solicitação e resposta, CORS, autenticação e autorização e limitação de solicitação.
O OCI API Gateway permite que a observabilidade da API monitore o uso e garanta SLAs. Os planos de uso também podem ser usados para monitorar e gerenciar clientes e consumidores de API e para configurar diferentes camadas de acesso à API para diferentes clientes. Os planos de uso são um recurso importante para dar suporte à monetização de dados.
Os planos de uso suportam a monetização de dados criando planos de uso em camadas para gerenciar clientes e consumidores de API e rastrear seu uso de dados.
-
O Oracle Cloud Infrastructure Functions é uma plataforma Functions-as-a-Service (FaaS) totalmente gerenciada, multitenant, altamente escalável e sob demanda. Ele é alimentado pelo mecanismo de código aberto do Fn Project. As funções permitem que você implante seu código e o chame diretamente ou acione-o em resposta a eventos. O Oracle Functions usa contêineres do Docker hospedados no Oracle Cloud Infrastructure Registry.
-
O Oracle REST Data Services (ORDS) é um aplicativo Java que permite a qualquer desenvolvedor com habilidades em SQL e em banco de dados desenvolver APIs REST para o Oracle Database. Qualquer desenvolvedor de aplicativo pode usar essas APIs em qualquer ambiente de idioma sem instalar e manter drivers de cliente, da mesma forma que acessa outros serviços externos usando REST, a tecnologia de API mais amplamente usada.
O ORDS é implantado como um recurso totalmente gerenciado no Oracle Autonomous Data Warehouse e pode ser usado para expor informações do lakehouse usando APIs para consumidores de dados.
-
-
Ingestão em tempo real
O Oracle Cloud Infrastructure GoldenGate é um serviço totalmente gerenciado que permite a ingestão de dados de origens que residem on-premise ou em qualquer nuvem. Ele aproveita a tecnologia CDC GoldenGate para uma captura e entrega de dados não intrusiva e eficiente para o Oracle Autonomous Data Warehouse, o Oracle Cloud Infrastructure Object Storage ou o Oracle Cloud Infrastructure Streaming em tempo real e em escala para disponibilizar informações relevantes aos consumidores o mais rápido possível.
- Transferência em lote
A transferência em massa permite mover grandes volumes de dados em lote usando métodos diferentes. Para data lakehouses em grande escala, recomendamos os serviços Oracle Cloud Infrastructure FastConnect e Data Transfer.
-
O Oracle Cloud Infrastructure FastConnect fornece uma maneira fácil de criar uma conexão privada dedicada entre o seu data center e o Oracle Cloud Infrastructure. O FastConnect oferece opções de largura de banda maior e uma experiência de rede mais confiável quando comparado com conexões baseadas na internet.
- A CLI (interface de linha de comando) do Oracle Cloud Infrastructure (OCI) permite executar e automatizar a transferência de dados do local para o OCI, aproveitando o circuito privado do Oracle Cloud Infrastructure FastConnect. Os SDKs do OCI permitem que você grave código para copiar ou sincronizar dados e arquivos on-premise ou de outras nuvens no Oracle Cloud Infrastructure Object Storage, aproveitando uma variedade de linguagens de programação, como Python, Java ou Go, para citar algumas. As APIs REST permitem que você faça interface e controle os serviços da OCI, como mover dados para o armazenamento de objetos usando a API do Object Storage Service.
- O Oracle Cloud Infrastructure Data Transfer é um serviço de migração de dados off-line que permite mover com segurança conjuntos de dados em escala de petabytes do seu data center para o Oracle Cloud Infrastructure Object Storage ou Archive Storage. Usar a internet pública para transferir dados para a nuvem nem sempre é viável em decorrência dos altos custos de rede, da conectividade de rede não confiável, dos longos tempos de transferência e das preocupações com a segurança. O serviço Data Transfer supera esses desafios e pode reduzir significativamente o tempo necessário para migrar dados para a nuvem. O Data Transfer está disponível por meio do Disco ou do Appliance. A escolha de um sobre o outro depende principalmente da quantidade de dados, com o Data Transfer Appliance suportando conjuntos de dados maiores para cada appliance.
-
- Ingestão de streaming
A ingestão de streaming é suportada pelo uso de serviços nativos da OCI que permitem a ingestão em tempo real de conjuntos de dados em larga escala de um amplo conjunto de produtores de dados. A ingestão de streaming persiste e sincroniza os dados no armazenamento de objetos, que está no coração do data lakehouse. A sincronização de dados no armazenamento de objetos permite que você mantenha dados históricos que podem ser selecionados e transformados ainda mais para extrair insights valiosos.
-
O Oracle Cloud Infrastructure Streaming fornece uma solução de armazenamento totalmente gerenciada, escalável e durável para ingestão de streams contínuos de alto volume de dados que você pode consumir e processar em tempo real. O streaming pode ser usado para mensagens, logs de aplicativo de alto volume, telemetria operacional, dados de fluxo de cliques na web ou outros casos de uso do modelo de mensagem publicar-assinar nos quais os dados sejam produzidos e processados de forma contínua e sequencial. Os dados são sincronizados com o Oracle Cloud Infrastructure Object Storage e podem ser selecionados e transformados ainda mais para extrair insights valiosos.
-
O Oracle Cloud Infrastructure Queue é um serviço totalmente gerenciado sem servidor que ajuda a desacoplar sistemas e ativar operações assíncronas. O serviço Queue trata dados transacionais de alto volume que exigem mensagens processadas de forma independente sem perda ou duplicação.
-
O Oracle Cloud Infrastructure Service Connector Hub é uma plataforma de barramento de mensagens na nuvem que oferece um único painel de controle para descrever, executar e monitorar a movimentação de dados entre os serviços do Oracle Cloud Infrastructure. Para essa arquitetura de referência específica, ela será usada para mover dados do Oracle Cloud Infrastructure Streaming ou do OCI Queue para o Oracle Cloud Infrastructure Object Storage para persistir os dados brutos e preparados na camada de persistência do data lakehouse.
-
-
Processamento de streaming
O processamento de streaming enriquece os dados de streaming, detecta padrões de eventos e cria um conjunto diferente de fluxos que persistem no data lakehouse.
-
O Oracle Cloud Infrastructure GoldenGate Stream Analytics processa e analisa informações em larga escala e em tempo real usando padrões de correlação sofisticados, enriquecimento de dados e machine learning. Os usuários podem explorar dados em tempo real por meio de gráficos ao vivo, mapas, visualizações e podem criar graficamente pipelines de streaming sem qualquer codificação manual. Esses pipelines são executados em um serviço totalmente gerenciado e escalável para tratar de casos de uso críticos em tempo real de empresas modernas.
-
O Oracle Cloud Infrastructure Data Flow é um serviço de big data totalmente gerenciado que permite executar aplicativos Apache Spark e Spark Streaming sem precisar implantar ou gerenciar a infraestrutura. Ele permite que você forneça aplicativos de big data e IA mais rapidamente, porque você pode se concentrar em seus aplicativos sem precisar gerenciar operações. Os aplicativos de fluxo de dados são modelos reutilizáveis que consistem em um aplicativo Spark e suas dependências, parâmetros padrão e uma especificação de recurso de runtime padrão.
-
- Ecossistema de código-fonte aberto
Você pode usar o ecossistema de código aberto:
- Para processamento em lote e em fluxo, aproveitando vários mecanismos de código aberto populares, como Hadoop, Spark, Flink ou Trino
- Com o Oracle Cloud Infrastructure Streaming tanto como produtor quanto como consumidor
- Com o Oracle Cloud Infrastructure Object Storage, onde ele pode persistir dados e consumir dados
Você pode usar o Oracle Cloud Infrastructure Object Storage como um data lake para persistir conjuntos de dados que você deseja compartilhar entre os diferentes serviços do Oracle Cloud Infrastructure em momentos diferentes.
O Big Data Service provisiona clusters Hadoop, Spark ou Flink totalmente configurados, seguros, altamente disponíveis entre outras tecnologias, sob demanda. Dimensione o cluster para ajustar suas cargas de trabalho de big data e análise usando uma faixa de configurações de computação do Oracle Cloud Infrastructure que suportam tudo, desde pequenos clusters de teste e desenvolvimento a grandes clusters de produção. Ajuste-se rapidamente à demanda de negócios e otimize custos, aproveitando configurações de dimensionamento automático com base em métricas ou no cronograma. Aproveite os perfis de cluster para criar clusters ideais para uma carga de trabalho ou tecnologia específica. - Processamento batch
O processamento em lote transforma conjuntos de dados em grande escala armazenados no data lakehouse. O processamento em lote aproveita os serviços nativos do Oracle Cloud Infrastructure que se integram perfeitamente ao Oracle Cloud Infrastructure Object Storage e permite criar dados selecionados para casos de uso, como agregação e enriquecimento de dados, ingestão de data warehouse e machine learning e uso de dados de IA em escala.
-
O Oracle Cloud Infrastructure Data Integration, descrito acima, é um serviço totalmente gerenciado, sem servidor, nativo da nuvem que extrai, carrega, transforma, limpa e reformula dados de uma variedade de origens de dados para serviços de destino do Oracle Cloud Infrastructure, como o Autonomous Data Warehouse e o Oracle Cloud Infrastructure Object Storage.
-
O Oracle Cloud Infrastructure Data Flow é um serviço de big data totalmente gerenciado que permite executar aplicativos Apache Spark e Spark Streaming sem precisar implantar ou gerenciar a infraestrutura. Ele permite que você forneça aplicativos de big data e IA mais rapidamente, porque você pode se concentrar em seus aplicativos sem precisar gerenciar operações. Os aplicativos de fluxo de dados são modelos reutilizáveis que consistem em um aplicativo Spark e suas dependências, parâmetros padrão e uma especificação de recurso de runtime padrão.
-
O Oracle Data Transforms permite a extração-transformação de carga (ELT) para tecnologias suportadas selecionadas, simplificando a configuração e a execução de pipelines de dados usando uma interface de usuário da Web que permite aos usuários criar e programar de forma declarativa fluxos de dados e fluxos de trabalho. O Oracle Data Transforms está disponível como um ambiente totalmente gerenciado no Oracle Autonomous Data Warehouse (ADW) para carregar e transformar dados de várias origens de dados em uma instância do ADW.
Dependendo do caso de uso, esses componentes podem ser usados de forma independente ou em conjunto para obter um processamento de dados altamente flexível e eficiente.
-
- Serviço
O Oracle Autonomous Data Warehouse é um serviço de banco de dados autônomo, de proteção automática e de reparo otimizado para cargas de trabalho de data warehousing. Você não precisa configurar nem gerenciar nenhum hardware, nem instalar nenhum software. O Oracle Cloud Infrastructure trata da criação, backup, aplicação de patches, upgrade e ajuste do banco de dados.
Após o provisionamento, você pode dimensionar o número de núcleos de CPU ou a capacidade de armazenamento do banco de dados a qualquer momento, sem afetar a disponibilidade ou o desempenho.
O Oracle Autonomous Data Warehouse também pode virtualizar dados que residem no armazenamento de objetos como tabelas particionadas externas e híbridas para que você possa unir e consumir dados derivados de outras origens com os dados do warehouse. Você também pode mover dados históricos do warehouse para o armazenamento de objetos e consumi-los perfeitamente usando tabelas particionadas híbridas.
O Oracle Autonomous Data Warehouse pode usar metadados coletados anteriormente armazenados no serviço Data Catalog para criar tabelas externas e pode sincronizar automaticamente atualizações de metadados no serviço Data Catalog com a definição de tabelas externas para manter a consistência, simplificar o gerenciamento e reduzir o esforço.
Os vetores são suportados no Autonomous Database, pois é um banco de dados de vários modelos que suporta vários tipos de dados, como relacional, JSON, espacial e gráfico. O tipo de dados de vetores permite carregar e armazenar incorporações de vetores, bem como criar índices de vetores que podem ser usados para aplicativos de Geração Aumentada de Recuperação (RAG), tudo em uma única instância do Autonomous Data Warehouse na nuvem. Esse recurso de vários modelos permite análises usando todos os tipos de dados que podem ser unidos em uma única consulta, reduzindo assim a complexidade e o risco de ter bancos de dados em silos especializados por tipo de dados, garantindo maior segurança, confiabilidade, escalabilidade e facilidade de análise de todos os dados.
Selecione AI, um recurso do Autonomous Database, que permite consultar dados usando linguagem natural, usando LLMs para converter o texto de entrada do usuário no Oracle SQL. Selecione AI processa o prompt de linguagem natural, complementa o prompt com metadados e, em seguida, gera e executa uma consulta SQL.
O Compartilhamento de Dados, um recurso do Autonomous Database, permite fornecer e consumir com segurança dados e metadados de outras partes que usam o Autonomous Database ou uma tecnologia compatível com Delta-Sharing. O compartilhamento de dados facilita o consumo contínuo de dados de provedores de compartilhamento, como visualizações que abstraem as tabelas compartilhadas subjacentes. Além disso, os compartilhamentos ao vivo, que permitem que os destinatários consumam dados ativos e novos, podem ser usados quando o provedor e o destinatário usam o Autonomous Database.
As views analíticas, um recurso do Autonomous Database, fornecem uma maneira rápida e eficiente de criar consultas analíticas de dados armazenados em tabelas e views de banco de dados existentes. As views analíticas organizam dados usando um modelo dimensional. Eles permitem que você adicione facilmente agregações e cálculos a conjuntos de dados e apresente dados em views que podem ser consultadas com SQL relativamente simples. Esse recurso permite modelar semanticamente um esquema estrela ou floco de neve diretamente no ADW, usando dados armazenados interna e externamente, e permite o consumo do modelo usando SQL e qualquer consumidor de dados compatível com SQL.
Além disso, o Autonomous Data Lake Accelerator, um componente do Autonomous Database, pode consumir perfeitamente dados de armazenamento de objetos, dimensionar o processamento para fornecer consultas rápidas, dimensionar automaticamente a instância de computação do banco de dados quando necessário e reduzir o impacto na carga de trabalho do banco de dados isolando consultas de armazenamento de objetos da instância de computação do banco de dados.
- Armazenamento na nuvem
O Oracle Cloud Infrastructure Object Storage é uma plataforma de armazenamento de alto desempenho em escala de internet que oferece durabilidade de dados confiável e econômica. O Oracle Cloud Infrastructure Object Storage pode armazenar uma quantidade ilimitada de dados não estruturados de qualquer tipo de conteúdo, incluindo dados analíticos. Você pode armazenar ou recuperar dados de forma segura diretamente da internet ou de dentro da plataforma da nuvem. Múltiplas interfaces de gerenciamento permitem que você comece facilmente em pequena escala e dimensione perfeitamente, sem sofrer nenhuma degradação no desempenho ou na confiabilidade do serviço.
O Oracle Cloud Infrastructure Object Storage também pode ser usado como uma camada de armazenamento frio para o data warehouse armazenando dados que são usados com pouca frequência e, em seguida, unindo-os perfeitamente aos dados mais recentes usando tabelas híbridas no Oracle Autonomous Data Warehouse.
O controle de acesso granular no nível do objeto pode ser aplicado usando políticas do IAM para objetos, aumentando a segurança de dados para acessos diretos do data lake.
- Visualize e aprenda
O Oracle Analytics Cloud é um serviço de nuvem pública escalável e seguro que oferece um conjunto completo de recursos para explorar e executar análises colaborativas para você, seu grupo de trabalho e sua empresa. Ele oferece suporte a cientistas de dados de cidadãos, treinamento de analistas de negócios avançados e execução de modelos de machine learning (ML). Os modelos de machine learning podem ser executados no serviço de análise ou diretamente no Oracle Autonomous Data Warehouse como modelos incorporados ao OML para previsões em lote em larga escala que aproveitam o poder de processamento, a escalabilidade e a elasticidade do warehouse e dos serviços de IA da OCI, como o Oracle Cloud Infrastructure Vision.
Com o Oracle Analytics Cloud, você também obtém recursos flexíveis de gerenciamento de serviços, incluindo configuração rápida, dimensionamento e aplicação de patches fáceis e gerenciamento automatizado do ciclo de vida.
-
Aprenda e preveja
-
O serviço Data Science fornece infraestrutura, tecnologias de código-fonte aberto, bibliotecas, pacotes e ferramentas de ciência de dados para equipes de ciência de dados para criar, treinar e gerenciar modelos de aprendizado de máquina (ML) no Oracle Cloud Infrastructure. O espaço de trabalho colaborativo e orientado a projetos fornece uma experiência de usuário coesa de ponta a ponta e suporta o ciclo de vida de modelos preditivos. O serviço Data Science permite que cientistas de dados e engenheiros de aprendizado de máquina baixem e instalem pacotes diretamente do Repositório Anaconda sem nenhum custo e, assim, permitam que eles inovem em seus projetos com um ecossistema de ciência de dados selecionado de bibliotecas de aprendizado de máquina.
O recurso Jobs do serviço Data Science permite que os cientistas de dados definam e executem tarefas de aprendizado de máquina repetíveis em uma infraestrutura totalmente gerenciada.
O recurso Implantação de Modelo do Serviço Data Science permite que os cientistas de dados implantem modelos treinados como pontos finais HTTP totalmente gerenciados que podem fornecer previsões em tempo real, infundindo inteligência em processos e aplicativos e permitindo que a empresa reaja a eventos relevantes à medida que eles ocorrem.
-
O Oracle Machine Learning fornece recursos avançados de machine learning totalmente integrados no Autonomous Database, com suporte para Python e AutoML. Ele suporta modelos usando algoritmos de código aberto e escaláveis no banco de dados que reduzem a preparação e a movimentação de dados. O AutoML ajuda os cientistas de dados a acelerar o tempo de valorização das iniciativas de machine learning da empresa usando seleção automática de algoritmos, amostragem adaptativa de dados, seleção automática de recursos e ajuste automático de modelos. Com os serviços do Oracle Machine Learning disponíveis no Oracle Autonomous Data Warehouse, você não só pode gerenciar modelos, mas também pode implementar esses modelos como pontos finais REST para democratizar as previsões em tempo real dentro da empresa, permitindo que as empresas reajam a eventos relevantes à medida que eles ocorrem, em vez de após o fato.
-
- Serviços de IA e IA Generativa
Os serviços de IA do Oracle Cloud Infrastructure fornecem um conjunto de serviços de IA prontos para consumo que podem ser usados para oferecer suporte a uma variedade de casos de uso, desde análise de texto até manutenção preditiva. Esses serviços têm modelos predefinidos e finamente ajustados que você pode integrar em pipelines de dados, análises e aplicativos usando APIs.
-
O Oracle Cloud Infrastructure Language executa análises de texto sofisticadas e traduções em escala. Com modelos pré-treinados e personalizados, os desenvolvedores podem processar texto não estruturado e extrair insights sem experiência em ciência de dados. Execute análise de sentimento, extração de frase-chave, classificação de texto, reconhecimento de entidade nomeada e detecte dados de PII em texto. Personalize modelos para tarefas específicas do domínio e traduza texto facilmente em vários idiomas. O Oracle Cloud Infrastructure Language também suporta conversão de documentos e jobs assíncronos para processar com eficiência cargas de trabalho de grande volume.
- O Oracle Cloud Infrastructure Speech aproveita o poder da linguagem falada, permitindo que você converta facilmente arquivos de mídia contendo fala humana em transcrições de texto altamente precisas. O OCI Speech pode ser usado para transcrever chamadas do serviço de atendimento ao cliente, automatizar legendas e gerar metadados para ativos de mídia, a fim de criar um arquivo compactado totalmente pesquisável. O OCI Speech suporta jobs de transcrição em lote e ao vivo.
-
O OCI Vision executa tarefas de reconhecimento de imagem e análise de vídeo, como classificar imagens, detectar objetos e rostos e extrair texto. Você pode aproveitar modelos pré-treinados ou criar facilmente modelos de visão personalizados para cenários específicos do setor e do cliente. O OCI Vision é um serviço de nuvem nativo, multitenant e totalmente gerenciado que ajuda em todas as tarefas comuns de visão computacional.
- O Oracle Cloud Infrastructure Document Understanding executa tarefas de classificação e análise de documentos, como extrair texto, valores-chave e tabelas. O serviço OCI Document Understanding é um serviço de nuvem nativo, multitenant e totalmente gerenciado que ajuda em todas as tarefas comuns de análise de documentos.
- O Oracle Cloud Infrastructure Generative AI é um conjunto totalmente gerenciado que fornece um conjunto de grandes modelos de linguagem (LLMs) de ponta e personalizáveis que abrangem uma ampla variedade de casos de uso, incluindo chat, geração de texto, resumo e criação de incorporações de texto. Use o playground para experimentar os modelos pré-treinos prontos para usar ou crie e hospede seus próprios modelos personalizados ajustados com base em seus próprios dados em clusters de IA dedicados.
-
- Aumento de Dados
O enriquecimento de dados pode melhorar os dados usados para treinar modelos de machine learning para obter resultados de previsão melhores e mais precisos.
O serviço Data Labeling do Oracle Cloud Infrastructure permite que você crie e procure conjuntos de dados, exiba registros de dados (texto ou imagens) e aplique labels para fins de criação de modelos de AI/ML. O serviço também fornece interfaces de usuário interativas projetadas para auxiliar no processo de rotulagem. Depois que os registros são rotulados, o conjunto de dados pode ser exportado como JSON delimitado por linha para uso no desenvolvimento de modelo de IA/ML. - Pesquisar
Os recursos de pesquisa podem ser usados como uma função complementar para expor dados a usuários finais que exigem dados de análise operacional pré-indexados e, portanto, fornecidos com baixa latência.
O Oracle Cloud Infrastructure Search com OpenSearch é um mecanismo de pesquisa distribuído, totalmente gerenciado, livre de manutenção e de texto completo. O OpenSearch permite armazenar, pesquisar e analisar grandes volumes de dados rapidamente com tempos de resposta rápidos. O serviço suporta APIs OpenSearch de código-fonte aberto e visualização de dados do OpenSearch Dashboards. - Análise de streaming
A análise de streaming fornece painéis que fornecem análise em tempo real de dados transmitidos contextualizados com dados mestres e selecionados armazenados no data lakehouse para detectar padrões de interesse que podem ser atendidos por usuários, aplicativos e coisas.
O Oracle Cloud Infrastructure GoldenGate Stream Analytics processa e analisa informações em larga escala e em tempo real usando padrões de correlação sofisticados, enriquecimento de dados e machine learning. Os usuários podem explorar dados em tempo real por meio de gráficos ao vivo, mapas, visualizações e criar graficamente pipelines de streaming sem qualquer codificação manual. Esses pipelines são executados em um serviço totalmente gerenciado e escalável para tratar de casos de uso críticos em tempo real de empresas modernas.
- Estornar ETL/Gravação Retroativa
O ETL reverso, às vezes chamado de writeback, permite a ativação de dados em sistemas e dispositivos operacionais, permitindo infundir inteligência derivada de dados, diretamente em aplicativos e dispositivos usados para suportar processos de negócios.
Os dados são fornecidos aos consumidores usando vários mecanismos, nomeadamente através de fluxos e filas que suportam um grande conjunto de consumidores que extraem informações em simultâneo que está quase em tempo real e é dissociado de o sistema de análise de streaming, a fim de aumentar a resiliência e a escalabilidade, por meio de aplicativo ou integração de dados para enviar dados por meio de adaptadores predefinidos ou por meio de funções sem servidor para chamar praticamente qualquer aplicativo ou ponto final do dispositivo.
-
O serviço Oracle Cloud Infrastructure Streaming fornece uma solução de armazenamento totalmente gerenciada, escalável e durável para ingestão de streams contínuos de alto volume de dados que você pode consumir e processar em tempo real. O streaming pode ser usado para mensagens, logs de aplicativo de alto volume, telemetria operacional, dados de fluxo de cliques na web ou outros casos de uso do modelo de mensagem publicar-assinar nos quais os dados sejam produzidos e processados de forma contínua e sequencial.
-
O Oracle Cloud Infrastructure Queue é um serviço totalmente gerenciado sem servidor que ajuda a desacoplar sistemas e ativar operações assíncronas. O serviço Queue trata dados transacionais de alto volume que exigem mensagens processadas de forma independente sem perda ou duplicação.
-
O Oracle Integration Cloud é um ambiente totalmente gerenciado e pré-configurado que permite integrar aplicativos locais e em nuvem, automatizar processos de negócios, desenvolver aplicativos visuais, usar um servidor de arquivos compatível com SFTP para armazenar e recuperar arquivos e trocar documentos de negócios com um parceiro comercial do B2B usando um portfólio de centenas de adaptadores e receitas para se conectar com aplicativos Oracle e de terceiros.
-
O Oracle Data Transforms permite o ELT para tecnologias suportadas selecionadas, simplificando a configuração e a execução de pipelines de dados usando uma interface de usuário da Web que permite aos usuários criar e programar de forma declarativa fluxos de dados e fluxos de trabalho. O Oracle Data Transforms está disponível como um ambiente totalmente gerenciado no Oracle Autonomous Data Warehouse (ADW) para carregar e transformar dados de várias origens de dados em uma instância do ADW.
-
O Oracle Cloud Infrastructure Functions é uma plataforma de funções como serviço totalmente gerenciada, multitenant, altamente escalável e sob demanda. Ela foi criada no Oracle Cloud Infrastructure de nível empresarial e desenvolvida pelo mecanismo de código-fonte aberto Fn Project.
-
- API
A camada de API permite que você infunda a inteligência derivada do serviço Data Science e do Oracle Machine Learning em aplicativos, processos de negócios e coisas para influenciar e melhorar sua operação e função. A camada de API fornece consumo seguro dos modelos implantados do serviço Data Science para pontos finais REST do Oracle Machine Learning e a capacidade de controlar o sistema para garantir a disponibilidade de ambientes de runtime. Você também pode aproveitar funções para executar lógica adicional conforme necessário.
-
O Gateway de API do Oracle Cloud Infrastructure permite que você publique APIs com pontos finais privados acessíveis na sua rede e que você pode expor com endereços IP públicos se quiser que eles aceitem o tráfego da internet. Os pontos finais suportam validação de API, transformação de solicitação e resposta, CORS, autenticação e autorização e limitação de solicitação. Ele permite que a observabilidade da API monitore o uso e garanta SLAs. Os planos de uso também podem ser usados para monitorar e gerenciar os consumidores de API e clientes de API que acessam APIs e para configurar diferentes níveis de acesso para diferentes clientes, a fim de rastrear o uso de dados que é consumido usando APIs. Os planos de uso são um recurso importante para dar suporte à monetização de dados.
-
O Oracle Cloud Infrastructure Functions é uma plataforma de funções como serviço totalmente gerenciada, multitenant, altamente escalável e sob demanda. Ela foi criada no Oracle Cloud Infrastructure de nível empresarial e desenvolvida pelo mecanismo de código-fonte aberto Fn Project.
-
O Oracle REST Data Services (ORDS) é um aplicativo Java que permite aos desenvolvedores com habilidades em SQL e em banco de dados desenvolver APIs REST para Oracle Database. Qualquer desenvolvedor de aplicativo pode usar essas APIs em qualquer ambiente de idioma, sem instalar e manter drivers de cliente, da mesma forma que acessa outros serviços externos usando REST, a tecnologia de API mais amplamente usada. O ORDS é implantado como um recurso totalmente gerenciado no ADW e pode ser usado para expor informações do lakehouse usando APIs para consumidores de dados.
-
- Governança de Dados
O Oracle Cloud Infrastructure Data Catalog fornece visibilidade de onde residem ativos técnicos, como metadados e respectivos atributos, e oferece a capacidade de manter um glossário de negócios mapeado para esses metadados técnicos. O serviço Data Catalog também pode fornecer metadados ao Oracle Autonomous Data Warehouse para facilitar a criação de tabelas externas no data warehouse.
-
Segurança dos Dados
A segurança de dados é crucial para explorar e usar dados do lakehouse em toda a extensão. Aproveitando um modelo de segurança de confiança zero com recursos de defesa em profundidade e RBAC e garantindo a conformidade com a regulamentação mais rigorosa, a segurança de dados fornece controles de segurança preventivos, detectivos e corretivos para garantir que a exfiltração e as violações de dados sejam evitadas.
-
O Oracle Data Safe é um serviço Oracle Cloud totalmente integrado com foco na segurança de dados. Ele fornece um conjunto completo e integrado de recursos para proteger dados confidenciais e regulados em bancos de dados Oracle Cloud, como o Oracle Autonomous Data Warehouse. Os recursos incluem avaliação de segurança, avaliação do usuário, descoberta de dados, mascaramento de dados e auditoria de atividades.
-
O Oracle Cloud Infrastructure Audit fornece visibilidade em atividades relacionadas a recursos e tenancies do Oracle Cloud Infrastructure (OCI). Os eventos de log de auditoria podem ser usados para auditorias de segurança para rastreamento de uso e alterações nos recursos do OCI e para ajudar a garantir conformidade com padrões e regulamentos.
-
O Oracle Cloud Infrastructure Logging fornece uma interface única altamente escalável e totalmente gerenciada para todos os logs na tenancy, incluindo logs de auditoria. Use o OCI Logging para acessar logs de todos os recursos do OCI para que você possa ativá-los, gerenciá-los e pesquisá-los.
-
O Oracle Cloud Infrastructure Vault é um serviço de gerenciamento de criptografia que armazena e gerencia chaves de criptografia e segredos para acessar recursos com segurança. Permite que as chaves gerenciadas pelo cliente sejam usadas para o Oracle Autonomous Data Warehouse e criptografia de data lake para aumentar a proteção de dados em repouso. Permite que segredos armazenem com segurança serviços e credenciais do usuário para melhorar sua postura de segurança e garantir que as credenciais não sejam comprometidas e usadas de forma inadequada.
-
Arquitetura Física
A arquitetura física desse data lakehouse suporta o seguinte:
- Os dados são ingeridos com segurança usando micro batch, streaming, APIs e arquivos de origens de dados relacionais e não relacionais
- Os dados são processados aproveitando uma combinação do Oracle Cloud Infrastructure Data Integration e do Oracle Cloud Infrastructure Data Flow
- Os dados são armazenados no Oracle Autonomous Data Warehouse e no Oracle Cloud Infrastructure Object Storage e são organizados de acordo com sua qualidade e valor
- O Oracle Autonomous Data Warehouse atende serviços de data warehouse e lake com segurança para os consumidores
- O Oracle Analytics Cloud exibe dados para usuários corporativos usando visualizações
- O Oracle Analytics Cloud é exposto usando o Oracle Cloud Infrastructure Load Balancing protegido pelo Oracle Cloud Infrastructure Web Application Firewall (WAF) para fornecer acesso usando a internet
- O Oracle Cloud Infrastructure Data Science é usado para criar, treinar e implantar modelos de machine learning (ML)
- O Gateway de API do Oracle Cloud Infrastructure é aproveitado para controlar as implantações do modelo de ML do serviço Data Science
- O Oracle Cloud Infrastructure Data Catalog coleta metadados do Oracle Autonomous Data Warehouse e do armazenamento de objetos
- O Oracle Data Safe avalia riscos aos dados, implementa e monitora controles de segurança, avalia a segurança do usuário, monitora a atividade do usuário e atende aos requisitos de conformidade de segurança de dados
- O Oracle Cloud Infrastructure Bastion é usado por administradores para gerenciar recursos de nuvem privada
O diagrama a seguir ilustra essa arquitetura de referência.
arquitetura do lakehouse-oracle.zip
O design para a arquitetura física:
- Utiliza 2 VCNs, uma para hub e outra para a própria carga de trabalho
- A conectividade on-premises aproveita o Oracle Cloud Infrastructure FastConnect e a VPN site a site para redundância
- Todo o tráfego de entrada on-premises e da internet é primeiro roteado para a VCN hub e, em seguida, para a VCN de carga de trabalho
- Todos os dados são seguros em trânsito e em repouso
- Os serviços são implantados com pontos finais privados para aumentar a postura de segurança
- A VCN é segregada em várias sub-redes privadas para aumentar a postura de segurança
- Os dados do Lake são segregados em vários buckets no armazenamento de objetos, aproveitando uma arquitetura de medalhão
As possíveis melhorias de design não descritas nesta implantação para simplificar incluem:
- Aproveitando uma zona de destino completa em conformidade com o CIS
- Aproveite um firewall de rede para melhorar a postura de segurança geral inspecionando todo o tráfego e aplicando políticas
Recomendações
Use as recomendações a seguir como ponto de partida para processar dados de streaming e uma ampla gama de recursos de dados corporativos para análise de negócios e machine learning.
Seus requisitos podem ser diferentes da arquitetura descrita aqui.
- Oracle Autonomous Data Warehouse
Essa arquitetura usa o Oracle Autonomous Data Warehouse em infraestrutura compartilhada.
- Ative o dimensionamento automático para fornecer às cargas de trabalho do banco de dados até três vezes o poder de processamento.
- Considere o uso do Oracle Autonomous Data Warehouse em infraestrutura dedicada se quiser o recurso de banco de dados de autoatendimento em um ambiente de nuvem de banco de dados privado em execução na nuvem pública.
- Considere usar o recurso de tabelas particionadas híbridas do Autonomous Data Warehouse para mover partições de dados para o Oracle Cloud Infrastructure Object Storage e atendê-las aos usuários e aplicativos de forma transparente. Recomendamos que você use esse recurso para dados que não são consumidos com frequência e para os quais não é necessário o mesmo desempenho dos dados armazenados no Autonomous Data Warehouse.
- Considere o uso do recurso de tabelas externas para consumir dados armazenados no Oracle Cloud Infrastructure Object Storage em tempo real sem a necessidade de replicá-los para o Autonomous Data Warehouse. Esse recurso une de forma transparente e integrada conjuntos de dados selecionados fora do Autonomous Data Warehouse, independentemente do formato (parquet, avro, orc, json, csv etc.), com dados que residem no Autonomous Data Warehouse.
- Considere o uso do recurso de banco de dados na memória para melhorar significativamente o desempenho de análises em tempo real e cargas de trabalho mistas. Carregue dados do lakehouse na memória que precisam ser atendidos com baixa latência e que residem em tabelas internas, híbridas particionadas ou externas do ADW.
- Considere o uso do Autonomous Data Lake Accelerator ao consumir dados de armazenamento de objetos para fornecer uma experiência aprimorada e mais rápida aos usuários que consomem e juntam dados entre o data warehouse e o data lake.
- Considere armazenar incorporações de vetores no Autonomous Data Warehouse juntamente com outros tipos de dados, como dados relacionais ou dados JSON, para simplificar a engenharia e a análise de dados em todos os dados e aterrar com eficiência os agentes RAG usando todos os dados.
- Considere usar Select AI como um acelerador para criar SQL simples e complexo que possa ser usado em engenharia de dados, business intelligence, desenvolvimento de aplicativos ou qualquer tarefa que precise de SQL para ser criada.
- Considere o uso do Select AI com aplicativos de baixo código para simplificar ainda mais a camada de aplicativos.
- Considere o uso de Views Analíticas para modelar semanticamente o esquema subjacente DW star ou snowflake diretamente no ADW para que dados granulares sejam agregados automaticamente sem a necessidade de pré-agregá-lo, o modelo semântico é consumido usando SQL de forma consistente com qualquer cliente compatível com SQL, incluindo o Oracle Analytics Cloud, garantindo fatos e KPIs são servidos de forma consistente, independentemente do cliente, e todos os dados podem ser usados no modelo semântico, independentemente de serem armazenados no ADW ou no Object Storage, tornando esse recurso uma camada de modelagem semântica perfeita para uma arquitetura de lakehouse em que fatos e dimensões podem atravessar o DW e o Lake.
- Considere o uso de Chaves Gerenciadas pelo Cliente utilizando o serviço Vault se for necessário um controle total das chaves de criptografia ADW devido às políticas da empresa ou do regulamento.
- Considere o uso do Database Vault no ADW para impedir que usuários privilegiados não autorizados acessem dados confidenciais e, assim, impeçam a exfiltração de dados e violações de dados.
- Considere o uso do Autonomous Data Guard para oferecer suporte a um plano de continuidade de negócios por meio da configuração e manutenção de dados replicados em uma instância stand-by na mesma região ou em outra região.
- Considere usar o mascaramento de dados dinâmico com a Redação de Dados para fornecer dados mascarados aos usuários, dependendo de sua função e, portanto, garantir o acesso apropriado aos dados sem a necessidade de duplicação de dados e mascaramento estático.
- Considere o uso de clones ADW para criar rapidamente outros ambientes transitórios ou não transitórios. Use clones atualizáveis se o ambiente de destino precisar ter dados atualizados. Use o Oracle Data Safe para mascarar estaticamente dados confidenciais nos clones para maior segurança.
- Considere o uso do Compartilhamento de Dados como uma maneira segura e fácil de consumir e fornecer dados, com outras instâncias do Autonomous Database ou com qualquer tecnologia compatível com o Delta Sharing.
- Considere usar o compartilhamento de dados ao vivo entre instâncias do Autonomous Database para consumir e fornecer dados em tempo real.
- Considere usar o compartilhamento de dados com controle de versão para compartilhar dados com os consumidores. Isso evita o custo de consulta dos dados, pois os dados são processados pelos consumidores e não pelo provedor.
- Considere o uso de URLs de solicitação pré-autenticadas para acesso de dados somente leitura e limitado por tempo no ADW para ativar o compartilhamento de dados não confidenciais para casos de uso em que o consumidor não oferece suporte ao Compartilhamento Delta.
- Object Storage/Data Lake
Essa arquitetura usa o Oracle Cloud Infrastructure Object Storage, um armazenamento em nuvem altamente escalável e durável, como o armazenamento no lake.
- Considere organizar seu lago em diferentes conjuntos de buckets aproveitando uma arquitetura de medalhão (bronze, prata, ouro) ou outra lógica de particionamento para segregar dados com base em sua qualidade e enriquecimento, impor segurança refinada para os consumidores que leem os dados e aplicar diferentes políticas de gerenciamento do ciclo de vida às diferentes camadas.
- Considere o uso de diferentes camadas de armazenamento de objetos e políticas de ciclo de vida para otimizar os custos de armazenamento de dados do lago em escala.
- Considere o uso de Chaves Gerenciadas pelo Cliente utilizando o serviço Vault se for necessário um controle total das chaves de criptografia do Object Storage devido às políticas da empresa ou do regulamento.
- Considere o uso da replicação do Object Storage para oferecer suporte a um plano de continuidade de negócios por meio da configuração da replicação de bucket para outra região. Como o Object Storage é altamente durável e mantém várias cópias do mesmo objeto em uma única região para recuperação na mesma replicação de bucket de região, não é necessário.
- Considere o uso de políticas do serviço Oracle Cloud Infrastructure Identity and Access Management (IAM) para objetos, usando nomes ou padrões de objetos, aumentando a segurança de dados para acessos diretos do data lake.
- Considere o uso de pontos finais privados no Oracle Cloud Infrastructure Object Storage para garantir acesso seguro e privado ao data lake pela VCN da plataforma de dados.
- Considere o uso de origens de rede e políticas do serviço IAM para fazer referência a elas para gerenciar os endereços IP autorizados a acessar os buckets e objetos do data lake.
- Considere o uso do OCIFS, um utilitário baseado em python, para montar buckets do Oracle Cloud Infrastructure Object Storage como sistemas de arquivos, permitindo suporte para aplicativos que só funcionam com NFS e precisam fazer upload de arquivos para o armazenamento de objetos.
- Oracle Machine Learning e Oracle Cloud Infrastructure Data Science
Essa arquitetura aproveita o Oracle Machine Learning e o Oracle Cloud Infrastructure Data Science para executar e fornecer previsões em tempo real para pessoas e aplicativos.
- Considere usar AutoML no OCI Data Science ou no Oracle Machine Learning para acelerar o desenvolvimento de modelos de ML.
- Considere o uso do Open Neural Networks Exchange (ONNX) para interoperabilidade. Os modelos de 3 partes do ONNX podem ser implantados no OML e expostos como um ponto final REST ou no OCI Data Science e expostos como um ponto final HTTP.
- Considere salvar o modelo no OCI Data Science como ONNX e importá-lo para o OCI GoldenGate Stream Analytics se houver necessidade de executar pontuação e previsão em um pipeline de dados em tempo real para ter previsões mais oportunas que possam gerar resultados de negócios em tempo real.
- Considere o uso de ambientes OCI Data Science Conda para melhor gerenciamento e empacotamento de dependências do Python dentro das sessões de notebook Jupyter. Aproveite o repositório selecionado do Anaconda de pacotes no OCI Data Science para usar suas ferramentas de código aberto favoritas para criar, treinar e implementar modelos.
- Considere o uso do Oracle Cloud Infrastructure Data Science AI Quick Actions para implantar, avaliar e ajustar modelos básicos no OCI Data Science. Trabalhe com LLMs de código aberto selecionados disponíveis no explorador de modelos ou para trazer seu próprio modelo.
- Considere o uso de Operadores de IA de baixo código do serviço Data Science, disponíveis no pacote Accelerated Data Science Python, para executar previsões, detecção de anomalias ou criar funcionalidades de recomendação de forma rápida e eficiente.
- Considere usar o OCI Data Flow no ambiente Data Science Jupyter para executar Análise Exploratória de Dados, criação de perfil de dados e preparação de dados em escala, aproveitando o processamento de expansão do Spark.
- Considere usar o Data Labeling para rotular dados como imagens, texto ou documentos e usá-lo para treinar modelos de ML criados no OCI Data Science ou no OCI AI Services e, assim, melhorar a precisão das previsões.
- Considere a implantação de um Gateway de API para proteger e controlar o consumo do modelo implantado se as previsões em tempo real estiverem sendo consumidas por parceiros e entidades externas.
- Oracle Cloud Infrastructure Data Integration
Essa arquitetura usa o Oracle Cloud Infrastructure Data Integration para oferecer suporte ao desenvolvimento declarativo e sem código ou ETL de baixo código e pipeline de dados.
- Aproveite o Oracle Cloud Infrastructure Data Integration para coordenar e programar execuções de aplicativos do Oracle Cloud Infrastructure Data Flow e ser capaz de misturar e combinar ETL declarativo com lógica de código Spark personalizada. Use funções do Oracle Cloud Infrastructure Data Integration para estender ainda mais os recursos de pipelines de dados.
- Considere o uso de pushdown SQL para transformações que têm o ADW como destino para usar uma abordagem ELT mais eficiente, eficiente e segura em comparação com o ETL.
- Considere permitir que o OCI Data Integration trate a divergência de esquema de origens de dados para ter pipelines de dados mais resilientes e à prova de futuro que sustentarão as alterações de esquema de origens de dados.
- Oracle Cloud Infrastructure Data Flow
Essa arquitetura usa o Oracle Cloud Infrastructure Data Flow para oferecer suporte ao processamento de streaming Spark e Spark em larga escala sem a necessidade de ter e gerenciar clusters permanentes.
- Considere o uso do Oracle Cloud Infrastructure Data Catalog como um metastore Hive para o Oracle Cloud Infrastructure Data Flow para armazenar e recuperar com segurança definições de esquema para objetos em ativos de dados não estruturados e semiestruturados, como o Oracle Cloud Infrastructure Object Storage.
- Considere o uso do Delta Lake no OCI Data Flow se as transações ACID e a unificação do streaming e do processamento em lote forem necessárias para os dados do lake.
- Big Data Service
Essa arquitetura aproveita o Oracle Cloud Infrastructure Big Data Service para implantar clusters altamente disponíveis e escaláveis de várias tecnologias de código aberto, como Spark, Hadoop, Trino ou Flink, que podem processar dados em lote e de streaming. O Big Data Service persiste dados no HDFS, persiste e lê dados do Oracle Cloud Infrastructure Object Storage e pode trocar conjuntos de dados com outros serviços do Oracle Cloud Infrastructure, como o Oracle Cloud Infrastructure Data Flow e o Oracle Autonomous Data Warehouse.
- Considere o uso do dimensionamento automático para dimensionar automaticamente horizontal ou verticalmente os nós de trabalho com base em métricas ou programação para otimizar continuamente os custos com base na demanda de recursos.
- Considere o uso do conector OCI HDFS para o Object Storage para ler e gravar dados no Object Storage e, portanto, forneça um mecanismo para produzir/consumir dados compartilhados com outros serviços da OCI sem a necessidade de replicá-los e duplicá-los.
- Considere o uso do Delta Lake no OCI BDS se as transações ACID e a unificação do streaming e do processamento em lote forem necessárias para os dados do lake.
- Se você precisar usar outro software de código-fonte aberto, considere o uso do Oracle Cloud Infrastructure Registry, instâncias de contêiner ou do Oracle Cloud Infrastructure Kubernetes Engine para implantar qualquer software de código-fonte aberto que possa ser conteinerizado.
- Oracle Cloud Infrastructure - Streaming
Essa arquitetura aproveita o Oracle Cloud Infrastructure Streaming para consumir dados de streaming de origens, bem como para fornecer dados de streaming aos consumidores.
Considere aproveitar o Oracle Cloud Infrastructure Service Connector Hub para mover dados do Oracle Cloud Infrastructure Streaming e persistir no Oracle Cloud Infrastructure Object Storage para dar suporte a análises de dados históricas adicionais.
- Oracle Analytics Cloud
Essa arquitetura aproveita o Oracle Analytics Cloud (OAC) para fornecer análises aumentadas aos usuários finais.
Considere aproveitar a integração predefinida que a OAC tem com OCI AI Services (Language and Vision Models) e OML (qualquer modelo) para incorporar inteligência em fluxos de dados e visualizações que os usuários finais consomem e, assim, democratizar o consumo de IA e ML.
- Serviços de IA do Oracle Cloud Infrastructure
Essa arquitetura pode aproveitar os serviços de IA do Oracle Cloud Infrastructure, dependendo dos casos de uso implantados.
Considere usar o Data Labeling para rotular dados de treinamento que serão usados para ajustar e obter previsões mais precisas para Serviços de IA, como Visão, Compreensão de Documentos e Idioma.
- Serviços do Oracle Cloud Infrastructure Generative AI
Essa arquitetura pode aproveitar os serviços do Oracle Cloud Infrastructure Generative AI, dependendo dos casos de uso implantados.
- Considere usar o playground sob demanda e APIs que usam LLMs pré-treinados para lidar com geração de texto, conversa, extração de dados, resumo, classificação, transferência de estilo ou similaridade semântica e incorporar rapidamente IA generativa em seus pipelines e processos.
- Considere o uso de clusters de IA dedicados para adaptar e ajustar com eficiência os LLMs fundamentais aos seus dados, garantindo isolamento completo e segurança de dados.
- Considere o compartilhamento de clusters de IA dedicados em diferentes equipes em toda a organização para obter eficiência de custos. Um único cluster pode ser usado para hospedar vários modelos personalizados, todos os quais podem ser atendidos com pontos finais independentes e podem ser protegidos com políticas dedicadas do serviço IAM.
- Gateway de API
Essa arquitetura aproveita o API Gateway para expor com segurança os serviços de dados e a inferência em tempo real aos consumidores de dados.
- Considere o uso do Oracle Cloud Infrastructure Functions para adicionar a lógica de runtime eventualmente necessária para suportar o processamento de API específico que está fora do escopo das camadas de processamento de dados, acesso e interpretação.
- Considere o uso de Planos de Uso para gerenciar o acesso do assinante a APIs, monitorar e gerenciar o consumo da API, configurar diferentes camadas de acesso para diferentes consumidores e oferecer suporte à monetização de dados, rastreando métricas de uso que podem ser fornecidas a um sistema de faturamento externo.
- Oracle Cloud Infrastructure Data Catalog
Para ter uma visão completa e holística dos dados armazenados e que fluem na plataforma, considere a coleta não apenas de armazenamentos de dados que suportam a camada de persistência de dados, mas também de armazenamentos de dados de origem. O mapeamento desses metadados técnicos coletados para o glossário de negócios e o enriquecimento com propriedades personalizadas permitem mapear conceitos de negócios e documentar e controlar definições de segurança e acesso.
- Para facilitar a criação de tabelas externas do Oracle Autonomous Data Warehouse que virtualizam dados armazenados no Oracle Cloud Infrastructure Object Storage, aproveite os metadados coletados anteriormente pelo Oracle Cloud Infrastructure Data Catalog. Isso simplifica a criação de tabelas externas, impõe a consistência de metadados entre armazenamentos de dados e é menos suscetível a erros humanos.
- Considere usar o rastreamento de linhagem para o Oracle Cloud Infrastructure Data Integration e o Oracle Cloud Infrastructure Data Flow para ter visibilidade de como os dados foram ingeridos, transformados e armazenados. Para maior cobertura, use a ingestão baseada em API para aproveitar a estrutura aberta OpenLineage para rastrear a linhagem de qualquer origem e sistema.
- Serviço Oracle Cloud Infrastructure Data Transfer
Use o serviço Oracle Cloud Infrastructure Data Transfer quando não for viável fazer o upload de dados usando a conectividade de internet pública. Recomendamos que você considere o uso do Data Transfer se o upload de dados pela internet pública levar mais de 1 ou 2 semanas.
- Data Safe e Auditoria
Aumentar a postura de segurança, aproveitando os recursos de auditoria e alerta, permitirá evitar a exfiltração de dados e poderá executar análises forenses caso haja uma violação de dados.
- Considere o uso do Oracle Data Safe para auditar a atividade no data warehouse e considere o uso do Oracle Cloud Infrastructure Audit para auditar o tráfego para os dados do lake.
- Considere o uso do Oracle Data Safe para descoberta de dados confidenciais no ADW e mascará-los estaticamente ao criar clones do ADW para ambientes de não produção, evitando assim riscos de segurança.
- Considere o uso do Oracle Data Safe SQL Firewall com ADW para aumentar a postura de segurança dos dados, protegendo contra riscos como ataques de injeção de SQL ou contas comprometidas.
- Implementação e automação
Essa arquitetura física é implantada usando a automação de infraestrutura como código (IaC) para criar os recursos para implantar um data lakehouse
O Oracle Cloud Infrastructure Resource Manager permite criar pilhas do Terraform de recursos de nuvem implantáveis, compartilhar e gerenciar configurações de infraestrutura e declarar arquivos em várias equipes e plataformas. Considere o uso do Oracle Cloud Infrastructure Resource Manager para criar pilhas de implantação para criação de ambiente de não produção, integrar novas equipes que precisam de serviços adicionais e padronizar e incorporar políticas consistentes de IAM e proteções de segurança que sigam as políticas definidas de segurança e governança da organização.
- Continuidade de Negócios
Essa arquitetura descreve uma implantação em uma única região e pode ser estendida em duas regiões para oferecer suporte à recuperação de desastres e permitir um plano de continuidade de negócios.
- O Oracle Cloud Infrastructure Full Stack Disaster Recovery Service é um serviço de orquestração e gerenciamento de recuperação de desastre que fornece recursos abrangentes de recuperação de desastre para todas as camadas de uma pilha de aplicativos, incluindo infraestrutura, middleware, banco de dados e aplicativo.
Considere o uso do Full Stack Disaster Recovery para configurar planos de switchover e failover para o data lakehouse para automatizar tarefas de recuperação de desastres e reduzir etapas manuais no caso de uma transição planejada ou não planejada para a região em espera.
- Otimização de Custos
Considere usar o rastreamento de custo e uso da Oracle Cloud Infrastructure, bem como recursos de otimização de custos para dar suporte contínuo às suas operações financeiras.
- Considere o uso de relatórios de custo e uso para obter e rastrear o uso de recursos de nuvem e os respectivos custos. Aproveite os relatórios de custos CSV FOCUS padrão do setor produzidos para integração com soluções de operações financeiras de 3 partes.
- Considere usar a análise de custos para rastrear os custos incorridos por diferentes equipes, projetos e ambientes.
- Considere o uso de tags de rastreamento de custos para marcar recursos de nuvem para equipes, projetos ou ambientes específicos.
- Considere o uso de orçamentos para definir limites flexíveis de gastos e definir alertas para que você saiba quando pode exceder seu orçamento para projetos, equipes ou gastos gerais.
- Interoperabilidade
Essa arquitetura aproveita amplamente os padrões do setor para interoperar com o cenário heterogêneo de TI mais amplo de qualquer organização, para que possa consumir e fornecer quaisquer dados a qualquer aplicativo, sistema ou pessoa.
A arquitetura suporta formatos de arquivo abertos, como Parquet ou Avro, para que os dados possam ser armazenados no formato mais apropriado para cada caso de uso. Além disso, ele também suporta formatos de mesa aberta, como Iceberg e Delta Lake, para garantir a interoperabilidade entre as tecnologias Oracle e outras tecnologias 3rd party.- Considere usar o suporte ao Iceberg do Oracle Autonomous Data Warehouse para ler as tabelas de Iceberg persistidas no data lake e atendê-las aos consumidores. Mesas de iceberg podem ser servidas como mesas externas ou carregadas no ADW.
- Considere usar o suporte ao Formato Universal Delta Lake do serviço Data Flow para ler, processar e persistir dados no data lake. O uso do Delta Lake ao gerar metadados para outros formatos de tabela aberta, como Iceberg e Hudi, permite que diferentes mecanismos de processamento leiam os mesmos dados.
- Abordagem Organizacional
Essa arquitetura é flexível e pode suportar diferentes tipos de abordagens organizacionais, desde uma abordagem centralizada até uma abordagem completamente descentralizada, podendo ser adotada e usada por qualquer organização que queira extrair valor de seus dados.
Essa arquitetura aproveita extensivamente controles refinados para autenticação e autorização com o OCI Identity and Access Management (IAM).
Considere usar o IAM para segregar as diferentes linhas de negócios e equipes usando o lakehouse para descentralizar a propriedade da criação de produtos de dados e impor a segregação de domínios de dados se sua organização quiser adotar uma abordagem organizacional descentralizada.
A OCI tem automação e Infraestrutura como Código como recursos essenciais para uma implementação de arquitetura bem-sucedida, aproveitando estruturas como Terraform e Ansible.
Se sua organização estiver adotando uma abordagem descentralizada e implementando domínios de dados sob essa abordagem, considere aproveitar modelos de terraform predefinidos e o OCI Resource Manager para integrar domínios de dados de forma rápida e consistente na plataforma de dados.
Considerações
Ao coletar, processar e selecionar dados de aplicativos para análise e machine learning, considere as seguintes opções de implementação.
Orientação | Recomendado | Outras Opções | Análise Racional |
---|---|---|---|
Refinaria de Dados |
|
|
O Oracle Cloud Infrastructure Data Integration fornece uma plataforma ETL nativa da nuvem, sem servidor e totalmente gerenciada que é escalável e econômica. O Oracle Cloud Infrastructure GoldenGate fornece uma plataforma de replicação de dados nativa da nuvem, sem servidor, totalmente gerenciada e não intrusiva que é escalável, econômica e pode ser implementada em ambientes híbridos. |
Persistência de Dados |
|
Oracle Exadata Database Service |
O Oracle Autonomous Data Warehouse é um banco de dados fácil de usar, totalmente autônomo, que é dimensionado elasticamente, oferece rápido desempenho para consultas e não exige administração de banco de dados. Ele também oferece acesso direto aos dados de tabelas particionadas externas ou híbridas de armazenamento de objetos. O Oracle Cloud Infrastructure Object Storage armazena dados ilimitados em formato bruto. |
Processamento de Dados |
|
Ferramentas de terceiros |
O Oracle Cloud Infrastructure Data Integration fornece uma plataforma ETL nativa da nuvem, sem servidor e totalmente gerenciada, escalável e econômica. O Oracle Cloud Infrastructure Data Flow fornece um ambiente Spark sem servidor para processar dados em escala com um modelo de pagamento por uso extremamente elástico. O Oracle Cloud Infrastructure Big Data Service fornece o Hadoop como serviço de nível empresarial com segurança completa, alto desempenho, facilidade de gerenciamento e capacidade de upgrade. |
Acesso e interpretação |
|
Ferramentas de terceiros |
O Oracle Analytics Cloud é totalmente gerenciado e totalmente integrado aos dados selecionados no Oracle Autonomous Data Warehouse. O serviço Data Science é uma plataforma de autoatendimento totalmente gerenciada para que as equipes de ciência de dados criem, treinem e gerenciem modelos de aprendizado de máquina (ML) no Oracle Cloud Infrastructure. O serviço Data Science fornece ferramentas de infraestrutura e ciência de dados, como AutoML e recursos de implantação de modelo. O Oracle Machine Learning é uma plataforma de autoatendimento totalmente gerenciada para ciência de dados disponível com o Oracle Autonomous Data Warehouse que aproveita o poder de processamento do warehouse para criar, treinar, testar e implementar modelos de ML em escala sem a necessidade de mover os dados para fora do warehouse. Os serviços de IA do Oracle Cloud Infrastructure são um conjunto de serviços que fornecem modelos predefinidos especificamente criados e treinados para executar tarefas como inferir possíveis anomalias ou detectar sentimentos. |
Implante
- Implante usando o Oracle Cloud Infrastructure Resource Manager:
- Clique
Se você ainda não tiver acessado, informe a tenancy e as credenciais do usuário.
- Revise e aceite os termos e condições.
- Selecione a região na qual você deseja implantar a pilha.
- Siga os prompts na tela e as instruções para criar a pilha.
- Após criar a pilha, clique em Ações do Terraform e selecione Planejar.
- Aguarde a conclusão do job e revise o plano.
Para fazer qualquer alteração, retorne à página Detalhes da Pilha, clique em Editar Pilha e faça as alterações necessárias. Em seguida, execute a ação Planejar novamente.
- Se nenhuma alteração adicional for necessária, retorne à página Detalhes da Pilha, clique em Ações do Terraform e selecione Aplicar.
- Clique
- Implante usando a CLI do Terraform:
- Vá para GitHub.
- Clone ou faça download do repositório para seu computador local.
- Siga as instruções no documento
README
.
Explorar Mais
Saiba mais sobre os recursos desta arquitetura e sobre arquiteturas relacionadas.
Reconhecimentos
- Author: José Cruz
- Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies
Alterar Log
Este log lista alterações significativas:
28 outubro de 2024 |
|
Junho de 21, 2023 |
|