Usar Data Lake com o Autonomous Database

Conheça os benefícios de usar o Data Lake com o Autonomous Database.

Sobre o Data Lake com o Autonomous Database

O Oracle Autonomous Database é uma solução versátil para acomodar qualquer tipo de dados e carga de trabalho.

O Autonomous Database fornece armazenamento econômico, com um custo por TB comparável aos armazenamentos de objetos, ao mesmo tempo em que oferece suporte a diversos tipos de dados como JSON, Graph e Vector. Com o Autonomous Database, as empresas podem consolidar seus dados em uma única plataforma. Eles podem aproveitar recursos convergentes, como Oracle Machine Learning (OML), Graph, Spatial, Vector e Blockchain, para gerenciar seus dados de forma abrangente.

Para organizações que já têm data lakes existentes em outras plataformas, o Oracle Autonomous Database se integra perfeitamente, permitindo que as empresas se beneficiem dos recursos avançados do Autonomous Database sem interromper suas configurações atuais.

Para saber mais, experimente o LiveLabs Build a Data Lake with Autonomous Data Warehouse.

O que é um Data Lake?

Os data lakes são repositórios centralizados projetados para armazenar grandes quantidades de dados brutos em seu formato nativo até que os dados sejam necessários para análise.

Eles são altamente flexíveis e escaláveis, o que os torna um poderoso complemento dos data warehouses tradicionais, permitindo que as organizações armazenem e processem vários tipos de dados, incluindo estruturados, semiestruturados e não estruturados.

Principais atributos de um Data Lake:
  • Abrir Formatos de Arquivo e Tabela

    Os data lakes armazenam dados em formatos de arquivo abertos, como CSV, Parquet e formatos de tabela como Iceberg. Isso garante interoperabilidade e flexibilidade no processamento de dados, permitindo que vários mecanismos gravem e leiam esses conjuntos de dados.

  • Suporte para vários mecanismos de processamento de dados

    Os data lakes são compatíveis com vários mecanismos de processamento de dados, como Apache Spark, Presto e Hive, permitindo diversas cargas de trabalho analíticas.

  • Esquema em Leitura

    Os data lakes geralmente usam uma abordagem de esquema em leitura, o que significa que não há necessidade de definir um esquema antecipadamente. Isso permite a ingestão rápida de dados, onde os dados podem ser carregados sem estruturação prévia, muito parecido com armazenamentos de objetos que "capturam dados agora e fazem perguntas mais tarde".

  • Suporte para dados não estruturados

    Além dos dados estruturados, os data lakes podem armazenar dados não estruturados, como imagens (JPG), documentos (PDF, Word) e outros dados binários, oferecendo uma solução de armazenamento abrangente.

Principais Recursos do Data Lake do Autonomous Database

O Oracle Autonomous Database foi projetado para suportar cargas de trabalho de data lake de forma integrada, eliminando a necessidade de gerenciamento ou instalação. Ele oferece recursos robustos para lidar com vários formatos de dados em diferentes ambientes de nuvem, garantindo uma análise de dados flexível e abrangente.

Pronto para Cargas de Trabalho do Data Lake

O Oracle Autonomous Database está totalmente pronto para cargas de trabalho de data lake prontas para uso, sem a necessidade de componentes adicionais. Essa prontidão se estende às principais tarefas do data lake, como transformação de dados, gerenciamento de metadados e integração com ferramentas populares do data lake, tudo disponível desde o primeiro dia sem configuração extra.

Essa preparação abrangente é o que faz com que o Autonomous Database se destaque, oferecendo uma experiência integrada e sem complicações que acelera o tempo de percepção para cargas de trabalho de data lake. Isso significa que os usuários podem começar imediatamente a lidar com tarefas de data lake sem qualquer instalação ou configuração, tornando-se uma verdadeira solução plug-and-play para ambientes de data lake. Esse recurso integrado simplifica as operações, reduz os custos de manutenção e garante maior confiabilidade com menos erros.

O Autonomous Database fornece um conjunto de ferramentas para todos os tipos de usuário, de desenvolvedores a analistas de negócios, tornando a plataforma universal e acessível.

Os desenvolvedores podem usar ferramentas como a API PL/SQL para operações avançadas, scripts e automação, permitindo uma integração perfeita com as ferramentas existentes e criando soluções de banco de dados personalizadas com eficiência. Consulte Referência de Pacote Fornecido pelo Autonomous Database para obter mais informações.

Para usuários corporativos, o Data Studio pode ser usado, uma interface baseada na web para simplificar a interação, a exploração e a visualização de dados. O Data Studio permite que usuários não técnicos obtenham insights, criem relatórios e colaborem de forma eficaz, reduzindo a complexidade e apoiando a tomada de decisões informada. Consulte A Página Visão Geral do Data Studio para obter mais informações.

Multi-Cloud Support

Para organizações que já têm data lakes existentes em outras plataformas, o Autonomous Database se integra perfeitamente, permitindo que as empresas se beneficiem dos recursos avançados do Autonomous Database sem interromper suas configurações atuais.

Forneça acesso ao Autonomous Database para seu data lake concedendo os privilégios e o acesso necessários para que seu data lake seja conectado ao Autonomous Database. Depois de fornecer as credenciais necessárias, o Autonomous Database pode se conectar perfeitamente a data lakes em vários ambientes de nuvem, incluindo AWS, Azure, Google Cloud e armazenamento de objetos da Oracle OCI.

Esse recurso permite acessar e gerenciar com segurança seus dados, aproveitando os recursos de segurança nativos de cada provedor de nuvem. Com esse suporte a várias nuvens, você obtém a flexibilidade para implementar e dimensionar seu data lake em diferentes plataformas de nuvem, mantendo um ambiente unificado e seguro.

O Oracle Autonomous Database oferece suporte à segurança nativa para outras nuvens. Para saber mais, consulte Usar ADNs (Amazon Resource Names) para Acessar Recursos da AWS, Usar o Controlador de Serviços do Azure para Acessar Recursos do Azure e Usar a Conta do Google Service para Acessar Recursos do Google Cloud Platform para sua plataforma de nuvem correspondente.

Suporte ao formato de dados de ponta a ponta

O Oracle Autonomous Database foi projetado com a flexibilidade para lidar com um amplo espectro de formatos de dados, tornando-o uma solução universal para diversas fontes de dados e cargas de trabalho.

Quer seus dados residam em formatos estruturados, semiestruturados ou não estruturados, o Autonomous Database os suporta perfeitamente em vários ambientes de nuvem. Isso permite que as empresas ingeram, armazenem e analisem dados sem se preocupar com a compatibilidade de formatos.

O Autonomous Database fornece suporte nativo para formatos tradicionais, como CSV e JSON, bem como formatos avançados, como AVRO, Parquet e ORC. Consulte Consultar Dados Externos com o Autonomous Database para obter mais informações. O Autonomous Database suporta os seguintes formatos de arquivo: CSV, JSON, XML, AVRO, ORC, Parquet, Delta Sharing, Iceberg, Word, PDF.

Com o suporte adicional para o formato Iceberg Table, o Autonomous Database oferece recursos aprimorados para ambientes de data lake em larga escala. O Iceberg permite consultas otimizadas e de alto desempenho, melhor controle de versão e gerenciamento de dados mais fácil, o que o torna um bom ajuste para conjuntos de dados grandes e em evolução. Consulte Consultar Tabelas de Iceberg do Apache para obter mais informações.

Recursos Aprimorados: Autonomous Database for Unstructured Data Management

Embora o Oracle Database seja reconhecido por seu poderoso processamento de dados estruturados e semiestruturados, o Autonomous Database também estende seus recursos para lidar com conjuntos de dados não estruturados.

Esses recursos incluem gerenciar e analisar uma ampla gama de formatos, como JPG, PDF, documentos do Word e muito mais. Com esses avanços, o Autonomous Database traz uma solução abrangente para empresas que lidam com fontes de dados não estruturadas.
  • Insights Orientados por IA com Geração Aumentada de Recuperação (RAG): O Autonomous Database integra modelos avançados de IA, permitindo o Vector Search para dados não estruturados. Isso permite a recuperação eficiente de informações relevantes em conjuntos de dados massivos usando IA, aprimorando a precisão e a velocidade da pesquisa. Consulte Selecionar IA com Geração Aumentada de Recuperação (RAG) para obter mais informações.
  • Indexação de Texto Completo: O Autonomous Database suporta a criação de índices de texto completo em arquivos não estruturados, possibilitando a execução de pesquisas de texto avançadas em documentos como PDFs, arquivos do Word e muito mais. Esse recurso melhora muito a forma como o conteúdo não estruturado pode ser consultado, indexado e analisado. Consulte Usar Pesquisa de Texto Completo em Arquivos no Serviço Object Storage
  • Fazer Parsing e Carregar Dados Não Estruturados: Os recursos de parsing e ingestão de dados aprimorados do Autonomous Database permitem que os usuários carreguem dados não estruturados de forma integrada, transformando-os automaticamente em um formato tabular, pronto para ser carregado no banco de dados. Consulte Executar Extração de Tabela da Imagem para obter mais informações.
  • AI as a Source of Data (Prompt-to-Table): Utilizando a IA, o Autonomous Database permite a funcionalidade prompt-to-table, permitindo que os usuários gerem dados diretamente de modelos de IA e os carreguem em tabelas. Isso abre possibilidades para extrair insights valiosos de resultados gerados por IA e usá-los como uma nova fonte de dados estruturados. Consulte Carregando Dados da Origem de AI

Esses recursos expandidos posicionam o Autonomous Database como uma ferramenta poderosa para lidar com as crescentes demandas de dados não estruturados, além de aproveitar as soluções baseadas em IA, tornando-o uma plataforma versátil e preparada para o futuro para desafios de dados modernos.

Gerenciamento Flexível de Metadados

O Oracle Autonomous Database fornece aos usuários várias maneiras de definir metadados para seus conjuntos de dados, tornando o gerenciamento de dados mais adaptável e eficiente.

  • Integração de Metadados Baseada em Catálogo

    Os usuários podem trazer metadados de vários catálogos para uma exibição centralizada, facilitando o controle e a manutenção da consistência dos dados em toda a organização. Os catálogos suportados incluem:

    • OCI Data Catalog: Uma ferramenta na Oracle Cloud Infrastructure (OCI) que ajuda os usuários a descobrir, organizar e gerenciar ativos de dados. Ele oferece uma visão clara de todos os ativos de dados, ajudando os usuários a manter a conformidade, garantir a qualidade dos dados e facilitar a colaboração entre as equipes. Consulte Exemplo: MovieStream Cenário para obter mais informações.

    • AWS Glue: Um serviço ETL gerenciado (extrair, transformar, carregar) do Amazon Web Services que inclui um catálogo de dados para organizar e gerenciar metadados. Consulte Consultar Dados Externos com o AWS Glue Data Catalog para obter mais informações.

  • Definição Manual de Metadados

    Os usuários também podem definir metadados diretamente no nível da tabela para conjuntos de dados em armazenamentos de objetos, como o Oracle Cloud Infrastructure (OCI) Object Storage ou o Amazon S3. Isso permite a organização personalizada de dados para arquivos individuais ou grupos de arquivos, adaptados às necessidades do usuário. O Autonomous Database também pode inferir automaticamente metadados, como nomes de coluna e tipos de dados, para economizar tempo e reduzir erros. Por exemplo, ao carregar um arquivo CSV, o sistema pode detectar automaticamente cabeçalhos como nomes de coluna e designar tipos de dados apropriados, como número ou varchar2, com base no conteúdo. Isso ajuda os usuários a preparar rapidamente seus dados para análise sem intervenção manual, reduzindo o tempo de configuração e minimizando a chance de erros.

Suporte a Metadados Federados

O Autonomous Database suporta um catálogo de metadados federados, permitindo que os usuários unifiquem metadados de diferentes origens em uma única exibição, fornecendo uma interface unificada para gerenciamento de metadados.

Essa abordagem simplifica o gerenciamento de metadados em vários ambientes, conectando origens de dados em várias nuvens e plataformas. Seja usando metadados baseados em catálogo ou definindo-os manualmente, todas as informações estão disponíveis em um catálogo unificado para facilitar a navegação. Por exemplo, uma organização pode usar essa visão federada para gerenciar ativos de dados da AWS e da Oracle Cloud, garantindo governança e descoberta consistentes em todas as plataformas.

Collaboration

Depois que os usuários terminam sua análise, eles geralmente precisam compartilhar seus resultados com outras pessoas. O Oracle Autonomous Database facilita o compartilhamento oferecendo várias maneiras de colaborar, fornecendo vantagens exclusivas sobre outros bancos de dados, como recursos de segurança integrados, protocolos abertos e conectividade de nuvem perfeita.

Essas opções são flexíveis e seguras, de modo que atendem a diferentes necessidades de colaboração:

  • Protocolo de Compartilhamento Delta: Permite que você compartilhe dados fora da Oracle usando um protocolo aberto chamado Compartilhamento Delta. Ele oferece suporte ao compartilhamento seguro de dados com parceiros externos, sem precisar de integração complexa, o que o torna ideal para análises entre nuvens e plataformas. Dessa forma, os dados podem ser usados sem problemas em diferentes ferramentas de análise que não fazem parte da Oracle. Consulte Compartilhar Versões de Dados Usando o Serviço Object Storage para obter mais informações.

  • Links da Nuvem: Você pode compartilhar dados entre diferentes instâncias do Autonomous Database usando links de nuvem seguros. Por exemplo, os Cloud Links são particularmente eficazes para conectar diferentes bancos de dados. Isso garante disponibilidade consistente de dados e reduz a latência para aplicativos que precisam de acesso rápido e confiável aos dados em vários bancos de dados, sem a necessidade de copiar ou duplicar. Ele mantém a colaboração suave para as equipes que estão espalhadas e precisam trabalhar juntas. Consulte Compartilhar Dados Ativos Usando Conexão Direta

  • Hiperlinks de Tabela: Você pode compartilhar dados diretamente criando URLs especiais que dão acesso aos dados sem precisar de um log-in separado. Os usuários podem controlar as permissões e definir tempos de expiração para esses URLs, garantindo opções de compartilhamento seguras e flexíveis. Esse recurso foi criado especificamente para clientes REST. Para obter mais informações, consulte Gerar um Hiperlink de Tabela para uma Tabela ou uma View.

Ampla Compatibilidade com o Oracle Database Tools

O ambiente do Autonomous Database é totalmente compatível com uma ampla variedade de ferramentas de banco de dados Oracle.

Qualquer ferramenta que você já usa para interagir com bancos de dados Oracle, seja para visualização, análise, ETL ou administração de dados, também pode ser aproveitada perfeitamente para analisar conjuntos de dados no Autonomous Database. Essa compatibilidade garante uma experiência sem atrito, permitindo que os usuários integrem o Autonomous Database em seus fluxos de trabalho existentes sem a necessidade de adotar novas ferramentas ou processos, maximizando assim a eficiência e reduzindo a curva de aprendizado.

Consulte A Página Visão Geral do Data Studio, para obter informações sobre algumas das ferramentas disponíveis para uso com bancos de dados Oracle.