Usar o Data Lake com o Autonomous Database

Conheça os benefícios de usar o Data Lake com o Autonomous Database.

Sobre o Data Lake com o Autonomous Database

O Oracle Autonomous Database é uma solução versátil para acomodar qualquer tipo de dados e carga de trabalho.

O Autonomous Database fornece armazenamento econômico, com um custo por TB comparável aos armazenamentos de objetos, ao mesmo tempo em que oferece suporte a diversos tipos de dados, como JSON, Graph e Vector. Com o Autonomous Database, as empresas podem consolidar seus dados em uma única plataforma. Eles podem aproveitar recursos convergentes, como Oracle Machine Learning (OML), Graph, Spatial, Vector e Blockchain para gerenciar seus dados de forma abrangente.

Para organizações que já têm data lakes existentes em outras plataformas, o Oracle Autonomous Database se integra perfeitamente, permitindo que as empresas se beneficiem dos recursos avançados do Autonomous Database sem interromper suas configurações atuais.

Para saber mais, tente LiveLabs Criar um Data Lake com o Autonomous Data Warehouse.

O que é um Data Lake?

Os data lakes são repositórios centralizados projetados para armazenar grandes quantidades de dados brutos em seu formato nativo até que os dados sejam necessários para análise.

Eles são altamente flexíveis e escaláveis, tornando-os um complemento poderoso aos data warehouses tradicionais, permitindo que as organizações armazenem e processem vários tipos de dados, incluindo estruturados, semiestruturados e não estruturados.

Principais atributos de um Data Lake:
  • Abrir Formatos de Arquivo e Tabela

    Os data lakes armazenam dados em formatos de arquivo abertos, como CSV, Parquet e formatos de tabela, como Iceberg. Isso garante interoperabilidade e flexibilidade no processamento de dados, permitindo que vários mecanismos gravem e leiam esses conjuntos de dados.

  • Suporte para Vários Mecanismos de Processamento de Dados

    Os data lakes são compatíveis com vários mecanismos de processamento de dados, como Apache Spark, Presto e Hive, permitindo diversas cargas de trabalho analíticas.

  • Esquema na Leitura

    Os data lakes geralmente usam uma abordagem de esquema em leitura, o que significa que não há necessidade de definir um esquema antecipadamente. Isso permite a ingestão rápida de dados, onde os dados podem ser carregados sem estruturação prévia, assim como armazenamentos de objetos que "capturam dados agora e fazem perguntas posteriormente".

  • Suporte para Dados Não Estruturados

    Além dos dados estruturados, os data lakes podem armazenar dados não estruturados, como imagens (JPG), documentos (PDF, Word) e outros dados binários, oferecendo uma solução de armazenamento abrangente.

Principais Recursos do Data Lake do Autonomous Database

O Oracle Autonomous Database foi projetado para suportar perfeitamente as cargas de trabalho de data lake, eliminando a necessidade de gerenciamento ou instalação. Ele oferece recursos robustos para lidar com vários formatos de dados em diferentes ambientes de nuvem, garantindo uma análise de dados flexível e abrangente.

Pronto para Cargas de Trabalho do Data Lake

O Oracle Autonomous Database está totalmente pronto para cargas de trabalho de data lake prontas para uso, não exigindo componentes adicionais. Essa preparação se estende às principais tarefas do data lake, como transformação de dados, gerenciamento de metadados e integração com ferramentas populares do data lake, tudo disponível desde o primeiro dia sem configuração extra.

Essa prontidão abrangente é o que faz o Autonomous Database se destacar, oferecendo uma experiência integrada e sem complicações que acelera o tempo de insight para cargas de trabalho de data lake. Isso significa que os usuários podem começar a lidar imediatamente com tarefas do data lake sem qualquer configuração ou configuração, tornando-se uma verdadeira solução plug-and-play para ambientes de data lake. Esse recurso integrado simplifica as operações, reduz os custos de manutenção e garante maior confiabilidade com menos erros.

O Autonomous Database fornece um conjunto de ferramentas para todos os tipos de usuário, de desenvolvedores a analistas de negócios, tornando a plataforma universal e acessível.

Os desenvolvedores podem usar ferramentas como a API PL/SQL para operações avançadas, scripts e automação, permitindo integração perfeita com as ferramentas existentes e criando soluções de banco de dados personalizadas com eficiência. Consulte Referência de Pacote Fornecida pelo Autonomous Database para obter mais informações.

Para usuários corporativos, o Data Studio pode ser usado - uma interface baseada na Web para simplificar a interação, a exploração e a visualização de dados. O Data Studio permite que usuários não técnicos obtenham insights, criem relatórios e colaborem de forma eficaz, reduzindo a complexidade e apoiando a tomada de decisões informada. Consulte A Página Visão Geral do Data Studio para obter mais informações.

Multi-Cloud Support

Para organizações que já têm data lakes existentes em outras plataformas, o Autonomous Database se integra perfeitamente, permitindo que as empresas se beneficiem dos recursos avançados do Autonomous Database sem interromper suas configurações atuais.

Forneça ao Autonomous Database acesso ao seu data lake concedendo os privilégios e o acesso necessários para que seu data lake seja conectado ao Autonomous Database. Depois de fornecer as credenciais necessárias, o Autonomous Database poderá se conectar perfeitamente a data lakes em vários ambientes de nuvem, incluindo AWS, Azure, Google Cloud e armazenamento de objetos do Oracle OCI.

Esse recurso permite que você acesse e gerencie seus dados com segurança, aproveitando os recursos de segurança nativos de cada provedor de nuvem. Com esse suporte multicloud, você obtém flexibilidade para implementar e dimensionar seu data lake em diferentes plataformas de nuvem, mantendo um ambiente unificado e seguro.

O Oracle Autonomous Database suporta segurança nativa para outras nuvens, para saber mais, consulte Usar ARNs (Amazon Resource Names) para Acessar Recursos da AWS, Usar o Controlador de Serviços do Azure para Acessar Recursos do Azure e Usar a Conta do Google Service para Acessar Recursos do Google Cloud Platform para sua plataforma de nuvem correspondente.

Suporte de Formato de Dados de Ponta a Ponta

O Oracle Autonomous Database foi projetado com a flexibilidade de lidar com um amplo espectro de formatos de dados, tornando-o uma solução universal para diversas fontes de dados e cargas de trabalho.

Quer seus dados residam em formatos estruturados, semiestruturados ou não estruturados, o Autonomous Database os suporta perfeitamente em vários ambientes de nuvem. Isso permite que as empresas ingiram, armazenem e analisem dados sem se preocupar com a compatibilidade de formato.

O Autonomous Database fornece suporte nativo para formatos tradicionais, como CSV e JSON, bem como formatos avançados, como AVRO, Parquet e ORC. Consulte Consultar Dados Externos com o Autonomous Database para obter mais informações. O Autonomous Database suporta os seguintes formatos de arquivo: CSV, JSON, XML, AVRO, ORC, Parquet, Delta Sharing, Iceberg, Word, PDF.

Com o suporte adicional para o formato Iceberg Table, o Autonomous Database oferece recursos aprimorados para ambientes de data lake em larga escala. O Iceberg permite consultas otimizadas e de alto desempenho, melhor controle de versão e gerenciamento de dados mais fácil, tornando-o um bom ajuste para conjuntos de dados grandes e em evolução. Consulte Consultar Tabelas do Iceberg do Apache para obter mais informações.

Recursos Aprimorados: Autonomous Database para Gerenciamento de Dados Não Estruturado

Embora o Oracle Database seja reconhecido por seu poderoso processamento de dados estruturados e semiestruturados, o Autonomous Database também amplia seus recursos para lidar com conjuntos de dados não estruturados.

Esses recursos incluem o gerenciamento e a análise de uma ampla variedade de formatos, como JPG, PDF, documentos do Word e muito mais. Com esses avanços, o Autonomous Database traz uma solução abrangente para empresas que lidam com fontes de dados não estruturadas.
  • Insights Orientados por IA com Geração Aumentada de Recuperação (RAG): O Autonomous Database integra modelos avançados de IA, permitindo a Pesquisa de Vetores de dados não estruturados. Isso permite a recuperação eficiente de informações relevantes em conjuntos de dados massivos usando IA, aumentando a precisão e a velocidade da pesquisa. Consulte Selecionar IA com Geração Aumentada de Recuperação (RAG) para obter mais informações.
  • Indexação de Texto Completo: O Autonomous Database suporta a criação de índices de texto completo em arquivos não estruturados, possibilitando a execução de pesquisas de texto avançadas em documentos como PDFs, arquivos do Word e muito mais. Esse recurso melhora muito a forma como o conteúdo não estruturado pode ser consultado, indexado e analisado. Consulte Usar Pesquisa de Texto Completo em Arquivos no Serviço Object Storage
  • Fazer Parse e Carregar Dados Não Estruturados: Os recursos aprimorados de análise e ingestão de dados do Autonomous Database permitem que os usuários carreguem dados não estruturados sem problemas, transformando-os automaticamente em um formato tabular, pronto para ser carregado no banco de dados. Consulte Executar Extração de Tabela da Imagem para obter mais informações.
  • IA como Origem de Dados (Prompt-to-Table): Aproveitando a IA, o Autonomous Database permite a funcionalidade de prompt para tabela, permitindo que os usuários gerem dados diretamente de modelos de IA e os carreguem em tabelas. Isso abre possibilidades para extrair insights valiosos de saídas geradas por IA e usá-los como uma nova fonte de dados estruturados. Consulte Carregando Dados da Origem AI

Esses recursos expandidos posicionam o Autonomous Database como uma ferramenta poderosa para lidar com as crescentes demandas de dados não estruturados, além de aproveitar soluções baseadas em IA, tornando-o uma plataforma versátil e preparada para o futuro para desafios modernos de dados.

Gerenciamento de Metadados Flexível

O Oracle Autonomous Database fornece aos usuários várias maneiras de definir metadados para seus conjuntos de dados, tornando o gerenciamento de dados mais adaptável e eficiente.

  • Integração de Metadados Baseada em Catálogo

    Os usuários podem trazer metadados de vários catálogos para uma visão centralizada, facilitando o controle e a manutenção da consistência dos dados em toda a organização. Os catálogos suportados incluem:

    • OCI Data Catalog: Uma ferramenta da Oracle Cloud Infrastructure (OCI) que ajuda os usuários a descobrir, organizar e gerenciar ativos de dados. Ele oferece uma visão clara de todos os ativos de dados, ajudando os usuários a manter a conformidade, garantir a qualidade dos dados e facilitar a colaboração entre as equipes. Consulte Exemplo: MovieStream Cenário para obter mais informações.

    • AWS Glue: Um serviço ETL gerenciado (extrair, transformar, carregar) do Amazon Web Services que inclui um catálogo de dados para organizar e gerenciar metadados. Consulte Pesquisar Dados Externos com o Catálogo de Dados do AWS Glue para obter mais informações.

  • Definição de Metadados Manuais

    Os usuários também podem definir metadados diretamente no nível da tabela para conjuntos de dados em armazenamentos de objetos, como Oracle Cloud Infrastructure (OCI) Object Storage ou Amazon S3. Isso permite a organização personalizada de dados para arquivos individuais ou grupos de arquivos, sob medida para os requisitos do usuário. O Autonomous Database também pode inferir automaticamente metadados, como nomes de colunas e tipos de dados, para economizar tempo e reduzir erros. Por exemplo, ao fazer upload de um arquivo CSV, o sistema pode detectar automaticamente cabeçalhos como nomes de coluna e atribuir tipos de dados apropriados, como número ou varchar2, com base no conteúdo. Isso ajuda os usuários a preparar rapidamente seus dados para análise sem intervenção manual, reduzindo o tempo de configuração e minimizando a chance de erros.

Suporte a Metadados Federados

O Autonomous Database suporta um catálogo de metadados federados, permitindo que os usuários unifiquem metadados de diferentes origens em uma única view, fornecendo uma interface unificada para gerenciamento de metadados.

Essa abordagem simplifica o gerenciamento de metadados em vários ambientes, conectando fontes de dados em várias nuvens e plataformas. Seja usando metadados baseados em catálogo ou definindo-os manualmente, todas as informações estão disponíveis em um catálogo unificado para facilitar a navegação. Por exemplo, uma organização pode usar essa visão federada para gerenciar ativos de dados da AWS e da Oracle Cloud, garantindo governança e descoberta consistentes entre plataformas.

Collaboration

Depois que os usuários terminam sua análise, eles geralmente precisam compartilhar seus resultados com outras pessoas. O Oracle Autonomous Database facilita o compartilhamento, oferecendo várias maneiras de colaborar, fornecendo vantagens exclusivas em relação a outros bancos de dados, como recursos de segurança integrados, protocolos abertos e conectividade perfeita na nuvem.

Essas opções são feitas para serem flexíveis e seguras, para que atendam a diferentes necessidades de colaboração:

  • Protocolo de Compartilhamento Delta: Permite que você compartilhe dados fora da Oracle usando um protocolo aberto chamado Compartilhamento Delta. Ele oferece suporte ao compartilhamento seguro de dados com parceiros externos, sem a necessidade de integração complexa, tornando-o ideal para análises entre nuvens e entre plataformas. Dessa forma, os dados podem ser usados sem problemas em diferentes ferramentas de análise que não fazem parte da Oracle. Consulte Compartilhar Versões de Dados Usando o Serviço Object Storage para obter mais informações.

  • Links para a Nuvem: Você pode compartilhar dados entre diferentes instâncias do Autonomous Database usando links de nuvem seguros. Por exemplo, os Cloud Links são particularmente eficazes para conectar diferentes bancos de dados. Isso garante disponibilidade consistente de dados e reduz a latência para aplicativos que precisam de acesso rápido e confiável aos dados em vários bancos de dados, sem a necessidade de copiar ou duplicar. Ele mantém a colaboração tranquila para as equipes que estão espalhadas e precisam trabalhar juntas. Consulte Compartilhar Dados Ativos Usando Conexão Direta

  • Hiperlinks de Tabela: Você pode compartilhar dados diretamente criando URLs especiais que dão acesso aos dados sem precisar de um log-in separado. Os usuários podem controlar as permissões e definir os tempos de expiração para esses URLs, garantindo opções de compartilhamento seguras e flexíveis. Esse recurso foi criado especificamente para clientes REST. Consulte Gerar um Hiperlink de Tabela para uma Tabela ou uma View para obter mais informações.

Ampla Compatibilidade com as Ferramentas do Oracle Database

O ambiente do Autonomous Database é totalmente compatível com uma grande variedade de ferramentas de banco de dados Oracle.

Qualquer ferramenta que você já use para interagir com bancos de dados Oracle, seja para visualização de dados, análise, ETL ou administração, também pode ser aproveitada perfeitamente para analisar conjuntos de dados no Autonomous Database. Essa compatibilidade garante uma experiência sem atrito, permitindo que os usuários integrem o Autonomous Database em seus fluxos de trabalho existentes sem a necessidade de adotar novas ferramentas ou processos, maximizando a eficiência e reduzindo a curva de aprendizado.

Consulte A Página Visão Geral do Data Studio para obter informações sobre algumas das ferramentas disponíveis para uso com bancos de dados Oracle.