Saiba Mais Sobre a Criação de Data Lakes no Oracle Cloud

Explore como sua organização pode migrar de um data lake local para o OCI do Oracle Cloud Infrastructure (OCI). As organizações com data lakes locais lidam com desafios de custos iniciais e de manutenção altos. Eles precisam planejar, comprar, gerenciar infraestrutura e lidar com cargas de trabalho incomuns. Os data lakes locais podem ser difíceis de otimizar para uso de recursos e não usar recursos do servidor com eficiência. Os serviços de nuvem permitem que você desacopere e dimensione sua computação e armazenamento de forma independente, fornecendo um ambiente integrado, bem gerenciado e altamente resiliente.

A OCI oferece um portfólio robusto e abrangente de dados de infraestrutura e plataforma de nuvem e serviços de IA para acessar, armazenar e processar uma ampla variedade de tipos de dados de qualquer origem. O OCI permite que sua empresa implemente dados de ponta a ponta e arquiteturas de IA na nuvem. Este manual de solução oferece uma visão geral dos principais serviços que ajudam você a criar e trabalhar com data lakes no OCI. Você também aprende sobre outros serviços disponíveis e pode projetar suas soluções de data lake com base em alguns de nossos padrões verificados e orientação especializada.

Arquitetura

Essa arquitetura combina as habilidades de um data lake e de um data warehouse para processar diferentes tipos de dados de uma ampla variedade de recursos de dados empresariais. Use essa arquitetura para projetar arquiteturas de data lake completas no OCI.

Este diagrama mostra uma arquitetura de alto nível de dados e serviços de IA da Oracle.

Veja a seguir a descrição da ilustração data-lakes.png
Descrição da ilustração data-lakes.png

Nesta arquitetura, os dados passam pelos seguintes estágios:

  • Data Refinery

    Processa e refina os dados a serem usados em cada uma das camadas de dados da arquitetura.

  • Persistência de Dados e Processamento (Camada de Informações Curta)

    Facilita o acesso e a navegação dos dados para mostrar a exibição de negócios atual. Para tecnologias relacionais, os dados podem ser estruturados logicamente ou fisicamente em formulários relacionais simples, longitudinais, dimensionais ou OLAP. Para dados não relacionais, essa camada contém um ou mais pools de dados, seja a saída de um processo analítico ou de dados otimizados para uma tarefa analítica específica.

  • Interpretação do & de Acesso

    Resume a visão lógica de negócios dos dados para os consumidores. Essa abstração facilita o desenvolvimento ágil, a migração para a arquitetura de destino e a provisão de uma única camada de geração de relatórios de várias origens federadas.

Esta arquitetura possui os seguintes componentes:

  • Big Data Service

    O Oracle Big Data Service (BDS) é um serviço em nuvem totalmente gerenciado e automatizado que fornece clusters com um ambiente do Hadoop. O BDS facilita a implantação de clusters do Hadoop de todos os tamanhos e simplifica o processo de tornar os clusters do Hadoop altamente disponíveis e seguros. Com base nas melhores práticas da Oracle, o BDS implementa alta disponibilidade e segurança e reduz a necessidade de habilidades avançadas do Hadoop. O BDS oferece os componentes Hadoop comumente usados, tornando-os simples para que as empresas migrem cargas de trabalho para a nuvem e garantam a compatibilidade com soluções locais.

    O Oracle Cloud SQL é um serviço complementar disponível que permite aos clientes iniciar consultas do Oracle SQL em dados no HDFS, Kafka e no Oracle Object Storage. Qualquer usuário, aplicativo ou ferramenta de análise pode trabalhar com armazenamentos de dados para minimizar o movimento de dados e acelerar as consultas. O BDS interopera com serviços de integração de dados, ciência de dados e análise, permitindo que os desenvolvedores acessem dados facilmente usando o Oracle SQL. As empresas podem eliminar silos de dados e garantir que os data lakes não sejam isolados de outras origens de dados corporativas.

  • Catálogo de Dados

    O Oracle Cloud Infrastructure Data Catalog é uma solução de descoberta de dados e governança de autoatendimento totalmente gerenciada para os dados da sua empresa. Os Catálogo de Dados são essenciais para a capacidade de uma organização pesquisar e localizar dados a serem analisados. Eles ajudam os profissionais de dados a descobrir dados e apoiar a governança de dados.

    Use o serviço Data Catalog como um único ambiente colaborativo para gerenciar metadados técnicos, de negócios e operacionais. Você pode coletar metadados técnicos de uma ampla faixa de origens de dados suportadas que são acessíveis com o uso de endereços IP públicos ou privados. Você pode organizar, localizar, acessar, entender, enriquecer e ativar esses metadados. Utilize a coleta automática sob demanda ou baseada em programação para garantir que o catálogo de dados sempre tenha informações atualizadas. Você se beneficia de toda a segurança, confiabilidade, desempenho e escala do Oracle Cloud.

  • Serviço Data Flow

    O Oracle Cloud Infrastructure Data Flow é um serviço totalmente gerenciado para executar aplicativos Apache Spark. Os aplicativos Data Flow são modelos reutilizáveis que consistem em um aplicativo Spark, suas dependências, parâmetros padrão e uma especificação de recurso de runtime padrão. Você pode gerenciar todos os aspectos do serviço Data Flow e o ciclo de vida de desenvolvimento do aplicativo, rastreando e executando jobs do Apache Spark usando as APIs REST por meio do API Gateway e funções disponíveis.

    O serviço Data Flow suporta entrega rápida de aplicativos, permitindo que os desenvolvedores se concentrem no desenvolvimento de seus aplicativos. Ele fornece gerenciamento de logs e um ambiente de runtime para executar aplicativos. Você pode integrar os aplicativos e workflows e acessar APIs por meio da interface do usuário. Ela elimina a necessidade de configurar infraestrutura, provisionamento de cluster, instalação de software, armazenamento e segurança.

  • Autonomous Data Warehouse

    O Oracle Autonomous Data Warehouse é um serviço de banco de dados independente, com autoproteção e autorreparo otimizado para cargas de trabalho de data warehousing. Não é necessário configurar ou gerenciar nenhum hardware ou instalar qualquer software. O Oracle Cloud Infrastructure controla a criação do banco de dados, bem como o backup, a aplicação de patches, a atualização e o ajuste do banco de dados.

  • Data Integration

    O Oracle Cloud Infrastructure Data Integration é um serviço de nuvem sem servidor e totalmente gerenciado para ingerir e transformar dados para ciência e análise de dados. O Data Integration ajuda a simplificar seus processos complexos de extração, transformação e carregamento de dados (ETL/E-LT) em data lakes e warehouses para ciência e análise de dados com o designer do Data Flow da Oracle. Ele fornece proteção automatizada de desvio de esquema com fluxo de integração baseado em regras que ajuda a evitar fluxos de integração quebrados e a reduzir a manutenção à medida que os esquemas de dados evoluem.

  • Serviço Data Science

    O serviço Oracle Cloud Infrastructure Data Science é uma plataforma totalmente gerenciada e sem servidor para cientistas de dados criarem, treinarem e gerenciarem modelos de aprendizado de máquina no Oracle Cloud Infrastructure. Os cientistas de dados podem usar a biblioteca do Accelerated Data Science (ADS) da Oracle aprimorada pelo Oracle for Automated Machine Learning (AutoML), avaliação de modelo e explicação de modelo.

    O ADS é uma biblioteca Python que contém um conjunto abrangente de conexões de dados, que permite aos cientistas de dados acessar e usar dados de vários armazenamentos de dados diferentes para produzir melhores modelos. A biblioteca ADS oferece suporte ao próprio AutoML da Oracle, além de ferramentas de código-fonte aberto, como H2O.ai e Auto-Sklearn.

    Os cientistas de dados e administradores de infraestrutura podem implantar facilmente modelos de ciência de dados como o Oracle Functions, uma arquitetura altamente escalável, sob demanda e sem servidor no OCI. Os membros da equipe podem usar o catálogo de modelos para preservar e compartilhar modelos de aprendizado de máquina concluídos e os artefatos necessários para reproduzi-los, testá-los e implantá-los.

Sobre Data Lakes

Um data lake é um repositório escalável e centralizado que pode armazenar dados brutos e permite que uma empresa armazene todos os seus dados em um ambiente elástico econômico. Um data lake fornece um mecanismo de armazenamento flexível para armazenar dados brutos. Para que um data lake seja eficaz, uma organização deve examinar suas necessidades de governança, workflows e ferramentas específicos. A criação em torno desses elementos principais cria um data lake poderoso que se integra perfeitamente a arquiteturas existentes e conecta dados facilmente aos usuários.

As organizações consideram esses motivos enquanto mudam para implementações na nuvem do data lake:
  • Tempo acelerado de decisões ao aproveitar a análise e a aprendizagem de máquina
  • Coleta e exploração de big data para cientistas, analistas e desenvolvedores de dados

Para tornar os dados não estruturados armazenados em um data lake útil, você deve processá-los e prepará-los para análise. Isso geralmente é desafiador se você não tiver recursos extensivos de engenharia de dados.

A seguir, estão listados os desafios técnicos da manutenção de data lakes locais.

  • Custos iniciais e falta de flexibilidade: quando as organizações constroem sua própria infraestrutura local, elas devem planejar, adquirir e gerenciar a infraestrutura de hardware, ativar servidores e também lidar com interrupções e tempo de inatividade.
  • Custos de manutenção contínuos: ao operar um data lake local, na maioria das vezes se manifestando nos custos de TI e de engenharia, as organizações devem considerar os custos de manutenção contínuos. Isso também inclui os custos de correção, manutenção, atualização e suporte à infraestrutura de hardware e software subjacente.
  • Falta de agilidade e tarefas administrativas: as organizações de TI devem provisionar recursos, lidar com cargas de trabalho inigualáveis em grande escala e acompanhar o ritmo das inovações de software de código aberto, orientadas para a comunidade.
  • Complexidade de criar pipelines de dados: Os engenheiros de dados devem lidar com a complexidade da integração de uma ampla gama de ferramentas para ingerir, organizar, pré-processar, orquestrar jobs ETL em lote e consultar os dados armazenados no lago.
  • Escalabilidade e utilização de recursos abaixo do ideal: à medida que sua base de usuários cresce, sua organização deve gerenciar manualmente a utilização de recursos e criar servidores adicionais para ampliar sob demanda. A maioria das implantações locais do Hadoop e do Spark vincula diretamente os recursos de computação e armazenamento aos mesmos servidores, criando um modelo inflexível.

A seguir, estão listados os benefícios comerciais de migrar seus data lakes para a nuvem.

  • Menor custo de engenharia e serviços gerenciados: Crie pipelines de dados pré-integrados com mais eficiência com ferramentas baseadas na nuvem e reduza os custos de engenharia de dados. Transfira o gerenciamento de escala para seu provedor de nuvem usando serviços de nuvem, como Armazenamento de Objetos e Autonomous Data Warehouse (ADW), que fornecem dimensionamento transparente. Você não precisa adicionar máquinas ou gerenciar clusters em data lakes baseados em nuvem.
  • Aproveite a infraestrutura ágil e as tecnologias mais recentes: Projete seu data lake para novos casos de uso com nossa infraestrutura de nuvem flexível, ágil e sob demanda. Você pode fazer um upgrade rápido para a tecnologia mais recente e adicionar novos serviços de nuvem à medida que eles forem disponibilizados, sem reprojetar sua arquitetura.