Padrões Recomendados para Data Lakes Baseados na Nuvem

Dependendo do seu caso de uso, os data lakes podem ser criados no Object Storage ou no Hadoop. Ambas podem ser dimensionadas e integradas perfeitamente com ferramentas e dados corporativos existentes. Considere os padrões Greenfield ou Migration da sua organização. Escolha o padrão Greenfield ou Migração com base no planejamento de uma implementação completamente nova ou queira migrar sua solução de Big Data existente para o Oracle Cloud.

O workflow a seguir mostra os padrões recomendados com base nas suas necessidades.

Descrição da ilustração data-lake-solution-pattern.png

Observação:

Neste documento, focamos na migração de clusters do Big Data Appliance (BDA) e do Big Data Cloud Services (BDCS) para o OCI com base na distribuição Cloudera do Hadoop (CDH). No entanto, as recomendações aqui são aplicáveis a outras distribuições locais e na nuvem do Hadoop.

Crie uma Nova Plataforma de Dados no Oracle Cloud (Greenfield)

Você tem duas opções para criar data lakes no Oracle Cloud para projetos Greenfield. Use o Big Data Service (BDS) para data lakes baseados em HDFS. Use serviços de dados nativos da nuvem do OCI para data lakes baseados em Armazenamento de Objetos sem usar HDFS.

Serviços de dados nativos de nuvem

Crie um data lake no OCI Object Storage e use serviços de IA e Dados Nativos da Nuvem. Esses serviços incluem o serviço Data Flow, Data Integration, Autonomous Data Warehouse, Data Catalog e Data Science junto com alguns outros.

A Oracle recomenda esses serviços para criar um novo data lake:

Armazenamento de Objetos como o armazenamento do data lake para todos os tipos de dados brutos
Serviço Data Flow para processos em lote do Spark e para clusters Spark efêmeros
Serviço Data Integration para ingestão de dados e para jobs ETL
Autonomous Data Warehouse (ADW) para atender e apresentar dados de camada
Data Catalog para detecção e governança de dados

A Oracle recomenda esses serviços adicionais para criar um novo data lake:

Serviço de streaming para uma ingestão gerenciada de dados em tempo real
Serviço Data Transfer Appliance (DTA) para transferência única de dados em massa
Serviço GoldenGate para dados do Change Data Capture (CDC) e para análise de streaming
Serviço Data Science para requisitos de aprendizagem de máquina
Serviço Oracle Analytics Cloud (OAC) para BI, análise avançada e requisitos de geração de relatórios

Big Data Service

Crie seu data lake no HDFS usando o Oracle Big Data Service (BDS). O BDS fornece os componentes Hadoop mais usados, incluindo HDFS, Hive, HBase, Spark e Oozie.

A Oracle recomenda esses serviços para criar um novo data lake usando clusters Hadoop:

Serviço Data Integration para ingestão de dados e para jobs ETL
Serviço Data Transfer Appliance (DTA) para transferência única de dados em massa
Serviço GoldenGate para dados CDC e para análise de fluxo
Serviço Data Catalog para detecção e governança de dados
Serviço Data Science para requisitos de aprendizagem de máquina
Serviço OAC para requisitos de BI, análise e geração de relatórios
BDS para HDFS e outros componentes do Hadoop

Workflow do Padrão de Greenfield

Ao criar um novo data lake, siga este workflow com base nos requisitos de teste e validação:

Requisitos: Lista os requisitos para novos ambientes no OCI
Avaliação: Avalie os serviços e as ferramentas necessários do OCI
Design: Projete sua arquitetura de solução e dimensione para OCI
Plano: crie um mapeamento de plano detalhado de horário e recursos
Provisionamento: Provisione e configure os recursos necessários no OCI
Implementação: Implemente suas cargas de trabalho de dados e aplicativos
Automação de Pipeline: Orquestre e programe pipelines de fluxo de trabalho para automação
Teste e Valide: Execute testes de validação, funcionais e de desempenho para a solução completa

Migre a Plataforma de Dados Existente no Oracle Cloud

Você pode migrar seu BDA, BDCS e outros clusters Hadoop existentes de um ambiente local ou na nuvem para o Oracle Cloud Infrastructure (OCI). Escolha um destes padrões de migração verificados: Reconstrua, Substitua ou Remorde para migrar seus clusters Hadoop existentes para os data lakes baseados na nuvem da Oracle.

Recriar Padrão

Use o padrão Recriar se não quiser usar clusters do Hadoop e quiser migrar para serviços nativos da nuvem no Oracle Cloud Infrastructure (OCI). Comece com uma apresentação organizada para arquitetar e comece a implementar do zero no OCI. Aproveite os serviços nativos em nuvem e gerenciados para todos os principais componentes da sua pilha. Por exemplo, crie uma pilha usando o serviço Data Flow, Data Catalog, Data Integration, Streaming, Data Science, ADW e OAC.

A Oracle recomenda que esses serviços migrem para um data lake baseado em nuvem sem clusters do Hadoop:

Serviço Object Storage como o armazenamento do data lake para todos os tipos de dados brutos

Observação:
Você pode usar o Object Storage com um conector HDFS como o armazenamento HDFS no lugar do HDFS no cluster do Hadoop ou do Spark.
Serviço Data Integration para ingestão de dados e para jobs ETL
Serviço de streaming para ingestão gerenciada de dados em tempo real, que pode substituir seus serviços de Kafka ou Flume autogerenciados
Data Transfer Appliance para transferência de dados em massa única
GoldenGate para dados CDC e para análise de fluxo
Serviço Data Flow para processos em lote do Spark e para clusters Spark efêmeros
ADW para dados de camada de atendimento e apresentação
Serviço Data Catalog para detecção e governança de dados
Serviço Data Science para requisitos de Aprendizado de Máquina
Serviço OAC para requisitos de BI, análise e geração de relatórios

Padrão de plataforma de substituição

Use o padrão de migração de Plataforma se quiser usar clusters do Hadoop na nuvem e substituir alguns dos componentes por serviços nativos da nuvem. Use o Big Data Service para HDFS e outros componentes do Hadoop e redesigne parte da sua pilha usando nossos serviços nativos da nuvem gerenciados adicionais.

Talvez você precise redesenhar sua pilha para usar o padrão de Plataforma.

Inclua serviços nativos da nuvem sem servidor junto com o BDS no OCI
Aproveite os serviços nativos em nuvem gerenciados, onde possível

É possível substituir alguns desses componentes com base em suas necessidades.

BDS para HDFS e outros componentes do Hadoop, como Hive, HBase, Kafka e Oozie
Serviço Data Integration para ingestão de dados e para jobs ETL
Serviço Data Transfer Appliance para transferência única de dados em massa
Serviço GoldenGate para dados CDC e para análise de fluxo
Serviço Data Catalog para detecção e governança de dados
Serviço Data Science para requisitos de Aprendizado de Máquina
Serviço OAC para requisitos de BI, análise e geração de relatórios

Padrão Rehost

Migre seu BDA, BDCS e outros clusters Hadoop para criar seu data lake em HDFS usando o Big Data Service (BDS). Você pode usar uma abordagem de elevação e deslocamento ao usar o padrão Rehost. Todos os componentes do Hadoop comumente usados, incluindo HDFS, Hive, HBase, Spark e Oozie, estão disponíveis nos clusters gerenciados do Hadoop fornecidos pelo BDS.

Workflow do Padrão de Migração

Ao migrar seu data lake para o Oracle Cloud, siga este workflow dos requisitos até o novo ambiente.

Descoberta e requisitos: Descubra e cataloge o sistema atual para listar os requisitos do novo ambiente OCI
Avaliação: Avalie os serviços e as ferramentas necessários do OCI
Design: Projete sua arquitetura de solução e dimensione para OCI
Plano: crie um mapeamento de plano detalhado de horário e recursos
Provisionamento: Provisione e configure os recursos necessários no OCI
Migrar Dados: Transfira os dados e os metadados para o armazenamento de dados dos serviços OCI selecionados
Migrar carga de trabalho: Migre suas cargas de trabalho e aplicativos para serviços OCI usando o padrão de migração selecionado
Automação de Pipeline: Orquestre e programe pipelines de fluxo de trabalho para automação
Teste e Valide: planeje testes e validações funcionais e de desempenho para o ambiente OCI final
Reduzir: Desative o ambiente de origem e resulte em usar apenas o novo ambiente com base no OCI