Plano

Determinar Requisitos

A primeira coisa que você deve fazer é fazer um catálogo dos requisitos do sistema e do aplicativo.

A tabela a seguir fornece um modelo de exemplo e pode funcionar como o ponto de partida para se adaptar ao seu caso de uso.

Tópico de descoberta	Configuração atual	Requisitos de OCI	Observações e comentários
Tamanho dos dados	-	-	-
Taxa de crescimento	-	-	-
Formatos de arquivo	-	-	-
Formatos de compactação de dados	-	-	-
Detalhes do data center (para arquiteturas híbridas)	-	-	-
Detalhes da conectividade de rede para configuração do VPN/FastConnect	-	-	-
DR (RTO, RPO)	-	-	-
SLA de HA	-	-	-
Estratégia de backup	-	-	-
Gerenciamento e monitoramento de infraestrutura	-	-	-
Notificações e alertas	-	-	-
Processos de manutenção e atualização	-	-	-
Service Desk/gerenciamento de incidentes	-	-	-
Métodos de autenticação	-	-	-
Métodos de autorização	-	-	-
Detalhes da criptografia (em repouso e em movimento)	-	-	-
Processos de chaves e certificados	-	-	-
Detalhes do Kerberos	-	-	-
Requisitos de conformidade	-	-	-
Fontes de dados e técnicas de ingestão para cada fonte	-	-	-
Requisitos de ETL	-	-	-
Requisitos de análise	-	-	-
Requisitos de consulta de dados	-	-	-
BI/visualização, requisitos de relatórios	-	-	-
Integrações com outras soluções	-	-	-
Detalhes da carga de trabalho do notebook e da ciência de dados	-	-	-
Requisitos de fluxo de trabalho, orquestração e programação	-	-	-
Cargas de trabalho em lote - detalhes de cada tarefa e requerimento	-	-	-
Cargas de trabalho interativas: número de usuários, detalhes de cada job e aplicativo	-	-	-
Cargas de trabalho de streaming - detalhes de cada job e aplicativo	-	-	-
Detalhes de cada aplicativo integrado ao data lake	-	-	-
Detalhes da equipe (administradores de sistemas, desenvolvedores, proprietários de aplicativos, usuários finais)	-	-	-

Avaliação

Nesta fase, analise todos os dados e informações reunidos durante a fase de requisitos.

Em seguida, use essas informações para determinar quais serviços e ferramentas você precisa no OCI. Ao final da avaliação, você deverá ter uma arquitetura de alto nível que mostre cada serviço de dados do OCI a ser usado e qual funcionalidade será implementada nele.

O diagrama a seguir é um exemplo do tipo de arquitetura criada nesta fase.

Descrição da ilustração architecture-hadoop-datalake.png

Projetar

Nesta fase, determine a arquitetura da solução e o dimensionamento inicial do Oracle Cloud Infrastructure (OCI).

Use a arquitetura de referência criada na fase de avaliação como ponto de partida.

É necessário um bom entendimento da plataforma OCI e como criar aplicativos no OCI. Você também precisará configurar as políticas de rede e do IAM no OCI.

Plano

Nesta fase, crie um plano de projeto detalhado com mapeamento de tempo e recurso.

Para cada uma das atividades, os detalhes das tarefas, o RACI da parte interessada e o cronograma devem ser determinados.

Plano de Projeto

Crie um plano de projeto com todas as atividades, suas linhas de tempo e suas dependências.

A imagem a seguir mostra um exemplo de plano de projeto de alto nível.

Descrição da ilustração project-plan.png

Lista de Materiais

Com base em sua avaliação e design, crie uma BOM para o ambiente de destino no OCI

Liste cada serviço a ser usado, juntamente com suas informações de dimensionamento e configuração. A tabela a seguir é um exemplo dos itens que podem ser incluídos na lista de materiais.

Serviço do OCI	Dimensionamento e configuração
Big Data Service	-
Serviço Data Science	-
Catálogo de Dados	-
Máquinas Virtuais	-
Bloquear Armazenamento	-
Armazenamento de Objetos	-
Autonomous Data Warehouse	-
Rede Virtual na Nuvem	-
Identity and Access Management	-

Planejamento do Big Data Service

Nesta seção, discutimos opções importantes que você precisa fazer para iniciar um cluster no Big Data Service (BDS)

Os clusters do BDS Hadoop são executados nas instâncias de computação do OCI. Você precisa determinar quais tipos de instância deseja usar. Essas instâncias são executadas em sub-redes VCN (Rede Virtual na Nuvem). Eles precisam ser configurados antes de iniciar clusters. Você também deve impedir os requisitos de armazenamento para volumes em blocos anexados a nós do cluster. Além disso, as políticas do serviço IAM precisam ser configuradas.

Existem dois tipos de nós:

Nós principais e do utilitário. Esses nós incluem os serviços necessários para a operação e o gerenciamento do cluster. Eles não armazenam nem processam dados.
Nós de trabalho Esses nós armazenam e processam dados. A perda de um nó de trabalho não afeta a operação do cluster, embora possa afetar o desempenho.

Os clusters podem ser implantados no modo Seguro e Altamente Disponível ou mínimo (não HA). Você também precisa criar um plano para os componentes do Hadoop que deseja configurar e seu dimensionamento. Revise o link da documentação do BDS na seção Explorar Mais para saber mais sobre como configurar e dimensionar clusters.

Você pode usar a tabela a seguir para ajudar a criar um plano para clusters BDS.

Tópico	Dimensionamento e configuração
Configuração segura e altamente disponível ou mínima (não HA)	-
Número de nós de trabalho	-
Armazenamento por nó	-
Tipo e forma da instância de computação do(s) nó(s) mestre(is)	-
Tipo e forma da instância de computação dos nós de trabalho	-
Configuração dos serviços do Hadoop do nó mestre 1	-
Configuração dos serviços do Hadoop do nó mestre 2 (se aplicável)	-
Configuração dos serviços do Hadoop do nó do utilitário 1	-
Configuração dos serviços do Hadoop do nó do utilitário 2 (se aplicável)	-
Configuração dos serviços do Hadoop do nó do utilitário 3 (se aplicável)	-
Configuração dos serviços do Hadoop dos nós de trabalho	-
Detalhes da Rede Virtual na Nuvem	-
Políticas do Identity and Access Management aplicadas	-
Configuração de Ambari	-
Configuração do HDFS	-
Configuração do Hive	-
Configuração HBase	-
Configuração do Spark	-
Configuração do Oozie	-
Configuração do esquema	-
Configuração de Tez	-
Configuração do Zookeeper	-

Você pode usar tabelas semelhantes ao planejar a composição e o tamanho dos outros serviços em sua arquitetura.

Provisionar

Com base no design da arquitetura de estado final e nas informações de dimensionamento na BOM, provisione e configure os recursos necessários no OCI de acordo com as tarefas listadas no plano do projeto.

Workflow de Implantação do Big Data Service

Para poder configurar um cluster do BDS, você deve configurar permissões no IAM e, em seguida, configurar a VCN para o cluster.

Configurar IAM

Crie grupos adicionais do IAM com privilégios de acesso para o cluster do BDS.

Você deve delegar tarefas de administração de cluster do BDS a um ou mais administradores do BDS.

Se o nome do grupo for bds-admin-group e o novo cluster estiver no compartimento Cluster, você criará as seguintes políticas:

allow group bds-admin-group to manage virtual-network-family in compartment Cluster
 allow group bds-admin-group to manage bds-instance in compartment Cluster

Crie também uma política com a seguinte instrução de política:

allow service bdsprod to 
{VNIC_READ, VNIC_ATTACH, VNIC_DETACH, VNIC_CREATE, VNIC_DELETE,VNIC_ATTACHMENT_READ,
 SUBNET_READ, VCN_READ, SUBNET_ATTACH, SUBNET_DETACH, INSTANCE_ATTACH_SECONDARY_VNIC,
 INSTANCE_DETACH_SECONDARY_VNIC} in compartment Cluster

Configurar a VCN

No mínimo, você precisa de uma única VCN com uma única sub-rede em uma única região com acesso à internet pública.

Para um ambiente de produção complexo, você pode ter várias sub-redes e diferentes regras de segurança. Talvez você queira conectar sua VCN a uma rede local ou a outras VCNs em outras regiões. Para obter mais detalhes sobre a rede do OCI, consulte a documentação do OCI.

Criar um Cluster do BDS

Escolha um nome para seu cluster, senha de administrador de cluster e tamanhos para nós principais, de utilitário e de trabalho.

Ao criar o cluster, você escolhe um nome para ele, uma senha de administrador de cluster e tamanhos para nós principais, de utilitário e de trabalho. Há também uma caixa de seleção para selecionar a configuração de cluster segura e altamente disponível (HA). O HA fornece quatro nós principais e do utilitário em vez de dois na configuração mínima não HA.

Certifique-se de criar o cluster no compartimento em que deseja e na VCN em que deseja. Certifique-se também de que o bloco CIDR da Rede Privada do Cluster não se sobreponha à faixa de blocos CIDR da sub-rede que contém o cluster.

Acessar o Cluster do BDS

Os nós do Big Data Service são, por padrão, endereços IP privados designados, que não são acessíveis pela internet pública.

Você pode disponibilizar os nós no cluster usando um dos seguintes métodos:

Você pode mapear os endereços IP privados dos nós selecionados no cluster para endereços IP públicos para torná-los publicamente disponíveis na Internet.
Você pode configurar um túnel SSH usando um bastion host. Somente o bastion host é exposto à internet pública. Um bastion host fornece acesso à rede privada do cluster pela internet pública.
Você pode usar o VPN Connect que fornece uma VPN IPSec (Internet Protocol Security) site a site entre a sua rede local e a sua VCN. Você também pode usar o OCI FastConnect para acessar serviços no OCI sem passar pela internet pública. Com o FastConnect, o tráfego passa por uma conexão física privada.

Gerenciar o Cluster do BDS

Para o BDS com Oracle Distribution, incluindo Apache Hadoop (ODH), você pode usar o Apache Ambari para gerenciar seu cluster.

Ele é executado no nó do utilitário do cluster. Você deve abrir a porta 7183 no nó configurando as regras de entrada na lista de segurança de rede.

Para acessar Ambari, abra uma janela do browser e informe o URL com o endereço IP do nó do utilitário. Por exemplo: https://<ip_address_or_hostname>:7183

Use o usuário administrador do cluster (administrador padrão) e a senha informados ao criar o cluster.

Descrição da ilustração ambari-dashboard-metrics.png

Implementar

Comece a implementar aplicativos e serviços para cada fase. Há vários critérios a serem considerados antes de selecionar um serviço específico.

Observe que alguns serviços podem ser usados em mais de uma fase. Por exemplo, o Big Data Service tem componentes que podem ser usados na fase de ingestão, na fase de armazenamento e na fase de transformação.

Ingestão

Data Transfer Appliance: se estiver migrando para o OCI, você poderá usar o Serviço de Transferência de Dados para migrar dados, off-line, para o Serviço de Armazenamento de Objetos.
Big Data Service: O Big Data Service fornece componentes populares do Hadoop para ingestão de dados, incluindo Kafka, Flume e Sqoop. Os usuários podem configurar essas ferramentas com base em seus requisitos. O Kafka pode ser usado para ingestão em tempo real de eventos e dados. Por exemplo, se os usuários tiverem eventos provenientes de seus aplicativos ou servidor e quiserem ingerir eventos em tempo real, eles poderão usar o Kafka e gravar dados no HDFS ou no Object Storage. O Flume pode ser usado para ingerir dados de streaming nos tópicos de HDFS ou Kafka. O Sqoop é uma das ferramentas Hadoop mais comuns usadas para ingerir dados de armazenamentos de dados estruturados, como bancos de dados relacionais e data warehouses.

Loja

Big Data Service: O BDS fornece componentes padrão do Hadoop, incluindo HDFS e HBase. Os dados podem ser gravados no HDFS em streaming do Spark, em lotes do Spark ou em qualquer outro job. HBase fornece um banco de dados distribuído não relacional que é executado no HDFS. Ela pode ser usada para armazenar conjuntos de dados de grande porte que são armazenados como pares de chave/valor. Os dados podem ser lidos e gravados em HBase nos jobs do Spark como parte da ingestão ou transformação.
Object Storage: O serviço OCI Object Storage é uma plataforma de armazenamento de alto desempenho em escala de internet que oferece durabilidade de dados confiável e econômica. Ele pode armazenar uma quantidade ilimitada de dados de qualquer tipo de conteúdo, incluindo dados analíticos e conteúdo avançado, como imagens e vídeos. Neste padrão, o Object Storage pode ser usado como um armazenamento de blob para fins gerais. O Big Data Service e outros serviços podem ler e gravar dados no Object Storage.

Transforme e Atenda

BDS (Big Data Service): O BDS oferece componentes do Hadoop como Spark e Hive que podem ser usados para processar dados. O Hive e o Spark SQL podem ser usados para executar consultas SQL em dados do HDFS e do Object Storage. Depois que os dados são armazenados no HDFS ou no Object Storage, é possível criar tabelas apontando para os dados e, em seguida, qualquer ferramenta de BI (Business Intelligence) ou aplicativo personalizado pode estabelecer conexão com essas interfaces para executar consultas com dados. Os usuários podem gravar trabalhos em lote complexos no spark, o que pode estar processando dados de grande porte ou ter uma transformação muito complexa com vários estágios. O Spark pode ser usado para implementar jobs para leitura e gravação de várias fontes, incluindo HDFS, HBase e Object Storage. O Oracle Cloud SQL é um serviço complementar disponível que permite iniciar consultas do Oracle SQL em dados no HDFS, Kafka e Oracle Object Storage.

BI, ML, Visualização e Governança

Data Catalog: Use o serviço OCI Data Catalog para coletar metadados de origens de dados entre o ecossistema do Oracle Cloud Infrastructure e locais para criar um inventário de ativos de dados. Você pode usá-lo para criar e gerenciar glossários da empresa com categorias, subcategorias e termos de negócios para criar uma taxonomia de conceitos de negócios com tags adicionadas pelo usuário para tornar a pesquisa mais produtiva. Isso ajuda com a governança e facilita para os consumidores de dados encontrar os dados necessários para a análise.
O serviço Data Science: O serviço Data Science é uma plataforma totalmente gerenciada e sem servidor para que as equipes de ciência de dados construam, treinem, implantem e gerenciem modelos de aprendizado de máquina no Oracle Poderia Infrastructure. Ele oferece aos cientistas de dados um espaço de trabalho colaborativo e orientado a projetos com notebooks Jupyter e ferramentas, bibliotecas e pacotes centrados em python desenvolvidos pela comunidade de código aberto junto com a Oracle Accelerated Data Science Library. Ele se integra ao restante da pilha, incluindo Data Flow, Autonomous Data Warehouse e Object Storage.
Oracle Analytics Cloud (OAC): O OAC oferece recursos de análise de autoatendimento com tecnologia de AI para preparação, descoberta e visualização de dados; empresa inteligente e relatórios ad hoc junto com análise aumentada; e geração/processamento de linguagem natural.

Automação

Depois que o sistema for implementado, você adicionará a automação programando jobs individuais ou configurando um ou mais pipelines.

Você pode configurar uma ferramenta de gerenciamento de workflow, como Airflow ou Oozie. O Oozie está incluído e pré-configurado ao configurar um cluster do Big Data Service.