Desenvolvimento de Aplicativos Modernos - Big Data e Análise Avançada

Big data é um conjunto de recursos e padrões que permite gerenciar, coletar, armazenar, catalogar, preparar, processar e analisar todos os tipos de dados (não estruturados, semiestruturados e estruturados) provenientes de fontes como bancos de dados, vídeos, formulários, documentos, arquivos de log, páginas Web ou imagens. Os recursos de big data da Oracle abrangem vários serviços e ferramentas para que você possa começar sua jornada de big data com base em suas habilidades e preferências.

Princípios de Design

Ao implementar um padrão de big data e análise avançada, use os seguintes princípios de design para Desenvolvimento de Aplicativos Moderno.

  • Use serviços totalmente gerenciados para eliminar a complexidade no desenvolvimento de aplicativos, runtimes e gerenciamento de dados

    Seus dados são tão valiosos quanto sua capacidade de usá-los. As ferramentas de big data são populares na comunidade de código-fonte aberto, e a maioria dos recursos deles foram adotados no local por meio de projetos de código-fonte aberto, como Hadoop, Spark e Hive.

    Use o Oracle Big Data Service, que oferece todos os componentes populares do Hadoop de código aberto como um serviço gerenciado no Oracle Cloud. Para aplicativos Spark, use o Oracle Cloud Infrastructure Data Flow, que oferece uma plataforma Spark nativa na nuvem, totalmente gerenciada, sem servidor. O uso desses serviços garante que você possa aproveitar as inovações mais recentes da comunidade de código aberto e as habilidades existentes da sua equipe, sem nenhuma preocupação com o bloqueio do fornecedor. Continue a usar a velocidade e o valor de código aberto com os recursos premium nativos da Oracle, como tabelas externas do Oracle Autonomous Data Warehouse e o Oracle Cloud SQL.

    A implementação e a operação de serviços de big data, especialmente componentes de código aberto, podem ter um impacto exponencial nas despesas operacionais (OpEx). Comece com nossas ofertas gerenciadas do Hadoop ou serviços de PaaS como o Data Flow, antes de adotar uma abordagem do tipo faça-você-mesmo (DIY). Em geral, os serviços de código-fonte aberto gerenciados são muito mais baratos do que o tempo ao faturar em OpEx.

  • Automatize a criação, o teste e a implementação

    DataOps é importante para garantir que você possa derivar os benefícios máximos dos seus pipelines de big data. Use o serviço Oracle Cloud Infrastructure Data Integration para ingerir dados, implementar o processamento ETL e o envio de ELT e criar pipelines para conectar tarefas em uma sequência ou em paralelo para facilitar um processo. Os pipelines podem incluir várias origens de dados populares dentro e fora do Oracle Cloud. Use os recursos de programação do Data Integration para definir quando e com que frequência executar cada tarefa. Para data lakes baseados em HDFS (Hadoop Distributed File System) no Big Data Service, use ferramentas como Oozie e Airflow para orquestrar seus pipelines de dados de ponta a ponta. Use o Oracle Database Cloud Service Management para definir jobs do banco de dados que são executados em um conjunto de bancos de dados em uma programação.

  • Use bancos de dados convergentes com suporte completo em todos os dados

    Use as melhores ferramentas que podem simplificar, automatizar e acelerar a consolidação de dados para uso no máximo valor comercial. Ao criar data lakes para Oracle Cloud Infrastructure Data Science com dados não estruturados, semiestruturados e estruturados, use o serviço Object Storage para seu data lake. Para aproveitar o HDFS e as ferramentas Hadoop de código aberto, use o Big Data Service para criar seu data lake. Para data warehouses, data marts departamentais e camadas de atendimento e apresentação com dados estruturados, use o Autonomous Data Warehouse, que é otimizado para esses cenários. O Autonomous Data Warehouse também fornece conectividade com ferramentas de análise, business intelligence e geração de relatórios, como o Oracle Analytics Cloud.

  • Monitoramento e rastreamento completos do instrumento

    Os aplicativos de big data geralmente abrangem vários serviços pertencentes a diferentes equipes de negócios e aplicativos. As ferramentas de observabilidade são importantes para obter visibilidade do comportamento desses sistemas distribuídos de forma inerente.

    Monitore a integridade operacional de pipelines de dados completos, tendo todas as suas cargas de trabalho emitem métricas de integridade para o Oracle Cloud Infrastructure Monitoring. Definir limites de métricas personalizados para alarmes e ser notificado ou agir sempre que um determinado limite for atingido. Use o OCI Logging para todos os logs de serviço do OCI em sua tenancy e logs personalizados enviados dos seus aplicativos de dados. Para solucionar problemas e otimizar o desempenho, use o OCI Database Management para o Autonomous Data Warehouse para ver o status do banco de dados, sessões ativas médias, alarmes, uso da CPU, uso de armazenamento, diagnóstico de frota e ajuste.

  • Implemente uma abordagem de defesa em profundidade para proteger o ciclo de vida do aplicativo

    Planeje manter seus dados seguros. Acompanhe todas as tarefas que trazem dados e extraem dados do seu data lake, mantenha os metadados de linhagem de dados e garanta que as políticas de controle de acesso sejam atualizadas. Use o serviço Data Catalog para ajudar na governança.

    Siga o princípio do privilégio mínimo e certifique-se de que os usuários e as contas de serviço tenham apenas o privilégio mínimo necessário para executar suas tarefas. Controle quem tem acesso aos componentes da plataforma de dados usando o Oracle Cloud Infrastructure Identity and Access Management. Use a autenticação multifator no Oracle Cloud Infrastructure Identity and Access Management para impor uma autenticação forte para administradores. Armazene informações confidenciais, como senhas e tokens de autenticação no serviço Oracle Cloud Infrastructure Vault.

    Para o Big Data Service, configure somente as regras de segurança necessárias para controlar a rede e use o Apache Ranger para gerenciar a segurança dos dados no cluster do Hadoop. Use o Oracle Data Safe para proteger seus dados no Autonomous Data Warehouse. Use senhas fortes para seus bancos de dados. Crie recursos de banco de dados em sub-redes privadas e use grupos de segurança de rede virtual na nuvem (VCN) ou listas de segurança para impor o controle de acesso à rede a instâncias de banco de dados. Dê permissões de exclusão de banco de dados a um número mínimo possível de usuários e grupos do Oracle Cloud Infrastructure Identity and Access Management.

    Para proteger suas origens de dados de qualquer vulnerabilidade de segurança, forneça credenciais para contas somente para leitura apenas para os serviços Data Catalog e Data Integration.

Arquitetura

Você pode usar a arquitetura e as opções de tecnologia de opinião a seguir para implementar os princípios de design. Os serviços de análise e dados do Oracle Cloud Infrastructure (OCI) permitem ingerir, armazenar, catalogar, preparar, processar e analisar big data.
Veja a seguir a descrição da ilustração big-data-and-analytics.png
Descrição da ilustração big-data-and-analytics.png

Essa arquitetura usa as seguintes origens de dados:

  • Aplicativos corporativos
  • Dispositivos
  • Usuário Final
  • Eventos
  • Sensores
  • Qualquer ativo digital

Essa arquitetura tem os seguintes componentes na VCN:

  • Rede virtual na nuvem (VCN)

    Uma VCN é uma rede personalizável definida por software que você configura em uma região do Oracle Cloud Infrastructure. Como as redes de data center tradicionais, as VCNs permitem controle total sobre seu ambiente de rede. Uma VCN pode ter vários blocos CIDR não sobrepostos que você poderá alterar após criar a VCN. Você pode segmentar uma VCN em sub-redes, que podem ter como escopo uma região ou um domínio de disponibilidade. Cada sub-rede consiste em um intervalo contíguo de endereços que não são sobrepostos com as outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.

  • Data Integration

    O Oracle Cloud Infrastructure Data Integration é um serviço de nuvem sem servidor e totalmente gerenciado que ingere e transforma dados para ciência e análise de dados. Ele ajuda a simplificar o ETL e o ELT complexos em data lakes e warehouses com o designer de fluxo de dados moderno e sem código da Oracle. Você pode usar um dos operadores prontos para usar, como uma junção, agregação ou expressão, para moldar seus dados.

  • Streaming

    O serviço Oracle Cloud Infrastructure Streaming fornece uma solução totalmente gerenciada, escalável e durável para ingestão e consumo de fluxos de dados de alto volume em tempo real. Use o Streaming para qualquer caso de uso em que os dados sejam produzidos e processados continuamente e sequencialmente em um modelo de mensagens de publicação-assinatura. Por exemplo, mensagens, métrica e ingestão de log, ingestão de dados de atividades móveis ou da Web e processamento de eventos de infraestrutura e aplicativos.

  • Oracle Big Data Service

    O Oracle Big Data Service é um serviço em nuvem totalmente gerenciado e automatizado que fornece clusters com um ambiente do Hadoop. O Big Data Service facilita para os clientes implantar clusters do Hadoop de todos os tamanhos e simplifica o processo de tornar os clusters do Hadoop altamente disponíveis e seguros.

  • Oracle Autonomous Data Warehouse

    O Oracle Autonomous Data Warehouse é um serviço de banco de dados independente, com autoproteção e autorreparo otimizado para cargas de trabalho de data warehousing. Não é necessário configurar ou gerenciar nenhum hardware ou instalar qualquer software. O Oracle Cloud Infrastructure controla a criação do banco de dados, bem como o backup, a aplicação de patches, a atualização e o ajuste do banco de dados.

  • Armazenamento de Objetos

    O armazenamento de objetos fornece acesso rápido a grandes quantidades de dados estruturados e não estruturados de qualquer tipo de conteúdo, incluindo backups de bancos de dados, dados analíticos e conteúdo avançado, como imagens e vídeos. Você pode armazenar com segurança e recuperar dados diretamente da internet ou de dentro da plataforma de nuvem. Você pode dimensionar o armazenamento sem afetar qualquer degradação no desempenho ou na confiabilidade do serviço. Use o armazenamento padrão para armazenamento "dinâmico" necessário para acessar rapidamente, imediatamente e com frequência. Use o armazenamento de arquivos compactados para o armazenamento "frio" que você mantém por longos períodos de tempo e raramente ou raramente acessa.

  • Serviço Data Flow

    O Oracle Cloud Infrastructure Data Flow é uma plataforma de análise Spark de nível PaaS totalmente gerenciada que permite criar, editar e executar jobs do Spark em qualquer escala, sem a necessidade de clusters, uma equipe de operações ou conhecimento altamente especializado do Spark. Como não tem servidor, não há infraestrutura para você implantar ou gerenciar. Ele é totalmente orientado pelas APIs REST, oferecendo uma integração fácil com aplicativos ou workflows.

  • Oracle Analytics Cloud

    Essa plataforma melhor da categoria para análise avançada moderna na nuvem capacita analistas de negócios e consumidores. O Oracle Analytics Cloud oferece recursos modernos de análise de autoatendimento com tecnologia de IA para preparação, descoberta e visualização de dados, empresa inteligente e relatórios sob demanda com análise aumentada e geração e processamento de linguagem natural. Seja você um analista de negócios, engenheiro de dados, cientista de dados do cidadão, gerente departamental, especialista em domínio ou executivo, o Oracle Analytics Cloud pode ajudar você a transformar dados em informações.

  • Aplicativos de análise, AM e personalizados

    Serviços de análise, Oracle Machine Learning e aplicativos personalizados que catalogarão, preparar, processarão e analisarão big data.

  • Catálogo de Dados

    O Oracle Cloud Infrastructure Data Catalog é uma solução de descoberta de dados e governança de autoatendimento totalmente gerenciada para os dados da sua empresa. Ele fornece engenheiros de dados, cientistas de dados, administradores de dados e diretores de dados um único ambiente colaborativo para gerenciar os metadados técnicos, de negócios e operacionais da organização.

Com esse padrão de arquitetura, você pode gerenciar todos os tipos de dados não estruturados, semiestruturados e não estruturados com um padrão de casa de data lake moderno. Processar todos os tipos de dados em um data lake baseado em armazenamento de objetos usando os serviços Data Integration e Streaming. Use o Oracle Cloud Infrastructure Data Flow e o Oracle Big Data Service para processamento, use o Oracle Cloud Infrastructure Data Catalog para catalogação, use o Oracle Autonomous Data Warehouse como armazenamento de serviço e use o Oracle Analytics Cloud para análise e inteligência de negócios.

O seguinte processo descreve o fluxo mostrado no diagrama:

  • O Oracle Cloud Infrastructure Data Integration e o Oracle Cloud Infrastructure Streaming ingerem dados de diferentes tipos de origens. O serviço usado depende se os dados são registros de banco de dados em lote, streaming ou sincronizados e se os dados estão no local ou na nuvem.
  • Os dados podem ser entregues ao Object Storage para acesso compartilhado por serviços de nuvem e para processamento antes de serem armazenados no Oracle Autonomous Data Warehouse ou no Big Data Service.
  • Os dados também podem ser entregues diretamente ao Oracle Autonomous Data Warehouse e, em seguida, transformados usando recursos ELT, ou os registros de outros bancos de dados podem ser ingeridos diretamente. Os dados também podem ser entregues diretamente como estão no Big Data Service.
  • O Oracle Autonomous Data Warehouse pode consultar dados do Object Storage ou ingerir dados do Object Storage por meio de uma API ou com a ajuda do Data Integration. O Big Data Service pode ingerir dados ou consultar dados no Object Storage.
  • O Oracle Analytics Cloud pode acessar dados no Oracle Autonomous Data Warehouse para qualquer um dos recursos de visualização e análise de negócios que o serviço fornece.
  • O Oracle Cloud Infrastructure Data Catalog coleta metadados do Oracle Autonomous Data Warehouse, do Object Storage e das origens de dados Hive do Big Data Service. Você interage com o serviço Data Catalog para coletar, localizar e gerenciar os dados.
  • Você pode implementar qualquer aplicativo personalizado para cargas de trabalho de análise e aprendizado de máquina usando dados do Oracle Autonomous Data Warehouse, do Big Data Service e do Object Storage.
  • Os analistas de negócios podem usar o Oracle Analytics Cloud para consumir dados do Oracle Autonomous Data Warehouse e do Big Data Service.
  • Os cientistas de dados podem usar o Oracle Machine Learning Notebooks em Oracle Autonomous Data Warehouse e o Oracle Machine Learning para Spark no Oracle Big Data Service para treinar modelos de aprendizado de máquina e trabalhar com dados espaciais e gráficos.

Arquiteturas alternativas

Considere as alternativas à arquitetura descrita neste padrão.

Use um único banco de dados ou data warehouse para armazenar e analisar todos os tipos de dados. Nesta arquitetura alternativa, várias origens de dados (usuários finais, dispositivos, eventos, sensores e aplicativos) alimentam dados para o banco de dados por meio da integração de dados (Oracle GoldenGate) e Filas de Eventos Transacionais da Oracle para transmissão de dados. Os dados são armazenados no Oracle Autonomous Database (Oracle Autonomous Transaction Processing e no Oracle Autonomous Data Warehouse) juntamente com o suporte a armazenamento de objetos para big data usando o Cloud SQL. Use o Oracle Machine Learning para criação e implantação de modelos e use o Oracle Analytics Cloud e o Oracle Data Cloud para obter informações sobre os dados.

O diagrama a seguir ilustra essa arquitetura alternativa.

Veja a seguir a descrição da ilustração alt-architecture-big-data.png
Descrição da ilustração alt-architecture-big-data.png

Essa arquitetura usa as seguintes origens de dados:

  • Aplicativos corporativos
  • Dispositivos
  • Usuário Final
  • Eventos
  • Sensores
  • Qualquer ativo digital

Essa arquitetura tem os seguintes componentes na VCN:

  • Rede virtual na nuvem (VCN)

    Uma VCN é uma rede personalizável definida por software que você configura em uma região do Oracle Cloud Infrastructure. Como as redes de data center tradicionais, as VCNs permitem controle total sobre seu ambiente de rede. Uma VCN pode ter vários blocos CIDR não sobrepostos que você poderá alterar após criar a VCN. Você pode segmentar uma VCN em sub-redes, que podem ter como escopo uma região ou um domínio de disponibilidade. Cada sub-rede consiste em um intervalo contíguo de endereços que não são sobrepostos com as outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.

  • Data Integration

    O Oracle Cloud Infrastructure Data Integration é um serviço de nuvem sem servidor e totalmente gerenciado que ingere e transforma dados para ciência e análise de dados. Ele ajuda a simplificar o ETL e o ELT complexos em data lakes e warehouses com o designer de fluxo de dados moderno e sem código da Oracle. Você pode usar um dos operadores prontos para usar, como uma junção, agregação ou expressão, para moldar seus dados.

  • Oracle Cloud Infrastructure Transactional Event Queues (TEQ) no ADB

    As Filas de Eventos Transacionais da Oracle em um banco de dados autônomo fornecem funcionalidade de enfileiramento de mensagens integrado ao banco de dados. Esta implementação altamente otimizada e particionada aproveita as funções do banco de dados Oracle para que os produtores e consumidores possam trocar mensagens com alto throughput, armazenando mensagens de forma persistente e propagando mensagens entre filas em diferentes bancos de dados. As Filas de Eventos Transacionais da Oracle são uma implementação particionada de alto desempenho com vários fluxos de eventos por fila

  • Oracle Autonomous Data Warehouse

    O Oracle Autonomous Data Warehouse é um serviço de banco de dados independente, com autoproteção e autorreparo otimizado para cargas de trabalho de data warehousing. Não é necessário configurar ou gerenciar nenhum hardware ou instalar qualquer software. O Oracle Cloud Infrastructure controla a criação do banco de dados, bem como o backup, a aplicação de patches, a atualização e o ajuste do banco de dados.

    Esse serviço de data warehouse em nuvem elimina todas as complexidades de operar um data warehouse, proteger dados e desenvolver aplicativos orientados a dados. Ele automatiza o provisionamento, a configuração, a proteção, o ajuste, o dimensionamento e o backup do data warehouse. Inclui ferramentas para carregamento de dados de autoatendimento, transformações de dados, modelos de negócios, insights automáticos e recursos incorporados de banco de dados convergidos que permitem consultas mais simples em vários tipos de dados e análise de aprendizado de máquina.

  • Armazenamento de Objetos

    O armazenamento de objetos fornece acesso rápido a grandes quantidades de dados estruturados e não estruturados de qualquer tipo de conteúdo, incluindo backups de bancos de dados, dados analíticos e conteúdo avançado, como imagens e vídeos. Você pode armazenar com segurança e recuperar dados diretamente da internet ou de dentro da plataforma de nuvem. Você pode dimensionar o armazenamento sem afetar qualquer degradação no desempenho ou na confiabilidade do serviço. Use o armazenamento padrão para armazenamento "dinâmico" necessário para acessar rapidamente, imediatamente e com frequência. Use o armazenamento de arquivos compactados para o armazenamento "frio" que você mantém por longos períodos de tempo e raramente ou raramente acessa.

    Essa plataforma de armazenamento de alto desempenho em escala de internet oferece durabilidade de dados confiável e econômica. O serviço Object Storage pode armazenar uma quantidade ilimitada de dados não estruturados de qualquer tipo de conteúdo, incluindo dados analíticos e conteúdo avançado, como imagens e vídeos.

  • Banco de dados autônomo

    Os bancos de dados autônomos do Oracle Cloud Infrastructure são ambientes de banco de dados totalmente gerenciados e pré-configurados que você pode usar para cargas de trabalho de processamento de transações e data warehousing. Não é necessário configurar ou gerenciar nenhum hardware ou instalar qualquer software. O Oracle Cloud Infrastructure controla a criação do banco de dados, bem como o backup, a aplicação de patches, a atualização e o ajuste do banco de dados.

  • Oracle Machine Learning em um banco de dados autônomo

    Oracle Machine Learning em um Oracle Autonomous Database (Autonomous Transaction Processing e Autonomous Data Warehouse).

  • Oracle Analytics Cloud

    Essa plataforma melhor da categoria para análise avançada moderna na nuvem capacita analistas de negócios e consumidores. O Oracle Analytics Cloud oferece recursos modernos de análise de autoatendimento com tecnologia de IA para preparação, descoberta e visualização de dados, empresa inteligente e relatórios sob demanda com análise aumentada e geração e processamento de linguagem natural. Se você é analista de negócios, engenheiro de dados, cientista de dados do cidadão, gerente departamental, especialista em domínio ou executivo, o Oracle Analytics Cloud pode ajudar você a transformar dados em informações.

  • Aplicativos de análise, AM e personalizados

    Serviços de análise, Oracle Machine Learning e aplicativos personalizados que catalogarão, preparar, processarão e analisarão big data.

  • Catálogo de Dados

    O Oracle Cloud Infrastructure Data Catalog é uma solução de descoberta de dados e governança de autoatendimento totalmente gerenciada para os dados da sua empresa. Ele fornece engenheiros de dados, cientistas de dados, administradores de dados e diretores de dados um único ambiente colaborativo para gerenciar os metadados técnicos, de negócios e operacionais da organização.

    O Oracle Cloud Infrastructure Data Catalog é um serviço de gerenciamento de metadados que ajuda os profissionais de dados a descobrir dados e oferecer suporte à governança de dados.

  • Oracle GoldenGate

    Este serviço totalmente gerenciado oferece uma plataforma de software de replicação e captura de dados baseados em log (CDC) em tempo real para atender às necessidades dos aplicativos orientados a transações atuais. O software fornece captura, roteamento, transformação e entrega de dados transacionais em ambientes heterogêneos em tempo real.

Uma alternativa é criar e executar suas próprias plataformas de código-fonte aberto no Oracle Cloud Infrastructure Compute. No entanto, essa opção pode resultar em alto OpEx.

Considerações e Antipatternos

Considere o seguinte para big data e análise avançada.

  • Reduza as cópias e os movimentos dos dados

    A movimentação de dados é cara, consome recursos e tempo e pode reduzir a fidelidade dos dados. Escolha o serviço certo para armazenar e processar seus dados, dependendo dos tipos de dados, da qualidade dos dados e das transformações necessárias. Use o Object Storage para seu armazenamento de data lake para todos os tipos de dados brutos. Use o Oracle Big Data Service para aproveitar as ferramentas do ecossistema HDFS e Hadoop. Use o Oracle Autonomous Data Warehouse para armazenar dados transformados para apresentação. O uso do armazenamento correto ajuda a evitar a cópia e a movimentação de dados e reduz cópias duplicadas de dados, o que pode ser difícil de manter e manter sincronizadas.

  • Forneça aos usuários a interface de dados necessária

    As plataformas de análise e dados empresariais têm muitos tipos de usuários: engenheiros de dados, analistas de dados, desenvolvedores de aplicativos, engenheiros de big data, administradores de bancos de dados, analistas de negócios, cientistas de dados, administradores de dados e outros consumidores. Todas têm necessidades e preferências diferentes para consumir dados. Entender todos os casos de uso e os requisitos do consumidor de dados é importante. Para ferramentas do ecossistema Hadoop, use Big Data. Para consultas SQL e interface com ferramentas de business intelligence, use o Autonomous Data Warehouse. Para aplicativos Spark, use o serviço Oracle Cloud Infrastructure Data Flow.

  • Catalogue seus ativos de dados e estabeleça um vocabulário comum

    Os dados das empresas geralmente são um ativo compartilhado entre várias equipes. Use o serviço Data Catalog para coletar metadados de origens de dados no OCI e no local para criar um inventário de ativos de dados. Isso ajuda os consumidores de dados a encontrar facilmente os dados necessários para análise. Use o serviço Data Catalog para também criar e gerenciar glossários empresariais com categorias, subcategorias e termos de negócios para criar uma taxonomia de conceitos de negócios com tags adicionadas pelo usuário para tornar a pesquisa mais produtiva.

  • Seja consciente de custo e desempenho

    Os custos para plataformas de dados e análises podem subir rapidamente, a menos que as plataformas sejam projetadas e operadas corretamente. Todos os dados têm determinados requisitos de desempenho relacionados à latência e ao rendimento. Dimensione seus ambientes usando a menor forma de computação e a menor quantidade de armazenamento no serviço que ainda atende aos seus requisitos de desempenho. Encerre todos os recursos não utilizados. Use o serviço Data Flow para aplicativos Spark porque você pode escolher o número de núcleos a serem usados para seu job, o que lhe dá o desempenho necessário ao minimizar os custos. Para o Autonomous Data Warehouse, escale o número de núcleos de CPU ou a capacidade de armazenamento do banco de dados de acordo com suas necessidades. Além disso, use seu recurso de dimensionamento automático, que permite que o banco de dados use automaticamente até três vezes o número base atual de núcleos de CPU a qualquer momento e diminua automaticamente o número de núcleos quando não for necessário.

Antipatternos

Ao criar uma implementação, considere o seguinte:

  • A falta de catalogação e governança de dados pode converter data lakes em data swamps.
  • O armazenamento de dados no data lake em volumes em blocos, em vez de no armazenamento de objetos, leva a uma solução de maior custo.

Big Data e Padrão de Análise

Esse padrão de arquitetura fornece orientação sobre como usar os serviços de análise e dados do Oracle Cloud Infrastructure (OCI) para ingerir, armazenar, catalogar, preparar, processar e analisar big data para implementar vários casos de uso.

Esses casos de uso incluem data warehousing; análise, business intelligence e relatórios; extrair, transformar e carregar (ETL) e extrair, carregar e transformar (ELT), padrões de data lake e casa do lago e modelos de treinamento de aprendizado de máquina.

O diagrama a seguir mostra os serviços da Oracle relacionados a dados e análises.

Veja a seguir a descrição da ilustração big-data-and-analytics-pattern.png
Descrição da ilustração big-data-and-analytics-pattern.png
  • Use o Oracle Autonomous Data Warehouse para criar consultas SQL para dados estruturados, bem como sobre tabelas externas de dados não estruturados e semiestruturados.
  • Use o Oracle Big Data Service para usar ferramentas de ecossistema do Apache Hadoop, como Hive, Spark, Kafka e HBase para ingerir, armazenar e processar todos os tipos de dados não estruturados e semiestruturados.
  • Use o Oracle Cloud Infrastructure Object Storage para armazenar big data e criar data lakes para todos os tipos de dados.
  • Use o Oracle Cloud Infrastructure Data Flow para jobs nativos do Apache Spark.
  • Use o Oracle Cloud Infrastructure Data Integration para ingerir dados de várias origens de dados, juntamente com o processamento de ETL (Extract, Transform, Load) e ELT (Extract, Load, Transform).
  • Use o Oracle Cloud Infrastructure Data Catalog para coletar metadados de várias origens de dados para criar um inventário de ativos, um glossário de negócios e um metastore comum para data lakes.
  • Use o streaming para ingerir fluxos de dados em tempo real com APIs compatíveis com Kafka.

Exemplo de Casos de Uso

Veja a seguir um exemplo de implementações que usam os serviços de análise e dados do Oracle Cloud Infrastructure (OCI) para ingerir, armazenar, catalogar, preparar, processar e analisar big data.

  • Data Warehouse e análise de negócios

    Use o Oracle Autonomous Data Warehouse como data warehouse ou data mart com o Oracle Analytics Cloud.

    • A Integração de Dados faz a ingestão de dados de origens pretendidas. O tipo de integração de dados usado depende se os dados são registros de banco de dados em lote, em fluxo ou sincronizados e se os dados estão no local ou na nuvem.
    • Os dados podem ser entregues ao Object Storage para acesso compartilhado por serviços de nuvem e para processamento antes de serem armazenados no Autonomous Data Warehouse ou Big Data. Os dados também podem ser entregues diretamente ao Autonomous Data Warehouse e, em seguida, transformados usando recursos ELT, ou os registros de outros bancos de dados podem ser ingeridos diretamente.
    • O Oracle Analytics Cloud fornece a visualização de dados no banco de dados, incluindo resultados de aprendizado de máquina. O Oracle Analytics Cloud reduz o máximo de processamento possível ao Autonomous Data Warehouse para processamento de fluxo de dados.
    • O Armazenamento de Objetos é opcional para arquivamento ativo ou compartilhamento de dados. Um arquivo compactado ativo é onde os dados usados com menos frequência são movidos do ADW para uma camada de armazenamento de menor custo (Object Storage). Os dados ainda podem ser consultados no Object Storage, mas o desempenho é mais lento. O Object Storage também pode ser usado para armazenar dados compartilhados entre serviços de nuvem.
    • O Oracle Cloud Infrastructure Data Catalog coleta metadados do Autonomous Data Warehouse e das origens de dados do Object Storage. Você interage com o serviço Data Catalog para usar e gerenciar o catálogo.
  • Gerencie todos os tipos de dados com um data lake e data warehouse para um padrão de casa de lago

    Gerencie dados no Autonomous Data Warehouse e no Big Data e use o Oracle Analytics Cloud para visualização dos dados.

    • A Integração de Dados faz a ingestão de dados de origens pretendidas. O tipo de integração de dados usado depende se os dados são registros de banco de dados em lote, em fluxo ou sincronizados e se os dados estão no local ou na nuvem.
    • Os dados podem ser entregues ao Object Storage para acesso compartilhado por serviços de nuvem e para processamento antes de serem armazenados no Autonomous Data Warehouse ou no Oracle Big Data Service. Os dados também podem ser entregues diretamente ao Autonomous Data Warehouse e, em seguida, transformados usando recursos ELT, ou os registros de outros bancos de dados podem ser ingeridos diretamente. Os dados também podem ser entregues diretamente como estão no Big Data.
    • O Autonomous Data Warehouse pode consultar dados do Object Storage ou ingerir dados do Object Storage por meio de uma API ou com a ajuda do Oracle Cloud Infrastructure Data Integration. Big Data pode ingerir dados ou consultar dados no Object Storage.
    • Os dados podem ser transferidos de Big Data para o Autonomous Data Warehouse usando os conectores de Big Data.
    • O Oracle Analytics Cloud pode acessar dados de várias fontes, incluindo o Autonomous Data Warehouse e o Big Data, para fornecer análise aumentada, visualizações de dados e recursos de análise de negócios de autoatendimento.
    • Os analistas de negócios podem usar o Oracle Analytics Cloud para consumir dados do Autonomous Data Warehouse e do Big Data.
    • O serviço Data Catalog coleta metadados de origens de dados Hive do Autonomous Data Warehouse, Object Storage e Big Data. Você interage com o serviço Data Catalog para coletar, localizar e gerenciar os dados.
  • Crie um data lake com serviços nativos da nuvem do OCI

    Crie um data lake no Object Storage e use dados nativos da nuvem e serviços de IA para modernizar e aproveitar as inovações técnicas mais recentes.

    • Use o Fluxo de Dados para processos em lote do Spark e para clusters Spark efêmeros.
    • Use o Armazenamento de Objetos com o conector HDFS (Hadoop Distributed File System) como o armazenamento do HDFS, no lugar do HDFS dentro do cluster do Apache Hadoop ou do Spark.
    • Use o Oracle Cloud Infrastructure Data Integration para ingerir dados e jobs ETL.
    • Use o Oracle Cloud Infrastructure Data Catalog para descoberta e governança de dados.
    • Use o Oracle Cloud Infrastructure Data Science para requisitos de aprendizado de máquina.
    • Use o Oracle Cloud Infrastructure Streaming para ingestão gerenciada de fluxos e use a Integração de Dados para um serviço de integração gerenciado. Esses serviços podem substituir o Kafka ou o Flume autogerenciado.
    • Para o restante dos componentes na pilha para a qual não é fácil usar um serviço nativo gerenciado do OCI, use o Oracle Cloud Infrastructure Compute e o serviço de armazenamento.
  • Crie um data lake baseado em HDFS usando o Oracle Big Data Service

    Use o Serviço Oracle Big Data para criar seu data lake no HDFS. Todos os componentes do Apache Hadoop, incluindo Hive, HBase, Spark e Oozie, são disponibilizados pelos clusters gerenciados do Hadoop fornecidos pelo Oracle Big Data Service, e você pode usá-los com base nos seus requisitos. Use serviços nativos em nuvem gerenciados, sempre que possível.

    • Use Big Data para HDFS e outros componentes do Hadoop, incluindo Hive, HBase e Oozie.
    • Utilizou o serviço Data Flow para processos em lote do Spark e para clusters Spark efêmeros para reduzir o tamanho do cluster do Big Data sempre que possível.
    • Use o serviço Data Catalog para descoberta e governança de dados.
    • Use o serviço Data Science para requisitos de aprendizado de máquina.
  • Laboratório de dados com o Oracle Big Data Service

    Explore e experimente dados. O Oracle Big Data Service fornece as principais ferramentas de gerenciamento de dados e ciência de dados neste caso de uso.

    • O Oracle Analytics Cloud fornece recursos adicionais para visualizar dados úteis na compreensão dos dados de origem e dos resultados do aprendizado de máquina.
    • O Object Storage fornece armazenamento adicional de baixo custo para compartilhar dados com outros serviços de nuvem e dados persistentes no Oracle Big Data quando o data lab é suspenso.
    • O serviço Data Integration pode ser adicionado para ingerir dados no Object Storage, se necessário.
    • O serviço Data Catalog coleta metadados do Object Storage e do Big Data Hive. Você interage com o serviço Data Catalog para usar e gerenciar o catálogo.
    • Os cientistas de dados usam o Oracle Machine Learning para Spark no Oracle Big Data para criar modelos de machine learning.
  • Descoberta e governança de dados de autoatendimento com o Oracle Cloud Infrastructure Data Catalog

    O serviço Data Catalog coleta metadados de diferentes tipos de origens de dados para criar um catálogo de entidades de dados e seus atributos. Analistas de negócios, cientistas de dados, engenheiros de dados e administradores de dados podem pesquisar o catálogo e criar um glossário de negócios para atributos.

  • Processamento do Spark com o Oracle Cloud Infrastructure Data Flow

    Os jobs do Spark são enviados para o serviço Data Flow. Quando o job é executado, os dados são lidos no Object Storage e processados de acordo com o código do job, e o resultado é gravado de volta no Object Storage. Outros serviços podem recuperar os resultados do Object Storage conforme necessário.

  • Treinando modelos de aprendizado de máquina diretamente no Oracle Autonomous Data Warehouse e no Oracle Big Data Service

    Consulte o modelo de machine learning baseado em Ciência de Dados para obter detalhes sobre como treinar modelos de machine learning usando o Oracle Cloud Infrastructure Data Science. O objetivo deste caso de uso é gerenciar dados no Oracle Autonomous Data Warehouse e no Oracle Big Data Service. O Oracle Analytics Cloud fornece a visualização de dados, incluindo resultados de aprendizado de máquina. A funcionalidade é limitada aos recursos do Oracle Machine Learning.

    • O Oracle Cloud Infrastructure Data Integration utiliza dados de origens pretendidas. O tipo de integração de dados usado depende se os dados são registros de banco de dados em lote, em fluxo ou sincronizados e se os dados estão no local ou na nuvem.

    • Os dados podem ser entregues ao Object Storage para acesso compartilhado por serviços de nuvem e para processamento antes de serem armazenados no Oracle Autonomous Data Warehouse ou no Oracle Big Data Service. Os dados podem ser entregues diretamente ao Oracle Autonomous Data Warehouse e transformados usando recursos de ELT, ou os registros de outros bancos de dados podem ser ingeridos diretamente. Os dados também podem ser entregues diretamente como estão no Oracle Big Data Service.
    • O Oracle Autonomous Data Warehouse pode consultar dados do Object Storage ou ingerir dados do Object Storage por meio de uma API ou com a ajuda da Integração de Dados. O Oracle Big Data Service pode ingerir dados ou consultar dados no Object Storage.
    • É possível transferir dados do Oracle Big Data Service para o Oracle Autonomous Data Warehouse usando os conectores de Big Data.
    • O Oracle Analytics Cloud pode acessar dados de várias origens, incluindo o Oracle Autonomous Data Warehouse e o Oracle Big Data Service, para fornecer análises aumentadas, visualizações de dados e recursos de análise de negócios de autoatendimento.
    • Analistas de negócios e cientistas de dados podem usar o Oracle Analytics Cloud para consumir dados do Oracle Autonomous Data Warehouse e do Oracle Big Data Service.
    • Os cientistas de dados podem usar o Oracle Machine Learning Notebooks no Oracle Autonomous Data Warehouse para criar modelos de aprendizado de máquina e trabalhar com dados espaciais. Eles também podem usar o Oracle Machine Learning para Spark em Big Data para criar modelos de machine learning e trabalhar com dados espaciais e gráficos.
    • O Oracle Cloud Infrastructure Data Catalog coleta metadados do Oracle Autonomous Data Warehouse, do Big Data Hive e das origens de dados do Object Storage. Você interage com o serviço Data Catalog para usar e gerenciar o catálogo.