Saiba mais sobre data lakes baseados em Hadoop
O Oracle Big Data Service oferece uma pilha do Hadoop que inclui Apache Ambari, Apache Hadoop, Apache HBase, Apache Hive, Apache Spark e outros serviços para trabalhar e proteger big data.
O Big Data Service simplifica a movimentação de cargas de trabalho para a nuvem e garante a compatibilidade com soluções locais. Ele permite mover dados para o Object Storage para economizar custos e separar recursos de computação do armazenamento. Você pode acessar o BDS usando a Console do OCI, a CLI do OCI, APIs REST ou SDKs. Você tem acesso total para personalizar o que está implantado em seus clusters do BDS.
O Oracle Cloud SQL é um serviço complementar disponível que permite iniciar consultas do Oracle SQL em dados no HDFS, Kafka e Object Storage. Qualquer usuário, aplicativo ou ferramenta de análise pode trabalhar com armazenamentos de dados para minimizar a movimentação de dados e agilizar as consultas. O BDS opera com Integração de Dados, Ciência de Dados e outros serviços de análise. Os desenvolvedores podem acessar dados usando o Oracle SQL. As empresas podem eliminar silos de dados e garantir que os data lakes não sejam isolados de outras fontes de dados corporativos.
Sobre o Data Lakehouse
O padrão do Oracle Lakehouse combina os melhores elementos de data warehouses e data lakes. Ele oferece uma plataforma integrada de vários serviços de nuvem da Oracle que trabalham em conjunto com facilidade de movimentação de dados, governança unificada e oferece a capacidade de usar as melhores ferramentas comerciais e de código aberto com base em seus casos de uso e preferências.

Descrição da ilustração data-lake-house.png
Os principais elementos do padrão do Oracle Lakehouse incluem
- Integração de padrões de data warehouse e data lake.
- Eliminação de silos de dados: fácil movimentação de dados entre armazém e lago, conforme necessário.
- Metadados e governança unificados.
- Suporte para ferramentas comerciais e de código aberto populares.
- Suporte para uma ampla variedade de fontes de dados, formatos e tipos de dados (estruturados, semiestruturados e não estruturados)
- Suporte a diversos consumidores e cargas de trabalho de dados, incluindo análise avançada de big data, SQL e BI, ciência de dados e aprendizado de máquina em todos os setores.
Os principais serviços na plataforma usados neste playbook incluem:
Big Data
O Oracle Big Data fornece clusters com um ambiente Hadoop. O Big Data simplifica o processo de tornar os clusters Hadoop altamente disponíveis e seguros. Com base nas melhores práticas da Oracle, o Big Data implementa alta disponibilidade e segurança e reduz a necessidade de habilidades avançadas do Hadoop. O Big Data oferece os componentes do Hadoop usados com mais frequência, simplificando para as empresas a migração de cargas de trabalho para a nuvem e garantindo a compatibilidade com as soluções locais.
Catálogo de Dados
O serviço Data Catalog do Oracle Cloud Infrastructure é uma solução de governança e descoberta de dados de autoatendimento totalmente gerenciada para os dados da sua empresa. Os Catálogos de Dados são essenciais para a capacidade da organização de pesquisar e localizar dados para análise. Eles ajudam os profissionais de dados a descobrir e dar suporte à governança de dados.
Use o serviço Data Catalog como um ambiente colaborativo único para gerenciar metadados técnicos, de negócios e operacionais. Você pode coletar metadados técnicos de uma ampla faixa de origens de dados suportadas que são acessíveis com o uso de endereços IP públicos ou privados. Você pode organizar, localizar, acessar, entender, enriquecer e ativar esses metadados. Utilize a coleta automática sob demanda ou com base em programação para garantir que o catálogo de dados sempre tenha informações atualizadas. Você se beneficia de toda a segurança, confiabilidade, desempenho e escala do Oracle Cloud.
Fluxo de Dados
O Oracle Cloud Infrastructure Data Flow é um serviço totalmente gerenciado para executar aplicativos Apache Spark. Os aplicativos Data Flow são modelos reutilizáveis que consistem em um aplicativo Spark, suas dependências, parâmetros padrão e uma especificação de recurso de runtime padrão. Você pode gerenciar todos os aspectos do serviço Data Flow e o ciclo de vida de desenvolvimento de aplicativos, rastreando e executando jobs Apache Spark usando as APIs REST por meio do serviço API Gateway e funções disponíveis.
O serviço Data Flow suporta a entrega rápida de aplicativos, permitindo que os desenvolvedores se concentrem no desenvolvimento de seus aplicativos. Ele fornece gerenciamento de logs e um ambiente de runtime para executar aplicativos. Você pode integrar os aplicativos e workflows e acessar APIs por meio da interface do usuário. Ela elimina a necessidade de configurar infraestrutura, provisionamento de clusters, instalação de software, armazenamento e segurança.
Autonomous Data Warehouse
O Oracle Autonomous Data Warehouse é um serviço de banco de dados independente, com autoproteção e autorreparo que é otimizado para cargas de trabalho de data warehouse. Não é necessário configurar ou gerenciar nenhum hardware ou instalar qualquer software. O Oracle Cloud Infrastructure lida com a criação do banco de dados, bem como com backup, aplicação de patches, upgrade e ajuste do banco de dados.
Data Integration
O Oracle Cloud Infrastructure Data Integration é um serviço de nuvem sem servidor totalmente gerenciado para ingerir e transformar dados para ciência de dados e análise. O Data Integration ajuda a simplificar seus processos complexos de extração, transformação e carregamento de dados (ETL/E-LT) em data lakes e warehouses para ciência de dados e análise com o designer de Fluxo de Dados da Oracle. Ele fornece proteção automatizada de desvio de esquema com fluxo de integração baseado em regras, o que ajuda a evitar fluxos de integração interrompidos e reduzir a manutenção à medida que os esquemas de dados evoluem.
Serviço Data Science
O Oracle Cloud Infrastructure Data Science é uma plataforma totalmente gerenciada e sem servidor para cientistas de dados criarem, treinarem, implantarem e gerenciarem modelos de aprendizado de máquina no Oracle Cloud Infrastructure. Os cientistas de dados podem usar a biblioteca ADS (Accelerated Data Science) da Oracle aprimorada por Oracle for Automated Machine Learning (AutoML), avaliação de modelos e explicação de modelos.
Análise
O Oracle Analytics Cloud é um serviço de nuvem pública escalável e seguro que fornece um conjunto completo de recursos para explorar e executar análises colaborativas para você, seu grupo de trabalho e sua empresa. Com o Oracle Analytics Cloud, você também obtém recursos flexíveis de gerenciamento de serviços, incluindo configuração rápida, escalonamento e aplicação de patches fáceis e gerenciamento automatizado do ciclo de vida.