Plataforma de Dados - Data Warehouse com Integração Complexa
Os dados dos aplicativos corporativos costumam ser distribuídos em vários sistemas em toda a empresa e não podem ser facilmente integrados e analisados para produzir informações úteis.
Essa arquitetura de referência fornece uma estrutura para enriquecer dados de aplicativos empresariais com dados brutos de outras fontes e usar modelos de aprendizado de máquina para trazer informações preditivas e de inteligência nos processos de negócios.
Essa arquitetura de referência posiciona a solução tecnológica dentro do contexto de negócios geral:
À medida que os departamentos consolidam dados de várias fontes em data marts para obter insights direcionados, o data warehouse empresarial deve mudar e se adaptar para poder aproveitar os data marts disponíveis e outras fontes estruturadas e não estruturadas.
Eles separam a carga de trabalho de análise da carga de trabalho de transação e permite que uma organização consolide dados de várias origens. Isso facilita a consulta e a análise de dados históricos em um formato orientado para a empresa, que pode sobreviver a mudanças nos sistemas transacionais. Aproveitar dados armazenados para aprendizado de máquina e análise preditiva é fundamental para infundir a inteligência nos processos de negócios. Os processos de negócios inteligentes ajudam a gerenciar de forma proativa eventos críticos de negócios, como recomendar os produtos certos no canal certo para os clientes certos ou detectar eventos potencialmente fraudulentos.
Arquitetura
Essa arquitetura coleta e combina dados de aplicativos para análise e machine learning para fornecer informações úteis.
oci-polyglot-architecture-oracle.zip
O diagrama a seguir mostra um mapeamento da arquitetura acima para serviços fornecidos no Oracle Cloud Infrastructure (OCI) usando as melhores práticas.
oci-polyglot-physical-arch-oracle.zip
A arquitetura concentra-se nas seguintes divisões lógicas:
- Ingestão, Transformação
Insere e refina os dados para uso em cada uma das camadas de dados da arquitetura.
- Persistir, Curar, Criar
Facilita o acesso e a navegação dos dados para mostrar a exibição de negócios atual e histórica. Ela contém dados brutos e dados obtidos granulares e agregados. Para tecnologias relacionais, os dados podem ser lógicos ou fisicamente estruturados em formulários relacionais simples, longitudinais, dimensionais ou OLAP. Para dados não relacionais, essa camada contém um ou mais pools de dados, seja a saída de um processo analítico ou de dados otimizados para uma tarefa analítica específica.
- Analise, Aprenda, Preveja
Resume a visualização lógica de negócios dos dados para os consumidores. Essa abstração facilita abordagens ágeis de desenvolvimento, migração para a arquitetura de destino e o provisionamento de uma única camada de geração de relatórios de várias origens federadas.
A arquitetura tem os seguintes componentes:
- Ingestão de Lote
A ingestão de lote é útil para dados que não podem ser ingeridos em tempo real ou que são custosos demais para se adaptar à ingestão em tempo real. Também é importante transformar dados em informações confiáveis e confiáveis que podem ser curadas e persistidas para o consumo regular. Você pode usar os seguintes serviços juntos ou de forma independente para obter um fluxo de trabalho de integração e transformação de dados altamente flexível e eficaz.
-
O Oracle Cloud Infrastructure Data Integration é um serviço totalmente gerenciado, sem servidor e nativo da nuvem que extrai, carrega, transforma, limpa e remodela dados de diversas origens de dados para os serviços do Oracle Cloud Infrastructure de destino, como o Autonomous Data Warehouse e o Oracle Cloud Infrastructure Object Storage. O ETL (extract transform load) utiliza o processamento de scale-out totalmente gerenciado no Spark e ELT (extract load transform) aproveita todos os recursos de push-down do Autonomous Data Warehouse para minimizar o movimento de dados e melhorar o tempo de valor para os dados recém-incorporados. Os usuários criam processos de integração de dados usando uma interface de usuário intuitiva e sem código que otimiza os fluxos de integração para gerar o mecanismo e a orquestração mais eficientes, alocando e dimensionando automaticamente o ambiente de execução. O Oracle Cloud Infrastructure Data Integration fornece exploração interativa e preparação de dados, além de ajudar os engenheiros de dados a proteger contra desvio de esquema definindo regras para lidar com alterações de esquema.
-
O Oracle Data Transforms se baseia na ferramenta de integração do Oracle Data Integrator (ODI) que pode ser implantada nas ações do banco de dados do Oracle Autonomous Database (Data Studio). Ele oferece uma solução totalmente unificada para construção, implantação e gerenciamento de dados complexos ou como parte de arquiteturas centradas em dados, em um ambiente SOA ou de business intelligence. Além disso, combina todos os elementos de integração, movimentação, sincronização, qualidade e gerenciamento de dados, para garantir que as informações sejam oportunas, precisas e consistentes entre sistemas complexos.
O Oracle Data Integrator oferece integração abrangente de dados, desde cargas em lote de alto volume e alto desempenho até processos de integração prontos para uso orientados a eventos até serviços de dados habilitados para SOA. Uma abordagem de design declarativo garante um desenvolvimento e manutenção mais rápidos e simples, além de fornecer uma abordagem exclusiva para extrair a transformação de carga (ELT) que ajuda a garantir o mais alto nível de desempenho possível para processos de transformação e validação de dados. As transformações de dados da Oracle usam uma interface da Web para simplificar a configuração e a execução do ELT e ajudar os usuários a criar e programar dados e fluxos de trabalho usando uma abordagem de design declarativo.
Dependendo do caso de uso, esses componentes podem ser usados de forma independente ou em conjunto para obter integração e transformação de dados altamente flexíveis e de alto desempenho.
-
-
Processamento em tempo real
O Oracle Cloud Infrastructure GoldenGate é um serviço totalmente gerenciado que permite a ingestão de dados de fontes que residem no local ou em qualquer nuvem, aproveitando a tecnologia CDC GoldenGate para uma captura de dados e entrega não intrusiva e eficiente para o Oracle Autonomous Data Warehouse em tempo real e em escala, a fim de disponibilizar informações relevantes aos consumidores o mais rápido possível.
- Autonomous Data Warehouse
O Oracle Autonomous Data Warehouse é um serviço de banco de dados independente, com autoproteção e autorreparo otimizado para cargas de trabalho de data warehousing. Não é necessário configurar ou gerenciar nenhum hardware ou instalar qualquer software. O Oracle Cloud Infrastructure controla a criação do banco de dados, bem como o backup, a aplicação de patches, a atualização e o ajuste do banco de dados.
Os dados de armazenamento em massa ou frio que residem no armazenamento de objetos podem ser unidos aos dados do depósito como tabelas externas e tabelas particionadas híbridas.
O Autonomous Data Warehouse pode usar metadados colhidos anteriormente armazenados no serviço Data Catalog para criar tabelas externas e pode sincronizar automaticamente atualizações de metadados no Data Catalog com a definição de tabelas externas para manter consistência, simplificar o gerenciamento e reduzir o esforço.
Além disso, o Data Lake Accelerator, um componente do Oracle Autonomous Database, pode consumir perfeitamente dados de armazenamento de objetos, dimensionar o processamento para fornecer consultas rápidas, dimensionar automaticamente a instância de computação do banco de dados quando necessário e reduzir o impacto na carga de trabalho do banco de dados, isolando as consultas de armazenamento de objetos da instância de computação do banco de dados.
- Armazenamento de objetos
O armazenamento de objetos fornece acesso rápido a grandes quantidades de dados estruturados e não estruturados de qualquer tipo de conteúdo, incluindo backups de bancos de dados, dados analíticos e conteúdo avançado, como imagens e vídeos. Você pode armazenar com segurança e recuperar dados diretamente da internet ou de dentro da plataforma de nuvem. Você pode dimensionar o armazenamento sem afetar qualquer degradação no desempenho ou na confiabilidade do serviço. Use o armazenamento padrão para armazenamento "dinâmico" necessário para acessar rapidamente, imediatamente e com frequência. Use o armazenamento de arquivos compactados para o armazenamento "frio" que você mantém por longos períodos de tempo e raramente ou raramente acessa.
- Análise
OOracle Analytics Cloud é um serviço de nuvem pública escalável e seguro que fornece um conjunto completo de recursos para explorar e executar análise colaborativa para você, seu grupo de trabalho e sua empresa. Ele oferece suporte a cientistas de dados dos cidadãos, treinamento de analistas de negócios avançados e modelos de machine learning (ML). Os modelos de aprendizagem de máquina podem ser executados no serviço de análise ou diretamente no Oracle Autonomous Data Warehouse como modelos incorporados por OML para previsões em lote de larga escala que aproveitam o poder de processamento, a escalabilidade e a elasticidade do depósito.
Com o Oracle Analytics Cloud, você também obtém recursos flexíveis de gerenciamento de serviços, incluindo configuração rápida, dimensionamento e aplicação de patches fáceis e gerenciamento automatizado do ciclo de vida.
-
Aprendizado de máquina
O Oracle Machine Learning fornece recursos avançados de machine learning altamente integrados no Oracle Autonomous Database, com suporte para Python e AutoML. Ele suporta modelos usando algoritmos de código aberto e escaláveis no banco de dados que reduzem a preparação e o movimento dos dados. AutoML ajuda os cientistas de dados a acelerar o tempo de valorização das iniciativas de aprendizado de máquina da empresa usando seleção de algoritmo automático, amostragem adaptativa de dados, seleção automática de recursos e ajuste de modelo automático.
Com os serviços do Oracle Machine Learning disponíveis no Oracle Autonomous Data Warehouse, você não só pode gerenciar modelos, mas também pode implantar esses modelos como pontos finais REST para democratizar previsões em tempo real dentro da empresa, permitindo que os negócios reajam aos eventos de relevância à medida que ocorrem em vez de no fato.
-
ciência de dados
O serviço Data Science fornece ferramentas de infraestrutura, tecnologias de código-fonte aberto, bibliotecas, pacotes e ciência de dados para que as equipes de ciência de dados criem, treinem e gerenciem modelos de aprendizado de máquina (ML) no Oracle Cloud Infrastructure. O espaço de trabalho colaborativo e orientado a projetos fornece uma experiência de usuário coesa e completa e suporta o ciclo de vida de modelos preditivos.
O recurso de Implantação de Modelo de Ciência de Dados permite que os cientistas de dados implantem modelos treinados como pontos finais HTTP totalmente gerenciados que podem fornecer previsões em tempo real, incorporando inteligência em processos e aplicativos e permitindo que a empresa reaja a eventos relevantes à medida que ocorrem.
- Catálogo de Dados
O Oracle Cloud Infrastructure Data Catalog fornece visibilidade para ativos técnicos, como atributos de metadados e de metadados, e permite que você mantenha um glossário de negócios mapeado para esses metadados técnicos. O Oracle Cloud Infrastructure Data Catalog também fornece metadados para o Autonomous Data Warehouse a fim de facilitar a criação de tabela externa no data warehouse.
Recomendações
Use as recomendações a seguir como ponto de partida para coletar e combinar dados de aplicativos para análise e aprendizagem de máquina.
Os requisitos podem diferir da arquitetura descrita aqui.
- Oracle Autonomous Data Warehouse
Essa arquitetura usa o Oracle Autonomous Data Warehouse em infraestrutura compartilhada. Ative o dimensionamento automático para dar às cargas de trabalho do banco de dados até três vezes o poder de processamento.
Considere usar o Oracle Autonomous Data Warehouse em uma infraestrutura dedicada se quiser que o recurso de banco de dados de autoatendimento em um ambiente de nuvem de banco de dados privado esteja em execução na nuvem pública.
Considere o uso do recurso Tabelas Particionadas Híbridas do Autonomous Data Warehouse para dados que não são frequentemente consumidos e para os quais você não precisa do mesmo desempenho. Com esse recurso, você pode mover partições de dados para armazenamento de objetos e combiná-los com partições armazenadas no Autonomous Data Warehouse para entrega contínua.
Considere o uso do recurso Tabelas Externas para consumir dados armazenados no armazenamento de objetos em tempo real sem a necessidade de replicá-los para o Autonomous Data Warehouse. Isso permite que o data warehouse consuma dados retirados, independentemente do formato (parquet, avro, orc, json, csv, etc.).
Considere o uso do Data Lake Accelerator ao consumir dados de armazenamento de objetos a fim de oferecer aos usuários uma experiência de consumo e junção de dados entre o data warehouse e o data lake.
- Implantação do modelo do Oracle Machine Learning e do Oracle Cloud Infrastructure Data Science
Essa arquitetura utiliza o Oracle Machine Learning e o Oracle Cloud Infrastructure Data Science para executar previsões em tempo real para fornecer resultados a pessoas e aplicativos.
Considere a implantação de um Gateway de API se as previsões em tempo real estiverem sendo consumidas por parceiros e entidades externas para garantir e controlar o consumo do modelo implantado.
- Catálogo de Dados
Para ter uma visão completa e holística de ponta a ponta dos dados armazenados e fluindo na plataforma, considere a coleta não apenas dos armazenamentos de dados que suportam a camada de persistência de dados, mas também dos armazenamentos de dados de origem. O mapeamento desses metadados técnicos coletados para o glossário de negócios e aprimorá-los com propriedades personalizadas permite mapear conceitos de negócios e documentar e controlar definições de segurança e acesso.
Para facilitar a criação de tabelas externas no Autonomous Data Warehouse que virtualizam dados armazenados no armazenamento de objetos, aproveite os metadados colhidos anteriormente armazenados no Oracle Cloud Infrastructure Data Catalog. Isso simplifica a criação de tabelas externas, impõe a consistência dos metadados entre armazenamentos de dados e é menos propensa a erros humanos.
Considerações
Ao coletar e combinar dados de aplicativos e dados de evento de streaming para análise e aprendizado de máquina, considere as seguintes opções de implementação.
Orientação | Data Refinery | Plataforma de Persistência de Dados | Interpretação do & de Acesso |
---|---|---|---|
Recomendado |
|
|
|
Outras Opções |
|
Oracle Exadata Database Service | Ferramentas de terceiros |
Motivo |
O Oracle Cloud Infrastructure Data Integration fornece uma plataforma ETL nativa da nuvem, sem servidor e totalmente gerenciada, dimensionável e econômica. O Oracle Cloud Infrastructure GoldenGate fornece uma plataforma de replicação de dados nativa da nuvem, sem servidor, totalmente gerenciada e não intrusiva que é escalável, econômica e que pode ser implantada em ambientes híbridos. |
O Oracle Autonomous Data Warehouse é um banco de dados fácil de usar e totalmente autônomo que é dimensionado de forma elástica, oferece rápido desempenho de consultas e não exige administração de banco de dados. Ele também oferece acesso direto aos dados do armazenamento de objetos usando tabelas particionadas externas ou híbridas. O Oracle Cloud Infrastructure Object Storage armazena dados ilimitados em formato bruto. |
O Oracle Analytics Cloud é um sistema totalmente gerenciado e totalmente integrado aos dados selecionados no Oracle Autonomous Data Warehouse. O serviço Oracle Cloud Infrastructure Data Science é uma plataforma de autoatendimento totalmente gerenciada para que as equipes de ciência de dados construam, treinem e gerenciem modelos de aprendizado de máquina (ML) no Oracle Cloud Infrastructure. O serviço Data Science fornece ferramentas de infraestrutura e ciência de dados, como AutoML e recursos de implantação de modelos. O Oracle Machine Learning é uma plataforma de autoatendimento totalmente gerenciada para ciência de dados disponível com o Autonomous Data Warehouse que aproveita o poder de processamento do warehouse para criar, treinar, testar e implantar modelos de AM em escala sem a necessidade de mover os dados fora do warehouse. |
Implantar
O código Terraform para esta arquitetura de referência está disponível no GitHub. Você pode extrair o código para o Oracle Cloud Infrastructure Resource Manager com um único clique, criar a pilha e implantá-lo. Como alternativa, faça download do código do GitHub para seu computador, personalize o código e implante-o usando a CLI do Terraform.
- Implante usando o Oracle Cloud Infrastructure Resource Manager:
- Clique em
Se você ainda não estiver conectado, informe a tenancy e as credenciais do usuário.
- Revise e aceite os termos e condições.
- Selecione a região na qual você deseja implantar a pilha.
- Siga os prompts na tela e as instruções para criar a pilha.
- Após criar a pilha, clique em Ações do Terraform e selecione Planejar.
- Aguarde a conclusão da tarefa e revise o plano.
Para fazer qualquer alteração, retorne à página Detalhes da Pilha, clique em Editar Pilha e faça as alterações necessárias. Em seguida, execute a ação Planejar novamente.
- Se nenhuma outra alteração for necessária, retorne à página Detalhes da Pilha, clique em Ações do Terraform e selecione Aplicar.
- Clique em
- Implante usando a CLI do Terraform:
- Vá para GitHub.
- Faça download ou clone do código no computador local.
- Siga as instruções no arquivo README.
Alterar Log
Esse log lista as alterações significativas:
22 de maio de 2023 |
|
01 de fevereiro de 2022 |
|