Crie um ambiente seguro de Integração de Dados do OCI com tarefas predefinidas de modelos
Crie tarefas de processamento de dados seguras e escaláveis de origens externas para um armazenamento de dados do Oracle Autonomous Data Warehouse de destino usando o Oracle Cloud Infrastructure Data Integration (OCI Data Integration) Service.
Nesta arquitetura de referência, estamos considerando um cenário em que seus dados comerciais estão espalhados por armazenamentos de dados locais, enquanto a empresa já está tentando migrar alguns aplicativos para a nuvem. O OCI Data Integration pode estender qualquer recurso, preexistente no local e em outras nuvens, aproveitando a conectividade de rede e armazenamento de dados presente na malha do OCI de forma segura e escalável.
Arquitetura
Essa arquitetura descreve os diferentes componentes que poderiam estar envolvidos no cenário acima.
Para uma estratégia multicloud, você pode encontrar tecnologias e serviços de dados em outros provedores de nuvem para os quais a OCI fornece referências de arquitetura para conectividade com outros provedores de nuvem. Os armazenamentos de dados locais variam para várias tecnologias, desde dados armazenados em arquivos até conjuntos de dados orientados a processos em ERPs.
O diagrama a seguir ilustra a arquitetura de referência e a jornada de dados.
oci-data-integration-flow-oracle.zip
Aqui estão as etapas para ingerir, processar e enriquecer dados com segurança para se tornar uma parte das informações de destino armazenadas no banco de dados downstream ou no lakehouse.
- Por meio do Oracle Cloud Infrastructure FastConnect ou da VPN Site a Site, as origens de dados locais podem ser ingeridas usando conectores de Ativos de Dados do OCI Data Integration.
- Da mesma forma, as origens de dados que podem ser acessadas pelos conectores do OCI Data Integration Data Assets podem ser usadas para extrair conjuntos de dados que residem nas outras nuvens (por exemplo, aplicativos personalizados, aplicativos não Oracle, bancos de dados Oracle em execução em nuvens de terceiros, Oracle Fusion SaaS, serviços de nuvem de terceiros e aplicativos). Também é possível fazer upload de dados em arquivos de carga em massa para buckets do Oracle Cloud Infrastructure Object Storage sempre que não forem acessíveis diretamente por um conector de Ativo de Dados do OCI Data Integration.
A Oracle desenvolveu soluções específicas de conectividade na nuvem para outros provedores de nuvem, como Microsoft Azure, Amazon Web Services e Google Cloud Platform. Na ausência de interoperabilidade vertical da nuvem, a conectividade com serviços ou aplicativos pode ser feita de forma segura por meio de um gateway NAT, garantindo que apenas o tráfego de saída para a internet seja permitido. O OCI mitiga qualquer exposição de dados na internet criptografando a conectividade de ponta a ponta com os pontos finais. No entanto, na ingestão, os Pipelines de Integração de Dados do OCI podem orquestrar outros tipos de entrada de dados, como streaming de dados em tempo real de alto volume e réplicas de origem de dados com o Oracle GoldenGate. Os recursos de orquestração da chamada de chamadas de API REST para serviços OCI podem aproveitar a detecção de alterações de arquivo nos buckets do OCI Object Storage e a combinação com Eventos e Funções de Integração, complicar fluxos de dados de ingestão.
- Quando os dados são ingeridos na malha do OCI, eles são processados em redes virtuais na nuvem (VCN) exclusivas que podem ser mais isoladas do acesso à internet. Os serviços de integração de dados (OCI Data Integration) por meio de fluxos de dados podem executar várias transformações em uma interface sem código, mapeando entidades de origem e destino e as respectivas transformações. Ao mesmo tempo em que ocorrem transformações de dados, os serviços do OCI Data Catalog comprometem a catalogação a fornecer linhagem. Os dados armazenados nos Bancos de Dados Oracle podem estar sujeitos a regulamentos de privacidade e conformidade. O Oracle Data Safe avalia a postura de segurança do banco de dados, identificando e categorizando riscos, eventualmente mascarando informações consideradas confidenciais. Outro recurso para segurança de dados e informações, o OCI Vault, fornece serviços para armazenar e gerenciar chaves e segredos, como informações de contas e senhas, criptografando-os e simplificando o processo geral de proteção de dados.
- Embora os Pipelines de Integração de Dados do OCI e os Fluxos de Dados de Integração de Dados do OCI promovam o enriquecimento de ativos de dados, os operadores REST também podem proteger o acesso a outros serviços do OCI. Nessa capacidade, a OCI Data Integration Orchestration pode chamar notebooks no Data Science para aprendizado de máquina ou interrogar serviços de inteligência artificial para aumentar os dados com o Forecast ou Anomaly Detection. A OCI Data Integration Orchestration pode utilizar mecanismos Spark para expandir o processamento de dados extensivo usando o OCI Data Flow com a mesma malha segura do OCI. Todo o gerenciamento de orquestração, como Monitoramento, Registro em Log e Notificações, é integrado por meio do mecanismo exato.
- O OCI Data Integration grava em qualquer armazenamento da Oracle no OCI ou no local, mais combinações de data lake do OCI e MySQL. O Analytics aproveita imediatamente as lojas de destino com recursos abrangentes para visualização de dados, modelagem de negócios e relatórios pixel perfeitos.
- Consumidores, produtores e desenvolvedores de dados são organizados com segurança em políticas detalhadas para controle de acesso de dados e recursos.
O diagrama de arquitetura a seguir detalha ainda mais a implementação, criando uma possível separação de sub-rede de rede.
oci-data-integration-arch-oracle.zip
Os serviços de Integração de Dados do OCI fornecem conectividade pronta para uso com muitas origens de dados, e os microbatches podem processar os dados de forma incremental no ambiente do OCI. Da mesma forma, outros serviços do OCI podem ser chamados para enriquecer e selecionar ainda mais os conjuntos de dados.
- O processamento em lote transforma conjuntos de dados em larga escala de sistemas de origem, aproveitando serviços nativos do OCI que se integram perfeitamente ao OCI Object Storage e permitem que você crie dados selecionados para casos de uso como agregação e enriquecimento de dados, ingestão de data warehouse e aprendizado de máquina e uso de dados de IA em escala.
- O OCI Data Integration é um serviço nativo da nuvem totalmente gerenciado e sem servidor que extrai, carrega, transforma, limpa e modifica dados de várias origens de dados para serviços do Oracle Cloud Infrastructure de destino, como Autonomous Data Warehouse e OCI Object Storage.
- O OCI Data Integration orquestra as dependências dentro dos fluxos de dados de processamento, mas também com os serviços restantes do Oracle Cloud Infrastructure, como OCI Artificial Intelligence e Oracle Machine Learning para enriquecimento de dados ou classificação adicional e Data Safe para segurança e conformidade de dados. Políticas com controle granular de acesso mantêm a autenticação e a autorização de serviço para serviço.
- Os Modelos de Aplicativos de Integração de Dados do OCI fornecem um conjunto de Tarefas de Integração de Dados do OCI (REST (API), SQL, Integração (fluxo de dados) e Pipelines imediatamente disponíveis para uso. As tarefas são totalmente parametrizadas, permitindo que sejam usadas diretamente. As tarefas também podem ser salvas em novos projetos e pastas, permitindo que o design seja modificado para acomodar mais detalhes de implementação.
A arquitetura tem os seguintes componentes:
- Região
Uma região do Oracle Cloud Infrastructure é uma área geográfica localizada que contém um ou mais data centers, denominada domínios de disponibilidade. As regiões são independentes de outras regiões, e grandes distâncias podem separá-las (entre países ou até mesmo continentes).
- Rede virtual na nuvem (VCN) e sub-redes
Uma VCN é uma rede personalizável e definida por software que você configura em uma região do Oracle Cloud Infrastructure. Como as redes tradicionais de data center, as VCNs oferecem total controle sobre seu ambiente de rede. Uma VCN pode ter vários blocos CIDR não sobrepostos que você pode alterar após a criação da VCN. Você pode segmentar uma VCN em sub-redes, com escopo definido para uma região ou para um domínio de disponibilidade. Cada sub-rede consiste em um intervalo contíguo de endereços que não se sobrepõem a outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.
- Data Integration
O Oracle Cloud Infrastructure Data Integration é um serviço de nuvem nativo, totalmente gerenciado, multitenant, sem servidor e que ajuda você nas tarefas comuns de ETL, como ingerir dados de diferentes origens, limpar, transformar e remodelar esses dados de forma eficiente e carregá-los em origens de dados de destino no OCI.
A ingestão de dados de várias origens (por exemplo, Amazon Redshift, Azure SQL Database e Amazon S3) no Object Storage e Autonomous Data Warehouse é a primeira etapa desse processo.
- Object Storage
O armazenamento de objetos oferece acesso rápido a grandes quantidades de dados estruturados e não estruturados de qualquer tipo de conteúdo, incluindo backups de bancos de dados, dados analíticos e conteúdo avançado, como imagens e vídeos. Você pode armazenar de forma segura e depois recuperar dados diretamente da internet ou de dentro da plataforma da nuvem. Você pode dimensionar o armazenamento de forma integrada sem prejudicar o desempenho ou a confiabilidade do serviço. Use o armazenamento padrão para armazenamento de acesso frequente que você precisa acessar de forma rápida, imediata e com frequência. Use o armazenamento de arquivos compactados para armazenamento "frio" que você mantém por longos períodos de tempo e raramente acessa.
- Ciência de Dados
O Oracle Cloud Infrastructure Data Science é uma plataforma totalmente gerenciada e sem servidor que as equipes de ciência de dados podem usar para criar, treinar e gerenciar modelos de aprendizado de máquina (ML) no Oracle Cloud Infrastructure (OCI). Ele pode facilmente integrar-se com outros serviços do OCI, como Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage e muito mais. Você pode criar e avaliar modelos de aprendizado de máquina de alta qualidade que aumentem a flexibilidade dos negócios, colocando dados confiáveis da empresa para funcionar rapidamente e pode oferecer suporte a objetivos de negócios orientados por dados com uma implantação mais fácil de modelos de ML.
- Oracle Machine Learning
O Oracle Machine Learning oferece recursos para criar, treinar e implantar modelos para dados no banco de dados. O Oracle Machine Learning fornece uma interface de notebook Zeppelin que permite aos cientistas de dados treinar modelos usando a biblioteca cliente Python OML4Py. O Oracle Machine Learning também oferece uma abordagem sem código para treinamento de modelo com a interface de usuário AutoML. A implantação de modelos como APIs REST pode ser feita por meio do Oracle Machine Learning Services. No entanto, há suporte limitado para software de código-fonte aberto.
- Serviços AI
Os serviços de IA do Oracle Cloud Infrastructure fornecem uma coleção de APIs de modelos pré-treinados e personalizáveis em casos de uso que abrangem linguagem, visão, fala, decisão e previsão. Os serviços de IA fornecem previsões de modelo acessíveis por meio de pontos finais de API REST. Esses serviços fornecem modelos pré-treinados de última geração e devem ser considerados e avaliados antes do treinamento de modelos personalizados de aprendizado de máquina usando serviços de 1 a 6. Como alternativa, os serviços do Oracle Machine Learning também fornecem uma série de modelos pré-treinados para linguagem (tópico, palavras-chave, resumo, similaridade) e visão.
- Serviço Data Safe
O Oracle Data Safe é um serviço de nuvem regional totalmente integrado e focado que fornece um conjunto completo de recursos para proteger dados confidenciais e regulamentados em bancos de dados Oracle. O Data Safe também suporta bancos de dados locais, Oracle Exadata Database Service on Cloud@Customer e implantações multicloud. Todos os clientes do Oracle Database podem reduzir o risco de uma violação de dados e simplificar a conformidade usando o Oracle Data Safe para avaliar o risco da configuração e do usuário, monitorar e auditar a atividade do usuário e descobrir, classificar e mascarar dados confidenciais.
- Autonomous Data Warehouse
O Oracle Autonomous Data Warehouse é um serviço de banco de dados independente, com autoproteção e autorreparo, otimizado para cargas de trabalho de data warehousing. Você não precisa configurar nem gerenciar nenhum hardware, nem instalar nenhum software. O Oracle Cloud Infrastructure trata da criação do banco de dados, bem como do backup, aplicação de patches, upgrade e ajuste do banco de dados.
Recomendações
- VCN
Quando você cria uma VCN, determina o número de blocos CIDR necessários e o tamanho de cada bloco com base no número de recursos que planeja anexar às sub-redes na VCN. Use blocos CIDR que estão dentro do espaço de endereço IP privado padrão.
Selecione blocos CIDR que não se sobrepõem a nenhuma outra rede (no Oracle Cloud Infrastructure, no seu data center local ou em outro provedor de nuvem) para a qual você pretende configurar conexões privadas.
Depois de criar uma VCN, você poderá alterar, adicionar e remover seus blocos CIDR.
Ao projetar as sub-redes, considere seu fluxo de tráfego e os requisitos de segurança. Anexe todos os recursos dentro de uma camada ou atribuição específica à mesma sub-rede, que pode servir como limite de segurança.
- Modelos do OCI Data Integration
Muitas tarefas diárias de gerenciamento podem ser facilmente automatizadas usando ou reutilizando tarefas de modelo. Além disso, os modelos expandem os recursos de processamento e gerenciamento de dados do OCI Data Integration, oferecendo um conjunto distinto de tarefas personalizadas para auxiliar os engenheiros de dados. Casos de uso para chamar outros serviços do OCI, como o Oracle Cloud Infrastructure AI Services, para classificações de documentos, o Oracle Data Safe para mascarar conteúdo a ser armazenado, e controlar e reportar no feed incremental para o Autonomous Data Warehouse são blocos de construção de modelos para facilitar o uso do OCI Data Integration.
A lista de modelos atualmente disponíveis é:
- Gerenciamento do Oracle Object Store
Aplicativo com tarefas REST para que o Object Storage copie, exclua e renomeie objetos e crie e exclua buckets.
- Imagem do Oracle Vision
Aplicativo com tarefas REST para executar a Análise de Imagem do OCI Vision. As tarefas incluem classificação de imagem, detecção de objeto e detecção de texto de imagem.
- Documento do Oracle Vision
Aplicativo com tarefas REST para executar a IA do Documento do OCI Vision. As tarefas incluem classificação de documentos, detecção de chave/valor de documentos, classificação de idiomas de documentos, detecção de tabelas de documentos e detecção de texto de documentos.
- Mascaramento do Oracle DataSafe
Aplicativo com tarefas parametrizadas para gerar um modelo confidencial do Oracle Data Safe e mascarar de um esquema de banco de dados Oracle de destino.
- Carregar Arquivos do Oracle Object Storage para o ADW
Aplicativo com tarefas para carregar diferentes tipos de arquivo do OCI Object Storage para o Autonomous Data Warehouse: JSON, Parquet, CSV, Avro.
- Carga Incremental do Oracle Database para Autonomous Data Warehouse (Gerenciado pelo Cliente)
Aplicativo que permite que tarefas incrementais sejam executadas com base e reportem a última execução em uma tabela de metadados armazenada em um esquema de destino do Autonomous Data Warehouse.
- Oracle Fusion Applications usando Oracle Business Intelligence Publisher (BIP) para Carga Incremental do ADW
Aplicativo que permite que o Oracle Fusion Applications use relatórios do Oracle Business Intelligence Publisher (BIP) para executar extrações com base e reportar a última execução em uma tabela de metadados armazenada em um esquema de destino do Autonomous Data Warehouse.
- Gerenciamento do Oracle Object Store
Considerações
Ao coletar, processar e selecionar dados do aplicativo para análise e aprendizado de máquina, considere as seguintes opções de implementação.
- Processamento de Dados
- O Oracle Cloud Infrastructure Data Integration fornece uma plataforma ETL nativa da nuvem, sem servidor e totalmente gerenciada, escalável e econômica.
- O Oracle Cloud Infrastructure Data Flow fornece um ambiente Spark sem servidor para processar dados em escala com um modelo de pagamento por uso extremamente elástico.
- O Oracle Cloud Infrastructure Big Data Service oferece o Hadoop-as-a-service de nível empresarial com segurança completa, alto desempenho, facilidade de gerenciamento e capacidade de upgrade.
- Persistência de Dados
- O Oracle Autonomous Data Warehouse é um banco de dados fácil de usar, totalmente autônomo, que tem escala elástica, oferece rápido desempenho para consultas e não exige administração de banco de dados. Ele também oferece acesso direto aos dados de tabelas particionadas externas ou híbridas de armazenamento de objetos.
- O Oracle Cloud Infrastructure Object Storage armazena dados ilimitados em formato bruto.
- Refinaria de Dados
O Oracle Cloud Infrastructure Data Integration fornece uma plataforma ETL nativa da nuvem, sem servidor e totalmente gerenciada, escalável e econômica.
Implantar
O código do Terraform para esta arquitetura de referência está disponível em GitHub.
- Vá para GitHub.
- Clone ou faça download do repositório para seu computador local.
- Siga as instruções no documento
README
.
Explorar Mais
Revise esses recursos adicionais para saber mais sobre os recursos dessa arquitetura de referência.
- Plataforma de Dados da Oracle
- Usando Aplicativos de Integração de Dados e Modelos de Aplicativos
- Tour do Fluxo de Dados do OCI Data Integration
- Origens de Dados Suportadas para Ativos de Dados
- Soluções multinuvem da OCI
- O que é multicloud?
- Estrutura de melhores práticas do Oracle Cloud Infrastructure
- Documentação do Oracle Cloud Infrastructure
- Estimador de Custos do Oracle Cloud