Processe Dados em Massa Usando o OCI Data Integration e o Oracle Integration Cloud Services

Processe ou integre dados em massa de fontes externas a sistemas ou aplicativos direcionados.

Considere este cenário: você recebe dados em massa de uma origem externa (por exemplo, clientes, fornecedores, funcionários, produtos). Antes de atingir seus sistemas ou aplicativos finais, os dados precisam ser orquestrados, enriquecidos, combinados ou organizados. Como parte do fluxo para conseguir isso, você precisa se integrar a dois ou mais aplicativos ou serviços intermediários ou aplicar transformações complexas aos dados. Esse processo pode adicionar atributos adicionais aos dados após fazer chamadas ou orquestrar com vários aplicativos de terceiros (com base, por exemplo, REST, SOAP). Esses dados transacionais também podem precisar de transformações complexas (JSON ou XML), pesquisas ou referências cruzadas.

Esse cenário pode ser facilmente implementado com dois serviços de nuvem: OCI Data Integration e Oracle Integration, em que o OCI Data Integration aborda todas as suas necessidades de integração de dados ou "Extrair, Transformar, Carregar" (ETL) e o Oracle Integration aborda toda a integração de aplicativos ou conectividade de nível empresarial, independentemente dos aplicativos que você está conectando ou onde eles residem.

Arquitetura

Essa arquitetura de referência representa um caso de uso para usar o OCI Data Integration e o Oracle Integration para processar dados em massa.

Essa arquitetura de referência também aborda os desafios do processamento de arquivos Apache Parquet, Apache Avro e Microsoft Excel no Oracle Integration por meio do OCI Data Integration. Por exemplo, para processar dados de relatórios financeiros (por exemplo, contas a pagar, contas a receber, LRs, fluxos de caixa, ativos e passivos, receita) o OCI Data Integration converte esses formatos de arquivo em arquivos CSV (valores separados por vírgulas), que são processados pelo Oracle Integration.

O diagrama a seguir ilustra essa arquitetura de referência.



oci-bulk-data-integração-arquitetura-diagrama-oracle.zip

Aqui está uma explicação das etapas mostradas na arquitetura de referência acima:

  1. Origens externas (por exemplo, aplicações personalizadas, aplicações não Oracle, bancos de dados Oracle em execução em nuvens de terceiros, serviços de nuvem de terceiros, bancos de dados locais e aplicações) fazem upload ou eliminam o arquivo de carregamento de dados em massa em um bucket do OCI Object Storage.
  2. Serviço OCI Observability & Management: O OCI Events procura um objeto ou arquivo carregado no bucket do OCI Object Storage.
  3. O OCI Events aciona uma ação para chamar o OCI Functions com um bucket e um nome de arquivo.
  4. O serviço OCI Functions recebe o evento e chama o pipeline do OCI Data Integration com parâmetros de entrada: nome do bucket e nome do arquivo.
  5. O pipeline do OCI Data Integration lê o arquivo de carregamento de dados em massa do bucket do OCI Object Storage e divide o arquivo de dados grande e único em vários arquivos menores. Em seguida, ele faz upload dos arquivos divididos no bucket do OCI Object Storage.
  6. Outra instância do OCI Events procura arquivos divididos carregados no bucket do OCI Object Storage.
  7. O OCI Events aciona uma ação para chamar o OCI Functions com um nome de bucket e para cada nome de arquivo.
  8. O serviço OCI Functions recebe o evento e chama o fluxo do Oracle Integration com os parâmetros de entrada do nome do bucket e de cada nome de arquivo.
  9. O Oracle Integration lê cada arquivo do bucket do OCI Object Storage.
  10. O Oracle Integration, com base no requisito, orquestra e enriquece os dados fazendo chamadas para um ou mais aplicativos ou sistemas intermediários. Em seguida, ele executa funções complexas (por exemplo, transformações, pesquisas, referências cruzadas) e, finalmente, processa os dados em sistemas ou aplicativos downstream.

A arquitetura tem os seguintes componentes:

  • Região

    Região do Oracle Cloud Infrastructure é uma área geográfica localizada que contém um ou mais data centers, denominada domínios de disponibilidade. As regiões são independentes de outras regiões, e grandes distâncias podem separá-las (entre países ou até mesmo continentes).

  • Data Integration

    O Oracle Cloud Infrastructure Data Integration é um serviço totalmente gerenciado, sem servidor e nativo da nuvem que extrai, carrega, transforma, limpa e reformula dados de uma variedade de origens de dados para serviços de destino do Oracle Cloud Infrastructure, como o Autonomous Data Warehouse e o Oracle Cloud Infrastructure Object Storage. Os usuários projetam processos de integração de dados usando uma interface de usuário intuitiva e sem código que otimiza os fluxos de integração para gerar o mecanismo e a orquestração mais eficientes, alocando e dimensionando automaticamente o ambiente de execução.

    O ETL (carga de transformação de extração) aproveita o processamento de expansão totalmente gerenciado no Spark e o ELT (transformação de carga de extração) aproveita os recursos completos de push-down SQL do Autonomous Data Warehouse para minimizar a movimentação de dados e melhorar o tempo de valorização dos dados recém-ingerados.

    O Oracle Cloud Infrastructure Data Integration fornece exploração interativa e preparação de dados e ajuda os engenheiros de dados a se protegerem contra divergências de esquema definindo regras para lidar com alterações de esquema.

  • Integração

    O Oracle Integration é um ambiente totalmente gerenciado e pré-configurado que permite integrar aplicativos na nuvem e on-premises, automatizar processos de negócios e desenvolver aplicativos visuais. Ele usa um servidor de arquivos compatível com SFTP para armazenar e recuperar arquivos e permite que você troque documentos com parceiros comerciais business-to-business usando um portfólio de centenas de adaptadores e receitas para se conectar com aplicativos Oracle e de terceiros.

  • Eventos

    Os serviços do Oracle Cloud Infrastructure emitem eventos, que são mensagens estruturadas que descrevem as alterações nos recursos. Os eventos são emitidos para operações de criação, leitura, atualização ou exclusão (CRUD), alterações no estado do ciclo de vida do recurso e eventos do sistema que afetam os recursos da nuvem.

  • Funções

    O Oracle Cloud Infrastructure Functions é uma plataforma Functions-as-a-Service (FaaS) totalmente gerenciada, multitenant, altamente escalável e sob demanda. Ele é alimentado pelo mecanismo de código aberto do Fn Project. As funções permitem que você implante seu código e o chame diretamente ou acione-o em resposta a eventos. O Oracle Functions usa contêineres do Docker hospedados no Oracle Cloud Infrastructure Registry.

  • Rede virtual na nuvem (VCN) e sub-redes

    Uma VCN é uma rede personalizável definida por software que você configura em uma região do Oracle Cloud Infrastructure. Como as redes tradicionais de data center, as VCNs oferecem controle sobre seu ambiente de rede. Uma VCN pode ter vários blocos CIDR não sobrepostos que você pode alterar após a criação da VCN. Você pode segmentar uma VCN em sub-redes, com escopo definido para uma região ou para um domínio de disponibilidade. Cada sub-rede consiste em um intervalo contíguo de endereços que não se sobrepõem a outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.

  • Lista de segurança

    Para cada sub-rede, você pode criar regras de segurança que especifiquem a origem, o destino e o tipo de tráfego que deve ser permitido dentro e fora da sub-rede.

  • Tabela de roteamento

    As tabelas de roteamento virtual contêm regras para rotear o tráfego de sub-redes para destinos fora de uma VCN, geralmente por meio de gateways.

Reconhecimentos

  • Autores: Pavan Rajalbandi
  • Colaboradores: John Sulyok