Consumir e Transformar Dados Usando um Fluxo de Dados

Fluxo de dados é um diagrama lógico que representa o fluxo de dados dos ativos de dados de origem, como um banco de dados ou um arquivo sem formatação, para ativos de dados de destino, como um data lake ou data warehouse.

O fluxo de dados da origem ao destino pode sofrer uma série de transformações para agregar, limpar e moldar os dados. Engenheiros de dados e desenvolvedores de ETL podem analisar ou reunir informações e usar esses dados para tomar decisões de negócios impactantes.

Neste tutorial, você:

Crie um projeto no qual você possa salvar o fluxo de dados.
Adicione os operadores de origem e selecione as entidades de dados a serem usadas no fluxo de dados.
Use operadores de modelagem e aplique transformações.
Identifique o ativo de dados de destino para carregar os dados.

Antes de Começar

Para consumir e transformar dados usando um fluxo de dados, você deve ter o seguinte:

Acesso ao espaço de trabalho do Data Integration. Consulte Estabelecer Conexão com o Data Integration.
Ativos de dados de origem e de destino criados.

A permissão PAR_MANAGE ativada no bucket de preparação.

allow any-user to manage buckets in compartment <compartment-name> where ALL {request.principal.type = 'disworkspace', request.principal.id = '<workspace-ocid>', request.permission = 'PAR_MANAGE'}

Os bancos de dados autônomos usam o Object Storage para preparar dados e precisam de solicitações pré-autenticadas.

1. Criando um Projeto e um Fluxo de Dados

No Oracle Cloud Infrastructure Data Integration, os fluxos de dados e tarefas só podem ser criados em um projeto ou pasta.

Para criar um projeto e um fluxo de dados:

Na Home page do espaço de trabalho, selecione Projetos.
Se precisar de ajuda para localizar o espaço de trabalho do Data Integration para trabalhar, consulte Criando e Acessando um Espaço de Trabalho.
Na página Projetos, selecione Criar projeto e, em seguida, Criar novo.
Na página Criar projeto, informe DI_Lab para Nome e, em seguida, selecione Criar.

Depois de criar um projeto, crie um fluxo para ingerir dados de dois arquivos-fonte, contendo informações dos clientes (CUSTOMERS.json) e das ordens (REVENUE.csv).
Na página DI_Lab de detalhes de projeto, selecione Fluxo de dados no submenu do lado esquerdo.
Se estiver na página Projetos, selecione DI_Lab para abrir a página Detalhes do Projeto.
Selecione Criar fluxo de dados.

O designer de fluxo de dados é aberto em uma nova guia.
No painel Propriedades, para Nome, digite Load Customers and Revenue Data.

O valor do Identificador é gerado automaticamente com base no valor informado para o nome do fluxo de dados. Você pode alterar o valor gerado, mas depois de salvar o fluxo de dados, não terá permissão para atualizar o identificador.
Selecione Criar.

O designer permanece aberto para você continuar editando.

2. Adicionando Operadores de Origem

Adicione operadores de origem para identificar as entidades de dados a serem usadas para o fluxo de dados. Uma entidade de dados representa uma tabela de banco de dados neste tutorial.

No painel Operadores, solte um operador de Origem na tela.
Na tela, selecione SOURCE_1, se ainda não estiver selecionado.

O painel Propriedades exibe os detalhes do operador em foco.
Na guia Detalhes do painel Propriedades, clique em Selecionar ao lado de cada uma das seguintes opções para fazer as seleções:
- Para Ativo de dados, selecione Data_Lake.
- Para Conexão, selecione Conexão padrão.
- Para Esquema, selecione o compartimento e, em seguida, o bucket. Para os fins deste tutorial, o Object Storage serve como ativo de dados de origem. É por isso que você seleciona o bucket aqui.
- Para Entidade de Dados, selecione Procurar por nome e, em seguida, CUSTOMERS.json. Para Tipo de arquivo, selecione JSON.
Quando você conclui as seleções para SOURCE_1, o nome do operador se torna CUSTOMERS_JSON, refletindo a seleção da entidade de dados. No campo Identificador, renomeie o operador de origem como CUSTOMERS.
Repita as etapas de 1 a 3 para adicionar um segundo operador de origem com os seguintes valores:
- Para Ativo de dados, selecione Data_Lake.
- Para Conexão, selecione Conexão Padrão.
- Para Esquema, selecione o compartimento e, em seguida, o bucket. Para os fins deste tutorial, o Object Storage serve como ativo de dados de origem. É por isso que você seleciona o bucket aqui.
- Para Entidade de dados, selecione REVENUE.csv e, em seguida, selecione CSV para o tipo de arquivo. Aceite os valores padrão para os itens restantes.
Quando você conclui as seleções do segundo operador de origem, o nome do operador torna-se REVENUE_CSV, refletindo a seleção da entidade de dados. No campo Identificador, renomeie o operador de origem como REVENUE.
(Opcional) Selecione Designar parâmetro para impedir que os detalhes da origem sejam vinculados ao código compilado quando você publicar o fluxo de dados.
(Opcional) Na guia Atributos, você pode exibir os atributos da entidade e aplicar regras para exclusão ou renomeação aos atributos de seu respectivo menu Ações (três pontos).
Você também pode usar o ícone de filtro na coluna Nome ou Tipo para aplicar um ou mais filtros nos atributos a serem excluídos.
(Opcional) Na guia Dados, você pode exibir uma amostra de dados da entidade de dados de origem e aplicar transformações aos dados ou selecionar atributos para exibir um perfil de dados.
(Opcional) Na guia Validação, você pode verificar se há avisos ou erros com a configuração dos operadores de origem.
Para salvar o fluxo de dados e continuar editando, selecione Salvar.

3. Filtrando e Transformando Dados

Filtrando Dados

O operador de Filtro produz um subconjunto de dados de um operador de upstream com base em uma condição.

No painel Operadores, solte um operador de Filtro na tela.
Conecte REVENUE a FILTER_1:
- Coloque o cursor em REVENUE.
- Arraste o círculo do conector ao lado de REVENUE.
- Solte o círculo do conector em FILTER_1.
Selecione FILTER_1.
No painel Propriedades, selecione Criar ao lado de Condição de filtro.
No painel Criar condição de filtro, digite STA no campo Pesquisar por nome.
Clique duas vezes ou solte ORDER_STATUS para adicioná-lo ao editor de condições de filtro.
No editor de condições, digite ='1-Booked', portanto, a condição é a seguinte:

FILTER_1.REVENUE_CSV.ORDER_STATUS='1-Booked'

Observação

Para evitar problemas com as aspas, não copie e cole.
Selecione Criar.
No painel Operadores, solte um operador Filtro na tela, colocando-o depois de CUSTOMERS.
Conecte CUSTOMERS a FILTER_2:
- Coloque o cursor em CUSTOMERS.
- Arraste o círculo do conector no lado direito de CUSTOMERS.
- Solte o círculo do conector em FILTER_2.
No painel Propriedades de FILTER_2, selecione Criar ao lado de Condição de filtro.
No painel Criar condição de filtro, digite COU no campo Pesquisar por nome.
Clique duas vezes em COUNTRY_CODE para adicioná-lo ao editor de condição.
Informe ='US' para que a condição seja a seguinte:

FILTER_2.CUSTOMERS_JSON.COUNTRY_CODE='US'
Selecione Criar.
Para salvar o fluxo de dados e continuar editando, selecione Salvar.

Transformando Dados

Usando o Data Xplorer, você pode explorar uma amostra de dados, revisar metadados de perfil e aplicar transformações na guia Dados do painel Propriedades. Os operadores de expressão são adicionados à tela para cada transformação aplicada.

No painel Propriedades de FILTER_2, selecione a guia Dados.
Todas as linhas de dados e atributos são exibidos. Você pode usar a barra de rolagem vertical para rolar as linhas e a barra de rolagem horizontal para rolar os atributos.
No campo Pesquisar por padrão, digite STATE*.
O número de atributos na tabela é filtrado. São exibidos somente os atributos correspondentes ao padrão.
Selecione o menu de transformações () para FILTER_2.CUSTOMERS_JSON.STATE_PROVINCE e selecione Alterar maiúsculas e minúsculas.
Na caixa de diálogo Change case, no menu Type, selecione Upper.
Não marque a caixa de seleção Manter atributos de origem.
Deixe o Nome como está.
Selecione Aplicar.

Um operador de expressão é adicionado ao fluxo de dados. No painel Propriedades, a guia Detalhes agora está em foco, mostrando os detalhes do operador de expressão.

Na tabela Expressões, você pode ver a expressão gerada, UPPER(EXPRESSION_1.CUSTOMERS_JSON.STATE_PROVINCE).
No painel Propriedades do operador de expressão, altere o nome no campo Identificador para CHANGE_CASE.
Selecione a guia Dados e use a barra horizontal de rolagem para rolar até o final.

CHANGE_CASE.STATE_PROVINCE é adicionado ao final do conjunto de dados. Você pode visualizar os dados transformados para CHANGE_CASE.STATE_PROVINCE na guia Dados.
No painel Operadores, solte o operador de Expressão na tela, colocando-o após CHANGE_CASE.
Conecte CHANGE_CASE ao novo operador EXPRESSION_1.
No painel Propriedades de EXPRESSION_1, selecione Adicionar expressão na tabela Expressões.
No painel Adicionar expressão:
1. No campo Identificador, renomeie a expressão para FULLNAME.
2. Mantenha Tipo de dados como VARCHAR.
3. Defina Comprimento como 200.
4. Em Construtor de expressão, alterne da lista Entrada para a lista Funções.
5. No campo Pesquisar por Nome, digite CON. Em seguida, localize CONCAT em String.
6. Digite CONCAT(CONCAT(EXPRESSION_1.CUSTOMERS_JSON.FIRST_NAME, ' '),EXPRESSION_1.CUSTOMERS_JSON.LAST_NAME)
  
  Você também pode destacar os placeholders de uma função e clicar duas vezes ou eliminar atributos da lista Entrada para criar uma expressão.
7. Selecione Adicionar.
A expressão CONCAT agora é listada na tabela Expressões do operador EXPRESSION_1. Você pode adicionar quantas expressões desejar.
Para salvar o fluxo de dados e continuar editando, selecione Salvar.

4. Associando Dados

Depois de aplicar filtros e transformações, você poderá juntar as entidades de dados de origem usando um identificador de cliente exclusivo e, em seguida, carregar os dados em uma entidade de dados de destino.

Para juntar os dados de EXPRESSION_1 com os dados de FILTER_1, solte um operador de Junção no painel Operadores na tela, colocando-o depois em EXPRESSION_1 e FILTER_1.
Conecte EXPRESSION_1 a JOIN_1. Em seguida, conecte FILTER_1 a JOIN_1.
Com a opção JOIN_1 selecionada, na guia Detalhes do painel Propriedades, selecione Criar ao lado de Condição de associação.
No painel Criar condição de junção, digite CUST no campo Pesquisar por Nome.
Você deseja unir as entidades usando CUST_ID e CUST_KEY.
No editor, digite JOIN_1_1.CUSTOMERS_JSON.CUST_ID=JOIN_1_2.REVENUE_CSV.CUST_KEY.
Selecione Criar.
Para salvar o fluxo de dados e continuar editando, selecione Salvar.

5. Adicionando um Operador de Destino

No painel Operadores, solte um operador de Alvo na tela.
Conecte JOIN_1 a TARGET_1.
Selecione TARGET_1 na tela, se ela ainda não estiver selecionada.
Na guia Detalhes do painel Propriedades, não marque a caixa de seleção Criar nova entidade de dados.
Em seguida, clique em Selecionar para cada uma das seguintes opções para fazer as seleções de uma entidade de dados:
- Para Ativo de dados, selecione Data_Warehouse.
- Para Conexão, selecione Conexão Padrão.
- Para Esquema, selecione BETA.
- Para Entidade de dados, selecione CUSTOMERS_TARGET.
Para Local de preparação, selecione o ativo de dados Data Lake, a conexão padrão e o compartimento. Em seguida, para Schema, selecione o bucket do Object Storage que você usou para importar os dados de amostra.
Deixe o valor para Estratégia de integração como Inserir.
Para revisar o mapeamento de Atributos, selecione a guia Mapear.

Por padrão, todos os atributos são mapeados por nome.

Por exemplo, CUST_ID de JOIN_1 é mapeado para CUST_ID na entidade de dados de destino.
Para mapear manualmente os atributos que ainda não foram mapeados, selecione o menu Todos na tabela Atributos de destino e selecione Atributos não mapeados.

Você pode fazer o mesmo na tabela Atributos de origem (para os campos de entrada.
Agora elimine FULLNAME de Atributos de origem para FULL_NAME em Atributos de destino.
Na tabela Atributos de destino, selecione Atributos não mapeados e Todos.

Todos os atributos agora estão mapeados.
(Opcional) Selecione Ações para revisar as várias opções de mapeamento disponíveis.
(Opcional) Selecione Exibir regras para exibir as Regras aplicadas.
Para salvar o fluxo de dados e sair do designer, selecione Salvar e fechar.

Recursos Adicionais

Para saber mais, consulte:

O Que Vem a Seguir

Depois que você ingerir e transformar dados usando um fluxo de dados, crie uma tarefa de integração para configurar e executar o fluxo de dados.

Documentação do Oracle Cloud Infrastructure