Fluxos de Dados

Fluxo de dados é um programa visual que representa o fluxo de dados dos ativos de dados de origem, como um banco de dados ou um arquivo sem formatação, para ativos de dados de destino, como um data lake ou data warehouse.

As seguintes páginas descrevem como listar, criar e gerenciar fluxos de dados no Data Integration:

O criador de IU intuitivo do Data Integration é aberto quando você cria, exibe ou edita um fluxo de dados.

Consulte Conceitos de Design para obter uma visão geral de alto nível dos conceitos básicos por trás do designer interativo. Você também pode assistir ao vídeo interativo do designer de fluxo de dados do Data Integration para obter uma introdução prática aos fluxos de dados.

As páginas a seguir descrevem como exportar e importar um fluxo de dados:

Conceitos de Design

Uma compreensão dos conceitos básicos a seguir é útil ao usar o designer interativo no Data Integration.

Desvio de Esquema

Um esquema define a forma dos dados em um sistema de origem ou de destino. Ao trabalhar em um fluxo de dados no Data Integration, o desvio de esquema ocorre quando as definições de dados são alteradas.

Por exemplo, um atributo pode ser adicionado ou removido na origem, ou um atributo no destino pode ser renomeado. Se você não tratar o desvio de esquema, os processos de ETL poderão falhar ou você poderá perder a qualidade dos dados.

Por padrão, o Data Integration lida com a divergência de esquema para você. Quando você configurar um operador de origem no designer do fluxo de dados, depois de selecionar uma entidade, selecione a guia Opções Avançadas no painel Propriedades. A caixa de verificação Permitir Divergência de Esquema selecionada indica que a divergência de esquema está ativada.

Caixa de seleção Permitir Desvio de Esquema no painel Propriedades do operador de origem

Quando o desvio de esquema está ativado, o Data Integration pode detectar alterações de definição de esquema nas entidades de dados especificadas, durante o design time e o runtime do fluxo de dados. Todas as alterações são selecionadas automaticamente e o esquema é adaptado para acomodar novos atributos, atributos removidos, nomes de atributo diferentes, tipos de dados alterados etc.

Se você desmarcar a caixa de seleção Permitir Divergência de Esquema, desativará a divergência de esquema para bloquear as definições de esquema quando o fluxo de dados for definido. Quando a divergência de esquema é desativada, o serviço Data Integration usa uma forma fixa da entidade de dados especificada mesmo quando a forma subjacente foi alterada.

Sem tratar o desvio de esquema, os fluxos de dados podem se tornar vulneráveis a alterações na direção ascendente na origem de dados. Com a ajuda do desvio de esquema, os fluxos de dados se tornam mais resilientes e se adaptam automaticamente a qualquer alteração. Não é necessário reprojetar os fluxos dos dados quando ocorrem alterações de definição de esquema.

Para um arquivo JSON, a divergência de esquema é desativada por padrão e não poderá ser ativada se um esquema personalizado for usado para inferir a forma da entidade. Se quiser que o desvio de esquema esteja disponível e ativado, edite a origem JSON no fluxo de dados ou na tarefa do carregador de dados e desmarque a caixa de seleção Usar esquema personalizado.

Pushdown

No Data Integration, uma operação de dados em um fluxo de dados pode ser enviada para um sistema de dados de origem ou de destino para processamento.

Por exemplo, uma operação de classificação ou filtragem pode ser executada no sistema de origem enquanto os dados estão sendo lidos. No caso em que uma das origens de uma operação de junção está no mesmo sistema do destino, a operação de dados pode ser enviada para o sistema de destino.

O Data Integration pode usar o pushdown em um fluxo de dados quando você usa sistemas de dados relacionais que suportam pushdown. A lista atual inclui bancos de dados Oracle, Oracle Autonomous Data Warehouse, Oracle Autonomous Transaction Processing e MySQL.

Por padrão, o serviço Data Integration usa pushdown quando aplicável. Quando você configurar um operador de origem no designer do fluxo de dados, depois de selecionar uma entidade, selecione a guia Opções Avançadas no painel Propriedades. A caixa de verificação Permitir Pushdown selecionada indica que a pushdown está ativada.

Caixa de seleção Permitir Pushdown no painel Propriedades do operador de origem

Quando o pushdown está ativado, o Data Integration converte a lógica de operação de dados aplicável em instruções SQL que são executadas então diretamente no banco de dados relacional. Ao submeter o processamento de dados ao banco de dados, menos dados são extraídos e carregados.

Se você desmarcar a caixa de seleção Permitir Pushdown, desativará o pushdown. Quando o pushdown é desativado, o Data Integration extrai todos os dados do sistema de origem e processa os dados nos clusters do Apache Spark alocados para o espaço de trabalho.

Ao permitir que o Data Integration use pushdown, o desempenho é melhorado porque:

  • O poder de processamento do banco de dados é usado
  • Menos dados são consumidos para processamento.

Com base na otimização, o Data Integration pode usar o pushdown parcial ou completo em um fluxo de dados. O pushdown parcial é executado quando um sistema de dados relacionais suportado é usado na origem ou no destino. O pushdown completo é executado quando as seguintes condições estão presentes:

  • Só existe um destino no fluxo de dados.
  • Em um fluxo de dados com uma única origem, a origem e o destino usam a mesma conexão com um sistema de dados relacionais suportado.
  • Em um fluxo de dados com várias origens, todas as origens também devem usar o mesmo banco de dados e conexão.
  • Todos os operadores e funções de transformação no fluxo de dados podem gerar um código SQL de pushdown válido.
Preparação de Dados

A preparação de dados garante que os processos do Data Integration consumam dados precisos e significativos com menos erros para produzir dados de qualidade a fim de obter informações mais confiáveis.

A preparação de dados inclui limpeza e validação de dados para reduzir erros e transformar e enriquecer os dados antes de carregá-los para os sistemas de destino. Por exemplo, os dados podem vir de diferentes origens com vários formatos e até mesmo informações duplicadas. A preparação de dados pode envolver a remoção de atributos e linhas duplicados, a padronização em um formato para todos os atributos de data e o mascaramento de dados de atributos confidenciais, como cartões de crédito e senhas.

O Data Integration fornece operadores e funções de modelagem prontos para uso e transformações que você pode usar em ferramentas interativas para preparar dados à medida que projeta a lógica dos processos de ETL. Por exemplo, a guia Atributos permite pesquisar atributos de entrada por um padrão e aplicar uma regra de exclusão.

Guia Atributos no painel Propriedades

Na guia Dados, você pode aplicar transformações em um único atributo ou filtrar os atributos por um padrão de nome ou tipo de dados; em seguida, aplicar transformações em um grupo de atributos. Você também pode visualizar os resultados das transformações de dados na guia Dados, sem precisar executar todo o fluxo de dados.

Guia Dados no painel Propriedades

Mapeamento

No Data Integration, você usa a guia Mapear para descrever o fluxo de dados dos atributos de origem para os atributos de destino.

Destino pode ser uma entidade de dados existente ou nova. Em um fluxo de dados, a guia Mapear só se aplica a um operador de destino para uma entidade de dados existente. Para entidades de dados de destino existentes, os atributos de origem e quaisquer atributos personalizados provenientes de operações na direção ascendente são mapeados para atributos no destino.

Guia Mapear no painel Propriedades do operador de destino

Você pode optar por usar mapeamento automático ou mapa manual. Para mapeamento automático, o Data Integration pode mapear atributos de entrada para atributos de destino com o mesmo nome ou de acordo com a posição deles nas listas de atributos. Para mapeamento manual, você pode arrastar um atributo de entrada da lista de origem para um atributo na lista de destino para criar um mapeamento. Se preferir, use a caixa de diálogo Mapear Atributo para criar um mapeamento selecionando um atributo de origem e um atributo de destino. Você também pode usar um padrão de atributo de origem e um padrão de atributo de destino para criar o mapeamento.

Quando você marca a caixa de seleção Criar nova entidade de dados em um operador de destino, a guia Mapear não fica disponível. O Data Integration usa os atributos de origem de entrada para criar a estrutura de tabela ou arquivo com um mapeamento de um para um.

Usando a Interface de Designer

O designer do serviço Data Integration permite que você use uma interface gráfica do usuário para criar um fluxo de integração de dados.

Você também usa um designer semelhante para criar um pipeline.

As principais áreas do designer são:

Barra de Ferramentas
Barra de ferramentas do designer de Fluxo de Dados

As ferramentas que ajudam a navegar em um fluxo de dados ou em um pipeline na tela incluem:

  • Exibir: Selecione este menu para optar por abrir ou fechar os painéis Propriedades, Operadores, Validação e Parâmetros.
  • Ampliar: Permite ampliar o design.
  • Reduzir: Permite que você reduza o zoom para exibir mais do design.
  • Definir Zoom: Retorna à view padrão do design.
  • Grid Guide: Ativa e desativar os guias de grade.
  • Layout Automático: Organiza os operadores na tela.
  • Excluir: Remove o operador selecionado da tela.
  • Desfazer: Remove a última ação executada.
  • Refazer: Executa a última ação se você tiver selecionado anteriormente Desfazer.
Observação

Você pode desfazer e refazer os seguintes tipos de ações:

  • Adicionar e excluir um operador
  • Adicionar e excluir conexões entre operadores
  • Alterar a posição de um operador na tela
Tela

A tela é a área de trabalho principal, na qual você projeta o fluxo de dados ou o pipeline.

Arraste objetos do painel Operadores até a tela para começar.

Designer de Fluxo de Dados com a área Tela destacada

Você começa com uma tela em branco para um fluxo de dados. Para que um fluxo de dados seja válido, você deve ter pelo menos uma origem e um destino definidos.

Para um pipeline, você começa com uma tela que tem um operador de início e um operador de fim. Para ser válido, o design do pipeline deve incluir pelo menos um operador de tarefa.

Designer de pipeline

Para conectar dois operadores, passe o mouse sobre um operador até ver o conector (círculo pequeno) no lado direito do operador. Em seguida, arraste o conector para o operador ao qual você deseja se conectar. Uma conexão é válida quando uma linha conecta os operadores depois que você solta o conector.

Para inserir um operador entre dois operadores conectados, clique com o botão direito do mouse na linha de conexão e use o menu Inserir.

Para excluir uma conexão, você pode clicar com o botão direito do mouse em uma linha e selecionar Excluir.

Para duplicar um operador de origem, destino ou expressão, clique com o botão direito do mouse no ícone do operador e selecione Duplicar.

Painel de Operadores

O painel Operadores exibe os operadores que você pode adicionar a um fluxo de dados ou a um pipeline.

Arraste operadores do painel Operadores para a tela para projetar o fluxo de dados ou o pipeline. Cada operador tem outro conjunto de propriedades que você configura usando o painel Propriedades.

Para um fluxo de dados, você pode adicionar operadores de entrada, saída e modelagem.

Painel de Operadores de Fluxo de Dados

Para um pipeline, adicione operadores de entrada, saída e tarefa para construir uma sequência.

Painel Operadores de Pipeline

Sobre os Operadores

Os seguintes operadores estão disponíveis para uso em um fluxo de dados:

Entradas/Saídas
  • Origem: Representa uma entidade de dados de origem que serve de entrada em um fluxo de dados.
  • Destino: Representa uma entidade de dados de destino que serve de entidade de saída para armazenar os dados transformados.
Modelagem
  • Filtrar: Seleciona determinados atributos da porta de entrada para continuar em downstream até a porta de saída.
  • Unir: Vincula dados de várias origens. Os tipos de junções suportados são Interno, Externo à Direita, Externo à Esquerda e Externo Total.
  • Expressão: Executa uma transformação em uma única linha de dados.
  • Agregar: Faz cálculos como soma ou contagem em todas as linhas ou em um grupo de linhas.
  • Distinto: Retorna linhas distintas com valores exclusivos.
  • Classificar: Executa a classificação de dados em ordem crescente ou decrescente.
  • Unão: Executa uma operação de união em até 10 operadores de origem.
  • Subtração: Executa uma operação de menos em duas origens e retorna as linhas que estão presentes em uma origem, mas não estão presentes na outra.
  • Intersecção: Executa uma operação de intersecção em duas ou mais origens e retorna as linhas presentes nas origens conectadas.
  • Divisão: Executa uma operação de divisão para dividir uma origem de dados de entrada em duas ou mais portas de saída com base nas condições de divisão.
  • Tabela Dinâmica: Executa uma transformação usando expressões de função de agregação e valores de um atributo que é especificado como chave dinâmica, resultando em vários novos atributos na saída.
  • Lookup: Executa uma consulta e, em seguida, uma transformação usando uma origem de entrada principal, uma origem de entrada de lookup e uma condição de lookup.
  • Função: Chama uma Função Oracle do Oracle Cloud Infrastructure de dentro de um fluxo de dados no Data Integration.
  • Nivelado: Executa o desaninhamento de uma estrutura de arquivo complexa da raiz para o atributo de tipo de dados hierárquico selecionado.

Saiba mais sobre o Uso de Operadores de Fluxo de Dados.

Os seguintes operadores estão disponíveis para uso em um pipeline:
Entradas/Saídas
  • Início: Representa o início de um pipeline. Só há um operador de início em um pipeline. O operador de início pode ter links para mais de uma tarefa.
  • Finalizar: Representa o fim de um pipeline. Só há um operador de fim em um pipeline. O operador de fim pode ter links de mais de um nó de upstream.
  • Expressão: Permite criar novos campos derivados em um pipeline, semelhante a um operador de expressão em um fluxo de dados.
  • Intercalar: Executa uma mesclagem de tarefas que são executadas em paralelo. A condição de mesclagem especificada determina como proceder com operações de downstream subsequentes.
  • Decisão: Permite que você especifique um fluxo de ramificação de pipeline usando uma condição de decisão. Com base em saídas upstream, a expressão de condição especificada deve ser avaliada como um valor Booliano, que determina a ramificação downstream subsequente.
Tarefas
  • Integração: Vincula a uma tarefa de integração.
  • Cargador de Dados: Vincula a uma tarefa do carregador de dados.
  • Pipeline: Vincula a uma tarefa de pipeline.
  • SQL: Vincula a uma tarefa de SQL.
  • OCI Data Flow: Vincula a um aplicativo no Oracle Cloud Infrastructure Data Flow.
  • REST: Vincula a uma tarefa REST.
Saiba mais sobre Pipelines.

Como Trabalhar com o Painel Operadores

Para ajudar a trabalhar com mais eficiência, você pode encaixar o painel Operadores à esquerda da tela. É possível expandir o painel ou minimizá-lo para mostrar apenas ícones, usando o ícone expandir ou reduzir. Também é possível fechar o painel. Se o painel estiver fechado, você poderá abri-lo no menu Exibir da barra de ferramentas do designer.

Painel Propriedades

O painel Propriedades permite que você configure o fluxo de dados ou o pipeline e seus operadores.

Use a guia Validação para validar o fluxo de dados ou o pipeline inteiro.

Na guia Parâmetros, você pode exibir todos os parâmetros definidos no nível do fluxo de dados ou do pipeline, incluindo parâmetros gerados pelo sistema. No caso de parâmetros definidos pelo usuário, você pode excluir parâmetros e, se aplicável, editar os valores padrão dos parâmetros.

Para um fluxo de dados, depois de adicionar um operador na tela, selecione o operador e use o painel Propriedades para configurar o operador. Você pode:

  • Especifique os detalhes do operador, como o identificador, e configure definições específicas do operador na guia Detalhes.
  • Exibir os atributos de entrada e saída do operador na guia Atributos.
  • Mapear atributos de entrada para atributos na entidade de dados de destino de um operador de destino na guia Mapear.
  • Visualizar uma amostra de dados na guia Dados.
  • Validar a configuração do operador na guia Validação.

Da mesma forma, para um pipeline, depois de adicionar um operador na tela, selecione o operador e use o painel Propriedades para configurar o operador. Você pode:

  • Especifique um nome para o operador na guia Detalhes. Para um operador de mesclagem, especifique uma condição de mesclagem. Para um operador de expressão, adicione uma ou mais expressões. Para operadores de tarefa, você seleciona uma tarefa a ser vinculada ao operador e especifica quando a tarefa é executada com base no status de execução do operador de upstream.

    Para todos os operadores de tarefa, você pode selecionar tarefas em tempo de design de projetos no espaço de trabalho atual e tarefas publicadas de qualquer Aplicativo no espaço de trabalho atual. Com tarefas REST publicadas e tarefas do OCI Data Flow, você também pode selecionar uma tarefa de qualquer Aplicativo em outro espaço de trabalho no mesmo compartimento ou em outro compartimento.

  • Se aplicável, especifique as opções de execução da tarefa na guia Configuração.
  • Se aplicável, configure os parâmetros de entrada na guia Configuração .
  • Exiba as saída na guia Saída, que pode ser usada como entradas para o próximo operador no pipeline.
  • Se aplicável, validar a configuração do operador na guia Validação.

Como Trabalhar com o Painel Propriedades

Para ajudar a melhorar a eficiência do seu trabalho, você pode encaixar o painel Propriedades na parte inferior da tela. É possível expandir o painel ou minimizá-lo, usando o ícone de expansão ou compactação. Também é possível fechar o painel. Se o painel estiver fechado, você poderá abri-lo no menu Exibir da barra de ferramentas do designer.

Mais sobre as guias no painel Propriedades

Quando você clicar na tela e nenhum operador for selecionado, o painel Propriedades exibirá os detalhes do fluxo de dados ou do pipeline.

Quando você seleciona diferentes operadores na tela, o painel Propriedades exibe as propriedades do operador em foco. Você pode exibir, configurar e transformar dados à medida que eles fluem pelo operador usando as seguintes guias no painel Propriedades:

Detalhes

Você pode nomear um operador usando o campo Identificador na guia Detalhes. Para operadores de origem e destino, você também pode selecionar o ativo de dados, a conexão, o esquema e a entidade de dados. Se você selecionar Autonomous Data Warehouse ou Autonomous Transaction Processing como ativo de dados, a opção de selecionar o local de preparação será ativada. O local de preparação permite que você selecione o bucket do serviço Object Storage para preparar os dados antes que eles sejam movidos para o destino.

Você só pode selecionar o ativo de dados, a conexão, o esquema e a entidade de dados na ordem, conforme exibido na guia Detalhes. Por exemplo, você só poderá selecionar a conexão depois de selecionar o ativo de dados. A opção de seleção do esquema só será ativada depois que você selecionar a conexão e assim por diante. Uma seleção só pode ser feita com base na relação principal-secundário herdada da seleção anterior. Depois de fazer uma seleção, a opção de edição será ativada.

Você pode designar parâmetros a vários detalhes de cada operador para que esses detalhes não sejam vinculados ao código compilado quando você publica o fluxo de integração de dados. Consulte Usando Parâmetros em Fluxos de Dados e Usando Parâmetros em Pipelines.

Para modelar operadores, você pode criar as condições ou expressões para aplicar aos dados à medida que eles passam pelo operador.

Para um pipeline, use a guia Detalhes para fornecer um nome para o pipeline ou para o operador selecionado. Para operadores de tarefa, você também especifica a tarefa a ser usada.

Atributos

A guia Atributos só é exibida para um fluxo de dados.

No menu, selecione a exibição dos atributos de entrada vinculados ao operador no lado esquerdo da tela ou os atributos de saída indo para o próximo operador vinculado a ele no lado direito.

A seleção do ícone do filtro na coluna Nome exibe o campo de filtro. Digite um padrão regex simples ou os curingas (como ? e *) no campo de filtro para filtrar os atributos por padrão de nome. O campo não faz distinção entre maiúsculas e minúsculas. A seleção do ícone do filtro na coluna Tipo exibe o menu de tipo. Use o menu para selecionar o filtro de tipo. Você pode aplicar apenas um filtro de padrão de nome, mas vários filtros de tipo por vez. Por exemplo, para filtrar pelo padrão de nome *_CODE e pelo tipo numérico ou varchar, você aplica um filtro de padrão de nome (*_CODE) e dois filtros de tipo (numérico, varchar).

Você então poderá selecionar os atributos a serem excluídos ou selecionar os atributos aplicados ao filtro a serem excluídos. Use o menu Ações para optar por excluir por seleção ou excluir por filtros aplicados. As regras de exclusão escolhidas são adicionadas ao painel Regras. Os filtros aplicados aparecem na parte superior da lista de atributos. Use a opção Limpar Tudo para redefinir os filtros aplicados.

Selecione Exibir Regras para abrir o painel Regras e ver todas as regras aplicadas à entidade de dados. Você também pode exibir regras da mensagem de sucesso que aparece no canto superior direito, após aplicar as regras. Por padrão, a primeira regra no painel Regras inclui tudo. É possível aplicar ações adicionais a cada regra, como reordená-la na lista ou excluí-la.

Mapear

A guia Mapear só é exibida para um fluxo de dados.

Essa guia só é exibida para um operador de destino. Ela permite mapear os atributos de entrada para os atributos da entidade de dados de destino, mapeando por posição, nome, padrão ou mapa direto. Também é possível usar o mapeamento automático, que mapeia por nome, ou remover os mapeamentos.

Dados

A guia Dados só é exibida para um fluxo de dados.

Acesse a guia Dados para visualizar uma amostra de dados e ver como uma regra de transformação afeta os dados à medida que eles passam pelo operador.

Observação

Verifique se você tem o ativo de dados, a conexão, o esquema e a entidade de dados configurados antes de acessar a guia Dados.

Você pode filtrar dados por um padrão de nome ou tipo de dados e aplicar uma regra de exclusão aos dados filtrados ou fazer transformações em massa usando o menu Ações. Para filtrar dados por um padrão de nome, digite um padrão regex simples com curingas (como ? e *) no campo Pesquisar por padrão. Para filtrar dados por um tipo de dados, selecione o tipo no menu. As transformações não podem ser aplicadas a um operador de destino porque os dados são somente para leitura.

À medida que você adiciona e remove regras e transformações, a amostragem de dados é atualizada para refletir essas alterações. Saiba mais sobre Transformações de Dados.

Configuração

A guia Configuração só é exibida para um pipeline. Se disponível para uma tarefa, você poderá reconfigurar os valores de parâmetro associados à tarefa ou ao fluxo de dados subjacente, se aplicável.

Saída

A guia Saída só é exibida para um pipeline.

Você pode ver a lista de saídas que podem ser usadas como entradas para operadores conectados no pipeline.

Validação
Use a guia Validação para verificar se o operador está configurado corretamente, para evitar erros posteriormente quando você executar o fluxo de dados ou o pipeline. Por exemplo, se você esquecer de designar operadores de entrada ou saída, as mensagens de advertências serão exibidas no painel Validação. Quando você seleciona uma mensagem no painel Validação, ele coloca esse operador em foco para que você possa tratar o erro ou a advertência.
Painel de Parâmetros

O painel Parâmetros exibe os parâmetros usados em um fluxo de dados ou em um pipeline.

Você também pode excluir um parâmetro do painel Parâmetros.

Painel de Validação

Você pode exibir todas as mensagens de erro e advertência de um fluxo de dados ou pipeline no painel Validação global.

Na barra de ferramentas da tela, selecione Validar para verificar e depurar o fluxo de dados antes de usar o fluxo de dados em uma tarefa de integração. Da mesma forma, verifique e depure o pipeline antes de usá-lo em uma tarefa de pipeline. O painel Validação global é aberto e exibe mensagens de erro e advertência que você deve tratar. A seleção de uma mensagem leva você ao operador que produziu a mensagem de erro ou de aviso.