Usar um Pipeline

Um pipeline permite que você conecte um conjunto de tarefas em uma sequência ou em paralelo para orquestrar o processamento de dados.

Ao criar um pipeline, você pode criar um gráfico de dependência de tarefa complexo e automatizar toda uma carga de trabalho de tarefas. As tarefas devem ser publicadas e você pode adicionar tarefas publicadas de qualquer aplicativo que esteja no espaço de trabalho atual ou de outro espaço de trabalho.

Neste tutorial, você:

  • Crie duas tarefas do carregador de dados a serem executadas em paralelo em um pipeline.
  • Crie uma tarefa REST para usar o serviço de Notificação para enviar notificações por e-mail.
  • Crie um pipeline e adicione operadores para tarefas do carregador de dados, mesclagem, tarefa de integração e tarefa REST.
  • Crie uma tarefa de pipeline para configurar um contexto de runtime para um pipeline.
  • Publique uma tarefa de pipeline e execute um pipeline.
  • Monitorar uma execução de pipeline.

1. Criando uma Tarefa do Carregador de Dados para Dados de Receita

Duplique a tarefa Load Revenue Data into Data Warehouse para criar uma nova tarefa que carregue e substitua dados de receita.

  1. Na página dos detalhes do projeto Laboratório do DI, selecione Tarefas no submenu.
  2. Na lista Tarefas, localize Load Revenue Data into Data Warehouse.
  3. Selecione o menu Ações (Menu Ações) e, em seguida, Duplicar.
  4. Na caixa de diálogo Duplicar tarefa, digite Revenue Data Load para o novo nome e selecione Duplicar.

    O valor do Identificador é gerado automaticamente com base no nome fornecido. Você pode alterar o valor gerado, mas depois de salvar a nova tarefa, não terá permissão para atualizar o identificador.

  5. Na lista Tarefas, selecione Carregamento de Dados da Receita.

    A página de tarefas do carregador de dados duplicado é aberta em uma nova guia.

  6. Selecione o ícone da etapa Destino.
  7. Em Definições de carregamento de entidades de dados do destino, selecione Usar entidades de dados existentes.
  8. No menu Estratégia de integração, selecione Substituir.
  9. Em Entidades de dados disponíveis, marque a caixa de seleção REVENUE_TARGET e, em seguida, selecione Definir como destino.

    O nome REVENUE_TARGET é exibido ao lado de Entidade de dados selecionada.

  10. Selecione Salvar para salvar a tarefa e continuar a edição.
  11. Selecione Próximo para navegar até a etapa Transformação.

    Não remova a transformação de preenchimento Nulo que foi aplicada anteriormente a SRC_ORDER_NUMBER.

  12. Selecione Próximo para navegar até a etapa Mapeamento de atributos.

    Todos os atributos de origem e destino são mapeados automaticamente.

  13. Selecione Próximo para navegar até a etapa Revisar e validar.

    A validação da tarefa começa automaticamente.

    Um resumo dos detalhes da configuração de cada etapa é apresentado em um bloco. Se você alterar a configuração de uma etapa, navegue até a etapa Revisar e validar para validar a tarefa novamente.

    O resultado da validação da tarefa é mostrado no último bloco, Validação.

  14. Quando a validação for bem-sucedida, selecione Salvar e fechar.

2. Criando uma Tarefa do Carregador de Dados para Dados do Cliente

Crie uma tarefa do carregador de dados para carregar dados do cliente no Data Warehouse criando uma nova entidade de dados de destino.

  1. Na página dos detalhes do projeto Laboratório do DI, selecione Tarefas no submenu.
  2. Selecione Criar tarefa e, em seguida, Carregador de dados.

    A página Criar Tarefa do Carregador de Dados é aberta em uma nova guia. Etapas numeradas e nomeadas na parte superior orientam você na configuração. Uma marca de seleção é exibida em um ícone de etapa depois que você configura a etapa. Para percorrer as etapas, selecione Próxima ou Anterior. Também é possível navegar diretamente para uma etapa configurada selecionando o ícone.

  3. Na página Criar tarefa do carregador de dados, etapa Informações básicas, selecione o seguinte:
    Para este itemSelecione
    Tipo de origem Armazenamento de arquivos
    Tipo de destino Banco de dados
    Tipo de carga Entidade de dados única
  4. Para a tarefa Nome, digite Customer Data Load. Em seguida, selecione Próximo para navegar até a próxima etapa.

    Uma marca de seleção é exibida no ícone da etapa Informações básicas após você ter configurado a etapa.

  5. Na etapa Origem, selecione o seguinte:
    Para este itemSelecione
    Ativo de dados Data_Lake
    Conexão Conexão Padrão
    Compartimento O compartimento que tem o bucket no qual você fez upload do arquivo de dados de amostra, CUSTOMERS.JSON
    Bucket O bucket do Object Storage que contém o arquivo JSON de amostra
  6. Em File settings, selecione o seguinte:
    Para este itemSelecione
    Tipo de arquivo JSON
    Tipo de compactação Automático (Padrão)
    Codificação UTF-8

    Você pode deixar as definições padrão como estão nos campos restantes.

  7. Em Entidades de dados disponíveis, marque a caixa de seleção CUSTOMERS.JSON e, em seguida, selecione Definir como origem.

    O nome CUSTOMERS.JSON é exibido ao lado de Entidade de dados selecionada.

  8. Selecione Criar para salvar a tarefa e continuar a edição.
  9. Selecione Próximo para avançar para a etapa Destino e, em seguida, selecione:
    Para este itemSelecione
    Ativo de dados Data_Warehouse
    Conexão Conexão Padrão
    Esquema BETA
  10. Em Local de preparação, você pode usar o local de preparação padrão que foi configurado ao criar o ativo de dados de destino.

    Ou você pode desmarcar a caixa de seleção para selecionar outro bucket do Object Storage.

  11. Em Definições de carga de entidades do destino, selecione Criar novas entidades do dados.
  12. Em Opções de nome da entidade de dados de destino, selecione Especificar nome da entidade. Em seguida, no campo Entity name, digite CUSTOMER_JSON_TARGET.
  13. Selecione Salvar para salvar a tarefa e continuar a edição.
  14. Selecione a etapa Revisar e validar, ignorando a etapa de transformação opcional.

    A validação da tarefa começa automaticamente.

    Um resumo dos detalhes da configuração de cada etapa é apresentado em um bloco. Se você alterar a configuração de uma etapa, navegue até a etapa Revisar e validar para validar a tarefa novamente.

    O resultado da validação da tarefa é mostrado no último bloco, Validação.

  15. Quando a validação for bem-sucedida, selecione Salvar e fechar.

3. Criando uma Tarefa REST para Enviar Notificações

Você pode usar uma tarefa REST para executar um ponto final da API REST em um pipeline. Neste tutorial, você usa a API do serviço Notifications em uma tarefa REST do Data Integration para publicar um e-mail de dentro de um pipeline.

Para criar uma tarefa REST nesta etapa, você já deve ter o seguinte:
  • Um tópico e uma assinatura de e-mail criados no serviço Notifications.

  • O OCID do tópico que você criou. O OCID está disponível na seção Informações do Tópico da página de detalhes do tópico no serviço Notifications.

  • A seguinte instrução de política que permite executar tarefas do Data Integration que chamam a API REST do Notifications:

    allow any-user to use notification-family in tenancy where ALL {request.principal.type='disworkspace'}

Em seguida, no Data Integration, crie uma tarefa REST que use a API do serviço Notifications para publicar um e-mail.

  1. Na página dos detalhes do projeto Laboratório do DI, selecione Tarefas no submenu.
  2. Selecione Criar tarefa e depois selecione REST.

    A página Criar tarefa REST é aberta em uma nova guia.

  3. Para Nome, digite Notify by Email.

    O valor do Identificador é gerado automaticamente com base no nome fornecido. Você pode alterar o valor gerado, mas depois de salvar a nova tarefa, não terá permissão para atualizar o identificador.

  4. Na seção Detalhes da API REST, selecione Configurar.

    A página Configurar detalhes da API REST é exibida. Etapas numeradas e nomeadas na parte superior orientam você na configuração. Uma marca de seleção é exibida em um ícone de etapa depois que você configura a etapa. Para percorrer as etapas, selecione Próxima ou Anterior. Também é possível navegar diretamente para uma etapa configurada selecionando o ícone.

  5. Para método HTTP, selecione POST.
  6. No campo URL, digite o seguinte e pressione Enter.
    https://notification.us-ashburn-1.oci.oraclecloud.com/20181201/topics/${TOPICID}/messages
    Observação

    Certifique-se de usar o identificador de região apropriado para o serviço Notifications.

    Quando você pressiona Enter depois de informar o URL, o Data Integration converte a sintaxe do parâmetro ${} em um parâmetro de URL de String.

  7. Na linha da tabela do novo parâmetro de URL TOPICID, selecione Editar no menu Ações (Ações menu).
  8. No campo Valor, digite o OCID do tópico Notificações criado e selecione Salvar.
  9. Em seguida, adicione um cabeçalho seguindo estas etapas:
    1. Selecione Cabeçalho.
    2. Selecione Adicionar cabeçalho.
    3. No campo Chave, digite con e selecione Content-Type na lista.
    4. No campo Valor, digite app e selecione application/json na lista.
    5. Selecione Adicionar.
  10. Adicione um corpo de solicitação seguindo estas etapas:
    1. Selecione Solicitação.
    2. No editor, informe o seguinte.
      {"title": "Put your title here", "body": "Put your email body here."}
    3. Selecione Adicionar.
  11. Selecione Próximo e, em seguida, Configurar.
  12. Para fornecer autenticação, faça o seguinte:
    1. Na seção Autenticação, selecione Editar para exibir o painel Configurar autenticação.
    2. No menu Autenticação, selecione Controlador de recursos do OCI.
    3. Em Origem de autenticação, selecione Espaço de Trabalho.
    4. Selecione Configurar.
  13. Na seção opcional Validar tarefa, selecione Validar.
  14. Quando a validação for bem-sucedida, selecione Criar e fechar.

4. Publicando o Carregador de Dados e as Tarefas REST

  1. Na página DI_Lab de detalhes do projeto, selecione Tarefas no submenu.
  2. Na lista de tarefas, marque as caixas de seleção ao lado de Carregamento de Dados da Receita, Carregamento de Dados do Cliente e Notificar por E-mail.
  3. Selecione Publicar no aplicativo.
  4. Na caixa de diálogo Publicar na aplicação, selecione Aplicativo de Laboratório e selecione Publicar.

    Uma mensagem de notificação é exibida, com um link para o Aplicativo para exibir as tarefas publicadas.

  5. Selecione Exibir aplicativo na notificação. Em seguida, selecione X para fechar a notificação..

    É exibida a lista Patches na página de detalhes do Aplicativo. Uma entrada de patch é criada para as tarefas que você está publicando.

  6. Na lista Patches, você pode monitorar o status da correção. Selecione Atualizar para obter as atualizações mais recentes de status.

    Quando o status de um patch muda para Success, três entradas de tarefa publicadas são criadas na lista Tasks da página de detalhes do Aplicativo.

  7. Na página de detalhes do Lab Application, selecione Tarefas.

    As tarefas publicadas para Carga de Dados da Receita, Carga de Dados do Cliente e Notificar por E-mail são mostradas na lista de tarefas.

5. Criando um Pipeline

  1. Na barra de tabulações, selecione a guia Abrir (ícone de mais e, em seguida, selecione Projetos.
  2. Na página Projetos, selecione DI_Lab.
  3. Na página de detalhes do projeto DI_Lab, selecione Pipelines no submenu do lado esquerdo e, em seguida, selecione Criar pipeline.

    O designer de pipeline é aberto em uma nova guia. Um operador inicial e um operador final são colocados na tela para você.

  4. No painel Propriedades do pipeline, digite Analyze Revenue como o Nome.

    O valor do Identificador é gerado automaticamente com base no valor informado para o nome do pipeline. Você pode alterar o valor gerado, mas depois de salvar o pipeline, não terá permissão para atualizar o identificador.

  5. Selecione Criar.

    O designer permanece aberto para você continuar editando.

6. Adicionando Operadores de Pipeline

Você adiciona operadores de tarefa para especificar as tarefas publicadas a serem orquestradas no pipeline.

Saiba mais sobre operadores de pipeline.

  1. No painel Operadores, solte um operador do Carregador de dados na tela, colocando-o entre os operadores inicial e final.

    O painel Propriedades agora exibe os detalhes do operador de tarefa do carregador de dados não vinculado.

  2. Na guia Detalhes do painel Propriedades, clique em Selecionar.

    O painel Selecionar uma tarefa do carregador de dados é exibido para você selecionar uma tarefa do carregador de dados publicada.

  3. Em Aplicativo de Laboratório, selecione Carga de Dados de Receita (a tarefa que carrega dados de receita em um data warehouse) e clique em Selecionar.

    O nome no ícone do operador é alterado para o nome da tarefa selecionada.

  4. Conecte o operador inicial à tarefa do carregador de dados de receita.
  5. Para salvar o pipeline e continuar editando, selecione Salvar.
  6. Repita as etapas para adicionar um segundo operador do Carregador de dados. Desta vez, selecione Carregamento de Dados do Cliente (a tarefa que carrega dados do cliente). Em seguida, conecte o operador de início à tarefa do carregador de dados do cliente.
  7. Em seguida, solte o operador Mesclar na tela, colocando-o após as duas tarefas do carregador de dados.
  8. Conecte cada tarefa do carregador de dados ao operador de Mesclagem.
  9. Na guia Detalhes do painel Propriedades do operador de mesclagem, selecione Tudo bem-sucedido no menu Condição de mesclagem.

    Isso especifica que as operações paralelas vinculadas upstream devem ser concluídas e bem-sucedidas para que a próxima operação downstream possa continuar.

  10. No painel Operadores, solte o operador de Integração na tela, colocando-o após o operador de mesclagem.
  11. Na guia Detalhes do painel Propriedades, clique em Selecionar.
  12. No painel Selecionar uma tarefa de integração, selecione a tarefa Carregar Laboratório de Clientes e clique em Selecionar.
  13. Conecte o operador de mesclagem ao operador de tarefa de integração.
  14. Em seguida, solte o operador REST na tela, colocando-o após a tarefa de integração.
  15. Na guia Detalhes do painel Propriedades, clique em Selecionar.
  16. No painel Selecionar uma tarefa REST, selecione a tarefa Notificar por E-mail e clique em Selecionar.
  17. Na guia Detalhes do painel Propriedades do operador de tarefa REST, selecione Executar em caso de sucesso do operador anterior no menu Condição do link de entrada.
  18. Conecte a tarefa REST ao operador final.
  19. Selecione Validar na barra de ferramentas da tela.

    O painel Validação global é exibido para você revisar avisos ou erros.

  20. Para salvar o pipeline, selecione Salvar e fechar.

7. Criando uma Tarefa de Pipeline

  1. Na barra de tabulações, selecione a guia Abrir (ícone de mais e, em seguida, selecione Projetos.
  2. Na página Projetos, selecione DI_Lab.
  3. Na página Detalhes do projeto DI_Lab, selecione Tarefas no submenu do lado esquerdo.
  4. Selecione Criar tarefa e depois selecione Pipeline.

    A página Criar tarefa de pipeline é aberta em uma nova guia.

  5. Na página Criar tarefa de pipeline, altere o Nome para Analyze Revenue Lab.

    É opcional digitar uma Descrição. O valor no campo Identificador é gerado automaticamente com base no valor digitado para Nome. Você pode alterar o valor gerado, mas depois de salvar a tarefa, você não tem permissão para atualizar o identificador.

  6. Na seção Pipeline, clique em Selecionar.
  7. No painel Selecionar um pipeline, selecione Analisar Receita e clique em Selecionar.

    A validação do pipeline começa automaticamente.

  8. Selecione Criar e fechar.

8. Publicando e Executando uma Tarefa de Pipeline

  1. Na página DI_Lab de detalhes do projeto, selecione Tarefas no submenu.
  2. Na lista Tarefas, selecione o menu Ações (Menu Ações) para Analisar Laboratório de Receita e, em seguida, selecione Publicar no aplicativo.
  3. Na caixa de diálogo Publicar na aplicação, selecione Aplicativo de Laboratório e selecione Publicar.

    Uma mensagem de notificação é exibida, com um link para o Aplicativo para exibir tarefas publicadas.

  4. Vá para a página de detalhes Aplicativo de Laboratório e selecione Patches no submenu do lado esquerdo para exibir detalhes do patch da tarefa.

    Um patch contém atualizações de uma tarefa publicada em um Aplicativo. Quando você publica uma tarefa, um patch de publicação é criado. Saiba mais sobre Patches.

  5. Na lista Patches, você pode monitorar o status da correção. Selecione Atualizar para obter as atualizações mais recentes de status.

    Quando o status de um patch muda para Success, uma entrada de tarefa publicada é criada na lista Tasks da página de detalhes do Aplicativo.

  6. Na página de detalhes do Lab Application, selecione Tarefas.

    A tarefa publicada do pipeline Analisar Laboratório de Receita é mostrada na lista de tarefas.

  7. Selecione o menu Ações (Menu Ações) para a tarefa do pipeline e selecione Executar.

    Uma mensagem de sucesso é exibida. A execução de uma tarefa cria uma execução de tarefa. Você é levado automaticamente para a página Execuções, na qual é possível exibir todas as execuções de tarefas e seu status. O status inicial de uma execução de pipeline é Not started.

  8. Na lista Execuções da página de detalhes Aplicativo de Laboratório, selecione Atualizar para obter as atualizações de status mais recentes de execução de tarefa.

    Observe que a execução de um pipeline inclui etapas para pré-processamento, aceitação e validação antes que o mecanismo de execução inicie a execução real do pipeline.

    Selecione Atualizar algumas vezes até ver o status Em Execução.

  9. Quando a tarefa do pipeline estiver em execução, selecione o nome da execução da tarefa.

    A página Detalhes da execução é exibida, na qual você pode monitorar o andamento da execução do pipeline no gráfico Pipeline. O status de cada nó é indicado por um ícone e um rótulo. Por exemplo, uma marca de seleção verde para um nó concluído, o label Running para tarefas que estão em execução e o label Waiting para uma tarefa downstream que está aguardando para ser executada.

    Selecione Atualizar algumas vezes até ver o status geral de execução do pipeline como Sucesso.

    Você também pode selecionar Visão Geral para ver mais detalhes sobre a execução do pipeline.

  10. Quando a execução do pipeline for bem-sucedida, vá para a lista Execuções da página de detalhes do Aplicativo de Laboratório e expanda a entrada de execução principal para a execução da tarefa de pipeline.

    Você pode exibir detalhes de execução de quatro tarefas individuais no pipeline.

    Você também teria recebido um e-mail do serviço Notifications.