Configurando o Streaming Estruturado do Spark usando Workflows

Você pode configurar uma tarefa de streaming dentro de um fluxo de trabalho para processamento contínuo de dados de fluxo.

Primeiro você precisa criar um job e depois adicionar um Notebook ou uma tarefa Python a esse job para começar a usar workflows com streaming no Oracle AI Data Platform Workbench.
  1. Navegue até o seu espaço de trabalho e clique em Workflow.
  2. Clique em Ícone Criar clusterCriar Job.
  3. Forneça um nome e a descrição do seu job.
  4. Clique em Procurar e selecione o local para salvar o job no Workbench da Plataforma de Dados do AI. Clique em Selecionar.
  5. Informe 1 para Máximo de Execuções Concorrentes.
  6. Clique em Criar.
  7. Clique no job que você acabou de criar.
  8. Clique em Adicionar tarefa.
  9. Informe um nome para sua tarefa.
  10. Selecione Notebook ou Python para Tipo de tarefa.
  11. Clique em Procurar e navegue até o script Notebook ou Python que você deseja adicionar como tarefa de Streaming. Clique em Selecionar.
  12. Selecione um cluster de computação para a tarefa Notebook ou Python, se ainda não houver um anexado.
  13. Marque a caixa de seleção Streaming. A seleção de Streaming desativa o timeout de execução e as dependências de tarefa como opções.

    Página Criar Detalhes da Tarefa aberta com a caixa de seleção Streaming marcada

  14. Selecione o número de novas tentativas que uma tarefa deve tentar em caso de falha. Se você selecionar mais de 0, também deverá especificar quanto tempo a execução do job deverá aguardar entre as novas tentativas e se as novas tentativas deverão ser feitas no tempo limite.

    Opções de repetição de tarefa quando o número de repetições for 1 ou maior

  15. Clique em Executar Agora.
Depois que uma tarefa do Streaming é iniciada, ela continua a ser executada até que você a interrompa manualmente. Durante a manutenção mensal regular, a tarefa de Streaming é interrompida e reiniciada pelo serviço sem exigir nenhuma ação da sua extremidade.