Desenvolvendo Aplicativos do Serviço Data Flow

Saiba mais sobre a Biblioteca , incluindo modelos de aplicativos Spark reutilizáveis e segurança de aplicativos. Além disso, saiba como criar e exibir aplicativos, editar aplicativos, excluir aplicativos e aplicar argumentos ou parâmetros.

O serviço Data Flow interrompe automaticamente tarefas em batch de longa execução (mais de 24 horas) usando um token de delegação. Nesse caso, se o aplicativo não terminar de processar os dados, você poderá ter uma falha de execução e o job permanecerá inacabado. Para evitar isso, use as seguintes opções para limitar o tempo total que o aplicativo pode executar:
Ao Criar Aplicativos usando a Console
Em Opções Avançadas, especifique a duração em Minutos máximos de duração da execução.
Ao Criar Aplicativos usando a CLI
Especifique a opção de linha de comando de --max-duration-in-minutes <number>
Ao Criar Aplicativos usando o SDK
Forneça o argumento opcional max_duration_in_minutes
Ao Criar Aplicativos usando a API
Defina o argumento opcional maxDurationInMinutes

Modelos de Aplicativos Spark Reutilizáveis

Um Aplicativo  é um modelo de aplicativo Spark infinitamente reutilizável.

Os Aplicativos do Data Flow consistem em um aplicativo Spark, suas dependências, seus parâmetros padrão e uma especificação de recurso de runtime padrão. Depois que um desenvolvedor do Spark cria um Aplicativo do serviço Data Flow, qualquer pessoa pode usá-lo sem se preocupar com as complexidades de implantá-lo, configurá-lo ou executá-lo. É possível usá-lo por meio de análises do Spark em painéis de controle, relatórios, scripts ou chamadas de API REST personalizados.À esquerda, há uma figura que representa desenvolvedores do Spark. Uma seta passa para uma caixa que representa aplicativos publicados. A seta é chamada de Publicar: Aplicativo Parametrizado. À direita da caixa, há outra figura que representa aqueles que não são desenvolvedores. Uma seta flui dos não desenvolvedores para a caixa chamada Executar: Relatórios Personalizados e Painéis de Controle Personalizados.

Toda vez que você chama o Aplicativo do serviço Data Flow, você cria uma Execução . Ele preenche os detalhes do modelo de aplicativo e o inicia em um conjunto específico de recursos IaaS. Há uma caixa chamada Aplicativo do serviço Data Flow. Ela contém uma lista: Link para o Código Spark, Dependências, Forma e Contagem do Driver/Executor Padrão, Argumentos e Parâmetros Padrão. Uma seta chamada Executar um Aplicativo passa para outra caixa chamada Execução do serviço Data Flow. Ela contém a lista: Link para o Código Spark, Dependências, Formas e Contagem do Driver/Executor Específico, Argumentos, Parâmetros Específicos, Interface do Usuário do Spark e Saída de Log.