Integração do Data Flow
O recurso Suporte ao Serviço Data Flow nos Pipelines de ML permite que os usuários integrem Aplicativos do Serviço Data Flow como etapas em um pipeline.
Com essa nova funcionalidade, os usuários podem orquestrar as execuções dos Aplicativos do Serviço Data Flow (Apache Spark as a Service) juntamente com outras etapas em um Pipeline de ML, simplificando tarefas de processamento de dados em larga escala.
Quando um pipeline que contém uma etapa do serviço Data Flow é executado, ele cria e gerencia automaticamente uma nova execução do Aplicativo Data Flow associado a essa etapa. A execução do serviço Data Flow é tratada da mesma forma que qualquer outra etapa do pipeline. Quando concluído com sucesso, o pipeline continua sua execução, iniciando etapas posteriores como parte da orquestração do pipeline.
O uso de Aplicativos de Fluxo de Dados em Pipelines de ML é simples:
- 1. Adicionar uma Etapa do Serviço Data Flow
- Selecione o tipo de etapa do Fluxo de Dados no Pipeline de ML.
- 2. Selecionar um Aplicativo do Serviço Data Flow
- Selecione o aplicativo Data Flow que você deseja executar como etapa e configure opções como tamanho do cluster e variáveis de ambiente.
- 3. Executar o Pipeline
- Inicie uma execução do pipeline. Quando a etapa do Fluxo de Dados é atingida, o aplicativo associado é executado. Quando concluído, os resultados são refletidos na execução da etapa, e o pipeline avança perfeitamente para as próximas etapas.
Políticas
- Integração de Fluxo de Dados e Pipelines.
- Acesso de Execução do Pipeline aos Serviços do OCI.
- (Opcional) Políticas de Rede Personalizadas, mas somente se estiver usando uma rede personalizada.
Quando uma execução do serviço Data Flow é acionada por uma execução do Pipeline, ele herda o controlador de recursos
datasciencepipelinerun
. Portanto, conceder privilégios a datasciencepipelinerun
também concede privilégios ao código em execução dentro da execução do Fluxo de Dados iniciada pela execução do Pipeline.Configurando o Serviço Data Flow com Pipelines
Verifique se as Políticas apropriadas foram aplicadas.
Guia de Início Rápido
Este é um guia passo a passo para criar um pipeline do serviço Data Flow.