Integración de Data Flow
La función de soporte de Data Flow en pipelines de aprendizaje automático permite a los usuarios integrar aplicaciones de Data Flow como pasos dentro de un pipeline.
Con esta nueva funcionalidad, los usuarios pueden orquestar las ejecuciones de aplicaciones de flujo de datos (Apache Spark como servicio) junto con otros pasos de un pipeline de aprendizaje automático, lo que simplifica las tareas de procesamiento de datos a gran escala.
Cuando se ejecuta un pipeline que contiene un paso de Data Flow, crea y gestiona automáticamente una nueva ejecución de la aplicación de Data Flow asociada a ese paso. La ejecución de Data Flow se trata de la misma forma que cualquier otro paso del pipeline. Una vez completado correctamente, el pipeline continúa su ejecución, iniciando pasos posteriores como parte de la orquestación del pipeline.
El uso de aplicaciones de Data Flow en pipelines de aprendizaje automático es sencillo:
- 1. Agregar un paso de Data Flow
- Seleccione el tipo de paso Data Flow en el pipeline de aprendizaje automático.
- 2. Seleccionar una aplicación de Data Flow
- Seleccione la aplicación Data Flow que desea ejecutar como paso y configure opciones como el tamaño del cluster y las variables de entorno.
- 3. Ejecutar el pipeline
- Inicie una ejecución del pipeline. Cuando se alcanza el paso Data Flow, se ejecuta la aplicación asociada. Una vez completados, los resultados se reflejan en la ejecución del paso y el pipeline continúa sin problemas con los siguientes pasos.
Políticas
- Integración de flujos de datos y pipelines.
- Acceso de ejecución de pipeline a servicios de OCI.
- (Opcional) Políticas de redes personalizadas, pero solo si utiliza redes personalizadas.
Cuando una ejecución de Data Flow se dispara por una ejecución de pipeline, hereda la entidad de recurso
datasciencepipelinerun. Por lo tanto, al otorgar privilegios a datasciencepipelinerun también se otorgan privilegios al código que se ejecuta dentro de la ejecución de Data Flow iniciada por la ejecución del pipeline.Configuración de Data Flow con pipelines
Asegúrese de que se han aplicado las políticas adecuadas.
Guía de Inicio Rápido
Esta es una guía paso a paso para crear un pipeline de Data Flow.