Integración de Data Flow

La función de soporte de Data Flow en pipelines de aprendizaje automático permite a los usuarios integrar aplicaciones de Data Flow como pasos dentro de un pipeline.

Con esta nueva funcionalidad, los usuarios pueden orquestar las ejecuciones de aplicaciones de flujo de datos (Apache Spark como servicio) junto con otros pasos de un pipeline de aprendizaje automático, lo que simplifica las tareas de procesamiento de datos a gran escala.

Cuando se ejecuta un pipeline que contiene un paso de Data Flow, crea y gestiona automáticamente una nueva ejecución de la aplicación de Data Flow asociada a ese paso. La ejecución de Data Flow se trata de la misma forma que cualquier otro paso del pipeline. Una vez completado correctamente, el pipeline continúa su ejecución, iniciando pasos posteriores como parte de la orquestación del pipeline.

El uso de aplicaciones de Data Flow en pipelines de aprendizaje automático es sencillo:

1. Agregar un paso de Data Flow
Seleccione el tipo de paso Data Flow en el pipeline de aprendizaje automático.
2. Seleccionar una aplicación de Data Flow
Seleccione la aplicación Data Flow que desea ejecutar como paso y configure opciones como el tamaño del cluster y las variables de entorno.
3. Ejecutar el pipeline
Inicie una ejecución del pipeline. Cuando se alcanza el paso Data Flow, se ejecuta la aplicación asociada. Una vez completados, los resultados se reflejan en la ejecución del paso y el pipeline continúa sin problemas con los siguientes pasos.
Esta integración simplifica los flujos de trabajo de los científicos de datos al permitirles manejar grandes conjuntos de datos de manera eficiente dentro del mismo pipeline, aprovechando la potencia informática escalable de OCI Data Flow, al tiempo que mantiene la automatización a través de pipelines de aprendizaje automático.

Políticas

Incluya las siguientes políticas para la integración de Data Flow con pipelines:
  • Integración de flujos de datos y pipelines.
  • Acceso de ejecución de pipeline a servicios de OCI.
  • (Opcional) Políticas de redes personalizadas, pero solo si utiliza redes personalizadas.
Consulte Políticas de Data Flow para conocer todos los requisitos necesarios para utilizar Data Flow.
Nota

Cuando una ejecución de Data Flow se dispara por una ejecución de pipeline, hereda la entidad de recurso datasciencepipelinerun. Por lo tanto, al otorgar privilegios a datasciencepipelinerun también se otorgan privilegios al código que se ejecuta dentro de la ejecución de Data Flow iniciada por la ejecución del pipeline.

Configuración de Data Flow con pipelines

Asegúrese de que se han aplicado las políticas adecuadas.

  1. Al definir pasos de pipeline para utilizar Data Flow, al crear un pipeline, seleccione Desde aplicaciones de Data Flow.
  2. En Seleccionar una aplicación de flujo de datos, seleccione la aplicación de flujo de datos que desea utilizar.

    Si la aplicación Data Flow está en un compartimento diferente, seleccione Cambiar compartimento.

  3. (Opcional) En la sección Configuración de Data Flow, seleccione Configurar.

    En el panel Configurar la configuración del flujo de datos:

    1. Seleccione la unidad de controlador y la unidad de ejecutor.
    2. Introduzca el número de ejecutores.
    3. (Opcional) Seleccione el cubo de log.
    4. (Opcional) Agregue las propiedades de configuración de Spark.
    5. (Opcional) Especifique el URI del cubo de almacén.

Guía de Inicio Rápido

Esta es una guía paso a paso para crear un pipeline de Data Flow.

  1. Siga la documentación de Políticas de Data Flow. Detalla la configuración inicial necesaria para poder utilizar Data Flow.
  2. Cargue la siguiente aplicación de Python de ejemplo, hello-world.py en un cubo:
    print("======Start======")
    import os
    from pyspark.sql import SparkSession
     
    def in_dataflow():
        if os.environ.get("HOME") == "/home/dataflow":
            return True
        return False
     
    def get_spark():
        if in_dataflow():
            return SparkSession.builder.appName("hello").getOrCreate()
        else:
            return SparkSession.builder.appName("LocalSparkSession").master("local[*]").getOrCreate()
     
    print("======Opening Session======")
    spark = get_spark()
    print("======Application Created======")
    # Test the connection by creating a simple DataFrame
    df = spark.createDataFrame([("Hello",), ("World",)], ["word"])
    print("======Data Frame Created======")
    # Show the DataFrame's content
    df.show()
    print("======Done======")
  3. Siga los pasos de Políticas de Data Flow para crear una aplicación de Data Flow mediante la aplicación Python en el paso 2.
  4. Pruebe la aplicación de Data Flow.
    1. En la página de detalles de la aplicación, haga clic en Ejecutar.
    2. En el panel Ejecutar aplicación, aplique argumentos y parámetros, actualice la configuración del recurso o agregue propiedades de Spark soportadas, según sea necesario.
    3. Seleccione Ejecutar para ejecutar la aplicación.
    4. (Opcional) Compruebe los logs. Vaya a los detalles de ejecución y seleccione logs.
  5. Cree el pipeline.

    Antes de crear un pipeline, asegúrese de que tiene políticas que permitan al recurso de ejecución de pipeline utilizar Data Flow y acceder al cubo con su aplicación hello-world. Para obtener más información, consulte Políticas de pipeline.

    1. Cree un pipeline con un paso que utilice la aplicación Data Flow hello-world:
      Nota

      Para obtener instrucciones detalladas, consulte Creación de un pipeline (busque "aplicación de Data Flow").
      1. Cree un pipeline con un nombre como Data Flow Step Demo.
      2. Seleccione Agregar pasos de pipeline.
      3. Asigne un nombre al paso, por ejemplo, Step 1.
      4. Para utilizar la aplicación Data Flow, seleccione En aplicaciones de Data Flow.
      5. Seleccione la aplicación Data Flow (por compartimento).
      6. Seleccione Guardar para guardar el paso.
      7. (Opcional) Defina el registro.
      8. Seleccione Crear para crear el pipeline.
    2. Activar logs de pipeline:
      1. Vaya a los detalles del pipeline.
      2. Seleccione el recurso Logs.
      3. Activar logs.
    3. Ejecute el pipeline:
      1. Vaya a los detalles del pipeline.
      2. Seleccione el recurso Ejecución de pipeline.
      3. Seleccione Iniciar una ejecución de pipeline.
      4. Seleccione Iniciar.