Uso de un pipeline

Un pipeline permite conectar un juego de tareas en una secuencia o en paralelo para orquestar el procesamiento de datos.

Al crear un pipeline, puede crear un gráfico de dependencias de tareas complejas y automatizar toda una carga de trabajo de tareas. Las tareas se deben publicar y puede agregar tareas publicadas desde cualquier aplicación que esté en el espacio de trabajo actual o desde otro espacio de trabajo.

En este tutorial:

  • Cree dos tareas del cargador de datos para ejecutarlas en paralelo en un pipeline.
  • Cree una tarea REST para usar el servicio de notificación para enviar notificaciones por correo electrónico.
  • Cree un pipeline y agregue operadores para las tareas del cargador de datos, la fusión, la tarea de integración y la tarea de REST.
  • Cree una tarea de pipeline para configurar un contexto de tiempo de ejecución para un pipeline.
  • Publique una tarea de pipeline y ejecute un pipeline.
  • Supervisar una ejecución de pipeline.

1. Creación de tareas del cargador de datos para datos de ingresos

Duplique la tarea Load Revenue Data into Data Warehouse para crear una nueva tarea que cargue y sobrescriba los datos de ingresos.

  1. En la página DI Lab, seleccione Tareas en el submenú.
  2. En la lista Tareas, busque Load Revenue Data into Data Warehouse.
  3. Seleccione el menú Acciones (tres puntos) y, a continuación, seleccione Duplicar.
  4. En el cuadro de diálogo Duplicar tarea, introduzca Revenue Data Load para el nuevo nombre y seleccione Duplicar.

    El valor de Identificador se genera automáticamente según el nombre que proporcione. Puede cambiar el valor generado, pero después de guardar la nueva tarea, no podrá actualizar el identificador.

  5. En la lista Tareas, seleccione Carga de datos de ingresos.

    Se abrirá la página de tareas del cargador de datos duplicado en un nuevo separador.

  6. Seleccione el icono del paso Destino.
  7. En Configuración de carga de entidades de dato de destino, seleccione Usar entidades de datos existentes.
  8. En el menú Estrategia de integración, seleccione Sobrescribir.
  9. En Entidades de datos disponibles, seleccione la casilla de control REVENUE_TARGET y, a continuación, seleccione Definir como destino.

    El nombre REVENUE_TARGET se muestra junto a Entidad de datos seleccionada.

  10. Seleccione Guardar para guardar la tarea y continuar con la edición.
  11. Seleccione Siguiente para desplazarse al paso Transformación.

    No elimine la transformación de relleno Null que se aplicó anteriormente a SRC_ORDER_NUMBER.

  12. Seleccione Siguiente para navegar al paso Asignación de atributos.

    Todos los atributos de origen y destino se asignan automáticamente.

  13. Seleccione Siguiente para desplazarse al paso Revisar y validar.

    La validación de la tarea comienza automáticamente.

    En un bloque se presenta un resumen de los detalles de configuración de cada paso. Si cambia la configuración de un paso, navegue hasta el paso Revisar y validar para volver a validar la tarea.

    El resultado de la validación de la tarea se muestra en el último bloque, Validación.

  14. Si la validación es correcta, seleccione Guardar y cerrar.

2. Creación de tareas del cargador de datos para datos de cliente

Cree una tarea del cargador de datos para cargar los datos del cliente en el almacén de datos mediante la creación de una nueva entidad de datos de destino.

  1. En la página DI Lab, seleccione Tareas en el submenú.
  2. Seleccione Crear tarea y, a continuación, seleccione Cargador de Datos.

    Se abre la página Crear tarea de cargador de Datos en un nuevo separador. Los pasos con número y nombre de la parte superior le guiarán por la configuración. Se muestra una marca de selección en un icono de paso después de configurar el paso. Para desplazarse entre un paso y otro, seleccione Siguiente o Anterior. También puede acceder directamente a un paso configurado seleccionando el icono.

  3. En la página Create data loader task, paso Basic information, seleccione lo siguiente:
    Para este elementoSeleccione
    Tipo de origen Almacenamiento de archivos
    Tipo de destino Base de datos
    Tipo de carga Única entidad de datos
  4. Para el nombre de la tarea, introduzca Customer Data Load. A continuación, seleccione Siguiente para desplazarse al siguiente paso.

    Una marca de selección se muestra en el icono de paso Información básica después de configurar el paso.

  5. En el paso Origen, seleccione lo siguiente:
    Para este elementoSeleccione
    Activo de datos Lago de datos
    Conexión Conexión por defecto
    Compartimento El compartimento que tenga el cubo en el que haya cargado el archivo de datos de muestra, CUSTOMERS.JSON
    Cubo El cubo de Object Storage que contenga el archivo JSON de ejemplo
  6. En Configuración de archivo:
    Para este elementoSeleccione
    Tipo de archivo JSON
    Tipo de compresión Automático (por defecto)
    Codificación UTF-8

    Puede dejar la configuración por defecto tal cual en los demás campos.

  7. En Entidades de datos disponibles, seleccione la casilla de control de CUSTOMERS.JSON y, a continuación, seleccione Definir como origen.

    El nombre CUSTOMERS.JSON se muestra junto a Entidad de datos seleccionada.

  8. Seleccione Crear para guardar la tarea y continuar con su edición.
  9. Seleccione Siguiente para avanzar al paso Destino y, a continuación, seleccione lo siguiente:
    Para este elementoSeleccione
    Activo de datos Almacén de datos
    Conexión Conexión por defecto
    Esquema BETA
  10. En Ubicación temporal, puede utilizar la ubicación temporal por defecto configurada al crear el activo de datos de destino.

    También puede desactivar la casilla de control para seleccionar otro cubo de Object Storage.

  11. En Configuración de carga de entidades del dato de destino, seleccione Crear nuevas entidades del dato.
  12. En Opciones de nombre de entidad de datos de destino, seleccione Especificar nombre de entidad. A continuación, en el campo Nombre de entidad, introduzca CUSTOMER_JSON_TARGET.
  13. Seleccione Guardar para guardar la tarea y continuar con la edición.
  14. Seleccione el paso Revisar y validar, omitiendo el paso de transformación opcional.

    La validación de la tarea comienza automáticamente.

    En un bloque se presenta un resumen de los detalles de configuración de cada paso. Si cambia la configuración de un paso, navegue hasta el paso Revisar y validar para volver a validar la tarea.

    El resultado de la validación de la tarea se muestra en el último bloque, Validación.

  15. Si la validación es correcta, seleccione Guardar y cerrar.

3. Creación de una tarea de REST para enviar notificaciones

Puede utilizar una tarea de REST para ejecutar un punto final de API de REST en un pipeline. En este tutorial, utilizará la API del servicio Notifications en una tarea de REST de Data Integration para publicar un correo electrónico desde un pipeline.

Para crear una tarea REST en este paso, ya debe tener lo siguiente:
  • Tema y suscripción de correo electrónico creados en el servicio Notificaciones.

  • OCID del tema que ha creado. El OCID está disponible en la sección Información de tema de la página de detalles del tema en el servicio Notifications.

  • La siguiente sentencia de política que permite ejecutar tareas de Data Integration que llaman a la API de REST de Notifications:

    allow any-user to use notification-family in tenancy where ALL {request.principal.type='disworkspace'}

A continuación, en Data Integration, cree una tarea de REST que utilice la API del servicio Notifications para publicar un correo electrónico.

  1. En la página DI Lab, seleccione Tareas en el submenú.
  2. Seleccione Crear tarea y, a continuación, seleccione REST.

    Se abrirá la página Crear tarea de REST en un nuevo separador.

  3. En Nombre, introduzca Notify by Email.

    El valor de Identificador se genera automáticamente según el nombre que proporcione. Puede cambiar el valor generado, pero después de guardar la nueva tarea, no podrá actualizar el identificador.

  4. En la sección Detalles de API de REST, seleccione Configurar.

    Se muestra la página Configurar detalles de API de REST. Los pasos con número y nombre de la parte superior le guiarán por la configuración. Se muestra una marca de selección en un icono de paso después de configurar el paso. Para desplazarse entre un paso y otro, seleccione Siguiente o Anterior. También puede acceder directamente a un paso configurado seleccionando el icono.

  5. En Método HTTP, seleccione POST.
  6. En el campo URL, introduzca lo siguiente y pulse Intro.
    https://notification.us-ashburn-1.oci.oraclecloud.com/20181201/topics/${TOPICID}/messages
    Nota

    Asegúrese de utilizar el identificador de región adecuado para el servicio Notifications.

    Al pulsar Intro después de introducir la URL, Data Integration convierte la sintaxis del parámetro ${} en un parámetro de URL de cadena.

  7. En la fila de la tabla para el parámetro de URL recién agregado TOPICID, seleccione Editar en el menú Acciones (tres puntos).
  8. En el campo Valor, introduzca el OCID del tema de notificaciones que ha creado y seleccione Guardar.
  9. A continuación, agregue una cabecera siguiendo estos pasos:
    1. Seleccione Cabecera.
    2. Seleccione Agregar cabecera.
    3. En el campo Clave, introduzca con y seleccione Tipo de Contenido en la lista.
    4. En el campo Valor, introduzca app y seleccione application/json en la lista.
    5. Haga clic en Agregar.
  10. Agregue un cuerpo de solicitud siguiendo estos pasos:
    1. Seleccione Solicitud.
    2. En el editor, introduzca lo siguiente.
      {"title": "Put your title here", "body": "Put your email body here."}
    3. Haga clic en Agregar.
  11. Seleccione Siguiente y, a continuación, seleccione Configurar.
  12. Para proporcionar autenticación, haga lo siguiente:
    1. En la sección Autenticación, seleccione Editar para mostrar el panel Configurar autenticación.
    2. En el menú Autenticación, seleccione Entidad de recurso de OCI.
    3. En Source de autenticación, seleccione Workspace.
    4. Seleccione Configurar.
  13. En la sección opcional Validar tarea, seleccione Validar.
  14. Cuando la validación se realice correctamente, seleccione Crear y cerrar.

4. Publicación del cargador de datos y las tareas de REST

  1. En la página DI_Lab de detalles de proyecto, seleccione Tareas en el submenú.
  2. En la lista de tareas, seleccione las casillas de control junto a Carga de datos de ingresos, Carga de datos de cliente y Notificar por correo electrónico.
  3. Seleccione Publicar en aplicación.
  4. En el cuadro de diálogo Publicar en aplicación, seleccione Aplicación de laboratorios y seleccione Publicar.

    Aparece un mensaje de notificación con un enlace a la aplicación para ver las tareas publicadas.

  5. Seleccione Ver aplicación en la notificación. A continuación, seleccione X para cerrar la notificación.

    Se muestra la lista Patches de la página de detalles de la aplicación. Se crea una entrada de parche para las tareas que está publicando.

  6. En la lista Parches, puede supervisar el estado del parche. Seleccione Refrescar para obtener las últimas actualizaciones de estado.

    Cuando el estado de un parche cambia a Corierto, se crean tres entradas de tarea publicadas en la lista Tareas de la página de detalles de la aplicación.

  7. En la página de detalles de Aplicación de laboratorio, seleccione Tareas.

    Las tareas publicadas para Carga de datos de ingresos, Carga de datos de cliente y Notificar por correo electrónico se muestran en la lista de tareas.

5. Creación de un pipeline

  1. En la barra de tabulaciones, seleccione el separador Abrir (icono más) y, a continuación, seleccione Proyectos.
  2. En la página Proyectos, seleccione DI_Lab.
  3. En la página de detalles del proyecto DI_Lab, seleccione Pipelines en el submenú de la izquierda y, a continuación, seleccione Crear pipeline.

    El diseñador de pipeline se abre en un nuevo separador. Se colocan un operador de inicio y un operador de finalización en el lienzo.

  4. En el panel Propiedades del pipeline, introduzca Analyze Revenue como Nombre.

    El valor de Identificador se genera automáticamente según el valor que introduzca para el nombre de pipeline. Puede cambiar el valor generado, pero después de guardar el pipeline, no puede actualizar el identificador.

  5. Seleccione Crear.

    El diseñador permanece abierto para que pueda continuar con la edición.

6. Adición de operadores de pipeline

Puede agregar operadores de tarea para especificar las tareas publicadas que desea orquestar en el pipeline.

Obtenga más información sobre los operadores de pipeline.

  1. En el panel Operadores, suelte un operador de cargador de datos en el lienzo, colocándolo entre los operadores de inicio y finalización.

    El panel Propiedades ahora muestra los detalles del operador de tarea del cargador de datos no enlazado.

  2. En el separador Detalles del panel Propiedades, haga clic en Seleccionar.

    Se muestra el panel Seleccionar una tarea del cargador de datos para que pueda seleccionar una tarea publicada del cargador de datos.

  3. En Aplicación de laboratorio, seleccione Carga de datos de ingresos (la tarea que carga los datos de ingresos en un almacén de datos) y haga clic en Seleccionar.

    El nombre del icono de operador cambia al nombre de la tarea seleccionada.

  4. Conecte el operador de inicio a la tarea del cargador de datos de ingresos.
  5. Para guardar el pipeline y continuar con la edición, seleccione Guardar.
  6. Repita los pasos para agregar un segundo operador de cargador de datos. Esta vez, seleccione Carga de datos de cliente (la tarea que carga los datos de cliente). A continuación, conecte el operador de inicio a la tarea del cargador de datos del cliente.
  7. A continuación, suelte el operador Fusionar en el lienzo, colocándolo después de las dos tareas del cargador de datos.
  8. Conecte cada tarea del cargador de datos al operador Fusionar.
  9. En el separador Detalles del panel Propiedades del operador de fusión, seleccione Todo correcto en el menú Condición de fusión.

    Especifica que las operaciones paralelas enlazadas ascendentes deben completarse y ser correctas antes de que pueda continuar la siguiente operación descendente.

  10. En el panel Operadores, suelte el operador Integración en el lienzo, colocándolo después del operador de fusión.
  11. En el separador Detalles del panel Propiedades, haga clic en Seleccionar.
  12. En el panel Seleccionar una tarea de integración, seleccione la tarea Cargar laboratorio de clientes y haga clic en Seleccionar.
  13. Conecte el operador de fusión al operador de tarea de integración.
  14. A continuación, suelte el operador de REST en el lienzo, colocándolo después de la tarea de integración.
  15. En el separador Detalles del panel Propiedades, haga clic en Seleccionar.
  16. En el panel Seleccionar una tarea de REST, seleccione la tarea Notificar por correo electrónico y haga clic en Seleccionar.
  17. En el separador Detalles del panel Propiedades del operador de tarea de REST, seleccione Ejecutar si el operador anterior se ha ejecutado correctamente en el menú Condición de enlace entrante.
  18. Conecte la tarea de REST al operador final.
  19. Seleccione Validar en la barra de herramientas del lienzo.

    Se muestra el panel Validación global para que pueda revisar las advertencias o los errores.

  20. Para guardar el pipeline, seleccione Save and close (Guardar y cerrar).

7. Creación de una tarea de pipeline

  1. En la barra de tabulaciones, seleccione el separador Abrir (icono más) y, a continuación, seleccione Proyectos.
  2. En la página Proyectos, seleccione DI_Lab.
  3. En la página DI_Lab de detalles de proyecto, seleccione Tareas en el submenú de la izquierda.
  4. Seleccione Crear tarea y, a continuación, seleccione Pipeline.

    Se abrirá la página Crear tarea de pipeline en un nuevo separador.

  5. En la página Crear tarea de pipeline, cambie el nombre a Analyze Revenue Lab.

    La introducción de una Descripción es opcional. El valor del campo Identificador se genera automáticamente en función del valor introducido en Nombre. Puede cambiar el valor generado, pero después de guardar la tarea, no puede actualizar el identificador.

  6. En la sección Pipeline, haga clic en Seleccionar.
  7. En el panel Seleccionar un pipeline, seleccione Analizar ingresos y haga clic en Seleccionar.

    La validación del pipeline comienza automáticamente.

  8. Seleccione Crear y cerrar.

8. Publicación y ejecución de una tarea de pipeline

  1. En la página DI_Lab de detalles de proyecto, seleccione Tareas en el submenú.
  2. En la lista Tareas, en el menú Acciones (tres puntos) de Analizar laboratorio de ingresos, seleccione Publicar en aplicación.
  3. En el cuadro de diálogo Publicar en aplicación, seleccione Aplicación de laboratorios y seleccione Publicar.

    Aparece un mensaje de notificación con un enlace a la aplicación para ver las tareas publicadas.

  4. Vaya a la página de detalles de la aplicación de laboratorio y seleccione Parches en el submenú de la izquierda para ver los detalles del parche de tarea.

    Un parche contiene actualizaciones de una tarea publicada en una aplicación. Al publicar una tarea, se crea un parche de publicación. Más información sobre parches.

  5. En la lista Parches, puede supervisar el estado del parche. Seleccione Refrescar para obtener las últimas actualizaciones de estado.

    Cuando el estado de un parche cambia a Corierto, se crea una entrada de tarea publicada en la lista Tareas de la página de detalles de la aplicación.

  6. En la página de detalles de Aplicación de laboratorio, seleccione Tareas.

    La tarea publicada de pipeline Analizar laboratorio de ingresos se muestra en la lista de tareas.

  7. Seleccione el menú Acciones (tres puntos) de la tarea de pipeline y, a continuación, seleccione Ejecutar.

    Aparece un mensaje que indica que se ha realizado correctamente. La ejecución de una tarea crea una ejecución de tarea. Accederá automáticamente a la página Ejecuciones, donde podrá ver todas las ejecuciones de tareas y su estado. El estado inicial de una ejecución de pipeline es Not started.

  8. En la lista Ejecuciones de la página de detalles Aplicación de Laboratorio, seleccione Refrescar para obtener las últimas actualizaciones del estado del proceso de ejecución.

    Tenga en cuenta que la ejecución de un pipeline incluye pasos para el preprocesamiento, la aceptación y la validación antes de que el motor de ejecución inicie la ejecución real del pipeline.

    Seleccione Refrescar varias veces hasta que vea el estado En ejecución.

  9. Cuando se esté ejecutando la tarea de pipeline, seleccione el nombre de ejecución de la tarea.

    Se muestra la página Detalles de ejecución, donde puede supervisar el progreso de la ejecución del pipeline en el gráfico Pipeline. El estado de cada nodo se indica mediante un icono y una etiqueta. Por ejemplo, una marca de verificación verde para un nodo completado, la etiqueta Running para las tareas que se están ejecutando y la etiqueta Waiting para una tarea descendente que está en espera de ejecutarse.

    Seleccione Refrescar varias veces hasta que vea Correcto para el estado de ejecución general del pipeline.

    También puede seleccionar Visión general para ver más detalles sobre la ejecución del pipeline.

  10. Cuando la ejecución del pipeline sea correcta, vaya a la lista Ejecuciones de la página de detalles Aplicación de laboratorio y amplíe la entrada de ejecución principal para la ejecución de la tarea de pipeline.

    Puede ver los detalles de ejecución de cuatro tareas individuales en el pipeline.

    También habría recibido un correo electrónico del servicio Notifications.