Introducción y transformación de datos mediante un flujo de datos

Un flujo de datos es un diagrama lógico que representa el flujo de datos desde los activos de datos de origen, como una base de datos o un archivo plano, hasta los activos de datos de destino, como un lago de datos o un almacén de datos.

El flujo de datos del origen al destino puede sufrir una serie de transformaciones para agregar, limpiar y dar forma a los datos. Los ingenieros de datos y los desarrolladores de ETL pueden analizar o recopilar información y utilizar esos datos para tomar decisiones empresariales de gran impacto.

En este tutorial:

  1. Cree un proyecto en el que pueda guardar el flujo de datos.
  2. Agregue operadores de origen y seleccione las entidades de datos que desea utilizar en el flujo de datos.
  3. Utilice operadores de conformación y aplique transformaciones.
  4. Identifique el activo de datos de destino para cargar los datos.

Antes de empezar

Para introducir y transformar datos mediante un flujo de datos, debe tener lo siguiente:

1. Creación de un proyecto y un flujo de datos

En Oracle Cloud Infrastructure Data Integration, los flujos de datos y las tareas solo se pueden crear en un proyecto o una carpeta.

Para crear un proyecto y un flujo de datos:

  1. En la página Inicio del espacio de trabajo, seleccione Proyectos.
    Si necesita ayuda para encontrar el espacio de trabajo de Data Integration en el que trabajar, consulte Creación y acceso a un espacio de trabajo.
  2. En la página Proyectos, seleccione Crear proyecto y, a continuación, Crear nuevo.
  3. En la página Crear proyecto, introduzca DI_Lab para Nombre y, a continuación, seleccione Crear.

    Después de crear un proyecto, puede crear un flujo para la ingestión de datos a partir de dos archivos origen que contengan información sobre clientes (CUSTOMERS.json) y órdenes (REVENUE.csv).

  4. En la página DI_Lab de detalles de proyecto, seleccione Flujo de datos en el submenú de la izquierda.
    Si se encuentra en la página Proyectos, seleccione DI_Lab para abrir la página Detalles del proyecto.
  5. Seleccione Crear flujo de datos.

    El diseñador de flujos de datos se abrirá en un nuevo separador.

  6. En el panel Propiedades, en Nombre, introduzca Load Customers and Revenue Data.

    El valor de Identificador se genera automáticamente en función del valor que introduzca para el nombre del flujo de datos. Puede cambiar el valor generado, pero después de guardar el flujo de datos, no puede actualizar el identificador.

  7. Seleccione Crear.

    El diseñador permanece abierto para que pueda continuar con la edición.

2. Adición de operadores de origen

Agregue operadores de origen para identificar las entidades de datos que se utilizarán para el flujo de datos. Una entidad de datos representa una tabla de base de datos en este tutorial.

  1. En el panel Operadores, suelte un operador de Origen en el lienzo.
  2. En el lienzo, seleccione SOURCE_1, si aún no está seleccionado.

    El panel Propiedades muestra los detalles del operador enfocado.

  3. En el separador Detalles del panel Propiedades, haga clic en Seleccionar junto a cada una de las siguientes opciones para realizar las selecciones:
    • En Activo de datos, seleccione Data_Lake.
    • En Conexión, seleccione Conexión por defecto.
    • En Esquema, seleccione el compartimento y, a continuación, el cubo. Para los fines de este tutorial, Object Storage sirve como activo de datos de origen; por ello, debe seleccionar aquí el cubo.
    • En entidad de datos, seleccione Examinar por nombre y, a continuación, seleccione CUSTOMERS.json. Para Tipo de Archivo, seleccione JSON.
  4. Cuando complete las selecciones para SOURCE_1, el nombre del operador pasará a ser CUSTOMERS_JSON, lo que refleja la selección de la entidad de datos. En el campo Identificador, renombre el operador de origen a CUSTOMERS.
  5. Repita los pasos de 1 a 3 para agregar un segundo operador de Origen con los siguientes valores:
    • En Activo de datos, seleccione Data_Lake.
    • En Conexión, seleccione Conexión por defecto.
    • En Esquema, seleccione el compartimento y, a continuación, el cubo. Para los fines de este tutorial, Object Storage sirve como activo de datos de origen; por ello, debe seleccionar aquí el cubo.
    • En Entidad de datos, seleccione REVENUE.csv y, a continuación, seleccione CSV para el tipo de archivo. Acepte los valores por defecto de los elementos restantes.
  6. Cuando completa las selecciones para el segundo operador de origen, el nombre del operador pasa a ser REVENUE_CSV, lo que refleja la selección de entidad de datos. En el campo Identificador, renombre el operador de origen a REVENUE.
  7. (Opcional) Seleccione Asignar parámetro para evitar que los detalles del origen se vinculen al código compilado al publicar el flujo de datos.
  8. (Opcional) En el separador Atributos, puede ver los atributos de la entidad de datos y aplicar reglas de excluir o cambiar de nombre a los atributos desde su menú Acciones respectivo (tres puntos).
    También puede utilizar el icono de filtro de la columna Nombre o Tipo para aplicar uno o más filtros a los atributos que se van a excluir.
  9. (Opcional) En el separador Datos, puede ver un ejemplo de datos de la entidad de datos de origen y aplicar transformaciones a los datos o seleccionar atributos para ver un perfil de datos.
  10. (Opcional) En el separador Validación, puede comprobar si hay advertencias o errores relacionados con la configuración de los operadores de origen.
  11. Para guardar el flujo de datos y continuar con su edición, seleccione Guardar.

3. Filtrado y transformación de datos

Filtrado de datos

El operador Filtro produce un subjuego de datos de un operador ascendente según una condición.

  1. Desde el panel Operadores, suelte un operador de Filtro en el lienzo.
  2. Conecte REVENUE a FILTER_1:
    • Coloque el cursor en REVENUE.
    • Arrastre el círculo del conector en el lado de REVENUE.

      Conector para operadores

    • Suelte el círculo del conector en FILTER_1.

      Acción de arrastrar y soltar entre conectores

  3. Seleccione FILTER_1.
  4. En el panel Propiedades, seleccione Crear junto a Condición de filtro.
  5. En el panel Crear condición de filtro, introduzca STA en el campo Buscar por nombre.
  6. Haga doble clic o suelte ORDER_STATUS para agregarlo al editor de condiciones de filtro.
  7. En el editor de condiciones, introduzca ='1-Booked', de modo que la condición sea la siguiente:

    FILTER_1.REVENUE_CSV.ORDER_STATUS='1-Booked'

    Nota

    Para evitar incidencias con las comillas, evite copiar y pegar.
  8. Seleccione Crear.
  9. En el panel Operadores, suelte un operador de filtro en el lienzo, colocándolo después de CUSTOMERS.
  10. Conecte CUSTOMERS a FILTER_2:
    • Coloque el cursor en CUSTOMERS.
    • Arrastre el círculo del conector en el lado derecho de CUSTOMERS.
    • Suelte el círculo del conector en FILTER_2.
  11. En el panel Propiedades de FILTER_2, seleccione Crear junto a Condición de filtro.
  12. En el panel Crear condición de filtro, introduzca COU en el campo Buscar por nombre.
  13. Haga doble clic en COUNTRY_CODE para agregarlo al editor de condiciones.
  14. Introduzca ='US' para que la condición sea la siguiente:

    FILTER_2.CUSTOMERS_JSON.COUNTRY_CODE='US'

  15. Seleccione Crear.
  16. Para guardar el flujo de datos y continuar con su edición, seleccione Guardar.
Transformación de datos

Con Xplorer de datos, puede explorar un ejemplo de datos, revisar metadatos de creación de perfiles y aplicar transformaciones en el separador Datos del panel Propiedades. Se agregan operadores de expresión al lienzo para cada transformación aplicada.

  1. En el panel Propiedades de FILTER_2, seleccione el separador Datos.
    Se muestran todas las filas y atributos de datos. Puede utilizar la barra de desplazamiento vertical para desplazar las filas, y la barra de desplazamiento horizontal para desplazar los atributos.
  2. En el campo Buscar por patrón, introduzca STATE*.
    Se filtra el número de atributos de la tabla. Solo se muestran los atributos que coinciden con el patrón.
  3. Seleccione el menú de transformaciones (menú de transformaciones) de FILTER_2.CUSTOMERS_JSON.STATE_PROVINCE y, a continuación, seleccione Cambiar uso de mayúsculas y minúsculas.

    Icono del menú Transformación

  4. En el cuadro de diálogo Cambiar uso de mayúsculas y minúsculas, en el menú Tipo, seleccione Superior.
  5. No seleccione la casilla de control Mantener atributos de origen.
  6. Deje el Nombre tal vez.
  7. Seleccione Aplicar.

    Se agregará un operador de expresión al flujo de datos. En el panel Propiedades, el enfoque está ahora en el separador Detalles, que muestra los detalles del operador de expresión.

    En la tabla Expresiones, puede ver la expresión generada, UPPER(EXPRESSION_1.CUSTOMERS_JSON.STATE_PROVINCE).

  8. En el panel Propiedades del operador de expresión, cambie el nombre del campo Identificador a CHANGE_CASE.
  9. Seleccione el separador Datos y, a continuación, utilice la Barra de desplazamiento horizontal para desplazarse al final.

    CHANGE_CASE.STATE_PROVINCE se agrega al final del juego de datos. Puede obtener una vista previa de los datos transformados de CHANGE_CASE.STATE_PROVINCE en el separador Datos.

  10. En el panel Operadores, suelte el operador Expresión en el lienzo, colocándolo después de CHANGE_CASE.
  11. Conecte CHANGE_CASE al nuevo operador EXPRESSION_1.
  12. En el panel Propiedades de EXPRESSION_1, seleccione Agregar expresión en la tabla Expresiones.
  13. En el panel Agregar expresión:
    1. En el campo Identificador, cambie el nombre de la expresión a FULLNAME.
    2. Mantenga Tipo de dato como VARCHAR.
    3. Defina longitud en 200.
    4. En Creador de expresiones, cambie de la lista De entrada a la lista Funciones.
    5. En el campo de búsqueda por nombre, introduzca CON. A continuación, busque CONCAT en String.
    6. Introduzca CONCAT(CONCAT(EXPRESSION_1.CUSTOMERS_JSON.FIRST_NAME, ' '),EXPRESSION_1.CUSTOMERS_JSON.LAST_NAME)

      También puede resaltar los marcadores de posición de una función y, a continuación, hacer doble clic o borrar atributos de la lista Incoming para crear una expresión.

    7. Haga clic en Agregar.

    La expresión CONCAT se muestra ahora en la tabla Expresiones para el operador EXPRESSION_1. Puede agregar tantas expresiones como desee.

  14. Para guardar el flujo de datos y continuar con su edición, seleccione Guardar.

4. Unión de datos

Después de aplicar filtros y transformaciones, puede unir entidades de datos de origen mediante un identificador de cliente único y, a continuación, cargar los datos en una entidad de datos de destino.

  1. Para unir los datos de EXPRESSION_1 con los datos de FILTER_1, suelte un operador de unión del panel Operadores en el lienzo, colocándolo después en EXPRESSION_1 y FILTER_1.
  2. Conecte EXPRESSION_1 a JOIN_1. A continuación, conecte FILTER_1 a JOIN_1.
  3. Con JOIN_1 seleccionado, en el separador Detalles del panel Propiedades, seleccione Crear junto a Condición de unión.
  4. En el panel Crear condición de unión, introduzca CUST en el campo de búsqueda por nombre.
    Puede unir las entidades mediante CUST_ID y CUST_KEY.
  5. En el editor, introduzca JOIN_1_1.CUSTOMERS_JSON.CUST_ID=JOIN_1_2.REVENUE_CSV.CUST_KEY.
  6. Seleccione Crear.
  7. Para guardar el flujo de datos y continuar con su edición, seleccione Guardar.

5. Adición de un operador de destino

  1. En el panel Operadores, suelte un operador de Destino en el lienzo.
  2. Conecte JOIN_1 a TARGET_1.
  3. Seleccione TARGET_1 en el lienzo, si aún no está seleccionado.
  4. En el separador Detalles del panel Propiedades, no seleccione la casilla de control Crear nueva entidad de datos.
  5. A continuación, haga clic en Seleccionar en cada una de las siguientes opciones para realizar las selecciones para una entidad de datos:
    • En Activo de datos, seleccione Data_Warehouse.
    • En Conexión, seleccione Conexión por defecto.
    • En Schema, seleccione BETA.
    • En Entidad de datos, seleccione CUSTOMERS_TARGET.
  6. En Ubicación temporal, seleccione el activo de datos Lago de datos, su conexión por defecto y el compartimento. A continuación, en Esquema, seleccione el cubo de Object Storage que haya utilizado para importar los datos de muestra.
  7. Deje el valor de Estrategia de integración como Insertar.
  8. Para revisar la asignación de atributos, seleccione el separador Asignación.

    Por defecto, todos los atributos se asignan por nombre.

    Por ejemplo, CUST_ID de JOIN_1 se asigna a CUST_ID en la entidad de datos de destino.

  9. Para asignar manualmente los atributos que aún no están asignados, seleccione el menú Todos de la tabla Atributos de destino y, a continuación, seleccione Atributos no asignados.

    Puede hacer lo mismo en la tabla Atributos de origen (para los campos entrantes).

  10. A continuación, borre FULLNAME de Atributos de origen a FULL_NAME en Atributos de destino.
  11. En la tabla Atributos de destino, seleccione Atributos no asignados y, a continuación, seleccione Todos.

    Todos los atributos están ahora asignados.

  12. (Opcional) Seleccione Acciones para revisar las distintas opciones de asignación disponibles.
  13. (Opcional) Seleccione Ver reglas para ver las reglas aplicadas.
  14. Para guardar el flujo de datos y salir del diseñador, seleccione Guardar y cerrar.