Creación de un flujo de datos

Un flujo de datos define cómo se mueven y transforman los datos en los diferentes sistemas.

Un flujo de datos en Data Transforms conecta orígenes a destinos a través de un flujo de componentes como Unión, Filtro, Agregado, Definir, División, etc. Consulte Funciones de base de datos soportadas para obtener más información.

Al ejecutar un flujo de datos, Data Transforms utiliza las uniones, filtros, asignaciones y restricciones para transformar los datos de origen y cargarlos en tablas de destino. Tenga en cuenta que puede ejecutar solo un flujo de ejecución cada vez. No puede colocar varios flujos en un flujo de datos y un flujo no puede divergir en varios flujos.

Puede crear flujos de datos con cualquiera de los siguientes métodos:

El flujo de datos recién creado se muestra en la página Flujos de datos del proyecto asociado. Haga clic en el icono Acciones (Icono Acciones) situado junto al flujo de datos seleccionado para editar, cambiar el nombre, copiar, cambiar de carpeta, iniciar, exportar o suprimirlo.

En la página Proyectos

Para crear un flujo de datos en la página Proyectos,

  1. En la página Proyectos, haga clic en Crear flujo de datos.

    Aparece la página Crear flujo de datos:

  2. En el campo Nombre, introduzca un nombre para el nuevo flujo de datos.
  3. Seleccione Crear nuevo proyecto si desea crear una nueva carpeta del proyecto para el flujo de datos recién creado.
  4. De lo contrario, haga clic en Agregar a proyectos existentes si desea agregar el flujo de datos recién creado a una carpeta de proyectos existente.
  5. Si ha seleccionado Crear nuevo proyecto para la opción anterior, en el campo Nombre de proyecto, introduzca el nombre del proyecto recién creado.
  6. También puede seleccionar Agregar a proyectos existentes para la opción anterior, en la flecha desplegable Nombre de proyecto, seleccione el proyecto necesario.
  7. En el campo Descripción, introduzca una descripción para el flujo de datos recién creado.
  8. Haga clic en Crear.

En la página Flujos de datos de un proyecto

Para crear un flujo de datos desde la página Flujos de datos dentro de un proyecto:

  1. En la página Proyectos, haga clic en el mosaico de proyecto para el que desea crear un nuevo flujo de datos. Aparece la página Detalles del proyecto.
  2. En la página Flujos de datos, haga clic en Crear flujo de datos.
  3. Proporcione el Nombre y la Descripción del nuevo flujo de datos.
  4. Haga clic en Siguiente.
  5. Para definir la conexión de origen, en la lista desplegable Conexión, seleccione la conexión necesaria desde la que desea agregar las entidades de datos.
  6. En la lista desplegable Esquema, todos los esquemas correspondientes a la conexión seleccionada se muestran en dos grupos:
    • Esquema existente (uno que haya importado en Oracle Data Transforms) y
    • Nuevo esquema de base de datos (uno que aún no haya importado).

    Seleccione el esquema que desea usar en la lista desplegable. Para las conexiones de Oracle Object Storage, en la lista desplegable Esquema se muestra el nombre del cubo especificado en la URL al crear la conexión.

  7. Haga clic en Guardar.

    Aparece el editor de datos que permite crear un nuevo flujo de datos.

En la página de inicio

Para crear un flujo de datos en la página Inicio,

  1. En la página Inicio, haga clic en Transformar datos. Aparece la página Crear flujo de datos.
  2. Proporcione el Nombre y la Descripción del nuevo flujo de datos.
  3. Seleccione un nombre de proyecto en la lista desplegable. También puede hacer clic en el icono + para crear un proyecto.
  4. Haga clic en Siguiente.
  5. En la lista desplegable Conexión, seleccione la conexión necesaria desde la que desea agregar las entidades de datos. También puede hacer clic en el icono + para crear una nueva conexión.
  6. En la lista desplegable Esquema, todos los esquemas correspondientes a la conexión seleccionada se muestran en dos grupos:
    • Esquema existente (uno que haya importado en Oracle Data Transforms) y
    • Nuevo esquema de base de datos (uno que aún no haya importado).

    Seleccione el esquema que desea usar en la lista desplegable.

  7. Haga clic en Guardar.

Acerca del editor de flujos de datos

El editor de flujos de datos está dividido en cinco partes: el panel Entidad de datos, la barra de herramientas Funciones de base de datos, el lienzo Diseño, el panel Propiedades y el panel Estado.


Descripción de datafloweditor.png siguiente

  • Panel Entidades de datos: en el panel Entidades de datos se muestran las entidades de datos disponibles para su uso en los flujos de datos. La lista mostrada se puede filtrar utilizando los campos Nombre y etiquetas. El panel incluye opciones que permiten agregar esquemas, importar entidades de datos, eliminar cualquiera de los esquemas asociados al flujo de datos y refrescar entidades de datos. Consulte Agregar componentes para obtener información sobre cómo utilizar estas opciones.
  • Barra de herramientas de Database Functions: en la barra de herramientas de Database Functions se muestran las funciones de la base de datos que se pueden utilizar en los flujos de datos. Al igual que ocurre con las entidades de datos, puede arrastrar y borrar las herramientas de Database que desea utilizar en el lienzo de diseño. Consulte Funciones de base de datos soportadas para obtener más información.
  • Lienzo de diseño: el lienzo de diseño es el lugar donde se crea la lógica de transformación. Después de agregar las entidades de datos y las funciones de base de datos al lienzo de diseño, puede conectarlas en un orden lógico para completar los flujos de datos.
  • Panel Propiedades: en el panel Propiedades se muestran las propiedades del objeto seleccionado en el lienzo de diseño. El panel Propiedades está agrupado en cuatro separadores. general, atributos, visualización previa de datos, asignación de columna y opciones. No todos los separadores están disponibles, ya que varían según el objeto seleccionado. Consulte Propiedades de componente para obtener más información sobre estas opciones.
  • Panel Estado: al ejecutar un flujo de datos, en el panel Estado se muestra el estado del trabajo que se está ejecutando en segundo plano para completar la solicitud. Puede ver el estado del trabajo que se está ejecutando actualmente o el estado del último trabajo. Para obtener más información sobre el panel Estado, consulte Supervisión del estado de cargas de datos, flujos de datos y flujos de trabajo.

Después de diseñar el flujo de datos necesario,

  • Haga clic en guardar, icono para guardar el flujo de datos creado/diseñado.
  • Haga clic en icono de diseño automático para alinear los nodos del flujo de datos diseñado.
  • Haga clic en icono de ejecución para ejecutar el flujo de datos creado.
  • Haga clic en icono validar para validar el flujo de datos creado.
  • Haga clic en Iconos para acercar y alejar para maximizar o minimizar el diagrama de flujo de datos creado en el lienzo de diseño.

Funciones de base de datos soportadas

Oracle Data Transforms soporta varias funciones de base de datos que puede arrastrar y soltar en el lienzo de diseño para conectar componentes dentro de un flujo de datos.

La barra de herramientas de Database Functions del editor de Data Flow incluye las siguientes funciones de la base de datos que se pueden utilizar en los flujos de datos:

  1. Data Transformation

    Contiene los siguientes componentes:

    • Agregar
    • Expresión
    • Filtro
    • Unión
    • Distinto
    • Consulta
    • Definido
    • Ordenar
    • Filtro de Subconsulta
    • Función de Tabla
  2. Preparación de datos

    Contiene los siguientes componentes:

    • Limpieza de datos
    • Sustitución
    • Equi_Width Creación de depósitos
    • Asignación Numérica de Cuantilos
    • Cliente potencial
    • Lag
    • Sustituir
  3. Machine Learning

    Contiene los siguientes componentes:

    • Predicción
    • Detección de valores atípicos
  4. Texto

    Contiene los siguientes componentes:

    • RECUENTO DE EXPRESIONES REGULARES
    • INSTRUMENTO DE EXPRESIÓN REGULAR
    • EXPRESIÓN REGULAR - SUBTDA
    • REGEXP SUSTITUCIÓN
    • Editar similitud de distancia
    • Contiene
  5. Oracle Spatial and Graph

    Contiene los siguientes componentes:

    • Dimensión de buffer
    • Tolerancia de buffer
    • Dimensión de distancia
    • Tolerancia de distancia
    • Más cercano
    • Simplificar
    • Puntos
    • Herramientas de geocodificación:
      Nota

      Las siguientes herramientas de código geográfico solo funcionan en un entorno que no sea de Autonomous Database.
      • Geocodificar como geometría
      • Geografía
      • Geocodificar dirección
      • Geocodificar todo
      • Geocodificar todas las direcciones
      • Invertir geocodificación
      Nota

      La siguiente herramienta de geocódigo solo funciona en un entorno de Autonomous Database.
      • Geocódigo en la nube
    • Unión espacial

Adición de Componentes

Agregue las entidades de datos y las funciones de base de datos a Design Canvas y conéctelas en un orden lógico para completar los flujos de datos.

Para agregar componentes al flujo de datos:
  1. En el panel Entidades de datos, haga clic en Agregar un esquema para agregar esquemas que contengan las entidades de datos que desea utilizar en el flujo de datos.
  2. En la página Agregar Esquema, seleccione la conexión y el nombre del esquema.
  3. Haga clic en Importar.
  4. En la página Importar entidades de datos, seleccione el tipo de objetos que desea importar. Seleccione una máscara o un filtro si no desea importar todos los objetos del esquema y haga clic en Iniciar.
  5. En el panel Entidades de datos se muestran las entidades de datos importadas. El panel incluye varias opciones que le permiten realizar lo siguiente:
    • Refrescar entidades de datos: haga clic en el icono Refrescar Actualizar para refrescar la lista mostrada.
    • Nombre: busque entidades de datos por nombre.
    • Etiquetas: filtra las entidades de datos por el nombre de la etiqueta utilizada.
    • Importar entidades de datos: haga clic con el botón derecho en el esquema para ver esta opción. Utilice esta opción para importar las entidades de datos.
    • Eliminar esquema: haga clic con el botón derecho en la entidad de datos para ver esta opción. Utilice esta opción para eliminar el esquema de la lista. Tenga en cuenta que con esta opción no se suprime el esquema, solo se elimina la asociación del esquema con este flujo de datos.
  6. De forma similar, agregue más esquemas al flujo de datos, si es necesario.
  7. Arrastrar las entidades de datos necesarias que desea utilizar en el flujo de datos y soltarlas en el lienzo de diseño.
  8. En la barra de herramientas Funciones de base de datos, arrastrar el componente de transformación que desea utilizar en el flujo de datos y soltarlo en el lienzo de diseño. Puede utilizar variables en el flujo de datos. Consulte Uso de variables en un flujo de datos para obtener más información.
  9. Seleccione un objeto en el cuadro de diálogo de diseño y arrastre el icono Conector (Icono del conector) situado junto a él para conectar los componentes.
  10. Después de guardar el flujo de datos, puede haber un icono Transferir en una o más conexiones de componentes. Esto indica que ODI ha detectado un paso adicional y es necesario mover los datos entre servidores de datos. Puede hacer clic en este icono para ver las propiedades asociadas a este paso.
Por ejemplo:
Descripción de add-components.png a continuación

Propiedades de Componente

En el panel Propiedades se muestran varios valores para los componentes seleccionados en el lienzo de diseño.

Según el componente seleccionado, puede ver cualquiera de los siguientes iconos:

  • General (General): muestra el nombre del componente junto con sus detalles de conexión y esquema. Puede editar algunas de estas propiedades.
  • Atributos (Atributos: muestra los detalles de todos los atributos asociados al componente.
  • Asignación de columnas (Asignación de Columna): permite asignar todas las columnas automáticamente. Consulte Asignación de columnas de datos para obtener más información.
  • Vista previa (Presentación Preliminar): muestra una vista previa del componente. En el caso de las tablas de Oracle, también puede ver las estadísticas de la entidad de datos seleccionada. Consulte Ver estadísticas de entidades de datos para obtener más información sobre la información estadística disponible.
  • Opciones (Opciones): muestra opciones como
    • Truncar tabla: sustituye cualquier contenido de tabla de destino existente por nuevos datos.
    • Agregar - Permite insertar registros del flujo en el destino. Los registros existentes no se actualizan.
    • Incremental: integra datos en la tabla de destino comparando los registros del flujo con los registros existentes y actualizando los registros cuando los datos asociados no son los mismos. Se insertan los que aún no existen en el destino.
      La opción incluye una función de compresión automática que está definida en True por defecto. Para los trabajos de flujo de datos que utilizan el modo de actualización incremental para cargar datos en una partición de destino de Oracle comprimida, la función de compresión automática vuelve a comprimir las particiones de destino modificadas una vez que la carga finaliza correctamente. Para las particiones de tabla que no están comprimidas originalmente, la compresión se omite independientemente de si la compresión automática está definida en true.
      Nota

      La opción de compresión automática está disponible para el usuario ADMIN o para un usuario con el rol DWROLE. Para los flujos de datos que tienen usuarios de esquema que no sean ADMIN, debe asignar el DWROLE al usuario o desactivar la compresión automática para evitar errores de ejecución.

Asignación de columnas de datos

Al conectar la entidad de datos de origen con la entidad de datos de destino, los nombres de columna se asignan automáticamente por los nombres de columna. Puede asignar las columnas por posición o por nombre o asignar las columnas manualmente mediante el editor de expresiones.

Para asignar columnas por posición o por nombre:

  1. Seleccione la entidad de datos de destino.
  2. Haga clic en el icono de flecha de la esquina superior derecha para ampliar el panel Propiedades. Esto le dará más espacio para trabajar.
  3. En el panel Propiedades, haga clic en el icono Asignación de columna (Icono Asignación de columnas).
  4. To map the columns by Position or by Name, from the Auto Map drop-down menu, select By Position or By Name.

Para asignar las columnas de forma manual:

  1. En el menú desplegable Asignación automática, seleccione Borrar para borrar las asignaciones existentes.
  2. Arrastrar y soltar los atributos del árbol de la izquierda para asignarlos a la columna Expresión.
  3. Para editar una expresión, haga clic en el icono Editar de la columna correspondiente. Aparece el Editor de expresiones, que permite realizar los cambios necesarios (por ejemplo, puede simplemente agregar una expresión "UPPER" o abrir el editor de expresiones para editar la expresión).
    Nota

    Utilice el editor de expresiones solo si tiene expresiones complejas para una columna concreta.
  4. Haga clic Aceptar.

Validación y ejecución de un flujo de datos

Una vez que las asignaciones estén listas, puede continuar con la validación y ejecución del flujo de datos.

Haga lo siguiente:
  1. Haga clic en Guardar.

    Después de guardar, si los datos se deben ubicar temporalmente antes de la transformación, se agrega el botón Transferir a uno o más enlaces. Puede hacer clic en estos botones para definir más opciones, si están disponibles.

  2. Haga clic en el icono Simular código (Icono Simular código) si desea comprobar el código que se ejecutará para completar las tareas que se realizan al ejecutar el trabajo de flujo de datos. Los detalles de origen y destino se muestran con colores diferentes para facilitar la referencia. Esto resulta útil si desea comprobar si la asignación es correcta antes de ejecutar el trabajo o si falla el trabajo. Tenga en cuenta que el código no se puede utilizar para la depuración. Para obtener información detallada sobre el trabajo, consulte la página Detalles del trabajo.
  3. Haga clic en el icono Validar (Icono Validar) de la barra de herramientas sobre el lienzo de diseño para validar el flujo de datos.
  4. Después de una validación correcta, haga clic en el icono Ejecutar (Icono Ejecutar) junto al icono Validar para ejecutar el flujo de datos.

    Aparece un mensaje que muestra el ID y el nombre del trabajo de ejecución. Para comprobar el estado del flujo de datos, consulte el panel Estado situado debajo del panel Propiedades. Para obtener más información sobre el panel Estado, consulte Supervisión del estado de cargas de datos, flujos de datos y flujos de trabajo. En este panel también se muestra el enlace al ID de trabajo en el que puede hacer clic para supervisar el progreso en la página Trabajos. Para obtener más información, consulte Creación y gestión de trabajos.

    Para los flujos de datos creados mediante conexiones de Oracle Object Storage, los datos del archivo CSV de origen se cargan en la instancia de Oracle Autonomous Database de destino. También puede exportar datos de una tabla de Oracle Autonomous Database a un archivo CSV de Oracle Object Storage.