Creación de un flujo de datos

Un flujo de datos define cómo se mueven y transforman los datos entre diferentes sistemas.

Un flujo de datos en transformaciones de datos conecta orígenes a destinos a través de un flujo de componentes como Unión, Filtro, Agregado, Juego, División, etc. Consulte Funciones de base de datos soportadas para obtener más información.

Cuando se ejecuta un flujo de datos, Data Transforms utiliza las uniones, filtros, asignaciones y restricciones para transformar los datos de origen y cargarlos en tablas de destino. Tenga en cuenta que solo puede ejecutar un flujo de ejecución a la vez. No puede colocar varios flujos en un flujo de datos y un flujo no puede divergir en varios flujos.

Puede crear flujos de datos de cualquiera de las siguientes formas:

El flujo de datos recién creado se muestra en la página Flujos de datos del proyecto asociado. Haga clic en el icono Acciones () situado junto al flujo de datos seleccionado para editarlo, cambiarle el nombre, copiarlo, cambiar carpeta, iniciarlo, exportarlo o suprimirlo.

En la página Projects

Para crear un flujo de datos desde la página Projects,

En la página Proyectos, haga clic en Crear flujo de datos.
Aparece la página Crear flujo de datos:
En el campo Nombre, introduzca un nombre para el nuevo flujo de datos.
Seleccione Crear nuevo proyecto si desea crear una nueva carpeta de proyecto para el flujo de datos recién creado.
De lo contrario, haga clic en Agregar a proyectos existentes si desea agregar el flujo de datos recién creado a una carpeta de proyecto existente.
Si ha seleccionado Crear nuevo proyecto para la opción anterior, en el campo Nombre de proyecto, introduzca el nombre del proyecto recién creado.
De lo contrario, si ha seleccionado Agregar a proyectos existentes para la opción anterior, seleccione el proyecto necesario en la flecha desplegable Nombre de proyecto.
En el campo Descripción, introduzca una descripción para el flujo de datos recién creado.
Haga clic en Crear.

En la página Flujos de datos de un proyecto

Para crear un flujo de datos desde la página Flujos de datos de un proyecto,

En la página Projects, haga clic en el mosaico de proyecto para el que desea crear un nuevo flujo de datos. Aparecerá la página Detalles de proyecto.
En la página Flujos de datos, haga clic en Crear flujo de datos.
Proporcione el nombre y la descripción del nuevo flujo de datos.
Haga clic en Siguiente.
Para definir la conexión de origen, en la lista desplegable Conexión, seleccione la conexión necesaria desde la que desea agregar las entidades de datos.
En la lista desplegable Esquema, todos los esquemas correspondientes a la conexión seleccionada se muestran en dos grupos:
- Esquema existente (con las que ha importado en las transformaciones de datos de Oracle) y
- Nuevo esquema de base de datos (que aún no se ha importado).
Seleccione el esquema que desea utilizar en la lista desplegable. Para las conexiones de Oracle Object Storage, la lista desplegable Schema muestra el nombre del cubo que especificó en la URL al crear la conexión.
Haga clic en Guardar.
Aparece el editor de Data Flow que permite crear un nuevo flujo de datos.

En la página de inicio

Para crear un flujo de datos desde la página inicial,

En la página de inicio, haga clic en Transformar datos. Aparecerá la página Crear flujo de datos.
Proporcione el nombre y la descripción del nuevo flujo de datos.
Seleccione un nombre de proyecto de la lista desplegable. También puede hacer clic en el icono + para crear un proyecto.
Haga clic en Siguiente.
En la lista desplegable Conexión, seleccione la conexión necesaria desde la que desea agregar las entidades de datos. También puede hacer clic en el icono + para crear una nueva conexión.
En la lista desplegable Esquema, todos los esquemas correspondientes a la conexión seleccionada se muestran en dos grupos:
- Esquema existente (con las que ha importado en las transformaciones de datos de Oracle) y
- Nuevo esquema de base de datos (que aún no se ha importado).
Seleccione el esquema que desea utilizar en la lista desplegable.
Haga clic en Guardar.

Acerca del editor de flujos de datos
El editor de flujos de datos se divide en cinco partes: el panel Entidad de datos, la barra de herramientas Funciones de base de datos, el lienzo de diseño, el panel Propiedades y el panel Estado.
Adición de componentes
Agregue las entidades de datos y las funciones de base de datos al lienzo de diseño y conéctelas en un orden lógico para completar los flujos de datos.
Propiedades de los Componentes
El panel Propiedades muestra varios valores para los componentes seleccionados en el lienzo de diseño.
Asignación de columnas de datos
Al conectar la entidad de datos de origen con la entidad de datos de destino, los nombres de columna se asignan automáticamente mediante los nombres de columna. Puede asignar las columnas por posición o por nombre, o bien asignarlas manualmente mediante el editor de expresiones.
Validación y ejecución de un flujo de datos
Una vez que las asignaciones estén listas, puede continuar para validar y ejecutar el flujo de datos.

Tema principal: Página Data Transforms

Acerca del Editor de Flujo de Datos

El editor de flujos de datos se divide en cinco partes: el panel Entidad de datos, la barra de herramientas Funciones de base de datos, el lienzo de diseño, el panel Propiedades y el panel Estado.

A continuación se describe datafloweditor.png

Descripción de la ilustración datafloweditor.png

Panel Entidades de datos: el panel Entidad de datos muestra las entidades de datos que están disponibles para su uso en los flujos de datos. La lista que se muestra se puede filtrar mediante los campos Nombre y Etiquetas. El panel incluye opciones que permiten agregar esquemas, importar entidades de datos, eliminar cualquiera de los esquemas asociados al flujo de datos y refrescar entidades de datos. Consulte Agregar componentes para obtener información sobre cómo utilizar estas opciones.
Barra de herramientas de funciones de base de datos: la barra de herramientas de funciones de base de datos muestra las funciones de base de datos que se pueden utilizar en los flujos de datos. Al igual que las entidades de datos, puede arrastrar y soltar las herramientas de base de datos que desea utilizar en el lienzo de diseño. Consulte Funciones de base de datos soportadas para obtener más información.
Lienzo de diseño: el lienzo de diseño es donde se crea la lógica de transformación. Después de agregar las entidades de datos y las funciones de base de datos al lienzo de diseño, puede conectarlas en un orden lógico para completar los flujos de datos.
Panel Propiedades: el panel Propiedades muestra las propiedades del objeto seleccionado en el lienzo de diseño. El panel Propiedades se agrupa en cuatro separadores. General, Atributos, Vista previa de datos, Asignación de columnas y Opciones. No todos los separadores están disponibles, ya que varían según el objeto seleccionado. Consulte Propiedades de los Componentes para obtener más información sobre estas opciones.
Panel de estado: al ejecutar un flujo de datos, el panel de estado muestra el estado del trabajo que se está ejecutando en segundo plano para completar la solicitud. Puede ver el estado del trabajo que se está ejecutando actualmente o el estado del último trabajo. Para obtener más información sobre el panel Estado, consulte Supervisión del estado de cargas de datos, flujos de datos y flujos de trabajo.

Después de diseñar el flujo de datos necesario,

Haga clic en para guardar el flujo de datos creado/diseñado.
Haga clic en para alinear los nodos del flujo de datos diseñado.
Haga clic en para ejecutar el flujo de datos creado.
Haga clic en para validar el flujo de datos creado.
Haga clic en para maximizar o minimizar el diagrama de flujo de datos creado en el lienzo de diseño.

Funciones de base de datos soportadas
Oracle Data Transforms soporta varias funciones de base de datos que puede arrastrar y soltar en el lienzo de diseño para conectar componentes dentro de un flujo de datos.

Tema principal: Creación de un flujo de datos

Funciones de base de datos soportadas

Oracle Data Transforms soporta varias funciones de base de datos que puede arrastrar y soltar en el lienzo de diseño para conectar componentes en un flujo de datos.

La barra de herramientas Funciones de base de datos del editor de Data Flow incluye las siguientes funciones de base de datos que se pueden utilizar en los flujos de datos. Consulte Referencia de lenguaje SQL de Oracle Database para obtener más información sobre las funciones de la base de datos.

Data Transformation
Contiene los siguientes componentes:
- Agregado
- Expresión
- Filtro
- Unión
- Distinto
- Consulta
- Definir
- Ordenar
- Filtro de Subconsulta
- Función de tabla
Preparación de Datos
Contiene los siguientes componentes:
- Limpieza de datos
- Sustitución
- Equi_Width Depósito
- Asignación Numérica de Cuantilos
- Oportunidad potencial
- Lag
- Sustituir
Machine learning
Contiene los siguientes componentes:
- Predicción
- Modelo de predición
- Detección de valores atípicos
- Vector de incrustación de texto
Texto
Contiene los siguientes componentes:
- RECUENTO DE EXPRESIONES REGULARES
- INSTRUMENTO DE EXPRESIÓN REGULAR
- SUSTRATO DE EXPRESIÓN REGULAR
- SUSTITUCIÓN DE EXPRESIÓN REGULAR
- Editar similitud de distancia
- Contiene
Oracle Spatial and Graph
Contiene los siguientes componentes:
- Dimensión de buffer
- Tolerancia de buffer
- Dimensión de distancia
- Tolerancia de distancia
- Más cercano
- Simplificar
- Punto
- Herramientas de geocodificación:
  Nota
  
  Las siguientes herramientas de geocodificación solo funcionan en entornos que no sean de Autonomous Database.
  - Geocodificar como geometría
  - Geocodificación
  - Geocodificar dirección
  - Geocodificar todo
  - Geocodificar todas las direcciones
  - Geocodificación inversa
  Nota
  
  La siguiente herramienta de geocodificación solo funciona en un entorno de Autonomous Database.
  - Nube con geocódigo
- Unión espacial

Tema principal: Acerca del editor de flujo de datos

Agregar componentes

Agregue las entidades de datos y las funciones de base de datos al lienzo de diseño y conéctelas en un orden lógico para completar los flujos de datos.

Para agregar componentes al flujo de datos:

En el panel Entidades de datos, haga clic en Agregar esquema para agregar esquemas que contengan las entidades de datos que desea utilizar en el flujo de datos.
En la página Add a Schema, seleccione la conexión y el nombre del esquema.
Haga clic en Importar.
En la página Importar entidades de datos, seleccione el tipo de objetos que desea importar. Seleccione una máscara o filtro si no desea importar todos los objetos del esquema y haga clic en Iniciar.
El panel Entidades de datos muestra las entidades de datos importadas. El panel incluye varias opciones que le permiten hacer lo siguiente:
- Refrescar entidades de datos: haga clic en el icono Refrescar para refrescar la lista mostrada.
- Nombre: busque las entidades de datos por nombre.
- Etiquetas: filtre las entidades de datos por el nombre de la etiqueta utilizada.
- Importar entidades de datos: haga clic con el botón derecho en el esquema para ver esta opción. Use esta opción para importar las entidades de datos.
- Eliminar esquema: haga clic con el botón derecho en la entidad de datos para ver esta opción. Utilice esta opción para eliminar el esquema de la lista. Tenga en cuenta que esta opción no suprime el esquema, solo elimina la asociación del esquema con este flujo de datos.
De forma similar, agregue más esquemas al flujo de datos, si es necesario.
Arrastre las entidades de datos necesarias que desea utilizar en el flujo de datos y suéltelas en el lienzo de diseño.
En la barra de herramientas Funciones de base de datos, arrastre el componente de transformación que desea utilizar en el flujo de datos y suéltelo en el lienzo de diseño. Puede utilizar variables en el flujo de datos. Consulte Uso de variables en un flujo de datos para obtener más información.
Seleccione un objeto en el lienzo de diseño y arrastre el icono Conector () situado junto a él para conectar los componentes.
Después de guardar el flujo de datos, puede haber un icono de transferencia superpuesto en una o más conexiones de componentes. Esto indica que ODI ha detectado un paso adicional y que es necesario para mover los datos entre servidores de datos. Puede hacer clic en este icono para ver las propiedades asociadas a este paso.

Por ejemplo:

A continuación se describe add-components.png

Descripción de la ilustración add-components.png

Uso de vector de embebido de texto en un flujo de datos
Las transformaciones de datos soportan el uso del tipo de dato vectorial y la incrustación de vectores en un flujo de datos. Actualmente, Data Transforms se integra con el servicio OCI Generative AI para convertir el texto de entrada en incrustaciones vectoriales que puede utilizar para el análisis y las búsquedas de datos.

Tema principal: Creación de un flujo de datos

Uso de Vector de Embebido de Texto en un Flujo de Datos

Data Transforms soporta el uso de tipos de datos vectoriales y vectores de incrustación en un flujo de datos. Actualmente, Data Transforms se integra con el servicio OCI Generative AI para convertir el texto de entrada en incrustaciones vectoriales que puede utilizar para el análisis y las búsquedas de datos.

Antes de utilizar vectores de embebido en un flujo de datos, debe hacer lo siguiente:

Cree una conexión a Oracle Database 23ai. Consulte Trabajo con conexiones para obtener instrucciones genéricas sobre cómo crear una conexión en Data Transforms.
Cree una conexión de Oracle Cloud Infrastructure (OCI) Generative AI. Consulte Creación y uso de una conexión de Oracle Cloud Infrastructure Generative AI.

Para utilizar incrustaciones vectoriales en un flujo de datos:

Siga las instrucciones de Creación de un flujo de datos para crear un nuevo flujo de datos.
En el editor de flujos de datos, haga clic en Agregar esquema para definir la conexión de origen. En la lista desplegable Conexión, seleccione la conexión de Oracle Database 23ai y el esquema que desea utilizar en la lista desplegable. Haga clic en Aceptar.
Arrastre las tablas que desea utilizar como origen en el flujo de datos y suéltelas en el lienzo de diseño.
En la barra de herramientas Funciones de base de datos, haga clic en Aprendizaje automático y arrastre el componente de transformación Vector de inserción de texto para soltarlo en el lienzo de diseño.
Haga clic en el componente de transformación Vector de embebido de texto para ver sus propiedades.
En el separador General, especifique lo siguiente:
- Servicio de IA: seleccione OCI Generative AI en la lista desplegable.
- Conexión: la lista desplegable muestra todas las conexiones disponibles para el servicio AI seleccionado. Seleccione la conexión Oracle Database 23 ai que desea utilizar.
- Modelo de AI: en la lista desplegable se muestran todos los modelos disponibles para el servicio y la conexión de AI seleccionados. Se muestran los siguientes modelos:
  - "cohere.embed-english-light-v2.0"
  - "cohere.embed-english-light-v3.0"
  - "cohere.embed-inglés-v3.0"
  - "cohere.embed-multilingual-light-v3.0"
  - "cohere.embed-multilingual-v3.0"
  También puede escribir el nombre del modelo.
En el separador Asignación de columnas, asigne la columna de origen que desea embeber al atributo INPUT del operador. La única columna disponible en las asignaciones de columna es input_text. Arrastre una columna de texto de las columnas disponibles a la columna Expresión. Estos son los datos sobre los que se construirán los vectores.
Arrastre la tabla que desea utilizar como destino en el flujo de datos y suéltela en el lienzo de diseño.
Guarde y ejecute el flujos de datos.
Data Transforms creará vectores para cada una de las filas de la tabla de origen y lo escribirá en la tabla de destino.

Tema principal: Adición de componentes

Propiedades de componente

El panel Propiedades muestra varios valores para los componentes seleccionados en el lienzo de diseño.

Según el componente seleccionado, es posible que vea cualquiera de los siguientes iconos:

General (): muestra el nombre del componente junto con sus detalles de conexión y esquema. Puede editar algunas de estas propiedades.
Atributos (): muestra los detalles de todos los atributos asociados al componente.
Asignación de columnas (): permite asignar todas las columnas automáticamente. Consulte Asignación de columnas de datos para obtener más información.
Preview (): muestra una vista previa del componente. En el caso de las tablas de Oracle, también puede ver las estadísticas de la entidad de datos seleccionada. Consulte Visualización de Estadísticas de Entidades de Datos para obtener más información sobre la información estadística disponible.
Options (): muestra opciones como
- Truncar tabla: sustituye el contenido existente de la tabla de destino por nuevos datos.
- Agregar: permite insertar registros del flujo en el destino. Los registros existentes no se actualizan.
- Incremental: integra los datos en la tabla de destino mediante la comparación de los registros del flujo con los registros existentes y la actualización de los registros cuando sus datos asociados no son los mismos. Se insertan aquellos que aún no existen en el destino.
  La opción incluye una función de compresión automática que está definida en True por defecto. Para los trabajos de flujo de datos que utilizan el modo de actualización incremental para cargar datos en una partición de destino de Oracle comprimida, la función de compresión automática vuelve a comprimir las particiones de destino modificadas una vez que la carga finaliza correctamente. Para las particiones de tabla que no se comprimen originalmente, la compresión se omite independientemente de si la compresión automática está definida en true.
  Nota
  
  La opción de compresión automática está disponible para el usuario ADMIN o para un usuario con el rol DWROLE. Para los flujos de datos que tienen usuarios de esquema distintos de ADMIN, debe asignar el DWROLE al usuario o desactivar la compresión automática para evitar errores de ejecución.

Tema principal: Creación de un flujo de datos

Asignar columnas de datos

Al conectar la entidad de datos de origen con la entidad de datos de destino, los nombres de columna se asignan automáticamente por los nombres de columna. Puede asignar las columnas por posición o por nombre, o bien asignarlas manualmente mediante el editor de expresiones.

Para asignar columnas por posición o por nombre:

Seleccione la entidad de datos de destino.
Haga clic en el icono de flecha que aparece en la esquina superior derecha para ampliar el panel Propiedades. Esto le dará más espacio para trabajar.
En el panel Propiedades, haga clic en el icono Asignación de columnas ().
Para asignar las columnas por posición o por nombre, en el menú desplegable Asignación automática, seleccione Por posición o Por nombre.

Para asignar las columnas manualmente:

En el menú desplegable Asignación automática, seleccione Borrar para borrar las asignaciones existentes.
Arrastre y suelte los atributos del árbol de la izquierda para asignarlos a la columna Expresión.
Para editar una expresión, haga clic en el icono Editar de la columna correspondiente. Aparece el editor de expresiones, que le permite realizar los cambios necesarios (por ejemplo, puede agregar una expresión "UPPER" o abrir el editor de expresiones para editar la expresión).
Nota

Utilice el editor de expresiones solo si tiene expresiones complejas para una columna concreta.
Haga clic en Aceptar.

Tema principal: Creación de un flujo de datos

Validación y Ejecución de un Flujo de Datos

Una vez que las asignaciones estén listas, puede continuar para validar y ejecutar el flujo de datos.

Realice lo siguiente:

Haga clic en Guardar.
Después de guardar, si los datos se deben almacenar temporalmente antes de la transformación, el botón Transferir se agrega a uno o más enlaces. Puede hacer clic en estos botones para definir más opciones, si están disponibles.
Haga clic en el icono Simulación de código () si desea comprobar el código que se ejecutará para completar las tareas que se realizan al ejecutar el trabajo de flujo de datos. Los detalles de origen y destino se muestran en diferentes colores para facilitar la referencia. Esto resulta útil si desea comprobar si la asignación es correcta antes de ejecutar el trabajo o si el trabajo falla. Tenga en cuenta que el código no se puede utilizar para la depuración. Para obtener información detallada sobre el trabajo, consulte la página Detalles del trabajo.
Haga clic en el icono Validar () de la barra de herramientas sobre el lienzo de diseño para validar el flujo de datos.
Después de una validación correcta, haga clic en el icono Ejecutar () situado junto al icono Validar para ejecutar el flujo de datos.
Si ha agregado variables al flujo de datos, aparece la página Valores de variable que muestra la lista de variables que ha agregado al flujo de datos. Puede elegir utilizar el valor actual, el valor por defecto o definir un valor personalizado para cada variable. Tenga en cuenta que el valor personalizado se aplica solo a la ejecución actual del flujo de datos. El valor personalizado no se mantiene para las sesiones posteriores.

Aparece un mensaje que muestra el ID y el nombre del trabajo de ejecución. Para comprobar el estado del flujo de datos, consulte el panel Estado situado a la derecha, debajo del panel Propiedades. Para obtener más información sobre el panel Estado, consulte Supervisión del estado de cargas de datos, flujos de datos y flujos de trabajo. Este panel también muestra el enlace al ID de trabajo en el que puede hacer clic para supervisar el progreso en la página Trabajos. Para obtener más información, consulte Creación y Gestión de Trabajos.

Para los flujos de datos creados mediante conexiones de Oracle Object Storage, los datos del archivo CSV de origen se cargan en Oracle Autonomous Database de destino. También puede exportar datos de una tabla de Oracle Autonomous Database a un archivo CSV en Oracle Object Storage.

Tema principal: Creación de un flujo de datos

Documentación de Oracle Cloud Infrastructure