11 Linaje (vista previa)

El linaje en Oracle AI Data Platform Workbench muestra cómo se relacionan los artefactos de datos mediante ejecuciones de bloc de notas y flujo de trabajo. El gráfico de linaje le ayuda a rastrear orígenes ascendentes, consumidores descendentes y derivaciones a nivel de columna para artefactos soportados.

Note:

Los metadatos de linaje se capturan de las ejecuciones de bloc de notas y flujo de trabajo. Para cada ejecución de proceso, el servicio muestra actualmente el último linaje capturado y aún no expone el linaje histórico.

La captura de linaje se activa o desactiva en el nivel de recursos informáticos como parte de la configuración de Spark. Por defecto, el linaje está activado en cualquier recurso informático que cree. Para desactivar manualmente el linaje, agregue spark.aidp.lineage.enabled = false al campo de configuración de Spark en los recursos informáticos, en Opciones avanzadas. Para volver a activar el linaje, utilice spark.aidp.lineage.enabled = true. Este valor es específico de los recursos informáticos, lo que significa que si desactiva el linaje en un recurso informático, los flujos de trabajo se ejecutan en otro recurso informático donde el linaje aún está activado aún se capturan.

Puede ver el linaje de los artefactos de AI Data Platform del catálogo maestro haciendo clic con el botón derecho en un artefacto y seleccionando Linaje. Puede ver el linaje de cualquier artefacto de datos en AI Data Platform, como tablas y volúmenes. El linaje actualmente soporta tablas como nodos de anclaje, pero muestra tanto las tablas como los volúmenes como parte del diagrama de linaje.


Diagrama de linaje.

La vista Linaje muestra un gráfico de linaje con artefactos ascendentes y descendentes para el artefacto de datos seleccionado. Puede cambiar entre el gráfico completo, la vista de solo flujo ascendente y la vista de solo flujo descendente.


Barra de navegación del diagrama de linaje. El menú desplegable de abajo, arriba, gráfico de linaje, anclaje y zoom se indica con texto rojo.

Puede ver el linaje de nivel de columna para rastrear cómo las columnas de un artefacto de datos se derivan, transforman o propagan a columnas de otros artefactos.

Puede ocultar los filtros en la parte superior del lienzo haciendo clic en el icono Filtro en la parte superior izquierda.


Barra de filtro de diagrama de linaje.

Puede ampliar los artefactos de datos en el flujo de linaje haciendo clic en la flecha hacia abajo en la parte inferior de la tarjeta de artefacto. Cuando el artefacto se está expandiendo, puede ver la herencia ascendente y descendente de columnas de datos específicas. Esta función solo funciona para artefactos que contienen columnas de datos, como tablas y volúmenes.


Se muestra el diagrama de linaje. El nodo de tabla content_engagement está seleccionado y ampliado.

Para las tarjetas de artefacto ampliadas, amplíe una tabla o un volumen para ver sus columnas y las relaciones de linaje de nivel de columna conectadas a ellas. Puede ampliar los artefactos de datos en el flujo de linaje haciendo clic en la flecha hacia abajo en la parte inferior de la tarjeta de artefacto. Cuando el artefacto se está expandiendo, puede ver el flujo de datos ascendente y descendente de columnas específicas. Esta función solo funciona para artefactos que contienen columnas de datos, como tablas y volúmenes.

Puede ampliar varias tablas y volúmenes en el gráfico de linaje para ver el flujo de datos de cada una. Al ampliar el artefacto de datos, las flechas azules muestran cómo las columnas de los artefactos de origen contribuyen a las columnas de los artefactos de destino mediante ejecuciones de bloc de notas o flujo de trabajo. Para resaltar la ruta de una columna individual, haga doble clic en ella.

Las flechas azules muestran las relaciones de linaje a nivel de columna entre las columnas de origen y de destino. Estas relaciones indican cómo se derivan, transforman o propagan los datos entre tablas, volúmenes, blocs de notas, tareas y flujos de trabajo. Haga doble clic en una columna para resaltar su ruta de linaje en el gráfico.


Se muestra el diagrama de linaje. Se expande el nodo content_engagement y se selecciona la columna de datos engagement_date. Las flechas azules oscuras conectan la columna de datos a los nodos ascendente y descendente.

Puede seleccionar varias columnas de datos mediante Mayús o Ctrl haciendo clic en ellas para resaltar varias rutas.

En el menú Acciones de la parte superior derecha de la ventana Linaje, puede controlar la configuración de Linaje, que afecta a la profundidad de los artefactos ascendentes y descendentes mostrados, o puede compartir su diagrama de linaje, ya sea copiando un enlace o exportando una imagen PNG.


Botón Acciones de linaje ampliado y que muestra las opciones de vista de linaje, Copiar enlace y Exportar linaje actual.

Detalles de linaje

Al hacer doble clic en un artefacto del diagrama de linaje, se muestran los detalles de ese artefacto. Para las tareas, la página de detalles proporciona tanto los detalles de la tarea como el trabajo al que pertenece. Para las tablas y los volúmenes, la página de detalles proporciona información sobre la tabla o el volumen y sus columnas.

Puede hacer clic con el botón derecho en los artefactos de datos para Ver detalles o Definir como anclaje. Al definir el artefacto de datos como anclaje, el diagrama que se muestra actualmente se centra en ese nodo.

En la parte superior de la ventana Detalles, puede ver el tipo de artefacto, el esquema al que pertenece y el número de artefactos ascendentes y descendentes. En el panel Descripción, al hacer clic en el enlace Activo, accederá al artefacto del espacio de trabajo.


Se muestra la página de detalles de linaje para el nodo content_engagement_clean. El separador Detalles está seleccionado.

Para los artefactos de datos, la ventana Detalles muestra la última vez que se actualizó el artefacto, la información sobre las columnas de datos, el formato y el catálogo al que pertenece el artefacto de datos. Puede buscar columnas de datos específicas por nombre y filtrar por tipo de datos mediante el menú desplegable.

Para los artefactos de proceso, que incluyen tareas y blocs de notas, la ventana Detalles muestra información relacionada con el artefacto, incluido el estado del trabajo y la tarea más recientes, la duración, el tipo de tarea, el nombre e ID del trabajo o bloc de notas y el cluster asociado. En el panel derecho, puede buscar artefactos de origen y destino según el nombre del artefacto o mediante el menú desplegable para filtrar el tipo de transformación.

Tipos de transformación

AI Data Platform Workbench soporta los siguientes tipos de transformación al realizar el seguimiento del linaje:

Tipo Significado Escenario de ejemplo Ejemplo de asignación de campos
AGREGACIÓN El campo de salida se calcula agregando varios registros de entrada. Creación de tablas o métricas de resumen. total_sales = SUM(importe)
IDENTIDAD El campo de salida es exactamente el mismo que el campo de entrada (sin cambios). Copia de un conjunto de datos de una tabla a otra. customer_id → customer_id
TRANSFORMACIÓN La salida se deriva de campos de entrada que utilizan funciones, conversiones, concatenación, etc. Estandarización o limpieza de datos. nombre_completo = CONCAT(nombre_nombre, ' ', apellido)

Análisis de Impacto

Los artefactos de datos seleccionados como nodo de anclaje tienen un separador adicional en la ventana Detalles para Análisis de impacto. En el separador Análisis de impacto, puede buscar nombres de artefactos específicos o filtrar por tipo de artefacto. Puede seleccionar Ascendente o Descendente para mostrar solo los artefactos que estén ascendentes o descendentes del artefacto seleccionado actualmente.


Se muestra la página de detalles content_engagement_clean del nodo de linaje. El separador Análisis de impacto está seleccionado.

Utilice el análisis de impacto ascendente para comprender las dependencias. Utilice el análisis de impacto descendente para identificar a los consumidores que pueden verse afectados por los cambios en el artefacto seleccionado.

Haga clic en Exportar análisis de importación para exportar los artefactos relacionados con el artefacto de datos seleccionado. Puede exportar artefactos ascendentes, descendentes o todos los artefactos relacionados.

Linaje de entidad y columna

En algunos escenarios de linaje en los que varios conjuntos de datos ascendentes participan en la producción de un conjunto de datos de destino, solo algunos de esos conjuntos de datos ascendentes aportan valores de columna reales al destino.

La distinción clave entre el linaje de entidad y el linaje de columna es la pregunta que responden:
  • Respuestas de linaje de entidad: ¿qué juegos de datos participaron en la creación del destino?
  • Respuestas de linaje de columna: ¿qué columnas de origen proporcionaron los valores de columna de destino?
Debido a que estas preguntas son diferentes, el linaje de entidades y el linaje de columnas pueden tener un aspecto diferente para el mismo pipeline.
En algunas transformaciones, una entrada proporciona las filas y los valores de columna escritos en el destino, mientras que otra entrada se utiliza solo como referencia para la filtración. En estos casos:
  • El linaje de entidades debe mostrar todos los juegos de datos ascendentes de los que depende el destino.
  • El linaje de columna puede mostrar el flujo de nivel de columna solo desde la entrada que proporciona el valor.
  • Una entrada de referencia puede afectar al juego de filas de destino sin aportar valores a las columnas de destino.
ÿste es el comportamiento esperado.

Ejemplo: linaje de entidad y columna

Supongamos que dos juegos de datos de origen contienen las mismas columnas, pero no las mismas filas:
  • source_table_1 contiene el conjunto de datos principal.
  • source_table_2 contiene un juego de filas de referencia.
  • La tabla de destino se crea manteniendo solo las filas que existen en ambas tablas de origen.
Por ejemplo:

Tabla 11-1 source_table_1

product_id fecha de venta cantidad suma total_
101 2025-06-01 10 150
102 2025-06-02 20 300
103 06-03-2025 15 225
104 2025-06-04 12 180

Tabla 11-2 source_table_2

product_id fecha de venta cantidad suma total_
102 2025-06-02 20 300
103 06-03-2025 15 225
105 06-2025-05 18 270

Tabla 11-3 target_table

product_id fecha de venta cantidad suma total_
102 2025-06-02 20 300
103 06-03-2025 15 225

En este ejemplo, ambas tablas de origen participan en la creación del destino porque ambas son necesarias para determinar el juego de filas final.


El lienzo de linaje se muestra con los nodos source_table_1 y source_table_2 conectados al nodo ipynb de insectos que está conectado al nodo target_table.

Sin embargo, desde una perspectiva de linaje de columna, los valores de columna de destino se pueden atribuir solo a la entrada que proporciona el valor, como source_table_1. La segunda entrada, source_table_2, se utiliza para determinar qué filas cumplen los requisitos para el destino, pero sus valores no se copian necesariamente en las columnas de destino.


Lienzo de linaje con el nodo source_table_1 ampliado y flechas azules que conectan las columnas al nodo de bloc de notas instersect, que está conectado a las cuatro columnas heredadas por target_table

Por estos motivos, cuando la vista de linaje está anclada en source_table_2, no se muestra ningún enlace de linaje a nivel de columna, como se muestra a continuación.


Lienzo de linaje que muestra source_table_2 como nodo de anclaje y ningún enlace de linaje de nivel de columna que lo conecte a target_table.

Por qué el linaje de entidad muestra ambas entradas

El linaje de entidad captura la dependencia de nivel de juego de datos. Si un trabajo de procesamiento lee dos conjuntos de datos y el resultado depende de ambos, ambos conjuntos de datos son entidades ascendentes legítimas. En este patrón:
  • El destino no se puede explicar por completo sin el juego de datos de origen A.
  • El destino tampoco se puede explicar por completo sin el juego de datos de origen B, porque el juego de datos de origen B determina qué registros del juego de datos de origen A se conservan.
  • Por lo tanto, tanto el conjunto de datos de origen A como el conjunto de datos de origen B deben aparecer como entidades ascendentes para el conjunto de datos de destino C.
Este es el linaje de dependencia, no el linaje de valor.

Por qué el linaje de columnas solo muestra la entrada que proporciona valor

El linaje de columna captura la procedencia del valor. Describe de dónde provienen los valores de cada columna de destino.

Por ejemplo, si la tabla de destino se escribe utilizando filas del juego de datos de origen A después de filtrar filas del juego de datos de origen B, los valores de columna de destino se siguen originando del juego de datos de origen A.

Ejemplos de asignaciones de columnas:

Columna de Destino Columna Origen
target.product_id source_a.product_id
target.sales_date source_a.sales_date
target.quantity source_a.quantity
target.total_amount source_a.total_amount

El juego de datos de origen B influye en si hay una fila, pero sus valores de columna no se copian en el destino. Como resultado, el conjunto de datos de origen B puede aparecer en el linaje de entidad sin aparecer en el linaje de columna.

Ver linaje de datos

Puede ver la herencia de datos en el espacio de trabajo a medida que se mueve entre diferentes artefactos de Oracle AI Data Platform Workbench.

  1. Desplácese hasta el artefacto del catálogo maestro para el que desea ver el linaje.
  2. Haga clic con el botón secundario en el artefacto y, a continuación, haga clic en Línea. También puede seleccionar el artefacto, hacer clic en Acciones en la parte superior derecha y, a continuación, en Linaje.

    Se muestra la vista de catálogo maestra de un espacio de trabajo de AI Data Platform Workbench. Se ha hecho clic con el botón derecho en una tabla y se muestran las opciones de menú Compartir y Linaje. El linaje está resaltado.

  3. Se muestra el diagrama de linaje.

Ver linaje para columnas de datos específicas

Puede rastrear el linaje de una columna de datos específica a través del diagrama de linaje.

  1. Desplácese hasta el artefacto del catálogo maestro para el que desea ver el linaje.
  2. Haga clic con el botón secundario en el artefacto y, a continuación, haga clic en Línea. También puede seleccionar el artefacto, hacer clic en Acciones en la parte superior derecha y, a continuación, en Linaje.
  3. Haga clic en la flecha de la parte inferior de una tabla o un artefacto de volumen para ampliarlo.
  4. Haga doble clic en la columna de datos para la que desea resaltar el linaje.

Ver detalles de un artefacto de linaje

Puede ver detalles adicionales de un artefacto en los diagramas de linaje.

  1. Desplácese hasta el artefacto del catálogo maestro para el que desea ver el linaje.
  2. Haga clic con el botón secundario en el artefacto y, a continuación, haga clic en Línea. También puede seleccionar el artefacto, hacer clic en Acciones en la parte superior derecha y, a continuación, en Linaje.
  3. Haga doble clic en un artefacto del diagrama de linaje para ver detalles adicionales. También puede hacer clic con el botón derecho y hacer clic en Ver detalles.
  4. Haga clic en el separador Análisis de impacto para ver el impacto ascendente y descendente del artefacto. Esta ficha solo está disponible para el nodo de anclaje.

Exportar análisis de impacto

Puede exportar el análisis de impacto para artefactos de datos mientras visualiza los detalles de un artefacto de linaje.

Note:

Solo puede exportar análisis de impacto para artefactos de datos.
  1. Desplácese hasta el artefacto del catálogo maestro para el que desea ver el linaje.
  2. Haga clic con el botón secundario en el artefacto y, a continuación, haga clic en Línea. También puede seleccionar el artefacto, hacer clic en Acciones en la parte superior derecha y, a continuación, en Linaje.
  3. Haga doble clic en un artefacto de datos en el diagrama de linaje. Seleccione el separador Análisis de impacto.
  4. Haga clic en Exportar análisis de impacto.
  5. En el menú desplegable, seleccione si se deben incluir los artefactos ascendente, descendente o todos los artefactos.
  6. Haga clic en Exportar.

Diagrama de flujo de linaje de filtro

Puede filtrar el diagrama de linaje para ayudar a centrarse en puntos de datos más específicos al examinar el linaje.

  1. Desplácese hasta el artefacto del catálogo maestro para el que desea ver el linaje.
  2. Haga clic con el botón secundario en el artefacto y, a continuación, haga clic en Línea. También puede seleccionar el artefacto, hacer clic en Acciones en la parte superior derecha y, a continuación, en Linaje.
  3. En los menús desplegables, seleccione catálogos, esquemas, volúmenes o espacios de trabajo específicos de los que filtrar los resultados.

Buscar Artefactos en Diagrama de Flujo de Linaje

Puede buscar cadenas para localizar artefactos específicos en el diagrama de linaje al ver el linaje de artefactos.

  1. Desplácese hasta el artefacto del catálogo maestro para el que desea ver el linaje.
  2. Haga clic con el botón secundario en el artefacto y, a continuación, haga clic en Línea. También puede seleccionar el artefacto, hacer clic en Acciones en la parte superior derecha y, a continuación, en Linaje.
  3. En el campo Buscar situado en la parte superior del diagrama de linaje, introduzca la cadena que desea buscar.
  4. Haga clic en un resultado de la lista para centrar el diagrama en ese artefacto.

Cambiar profundidad de flujo de linaje

Puede modificar cuántos niveles de artefactos ascendentes o descendentes muestra el diagrama de linaje para ayudarle a ampliar o reducir el enfoque del diagrama.

  1. Desplácese hasta el artefacto del catálogo maestro para el que desea ver el linaje.
  2. Haga clic con el botón secundario en el artefacto y, a continuación, haga clic en Línea. También puede seleccionar el artefacto, hacer clic en Acciones en la parte superior derecha y, a continuación, en Linaje.
  3. Haga clic en Icono de tres puntos de acciones Acciones en la parte superior derecha
  4. Haga clic en Configuración de linaje.

    Se muestra el menú de acciones de tres puntos de linaje. La configuración de linaje está resaltada.

  5. Modifique la profundidad ascendente y la profundidad descendente según sea necesario.
  6. Haga clic en Guardar.

Compartir un diagrama de flujo de linaje

Puede compartir el diagrama de linaje que muestra el linaje de un objeto específico como un enlace directo o una imagen PNG.

  1. Vaya al artefacto del catálogo maestro para el que desea compartir el linaje.
  2. Haga clic con el botón secundario en el artefacto y, a continuación, haga clic en Línea. También puede seleccionar el artefacto, hacer clic en Acciones en la parte superior derecha y, a continuación, en Linaje.
  3. Haga clic en Icono de tres puntos de acciones Acciones en la parte superior derecha.

    El menú de acciones de tres puntos de linaje está seleccionado. Se resaltan el vínculo Copiar y Exportar vista de linaje actual.

  4. Elija cómo desea compartir su diagrama de linaje:
    • Haga clic en Copiar enlace para copiar un enlace directamente en el portapapeles. Pegue el enlace para compartirlo.
    • Haga clic en Exportar vista de linaje actual (.png) para exportar la vista actual del diagrama de linaje, incluidos los filtros que haya aplicado.