Acerca de los pipelines de datos en la base de datos de IA autónoma

Los pipelines de datos de Autonomous AI Database son pipelines de carga o pipelines de exportación.

Los pipelines de carga proporcionan una carga de datos incremental continua desde orígenes externos (a medida que los datos llegan al almacén de objetos, se cargan en una tabla de base de datos). Los pipelines de exportación proporcionan una exportación incremental continua de datos al almacén de objetos (a medida que aparecen nuevos datos en una tabla de base de datos, se exportan al almacén de objetos). Los pipelines utilizan el programador de base de datos para cargar o exportar continuamente datos incrementales.

Los pipelines de datos de Autonomous AI Database proporcionan lo siguiente:

Ciclo de vida del pipeline de datos

El paquete DBMS_CLOUD_PIPELINE proporciona procedimientos para crear, configurar, probar e iniciar un pipeline. El ciclo de vida y los procedimientos del pipeline son los mismos para los pipelines de carga y exportación.

Descripción de la ilustración pipeline_lifecycle.png

Para cualquiera de los tipos de pipeline, realice los siguientes pasos para crear y utilizar un pipeline:

  1. Cree y configure el pipeline. Consulte Creación y configuración de pipelines para obtener más información.

  2. Pruebe un nuevo pipeline. Consulte Prueba de pipelines para obtener más información.

  3. Iniciar un pipeline. Consulte Inicio de un pipeline para obtener más información.

Además, puede supervisar, parar o borrar pipelines:

Pipelines de carga

Utilice un pipeline de carga para la carga incremental continua de datos desde archivos externos en el almacén de objetos hasta una tabla de base de datos. Un pipeline de carga identifica periódicamente nuevos archivos en el almacén de objetos y carga los nuevos datos en la tabla de la base de datos.

Un pipeline de carga funciona de la siguiente forma (algunas de estas funciones se pueden configurar mediante atributos de pipeline):

Descripción de imagen a continuación

Descripción de la ilustración load-pipeline.svg

La migración desde bases de datos que no son de Oracle es un posible caso de uso para un pipeline de carga. Cuando necesite migrar los datos de una base de datos que no sea de Oracle a Oracle Autonomous AI Database on Dedicated Exadata Infrastructure, puede extraer los datos y cargarlos en Autonomous AI Database (el formato de Oracle Data Pump no se puede utilizar para migraciones desde bases de datos que no sean de Oracle). Al utilizar un formato de archivo genérico, como CSV, para exportar datos de una base de datos que no sea de Oracle, puede guardar los datos en archivos y cargarlos en el almacén de objetos. A continuación, cree un pipeline para cargar los datos en la base de datos de IA autónoma. El uso de un pipeline de carga para cargar un gran juego de archivos CSV proporciona importantes ventajas, como la tolerancia a fallos, y las operaciones de reanudación y reintento. Para una migración con un juego de datos de gran tamaño, puede crear varios pipelines, uno por tabla para los archivos de base de datos que no son de Oracle, a fin de cargar datos en Autonomous AI Database.

Exportar pipelines

Utilice un pipeline de exportación para una exportación incremental continua de datos de la base de datos al almacén de objetos. Un pipeline de exportación identifica periódicamente los datos candidatos y carga los datos en el almacén de objetos.

Hay tres opciones de pipeline de exportación (las opciones de exportación se pueden configurar mediante atributos de pipeline):

Los pipelines de exportación tienen las siguientes funciones (algunas de estas se pueden configurar mediante atributos de pipeline):

Pipelines con Mantenimiento de Oracle

Autonomous AI Database en infraestructura de Exadata dedicada proporciona pipelines incorporados para exportar logs específicos a un almacén de objetos en formato JSON. Estos pipelines están preconfigurados, se inician y son propiedad del usuario ADMIN.

Los pipelines mantenidos por Oracle son:

Para configurar e iniciar un pipeline gestionado por Oracle:

  1. Determine el pipeline gestionado por Oracle que desea utilizar: ORA$AUDIT_EXPORT o ORA$APEX_ACTIVITY_EXPORT.

  2. Defina los atributos credential_name y location.

    Nota: credential_name es un valor obligatorio en la base de datos de IA autónoma en una infraestructura de Exadata dedicada.

    Por ejemplo:

     BEGIN
       DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE(
         pipeline_name => 'ORA$AUDIT_EXPORT',
         attribute_name => 'credential_name',
         attribute_value => 'DEF_CRED_OBJ_STORE'
       );
       DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE(
         pipeline_name => 'ORA$AUDIT_EXPORT',
         attribute_name => 'location',
         attribute_value => 'https://objectstorage.us-phoenix-1.oraclecloud.com/n/namespace-string/b/bucketname/o/'
       );
     END;
     /
    

    Los datos de log de la base de datos se exportan a la ubicación del almacén de objetos que especifique.

    Consulte SET_ATTRIBUTE para obtener más información.

  3. Opcionalmente, defina los atributos interval, format o priority.

    Consulte SET_ATTRIBUTE para obtener más información.

  4. Iniciar el pipeline.

    Consulte START_PIPELINE para obtener más información.

Contenido relacionado

Paquete DBMS_CLOUD_PIPELINE