关于自治 AI 数据库上的数据管道

自治 AI 数据库数据管道是负载管道或导出管道。

加载管道提供从外部源持续的增量数据加载(当数据到达对象存储时,数据会加载到数据库表)。导出管道提供持续的增量数据导出到对象存储(当新数据显示在导出到对象存储的数据库表中时)。管道使用数据库调度程序连续加载或导出增量数据。

自治 AI 数据库数据管道提供以下功能:

数据管道生命周期

DBMS_CLOUD_PIPELINE 软件包提供了创建、配置、测试和启动管道的过程。加载和导出管道的管道生命周期和过程相同。

插图 pipeline_lifecycle.png 的说明

对于任一管道类型,请执行以下步骤来创建和使用管道:

  1. 创建和配置管道。有关更多信息,请参见 Create and Configure Pipelines

  2. 测试新管道。有关详细信息,请参阅测试管道

  3. 启动管道。有关详细信息,请参阅启动管道

此外,您可以监视、停止或删除管道:

加载管道

使用加载管道从对象存储中的外部文件向数据库表中连续加载增量数据。加载管道定期标识对象存储中的新文件,并将新数据加载到数据库表中。

负载管道的运行方式如下(可以使用管道属性配置其中一些功能):

后面是图像的说明

插图 load-pipeline.svg 的说明

从非 Oracle 数据库迁移是加载管道的一个可能用例。当您需要将数据从非 Oracle 数据库迁移到专用 Exadata 基础结构上的 Oracle Autonomous AI Database 时,您可以提取数据并将其加载到自治 AI 数据库中(Oracle Data Pump 格式不能用于从非 Oracle 数据库进行迁移)。通过使用 CSV 等通用文件格式从非 Oracle 数据库导出数据,可以将数据保存到文件并将文件上载到对象存储。接下来,创建一个管道,将数据加载到自治 AI 数据库。使用加载管道加载大量 CSV 文件具有重要优势,例如容错、恢复和重试操作。对于具有大型数据集的迁移,您可以为非 Oracle 数据库文件创建多个管道(每个表一个),以将数据加载到自治 AI 数据库中。

导出管道

使用导出管道连续将数据从数据库增量导出到对象存储。导出管道定期标识候选数据并将数据上载到对象存储。

有三个导出管道选项(可以使用管道属性配置导出选项):

导出管道具有以下功能(其中一些可使用管道属性进行配置):

Oracle 维护的管道

专用 Exadata 基础结构上的自治 AI 数据库提供内置管道,以 JSON 格式将特定日志导出到对象存储。这些管道是预配置的,并由 ADMIN 用户启动和拥有。

Oracle 维护的管道包括:

要配置和启动 Oracle 托管管道,请执行以下操作:

  1. 确定要使用的 Oracle 托管管道:ORA$AUDIT_EXPORTORA$APEX_ACTIVITY_EXPORT

  2. 设置 credential_namelocation 属性。

    注:credential_name 是专用 Exadata 基础结构上的自治 AI 数据库的必填值。

    例如:

     BEGIN
       DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE(
         pipeline_name => 'ORA$AUDIT_EXPORT',
         attribute_name => 'credential_name',
         attribute_value => 'DEF_CRED_OBJ_STORE'
       );
       DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE(
         pipeline_name => 'ORA$AUDIT_EXPORT',
         attribute_name => 'location',
         attribute_value => 'https://objectstorage.us-phoenix-1.oraclecloud.com/n/namespace-string/b/bucketname/o/'
       );
     END;
     /
    

    数据库中的日志数据将导出到您指定的对象存储位置。

    有关更多信息,请参见 SET_ATTRIBUTE

  3. (可选)设置 intervalformatpriority 属性。

    有关更多信息,请参见 SET_ATTRIBUTE

  4. 启动管道。

    有关更多信息,请参见 START_PIPELINE

相关内容

DBMS_CLOUD_PIPELINE 程序包