将数据从自治事务处理复制到 Apache Iceberg

了解如何在 OCI GoldenGate 中将数据从 Autonomous Transaction Processing 复制到 Apache Iceberg

开始之前

要成功完成此快速入门,您必须具有:

  • Autonomous Transaction Processing
  • 目标 Apache Iceberg 环境:
    • OCI GoldenGate 支持将 Azure Data Lake StorageAmazon S3Google Cloud Storage 作为 Apache Iceberg 表的存储服务。
    • OCI GoldenGate 支持适用于 Apache Iceberg 的 Hadoop、Nessie、AWS Glue、Polaris、REST 和 JDBC 目录。

环境设置:自治事务处理

如果您尚未为复制设置源数据库,则可以按照以下步骤加载要用于此快速入门的示例方案。此快速入门将 Autonomous Transaction Processing 用于源数据库。

要设置源 Autonomous Database,请执行以下操作:

  1. 下载并解压缩示例数据库方案
  2. 在 Oracle Cloud 控制台中,从“自治数据库”页中选择您的 Autonomous Transaction Processing (ATP) 实例以查看其详细信息并访问 Database Actions。
  3. 解锁 GGADMIN 用户:
    1. 依次单击 Database actions(数据库操作)Database Users(数据库用户)
    2. 定位 GGADMIN,然后单击其省略号菜单(三个点),然后选择编辑
    3. 在“编辑用户”面板中,输入 GGADMIN 密码,确认密码,然后取消选择帐户已锁定
    4. 单击应用更改
  4. 加载源示例方案和数据:
    1. 从“数据库操作”菜单的“开发”下,选择 SQL
    2. 将脚本从 OCIGGLL_OCIGGS_SETUP_USERS_ATP.sql 复制并粘贴到 SQL 工作表中。
    3. 单击运行脚本“Script Output(脚本输出)”选项卡将显示确认消息。
    4. 清除 SQL 工作表,然后从 OCIGGLL_OCIGGS_SRC_USER_SEED_DATA.sql. 复制并粘贴 SQL 脚本

      提示:

      您可能需要单独运行每个语句,SQL 工具才能成功执行这些脚本。
    5. 要验证表是否已成功创建,请关闭 SQL 窗口,然后重新打开该窗口。在“Navigator(导航器)”选项卡中,查找 SRC_OCIGGLL 方案,然后从其各自的下拉列表中选择表。
  5. 启用补充事件记录:
    1. 清除 SQL 工作表。
    2. 输入以下语句,然后单击运行语句
      ALTER PLUGGABLE DATABASE ADD SUPPLEMENTAL LOG DATA;

任务 2:添加 Extract

  1. 在“Deployments(部署)”页面上,选择源自治事务处理部署。
  2. 在部署详细信息页上,单击启动控制台
  3. 使用源部署的管理员用户名和密码登录。
  4. 添加交易信息
  5. 添加 Extract

任务 3:添加并运行 Distribution Path

  1. 如果使用 GoldenGate 身份证明存储,请在目标大数据部署中为分发路径创建用户,否则跳至步骤 3。
  2. source ATP GoldenGate 部署控制台中,为在步骤 1 中创建的用户添加路径连接。
    1. 在源 ATP GoldenGate 部署控制台中,单击左侧导航中的路径连接
    2. 单击添加路径连接(加号图标),然后完成以下操作:
      1. 对于身份证明别名,输入 GGSNetwork
      2. 对于用户 ID ,输入在步骤 1 中创建的用户的名称。
      3. 输入用户的密码两次以进行验证。
    3. 单击提交

      路径连接将显示在“路径连接”列表中。

  3. source ATP 部署控制台中,添加具有以下值的分发路径
    1. 源选项页上:
      • 对于源提取,选择在任务 2 中创建的提取。
      • 对于线索名称,输入两个字符的名称,例如 E1
    2. 目标选项页上:
      • 对于目标主机,输入目标部署的主机域。
      • 端口号中,输入 443
      • 对于线索名称,输入两个字符的名称,例如 E1
      • 对于别名,输入在步骤 2 中创建的身份证明别名。
  4. 目标大数据部署控制台中,查看通过 Distribution Path 创建的 Receiver Path
    1. 在目标大数据部署控制台中,单击 Receiver Service
    2. 查看路径详细信息。此路径是在上一步中创建的 Distribution Path 的结果创建的。

任务 4:添加并运行复制

要添加和运行复制,请执行以下操作:
  1. OCI GoldenGate 部署控制台Administration Service 主页中,单击 Add Replicat(加号图标)。
  2. 在添加 Replicat 面板的 Replicat 信息页上,根据需要填写字段,然后单击下一步
    • 对于 Replicat 类型,选择“经典” Replicat
    • 输入 Process Name(流程名称),长度不超过 5 个字符。
    • 输入说明,以帮助区分此流程与其它流程。
  3. Replicat(复制)选项页面上,根据需要填写字段,然后单击下一步
    1. 对于复制线索,输入“提取线索名称”。
    2. 对于目标,选择 Apache Iceberg
    3. 对于格式,选择要摄取到 Apache Iceberg 的格式。默认值为 Parquet。
    4. 对于可用别名,请从下拉列表中选择 Apache Iceberg 连接。
  4. 在“托管选项”页上,保留默认设置,然后单击下一步
  5. 在“复制参数”页上,保留默认设置,然后单击下一步
  6. 在“复制属性”页上,更新标记的字段 TODO ,然后单击创建并运行
    有关详细信息,请参阅 Apache Iceberg 目标详细信息

任务 5:验证复制

要验证复制,请对源 ATP 实例执行更新。
  1. 在 Oracle Cloud 控制台中,打开导航菜单,选择 Oracle Database ,然后选择 Autonomous Database
  2. 在自治数据库列表中,选择源实例以查看其详细信息。
  3. 在“数据库详细信息”页上,单击数据库操作
  4. 在“数据库操作”页上,选择 SQL
  5. 在 SQL 工作表中输入以下插入语句,然后单击运行脚本
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1000,'Houston',20,743113);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1001,'Dallas',20,822416);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1002,'San Francisco',21,157574);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1003,'Los Angeles',21,743878);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1004,'San Diego',21,840689);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1005,'Chicago',23,616472);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1006,'Memphis',23,580075);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1007,'New York City',22,124434);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1008,'Boston',22,275581);
    Insert into SRC_OCIGGLL.SRC_CITY (CITY_ID,CITY,REGION_ID,POPULATION) values (1009,'Washington D.C.',22,688002);
  6. 在源 ATP 部署控制台中,选择“提取”名称,然后单击统计信息。验证 SRC_OCIGGLL.SRC_CITY 是否具有 10 个插入。
  7. 在目标大数据部署控制台中,选择复制名称,然后单击统计信息。验证 SRC_OCIGGLL.SRC_CITY 是否具有 10 个插入。