为数据流配置增量处理

在数据流中应用增量处理,以便仅加载数据库中的新记录或更新的记录。

通过在数据流中应用增量处理,您可以仅加载新数据,而不是每次执行完整加载(这种加载效率低且成本高)。换句话说,每次使用数据流加载数据时,仅处理自上次运行以来添加的新数据。
开始之前,先创建一个与受支持数据库的连接,如 Oracle、Oracle Autonomous Data Warehouse、Apache Hive、Hortonworks Hive 或 Map R Hive。然后,为该数据库配置新的数据指示符。请参见为数据源指定新的数据指示符
  1. 创建或打开要应用增量处理的数据流。
  2. 数据流编辑器中,选择保存数据步骤以显示步骤编辑器窗格。
  3. 数据集字段中,指定在添加数据步骤中指定的输入数据集的名称。
  4. 将数据保存到选项中,选择数据库连接
  5. 单击选择连接,然后选择一个与受支持的目标数据库的连接。
  6. 字段中,指定要向其写入的目标表的名称。
  7. 运行时选项中,选择将新数据添加到现有数据
  8. 单击保存