使用工作流配置 Spark 结构化流处理

您可以在工作流内配置流任务,以便连续处理流数据。

您首先需要创建一个作业,然后向该作业添加一个记事本或 Python 任务,以开始在 Oracle AI Data Platform Workbench 中使用流处理工作流。
  1. 导航到工作区,然后单击工作流
  2. 单击 “创建集群”图标 Create Job(创建作业)
  3. 请为您的作业提供名称和说明。
  4. 单击浏览,然后选择要将作业保存在 AI 数据平台工作台中的位置。单击选择
  5. 最大并发运行数输入 1
  6. 单击创建
  7. 单击刚刚创建的作业。
  8. 单击添加任务
  9. 为您的任务提供名称。
  10. 任务类型选择记事本Python
  11. 单击浏览并导航到要作为流处理任务添加的记事本或 Python 脚本。单击选择
  12. 为 Notebook 或 Python 任务选择计算集群(如果尚未附加计算集群)。
  13. 选中流处理复选框。选择“流处理”将禁用执行超时和任务相关性作为选项。

    在选中“Streaming(流处理)”复选框的情况下打开“Create Task details(创建任务详细信息)”页面

  14. 选择任务在失败时应尝试的重试次数。如果选择 0 以上,还必须指定作业在两次重试之间应等待多长时间,以及是否应在超时时尝试重试。

    重试次数为 1 或更大的任务重试选项

  15. 单击立即运行
流处理任务启动后,它会继续运行,直到您手动停止它。在每月定期维护期间,服务会停止并重新启动流处理任务,而无需您执行任何操作。