12 工作流

Oracle AI Data Platform Workbench 中的工作流提供了一种强大而灵活的方式来自动执行数据处理任务。通过工作流,用户可以定义和编排复杂的数据管道,这些管道可以按需运行并基于预定义的计划运行。工作流可以由多个任务组成,每个任务执行特定操作,并且可以包括高级功能,例如依赖项、触发器和错误处理。

AI 数据平台工作流的主要功能

  • 自动化:自动化复杂的数据任务和流程。
  • 编排:定义管道中任务的顺序和相关性。
  • 计划:根据计划运行工作流或根据特定事件运行工作流。
  • 监视:跟踪工作流状态、日志和执行历史记录。
  • 参数化:传递参数以自定义工作流和任务的行为。

核心概念

  • 作业:按顺序或并行执行以完成数据处理作业的任务的集合。
  • 任务:构成工作流的各个步骤。任务可以包括运行 Python 代码、执行记事本、if-else 任务或运行其他作业任务等操作。
  • 作业运行:作业执行的实例。可以多次触发作业,每次都表示新的作业运行。
  • 触发器:定义执行工作流的条件,例如在计划中,或者是否手动触发工作流。
  • 相关性:定义任务执行顺序或指定特定任务运行的条件。
  • 参数:传递给工作流或任务的值,用于自定义其执行。可在作业、任务或运行时级别定义参数。

工作流的好处/使用案例

  • 简化自动化 - 通过工作流自动执行重复数据任务,从而简化重复数据任务的执行。
  • 并行处理 - 通过并行运行任务来加快数据处理速度。
  • 可定制执行 - 在运行时修改具有参数的工作流以满足特定需求。
  • 提高效率 - 减少手动干预和错误,实现更顺畅的操作。

AI Data Platform Workbench 中的工作流支持各种用例,包括自动 ETL 管道、多个来源的数据集成以及高级分析。用户可以自动进行数据质量监视、机器学习模型训练和部署。这些功能可提高现代数据驱动工作流的效率和可扩展性。

最佳做法

  • 任务模块化 - 将工作流分解为可重用任务,以简化管理和提高可维护性。
  • 高效的资源分配—通过在适当时并行运行任务,优化工作流以提高性能。
  • 错误处理 - 使用重试、错误通知和回退机制来确保工作流可靠运行。
  • 计算分配—根据工作负载大小为每项任务分配特定的计算资源,并优化性能和成本。

通过遵循这些优秀实践,您可以设计可扩展、可靠且高效的工作流,从而确保在 Oracle AI Data Platform 中实现最佳性能并简化管理。