12 フロー

Oracle AI Data Platform Workbenchのワークフローは、データ処理タスクを自動化する強力で柔軟な方法を提供します。ワークフローを使用すると、ユーザーは、定義済のスケジュールに基づいてオンデマンドで実行できる複雑なデータ・パイプラインを定義および編成できます。ワークフローは、それぞれが特定のアクションを実行する複数のタスクで構成でき、依存関係、トリガー、エラー処理などの高度な機能を含めることができます。

AIデータ・プラットフォーム・ワークフローの主な機能

  • 自動化: 複雑なデータ・タスクおよびプロセスを自動化します。
  • オーケストレーション: パイプライン内のタスクの順序と依存関係を定義します。
  • スケジューリング: 特定のイベントに基づいてスケジュールまたはトリガーでワークフローを実行します。
  • 監視: ワークフロー・ステータス、ログおよび実行履歴を追跡します。
  • パラメータ化: パラメータを渡して、ワークフローおよびタスクの動作をカスタマイズします。

コア概念

  • ジョブ: データ処理ジョブを完了するために順次またはパラレルに実行されるタスクの集合。
  • タスク: ワークフローを構成する個々のステップ。タスクには、Pythonコードの実行、ノートブックの実行、if-elseタスクの実行、別のジョブ・タスクの実行などのアクションを含めることができます。
  • ジョブ実行: ジョブ実行のインスタンス。ジョブは、新しいジョブ実行を表すたびに複数回トリガーできます。
  • トリガー: ワークフローが実行される条件(スケジュール上や手動でトリガーされた場合など)を定義します。
  • Dependencies(依存関係): タスクの実行順序を定義するか、特定のタスクを実行する条件を指定します。
  • パラメータ: 実行をカスタマイズするためにワークフローまたはタスクに渡される値。パラメータは、ジョブ、タスクまたはランタイム・レベルで定義できます。

ワークフローの使用の利点/ユースケース

  • 合理化された自動化- ワークフローを通じてデータを自動化することで、反復的なデータ・タスクの実行を簡素化します。
  • パラレル処理- タスクをパラレルに実行することで、データ処理を高速化します。
  • カスタマイズ可能な実行- 特定のニーズに合せてパラメータを使用して、実行時にワークフローを変更します。
  • 効率性の向上- 手動による介入とエラーを削減し、よりスムーズな運用を実現します。

AIデータ・プラットフォーム・ワークベンチのワークフローにより、自動ETLパイプライン、複数のソースからのデータ統合、高度な分析など、幅広いユース・ケースが可能になります。ユーザーは、データ品質の監視、機械学習モデルのトレーニングおよびデプロイメントを自動化できます。これらの機能により、最新のデータドリブン・ワークフローの効率性とスケーラビリティが向上します。

ベスト・プラクティス

  • タスクのモジュール化- ワークフローを再利用可能なタスクに分解して、管理を簡素化し、メンテナンス性を向上させます。
  • 効率的なリソース割当て- 必要に応じてタスクを並行して実行することで、ワークフローを最適化してパフォーマンスを向上させます。
  • エラー処理- 再試行、エラー通知およびフォールバック・メカニズムを使用して、ワークフローを確実に実行します。
  • コンピュート割当て- ワークロード・サイズに基づいて特定のコンピュート・リソースを各タスクに割り当て、パフォーマンスとコストを最適化します。

これらのベストプラクティスに従うことで、スケーラブルで信頼性が高く効率的なワークフローを設計し、Oracle AI Data Platformで最適なパフォーマンスと管理を確実に行うことができます。