ワークフローを使用したSpark構造化ストリーミングの構成

ストリーム・データを継続的に処理するために、ワークフロー内でストリーミング・タスクを構成できます。

最初にジョブを作成し、そのジョブにノートブックまたはPythonタスクを1つ追加して、Oracle AI Data Platform Workbenchでストリーミングを使用するワークフローの使用を開始する必要があります。
  1. ワークスペースに移動し、「ワークフロー」をクリックします。
  2. 「Create cluster」アイコン「ジョブの作成」をクリックします。
  3. ジョブの名前と説明を指定します。
  4. 「参照」をクリックし、AI Data Platform Workbenchでジョブを保存する場所を選択します。「選択」をクリックします。
  5. 「最大同時実行数」1と入力します。
  6. 「作成」をクリックします。
  7. 作成したジョブをクリックします。
  8. 「タスクの追加」をクリックします。
  9. タスクの名前を指定します。
  10. 「タスク・タイプ」「ノートブック」または「Python」を選択します。
  11. 「参照」をクリックし、ストリーミング・タスクとして追加するノートブックまたはPythonスクリプトに移動します。「選択」をクリックします。
  12. ノートブックまたはPythonタスクのコンピュート・クラスタ(まだアタッチされていない場合)を選択します。
  13. 「ストリーミング」チェック・ボックスを選択します。「ストリーミング」を選択すると、実行タイムアウトおよびタスク依存関係がオプションとして無効になります。

    「Streaming」チェック・ボックスが選択された状態で「Create Task Details」ページが開きます

  14. 失敗時にタスクが試行する再試行回数を選択します。0より大きい値を選択した場合、ジョブ実行が再試行までに待機する時間、およびタイムアウト時に再試行を試みるかどうかも指定する必要があります。

    再試行回数が1以上の場合のタスク再試行オプション

  15. 「即時実行」をクリックします。
ストリーミング・タスクが開始されると、手動で停止するまで実行が続行されます。定期的な月次メンテナンス中、ストリーミング・タスクはサービスによって停止および再起動され、ユーザー側からのアクションは必要ありません。