Big Data Cloud Service - Compute Edition Clusterでのバッチ・スパーク・ジョブの実行


オプション



始める前に

目的

このチュートリアルでは、Big Data Cloud Service - Compute Edition (BDCS-CE)クラスタで単純なバッチ・スパーク・ジョブを実行する方法を説明します。

所要時間

約20分。

背景

New York City (NYC) Taxi & Limousine Commission - 移動記録データがこのチュートリアルで分析されます。このタスクのために、2つのジョブが作成されます。

  1. TripParserJob: このジョブでは、Oracle Storage Cloud Containerに格納されているNYC Taxiのログを読み取り、Hadoop分散ファイル・システム(HDFS)にカンマ区切りの値(CSV)のファイルで格納します。

  2. TripProcessorJob: このジョブでは、TripParserJobによって生成された出力を読み取り、1日の時間ごとに平均料金を計算します。結果はキーと値のペアで、キーは1日の時間で、値は最初の入力ファイルによって表される指定された期間の任意の日、月、年のその時間にお客様によって支払われた平均料金です。出力は、BDCS-CEクラスタに関連付けられているOracle Storage Cloud Containerのテキスト・ファイルとして格納されます。

必要なもの

  • 実行中のBDCS-CEクラスタ。

  • BDCS-CEアカウント資格証明またはBig Data Cluster ConsoleのダイレクトURL (例: https://xxx.xxx.xxx.xxx:1080/)。

  • BDCS-CEクラスタ・ログイン資格証明。

  • Oracle Storage Cloud資格証明、テナント名およびコンテナ名。

  • BDCS-CEクラスタにリンク付けされているOracle Storage Cloud ContainerにアップロードされているsmallTrip.csvファイル。

    Oracle Storage Cloud Serviceでオブジェクトをアップロード/作成する手順は、「単一オブジェクトの作成」を参照してください。

Big Data Cluster Console - 「Jobs」ページへのナビゲート

  1. BDCS-CEアカウントにログインします。

    注意: Big Data Cluster ConsoleにアクセスするためのダイレクトURLがわかっている場合、直接リンクにナビゲートして手順3から続行できます。

  2. 「Services」ページで、ジョブを作成するクラスタの「Manage this Service」アイコンをクリックしてから、「Big Data Cluster Console」をクリックします。

    「Services」ページ - サービスのコンテキスト・メニュー
    このイメージの説明
  3. 「Authentication Required」という名前のウィンドウが表示されます。BDCS-CEクラスタのユーザー名およびパスワードを入力し、「Log In」をクリックします。

    「Big Data Cluster Console」ページにアクセスするための「Authentication」ページ
    このイメージの説明
  4. 「Big Data Cloud - Compute Edition Console」で、「Jobs」をクリックします。

    「Big Data Cloud - Compute Edition Console」
    このイメージの説明

ジョブの作成

TripParserJobの作成

  1. 「Big Data Cloud - Compute Edition Console Jobs」ページで、「New Job」をクリックします。

    「Big Data Cloud - Compute Edition Console」の「New Job」ボタン
    このイメージの説明
  2. TripParserJobの「Name」および「Description」を入力し、「Next」をクリックします。

    「New Job - Details」ページ
    このイメージの説明
  3. ジョブを実行するための構成パラメータを指定し、「Next」をクリックします。この例では、次のパラメータが使用されます。

    • ドライバ・コア: 2

    • ドライバ・メモリー: 2 GB

    • エグゼキュータ・コア: 2

    • エグゼキュータ・メモリー: 3 GB

    • エグゼキュータ数: 2

    • キュー: api

    「New Job - Configuration」ページ
    このイメージの説明
  4. ファイル・パス、メイン・クラス、引数、追加Jars、追加サポート・ファイルなどのドライバ・ファイル情報を指定し、「Next」をクリックします。この例では、次の情報が入力されます。

    • ファイル・パス: hdfs:///spark/examples/perf-jobs-apache-openstack-1.1.0-20160628.173357-1.jar

    • メイン・クラス: com.oracle.spoccs.jobs.TripParserJob

    • 引数:

      inDS=swift://storageContainerName.main/smallTrip.csv
      outDS=hdfs:///user/oracle/data/parsedTrip
      fs.swift.SERVICE_NAME=main
      fs.swift.CONTAINER_NAME=storageContainerName
      fs.swift.service.main.auth.url=https://storage-ucf2.oraclecorp.com/auth/v2.0/tokens
      fs.swift.service.main.tenant=Storage-TenantName
      fs.swift.service.main.username=Storageadmin
      fs.swift.service.main.password=StoragePassword
      fs.swift.service.main.public=true
      fs.swift.service.http.location-aware=false

      構成ごとにCONTAINER_NAME、tenant、usernameおよびpasswordの値を変更します。

      「New Job - Driver File 」ページ
      このイメージの説明
  5. 確認ページで、レスポンスを確認して「Create」をクリックします。

    「New Job - Confirmation」ページ
    このイメージの説明
  6. ジョブが正常に完了したら、TripProcessorJobを作成します。

    「Spark Jobs」ページ - perf-job-demo-Job1ステータス
    このイメージの説明

TripProcessorJobの作成

  1. 「Big Data Cloud - Compute Edition Console Jobs」ページで、「New Job」をクリックします。

    「Big Data Cloud - Compute Edition Console」の「New Job」ボタン
    このイメージの説明
  2. TripProcessorJobの「Name」および「Description」を入力し、「Next」をクリックします。

    「New Job - Details」ページ
    このイメージの説明
  3. ジョブを実行するための構成パラメータを指定し、「Next」をクリックします。この例では、次のパラメータが使用されます。

    • ドライバ・コア: 2

    • ドライバ・メモリー: 2 GB

    • エグゼキュータ・コア: 2

    • エグゼキュータ・メモリー: 3 GB

    • エグゼキュータ数: 2

    • キュー: api

    「New Job - Configuration」ページ
    このイメージの説明
  4. ファイル・パス、メイン・クラス、引数、追加Jars、追加サポート・ファイルなどのドライバ・ファイル情報を指定し、「Next」をクリックします。この例では、次の情報が入力されます。

    • ファイル・パス: hdfs:///spark/examples/perf-jobs-apache-openstack-1.1.0-20160628.173357-1.jar

    • メイン・クラス: com.oracle.spoccs.jobs.TripProcessorJob

    • 引数:

      inDS=hdfs:///user/oracle/data/parsedTrip
      outDS=swift://storageContainerName.main/processedJob
      fs.swift.SERVICE_NAME=main
      fs.swift.CONTAINER_NAME=storageContainerName
      fs.swift.service.main.auth.url=https://storage-ucf2.oraclecorp.com/auth/v2.0/tokens
      fs.swift.service.main.tenant=Storage-TenantName
      fs.swift.service.main.username=Storageadmin
      fs.swift.service.main.password=StoragePassword
      fs.swift.service.main.public=true
      fs.swift.service.http.location-aware=false

    構成ごとにCONTAINER_NAME、tenant、usernameおよびpasswordの値を変更します。

    「New Job - Driver File 」ページ
    この図の説明

    注意: TripParserJobで生成された出力ファイルは、ここで入力ファイルとして使用されます。

  5. 確認ページで、レスポンスを確認して「Create」をクリックします。

    「New Job - Confirmation」ページ
    このイメージの説明
  6. ジョブが正常に完了したら、出力の表示に進みます。

    「Spark Jobs」ページ - perf-job-demo-Job2ステータス
    このイメージの説明

出力の表示

  1. 「Big Data Cloud - Compute Edition Console」で、「Data Stores」をクリックします。

    「Big Data Cloud - Compute Edition Console」タブ
    このイメージの説明
  2. TripProcessorJobの最終出力がOracle Storage Cloud Containerに格納されたら、「Cloud Storage」をクリックします。

    「Data Stores」ページ - 「HDFS and Cloud Storage」タブ
    このイメージの説明
  3. 「Filter by Prefix」フィールドにTripProcessorJob引数のoutDS値(この場合、processedJob)を入力し、[Enter]を押します。

    「Cloud Storage」ページ - 接頭辞でフィルタリング
    このイメージの説明

    出力ファイルがOracle Storage Cloud Containerに作成されていることに注意してください。

    Oracle Storage Cloud Containerから出力ファイル/出力オブジェクトをダウンロードする手順は、「オブジェクトのダウンロード」を参照してください。

詳細