始める前に
目的
このチュートリアルでは、Big Data Cloud Service - Compute Edition (BDCS-CE)クラスタで単純なバッチ・スパーク・ジョブを実行する方法を説明します。
所要時間
約20分。
背景
New York City (NYC) Taxi & Limousine Commission - 移動記録データがこのチュートリアルで分析されます。このタスクのために、2つのジョブが作成されます。
-
TripParserJob: このジョブでは、Oracle Storage Cloud Containerに格納されているNYC Taxiのログを読み取り、Hadoop分散ファイル・システム(HDFS)にカンマ区切りの値(CSV)のファイルで格納します。
-
TripProcessorJob: このジョブでは、TripParserJobによって生成された出力を読み取り、1日の時間ごとに平均料金を計算します。結果はキーと値のペアで、キーは1日の時間で、値は最初の入力ファイルによって表される指定された期間の任意の日、月、年のその時間にお客様によって支払われた平均料金です。出力は、BDCS-CEクラスタに関連付けられているOracle Storage Cloud Containerのテキスト・ファイルとして格納されます。
必要なもの
実行中のBDCS-CEクラスタ。
BDCS-CEアカウント資格証明またはBig Data Cluster ConsoleのダイレクトURL (例: https://xxx.xxx.xxx.xxx:1080/)。
BDCS-CEクラスタ・ログイン資格証明。
Oracle Storage Cloud資格証明、テナント名およびコンテナ名。
BDCS-CEクラスタにリンク付けされているOracle Storage Cloud ContainerにアップロードされているsmallTrip.csvファイル。
Oracle Storage Cloud Serviceでオブジェクトをアップロード/作成する手順は、「単一オブジェクトの作成」を参照してください。
Big Data Cluster Console - 「Jobs」ページへのナビゲート
-
BDCS-CEアカウントにログインします。
注意: Big Data Cluster ConsoleにアクセスするためのダイレクトURLがわかっている場合、直接リンクにナビゲートして手順3から続行できます。
-
「Services」ページで、ジョブを作成するクラスタの「Manage this Service」アイコンをクリックしてから、「Big Data Cluster Console」をクリックします。
-
「Authentication Required」という名前のウィンドウが表示されます。BDCS-CEクラスタのユーザー名およびパスワードを入力し、「Log In」をクリックします。
-
「Big Data Cloud - Compute Edition Console」で、「Jobs」をクリックします。
ジョブの作成
TripParserJobの作成
-
「Big Data Cloud - Compute Edition Console Jobs」ページで、「New Job」をクリックします。
-
TripParserJobの「Name」および「Description」を入力し、「Next」をクリックします。
-
ジョブを実行するための構成パラメータを指定し、「Next」をクリックします。この例では、次のパラメータが使用されます。
ドライバ・コア: 2
ドライバ・メモリー: 2 GB
エグゼキュータ・コア: 2
エグゼキュータ・メモリー: 3 GB
エグゼキュータ数: 2
キュー: api
ファイル・パス、メイン・クラス、引数、追加Jars、追加サポート・ファイルなどのドライバ・ファイル情報を指定し、「Next」をクリックします。この例では、次の情報が入力されます。
ファイル・パス: hdfs:///spark/examples/perf-jobs-apache-openstack-1.1.0-20160628.173357-1.jar
メイン・クラス: com.oracle.spoccs.jobs.TripParserJob
引数:
inDS=swift://storageContainerName.main/smallTrip.csv outDS=hdfs:///user/oracle/data/parsedTrip fs.swift.SERVICE_NAME=main fs.swift.CONTAINER_NAME=storageContainerName fs.swift.service.main.auth.url=https://storage-ucf2.oraclecorp.com/auth/v2.0/tokens fs.swift.service.main.tenant=Storage-TenantName fs.swift.service.main.username=Storageadmin fs.swift.service.main.password=StoragePassword fs.swift.service.main.public=true fs.swift.service.http.location-aware=false
構成ごとに
CONTAINER_NAME、tenant、username
およびpassword
の値を変更します。
確認ページで、レスポンスを確認して「Create」をクリックします。
ジョブが正常に完了したら、TripProcessorJobを作成します。
TripProcessorJobの作成
-
「Big Data Cloud - Compute Edition Console Jobs」ページで、「New Job」をクリックします。
-
TripProcessorJobの「Name」および「Description」を入力し、「Next」をクリックします。
-
ジョブを実行するための構成パラメータを指定し、「Next」をクリックします。この例では、次のパラメータが使用されます。
ドライバ・コア: 2
ドライバ・メモリー: 2 GB
エグゼキュータ・コア: 2
エグゼキュータ・メモリー: 3 GB
エグゼキュータ数: 2
キュー: api
-
ファイル・パス、メイン・クラス、引数、追加Jars、追加サポート・ファイルなどのドライバ・ファイル情報を指定し、「Next」をクリックします。この例では、次の情報が入力されます。
ファイル・パス: hdfs:///spark/examples/perf-jobs-apache-openstack-1.1.0-20160628.173357-1.jar
メイン・クラス: com.oracle.spoccs.jobs.TripProcessorJob
引数:
inDS=hdfs:///user/oracle/data/parsedTrip outDS=swift://storageContainerName.main/processedJob fs.swift.SERVICE_NAME=main fs.swift.CONTAINER_NAME=storageContainerName fs.swift.service.main.auth.url=https://storage-ucf2.oraclecorp.com/auth/v2.0/tokens fs.swift.service.main.tenant=Storage-TenantName fs.swift.service.main.username=Storageadmin fs.swift.service.main.password=StoragePassword fs.swift.service.main.public=true fs.swift.service.http.location-aware=false
構成ごとに
CONTAINER_NAME、tenant、username
およびpassword
の値を変更します。注意:
TripParserJobで生成された出力ファイルは、ここで入力ファイルとして使用されます。 確認ページで、レスポンスを確認して「Create」をクリックします。
ジョブが正常に完了したら、出力の表示に進みます。
出力の表示
-
「Big Data Cloud - Compute Edition Console」で、「Data Stores」をクリックします。
TripProcessorJobの最終出力がOracle Storage Cloud Containerに格納されたら、「Cloud Storage」をクリックします。
「Filter by Prefix」フィールドにTripProcessorJob引数の
outDS
値(この場合、processedJob
)を入力し、[Enter]を押します。出力ファイルがOracle Storage Cloud Containerに作成されていることに注意してください。
Oracle Storage Cloud Containerから出力ファイル/出力オブジェクトをダウンロードする手順は、「オブジェクトのダウンロード」を参照してください。