プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

ワークフローのDPログの例

この例では、DP CLIを使用してワークフローを実行したときに生成される様々なDPログの概要を示します。

この例では、Hive管理者が「マス・ストーン」という名前の表を作成したことを前提としています(これには、マサチューセッツ州のタウンドと都市に関する情報が含まれています)。 ワークフローは、「DPコマンドライン・インタフェース・ユーティリティ」で説明されているDP CLIを使用して実行されます。

DP CLIのコマンドラインは次のとおりです:
./data_processing_CLI --database default --table masstowns --maxRecords 1000

--tableフラグでは、Hive表の名前を指定すると、--databaseフラグでは、表がHiveデータベースであるdefaultという名前の状態となり、--maxRecordsフラグでは、サンプル・サイズが最大1,000レコードに設定されます。

コマンドstdout

DP CLIは、最初に起動している構成から出力され、その構成には次のものが含まれます:
...
EdpEnvConfig{endecaServer=http://web07.example.oracle.com:7003/endeca-server/, edpDataDir=/user/bdd/edp/data, 
...
ProvisionDataSetFromHiveConfig{hiveDatabaseName=default, hiveTableName=masstowns, 
newCollectionId=MdexCollectionIdentifier{databaseName=
edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, 
collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e}, 
runEnrichment=false, maxRecordsForNewDataSet=1000, disableTextSearch=false, 
languageOverride=en, operation=PROVISION_DATASET_FROM_HIVE, transformScript=, 
accessType=public_default, autoEnrichPluginExcludes=[Ljava.lang.String;@71034e3b}
ProvisionDataSetFromHiveConfig{notificationName=CLIDATALOAD, 
ecid=0000LM3rDDu7ADkpSw4Eyc1NROXb000001, startTime=1466796128122, 
properties={dataSetDisplayName=Taxi_Data, isCli=true}}
New collection name = MdexCollectionIdentifier{
databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, 
collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e}
data_processing_CLI finished with state SUCCESS
...

「操作」フィールドには、データ処理ワークフローの操作タイプがリストされます。 この例では、操作はPROVISION_DATASET_FROM_HIVEで、Hive表から新しいBDDデータ・セットを作成することを意味します。

$BDD_HOME/logs/edpのログ

この例では、$BDD_HOME/logs/edpディレクトリには3つのログがあります。 一方の所有者はDP CLIを実行したユーザーのユーザーIDで、その他の2つのログの所有者はユーザーyarnです:
  • 非YARNログには、stdout情報に類似した情報が含まれています。 エントリには、Sparkエグゼキュータのエントリが含まれていることに注意してください。
  • YARNログには、次の項のYARNログに類似した情報が含まれています。

YARNログ

YARN ResourceManager Web UIリンクを使用する場合、「すべてのアプリケーション」ページには、実行されているSparkアプリケーションが表示されます。 この例では、ジョブ名は次のとおりです:
EDP: ProvisionDataSetFromHiveConfig{hiveDatabaseName=default, hiveTableName=masstowns, 
newCollectionId=MdexCollectionIdentifier{
databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, 
collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e}}
「名前」フィールドには、ジョブに関する次の特性が表示されます:
  • ProvisionDataSetFromHiveConfigは、実行されたDPワークフローのタイプです。
  • hiveDatabaseNameには、Hiveデータベースの名前がリストされます(この例では、「デフォルト」)。
  • hiveTableNameには、プロビジョニングされたHive表の名前(この例では、「マス・ストーン」)がリストされます。
  • newCollectionIdには、新規データ・セットおよびそのDgraphデータベースの名前がリストされます(両方の名前が同じです)。

「トラッキングUI」フィールドで「履歴」をクリックすると、ジョブ履歴が表示されます。 「アプリケーションの概要」パネルの情報には、ジョブを実行したユーザーの名前、ジョブの最終ステータス、およびジョブの経過時間が含まれます。 FAILEDジョブは、「診断」フィールドにエラー情報があります。

「ログ」フィールドで「ログ」をクリックすると、stdoutおよびstderr出力が表示されます。 stderr出力は、FAILEDジョブに特に役立ちます。 また、stdoutセクションには、より詳細な出力情報を表示するリンク(「完全なログは、ここをクリックしてください」という名前)があります。

Dgraph HDFSエージェント・ログ

DPワークフローが終了すると、Dgraph HDFSエージェントはDPで作成されたファイルをフェッチし、収集用のDgraphに送信します。 収集操作用のDgraph HDFSエージェント・コンポーネントのログ・メッセージは、次のエントリのようになります(メッセージ詳細は表示されません):
Received request for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e
Starting ingest for: MdexCollectionIdentifier{
  databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, 
  collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e},
  ...
createBulkIngester edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e
Finished reading 1004 records for MdexCollectionIdentifier{
  databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, 
  collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e},
  ...
sendRecordsToIngester 1004
closeBulkIngester
Ingest finished with 1004 records committed and 0 records rejected. 
  Status: INGEST_FINISHED. Request info: MdexCollectionIdentifier{
  databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, 
  collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e}, 
  ...
Notification server url: http://busgg2014.us.oracle.com:7003/bdd/v1/api/workflows
About to send notification
Terminating
Notification{workflowName=CLIDataLoad, sourceDatabaseName=null, sourceDatasetKey=null, 
  targetDatabaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, 
  targetDatasetKey=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, 
  ecid=0000LM3rDDu7ADkpSw4Eyc1NROXb000001, status=SUCCEEDED, 
  startTime=1466796128122, timestamp=1466796195365, progressPercentage=100.0, 
  errorMessage=null, properties={dataSetDisplayName=masstowns, isCli=true}}
Notification sent successfully
Terminating

収集操作は、最後の「ステータス: INGEST_FINISHED」メッセージがログに書き込まれると完了します。

Dgraphアウト・ログ

データ・セットの収集操作の結果として、Dgraphアウト・ログ (dgraph.out)には次のbulk_ingestメッセージが含まれます:
Start ingest for collection: edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e	
Starting a bulk ingest operation for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e	
batch 0 finish BatchUpdating status Success for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e	
Ending bulk ingest at client's request for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e - finalizing changes	
Bulk ingest completed: Added 1004 records and rejected 0 records, for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e	
Ingest end - 0.584MB in 2.010sec = 0.291MB/sec for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e

この時点で、データ・セット・レコードはDgraphにあり、データ・セットはStudioに表示できます。

Studioログ

DP CLIから実行するワークフローと同様に、Studio生成のワークフローでも$BDD_HOME/logs/edpディレクトリにログが生成され、YARNログ、Dgraph HDFSエージェント・ログおよびDgraphアウト・ログも生成されます。

また、Studioワークフローも$BDD_DOMAIN/servers/<serverName>/logs/bdd-studio.logファイルに記録されます。