この例では、DP CLIを使用してワークフローを実行したときに生成される様々なDPログの概要を示します。
この例では、Hive管理者が「マス・ストーン」という名前の表を作成したことを前提としています(これには、マサチューセッツ州のタウンドと都市に関する情報が含まれています)。 ワークフローは、「DPコマンドライン・インタフェース・ユーティリティ」で説明されているDP CLIを使用して実行されます。
./data_processing_CLI --database default --table masstowns --maxRecords 1000
--tableフラグでは、Hive表の名前を指定すると、--databaseフラグでは、表がHiveデータベースであるdefaultという名前の状態となり、--maxRecordsフラグでは、サンプル・サイズが最大1,000レコードに設定されます。
コマンドstdout
...
EdpEnvConfig{endecaServer=http://web07.example.oracle.com:7003/endeca-server/, edpDataDir=/user/bdd/edp/data,
...
ProvisionDataSetFromHiveConfig{hiveDatabaseName=default, hiveTableName=masstowns,
newCollectionId=MdexCollectionIdentifier{databaseName=
edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e,
collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e},
runEnrichment=false, maxRecordsForNewDataSet=1000, disableTextSearch=false,
languageOverride=en, operation=PROVISION_DATASET_FROM_HIVE, transformScript=,
accessType=public_default, autoEnrichPluginExcludes=[Ljava.lang.String;@71034e3b}
ProvisionDataSetFromHiveConfig{notificationName=CLIDATALOAD,
ecid=0000LM3rDDu7ADkpSw4Eyc1NROXb000001, startTime=1466796128122,
properties={dataSetDisplayName=Taxi_Data, isCli=true}}
New collection name = MdexCollectionIdentifier{
databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e,
collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e}
data_processing_CLI finished with state SUCCESS
...
「操作」フィールドには、データ処理ワークフローの操作タイプがリストされます。 この例では、操作はPROVISION_DATASET_FROM_HIVEで、Hive表から新しいBDDデータ・セットを作成することを意味します。
$BDD_HOME/logs/edpのログ
$BDD_HOME/logs/edpディレクトリには3つのログがあります。 一方の所有者はDP CLIを実行したユーザーのユーザーIDで、その他の2つのログの所有者はユーザーyarnです:
YARNログ
EDP: ProvisionDataSetFromHiveConfig{hiveDatabaseName=default, hiveTableName=masstowns,
newCollectionId=MdexCollectionIdentifier{
databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e,
collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e}}
ProvisionDataSetFromHiveConfigは、実行されたDPワークフローのタイプです。
hiveDatabaseNameには、Hiveデータベースの名前がリストされます(この例では、「デフォルト」)。
hiveTableNameには、プロビジョニングされたHive表の名前(この例では、「マス・ストーン」)がリストされます。
newCollectionIdには、新規データ・セットおよびそのDgraphデータベースの名前がリストされます(両方の名前が同じです)。
「トラッキングUI」フィールドで「履歴」をクリックすると、ジョブ履歴が表示されます。 「アプリケーションの概要」パネルの情報には、ジョブを実行したユーザーの名前、ジョブの最終ステータス、およびジョブの経過時間が含まれます。 FAILEDジョブは、「診断」フィールドにエラー情報があります。
「ログ」フィールドで「ログ」をクリックすると、stdoutおよびstderr出力が表示されます。 stderr出力は、FAILEDジョブに特に役立ちます。 また、stdoutセクションには、より詳細な出力情報を表示するリンク(「完全なログは、ここをクリックしてください」という名前)があります。
Dgraph HDFSエージェント・ログ
Received request for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e
Starting ingest for: MdexCollectionIdentifier{
databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e,
collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e},
...
createBulkIngester edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e
Finished reading 1004 records for MdexCollectionIdentifier{
databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e,
collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e},
...
sendRecordsToIngester 1004
closeBulkIngester
Ingest finished with 1004 records committed and 0 records rejected.
Status: INGEST_FINISHED. Request info: MdexCollectionIdentifier{
databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e,
collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e},
...
Notification server url: http://busgg2014.us.oracle.com:7003/bdd/v1/api/workflows
About to send notification
Terminating
Notification{workflowName=CLIDataLoad, sourceDatabaseName=null, sourceDatasetKey=null,
targetDatabaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e,
targetDatasetKey=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e,
ecid=0000LM3rDDu7ADkpSw4Eyc1NROXb000001, status=SUCCEEDED,
startTime=1466796128122, timestamp=1466796195365, progressPercentage=100.0,
errorMessage=null, properties={dataSetDisplayName=masstowns, isCli=true}}
Notification sent successfully
Terminating
収集操作は、最後の「ステータス: INGEST_FINISHED」メッセージがログに書き込まれると完了します。
Dgraphアウト・ログ
dgraph.out)には次のbulk_ingestメッセージが含まれます:
Start ingest for collection: edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e Starting a bulk ingest operation for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e batch 0 finish BatchUpdating status Success for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e Ending bulk ingest at client's request for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e - finalizing changes Bulk ingest completed: Added 1004 records and rejected 0 records, for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e Ingest end - 0.584MB in 2.010sec = 0.291MB/sec for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e
この時点で、データ・セット・レコードはDgraphにあり、データ・セットはStudioに表示できます。
Studioログ
DP CLIから実行するワークフローと同様に、Studio生成のワークフローでも$BDD_HOME/logs/edpディレクトリにログが生成され、YARNログ、Dgraph HDFSエージェント・ログおよびDgraphアウト・ログも生成されます。
また、Studioワークフローも$BDD_DOMAIN/servers/<serverName>/logs/bdd-studio.logファイルに記録されます。