この例では、DP CLIを使用してワークフローを実行したときに生成される様々なDPログの概要を示します。
この例では、Hive管理者が「マス・ストーン」という名前の表を作成したことを前提としています(これには、マサチューセッツ州のタウンドと都市に関する情報が含まれています)。 ワークフローは、「DPコマンドライン・インタフェース・ユーティリティ」で説明されているDP CLIを使用して実行されます。
./data_processing_CLI --database default --table masstowns --maxRecords 1000
--tableフラグでは、Hive表の名前を指定すると、--databaseフラグでは、表がHiveデータベースであるdefaultという名前の状態となり、--maxRecordsフラグでは、サンプル・サイズが最大1,000レコードに設定されます。
コマンドstdout
... EdpEnvConfig{endecaServer=http://web07.example.oracle.com:7003/endeca-server/, edpDataDir=/user/bdd/edp/data, ... ProvisionDataSetFromHiveConfig{hiveDatabaseName=default, hiveTableName=masstowns, newCollectionId=MdexCollectionIdentifier{databaseName= edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e}, runEnrichment=false, maxRecordsForNewDataSet=1000, disableTextSearch=false, languageOverride=en, operation=PROVISION_DATASET_FROM_HIVE, transformScript=, accessType=public_default, autoEnrichPluginExcludes=[Ljava.lang.String;@71034e3b} ProvisionDataSetFromHiveConfig{notificationName=CLIDATALOAD, ecid=0000LM3rDDu7ADkpSw4Eyc1NROXb000001, startTime=1466796128122, properties={dataSetDisplayName=Taxi_Data, isCli=true}} New collection name = MdexCollectionIdentifier{ databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e} data_processing_CLI finished with state SUCCESS ...
「操作」フィールドには、データ処理ワークフローの操作タイプがリストされます。 この例では、操作はPROVISION_DATASET_FROM_HIVEで、Hive表から新しいBDDデータ・セットを作成することを意味します。
$BDD_HOME/logs/edpのログ
$BDD_HOME/logs/edp
ディレクトリには3つのログがあります。 一方の所有者はDP CLIを実行したユーザーのユーザーIDで、その他の2つのログの所有者はユーザーyarnです:
YARNログ
EDP: ProvisionDataSetFromHiveConfig{hiveDatabaseName=default, hiveTableName=masstowns, newCollectionId=MdexCollectionIdentifier{ databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e}}
ProvisionDataSetFromHiveConfig
は、実行されたDPワークフローのタイプです。
hiveDatabaseName
には、Hiveデータベースの名前がリストされます(この例では、「デフォルト」)。
hiveTableName
には、プロビジョニングされたHive表の名前(この例では、「マス・ストーン」)がリストされます。
newCollectionId
には、新規データ・セットおよびそのDgraphデータベースの名前がリストされます(両方の名前が同じです)。
「トラッキングUI」フィールドで「履歴」をクリックすると、ジョブ履歴が表示されます。 「アプリケーションの概要」パネルの情報には、ジョブを実行したユーザーの名前、ジョブの最終ステータス、およびジョブの経過時間が含まれます。 FAILEDジョブは、「診断」フィールドにエラー情報があります。
「ログ」フィールドで「ログ」をクリックすると、stdout
およびstderr
出力が表示されます。 stderr
出力は、FAILEDジョブに特に役立ちます。 また、stdout
セクションには、より詳細な出力情報を表示するリンク(「完全なログは、ここをクリックしてください」という名前)があります。
Dgraph HDFSエージェント・ログ
Received request for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e Starting ingest for: MdexCollectionIdentifier{ databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e}, ... createBulkIngester edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e Finished reading 1004 records for MdexCollectionIdentifier{ databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e}, ... sendRecordsToIngester 1004 closeBulkIngester Ingest finished with 1004 records committed and 0 records rejected. Status: INGEST_FINISHED. Request info: MdexCollectionIdentifier{ databaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, collectionName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e}, ... Notification server url: http://busgg2014.us.oracle.com:7003/bdd/v1/api/workflows About to send notification Terminating Notification{workflowName=CLIDataLoad, sourceDatabaseName=null, sourceDatasetKey=null, targetDatabaseName=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, targetDatasetKey=edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e, ecid=0000LM3rDDu7ADkpSw4Eyc1NROXb000001, status=SUCCEEDED, startTime=1466796128122, timestamp=1466796195365, progressPercentage=100.0, errorMessage=null, properties={dataSetDisplayName=masstowns, isCli=true}} Notification sent successfully Terminating
収集操作は、最後の「ステータス: INGEST_FINISHED」メッセージがログに書き込まれると完了します。
Dgraphアウト・ログ
dgraph.out
)には次のbulk_ingestメッセージが含まれます:
Start ingest for collection: edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e Starting a bulk ingest operation for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e batch 0 finish BatchUpdating status Success for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e Ending bulk ingest at client's request for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e - finalizing changes Bulk ingest completed: Added 1004 records and rejected 0 records, for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e Ingest end - 0.584MB in 2.010sec = 0.291MB/sec for database edp_cli_edp_ac680edd-c25f-4b9d-8cab-11441c5a3d2e
この時点で、データ・セット・レコードはDgraphにあり、データ・セットはStudioに表示できます。
Studioログ
DP CLIから実行するワークフローと同様に、Studio生成のワークフローでも$BDD_HOME/logs/edp
ディレクトリにログが生成され、YARNログ、Dgraph HDFSエージェント・ログおよびDgraphアウト・ログも生成されます。
また、Studioワークフローも$BDD_DOMAIN/servers/<serverName>/logs/bdd-studio.log
ファイルに記録されます。