プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

Dgraph HDFSエージェント・ロギング

Dgraph HDFSエージェントは、stdout/stderr出力をログ・ファイルに書き込みます。

Dgraph HDFSエージェント--outフラグでは、Dgraph HDFSエージェントstdout/stderrログ・ファイルのファイル名とパスを指定します。 このログ・ファイルは、インポート(収集)およびエクスポート操作の両方で使用されます。

出力ログ・ファイルの名前とロケーションは、bdd.conf構成ファイルのAGENT_OUT_FILEパラメータを使用して、インストール時に設定されます。 通常、ログ名はdgraphHDFSAgent.outで、ロケーションは$BDD_HOME/logsディレクトリです。

Dgraph HDFSエージェント・ログは、データ処理ワークフローの最後にレコードのロードに関する問題が発生したかどうかを確認する場合に、特に重要です。 Dgraphから受信したエラー(拒否レコードなど)は、ここに記録されます。

収集操作メッセージ

データ・セットに対する正常な収集操作のサンプル・メッセージを次に示します。 メッセージは、読みやすいように編集されました:
New import request received: MdexCollectionIdentifier{
   databaseName=edp_cli_edp_4dd5ac28-2e85-4efc-a3c2-391b6a78f69c, 
   collectionName=edp_cli_edp_4dd5ac28-2e85-4efc-a3c2-391b6a78f69c}, 
   ... 
   requestOrigin: FROM_DATASET
Received request for database edp_cli_edp_4dd5ac28-2e85-4efc-a3c2-391b6a78f69c
Starting ingest for: MdexCollectionIdentifier{
   databaseName=edp_cli_edp_4dd5ac28-2e85-4efc-a3c2-391b6a78f69c, 
   collectionName=edp_cli_edp_4dd5ac28-2e85-4efc-a3c2-391b6a78f69c}, 
   ...
   requestOrigin: FROM_DATASET
Finished reading 9983 records for MdexCollectionIdentifier{
   databaseName=edp_cli_edp_4dd5ac28-2e85-4efc-a3c2-391b6a78f69c, 
   collectionName=edp_cli_edp_4dd5ac28-2e85-4efc-a3c2-391b6a78f69c}, 
   ... 
   requestOrigin: FROM_DATASET
createBulkIngester edp_cli_edp_4dd5ac28-2e85-4efc-a3c2-391b6a78f69c
sendRecordsToIngester 9983
closeBulkIngester
Ingest finished with 9983 records committed and 0 records rejected. 
   Status: INGEST_FINISHED. 
   Request info: MdexCollectionIdentifier{
   databaseName=edp_cli_edp_4dd5ac28-2e85-4efc-a3c2-391b6a78f69c, 
   collectionName=edp_cli_edp_4dd5ac28-2e85-4efc-a3c2-391b6a78f69c}, 
   location: /user/bdd/edp/data/.dataIngestSwamp/..., 
   user name: fcalvill, 
   notification: {"workflowName":"CLIDataLoad",
   "sourceDatabaseName":null,
   "sourceDatasetKey":null,
   "targetDatabaseName":
   "edp_cli_edp_4dd5ac28-2e85-4efc-a3c2-391b6a78f69c",
   "targetDatasetKey":"edp_cli_edp_4dd5ac28-2e85-4efc-a3c2-391b6a78f69c",
   "ecid":"0000LMSUWCm7ADkpSw4Eyc1NSxM1000000",
   "status":"IN_PROGRESS",
   "startTime":1467209085630,
   "timestamp":1467209136298,
   "progressPercentage":0.0,
   "errorMessage":null,
   "trackingUrl":null,
   "properties":{"dataSetDisplayName":"WarrantyClaims",
   "isCli":"true"}}, 
   actualEcid: 0000LMSUWCm7ADkpSw4Eyc1NSxM1000000, 
   requestOrigin: FROM_DATASET
Notification server url: http://busgg2014.us.oracle.com:7003/bdd/v1/api/workflows
About to send notification
Terminating
Notification{workflowName=CLIDataLoad, 
   sourceDatabaseName=null, sourceDatasetKey=null, 
   targetDatabaseName=edp_cli_edp_4dd5ac28-2e85-4efc-a3c2-391b6a78f69c, 
   targetDatasetKey=edp_cli_edp_4dd5ac28-2e85-4efc-a3c2-391b6a78f69c, 
   ecid=0000LMSUWCm7ADkpSw4Eyc1NSxM1000000, 
   status=SUCCEEDED, 
   startTime=1467209085630, 
   timestamp=1467209222088, 
   progressPercentage=100.0, 
   errorMessage=null, 
   properties={dataSetDisplayName=WarrantyClaims, isCli=true}}
Notification sent successfully
Terminating
...
サンプル・ログのイベントは次のとおりです:
  1. データ処理ワークフローでは、HDFSの/user/bdd/edp/data/.dataIngestSwampディレクトリにAvroファイルのセットが書き込まれています。
  2. Dgraph HDFSエージェントは、データ・セットに対する収集操作を開始します。
  3. createBulkIngester操作は、データ・セットのバルク・ロード収集インスタンスをインスタンス化するために使用します。
  4. Dgraph HDFSエージェントは、Avroファイルから9983レコードを読み取ります。
  5. sendRecordsToIngesterの操作により、Dgraph収集者に9983レコードが送信されます。
  6. バルク・ロード・インスタンスはcloseBulkIngester操作でクローズされています。
  7. Status: INGEST_FINISHEDメッセージは、収集操作の終了を示します。 また、メッセージには、正常にコミットされたレコードの数および拒否されたレコードの数も表示されます。 さらに、Dgraph HDFSエージェントが、収集が終了したことをStudioに通知します。その時点で、StudioはDataSet Inventoryのstatus属性を収集操作の最終ステータスで更新します。 エラーが発生した場合、ステータスは、収集が成功した場合はFINISHEDまたはERRORになります。
  8. Dgraph HDFSエージェントは、SUCCEEDEDのステータスでワークフローが終了したことを示す最終通知をStudioに送信します。

ワークフロー全体を通して、Dgraph HDFSエージェントは常にStudioに通知更新を送信するため、Studioではワークフローの進行状況をエンド・ユーザーにレポートできます。

拒否レコード

特定のレコードに、収集できないデータやDgraphをクラッシュさせるデータを含めることが可能です。 通常、無効なデータは無効なXML文字で構成されます。 この場合、Dgraphでは無効なデータを削除またはクレンジングできず、スキップできるのは無効データを含むレコードのみです。 インタフェースは、収集時にXML 1.0以外の文字を拒否します。 つまり、収集する有効な文字は、XML 1.0仕様の本番2に従った文字である必要があります。 無効な文字が検出されると、無効な文字を含むレコードは、Dgraph HDFSエージェント・ログ内のこのエラー・メッセージで拒否されます:
Received error message from server: Record rejected: Character <c> is not legal in XML 1.0

ソース・レコードが大きすぎる場合は、拒否することもできます。 ソース・レコードの最大サイズには、128MBまでの制限があります。 128MBを超えるソース・レコードを収集しようとして失敗し、(拒否されたレコードの主キーを持つ)エラーが返されますが、バルク・ロード収集プロセスは、その拒否されたレコードの後も続行されます。

新しい属性および削除された属性のロギング

Dgraph HDFSエージェントは、変換の結果として作成または削除された属性の名前をログに記録します。 次に例を示します。
Finished reading 499 records for Collection name: default_edp_2a0122f2-4d15-46bf-9669-21333442f10b
Adding attributes to collection: default_edp_2a0122f2-4d15-46bf-9669-21333442f10b
  [NumInStock]
Added attributes to collection: default_edp_2a0122f2-4d15-46bf-9669-21333442f10b
...
Deleting attributes from collection: default_edp_2a0122f2-4d15-46bf-9669-21333442f10b
  [OldPrice2]
Deleted attributes from collection: default_edp_2a0122f2-4d15-46bf-9669-21333442f10b

この例では、NumInStock属性がデータ・セットに追加され、OldPrice2属性が削除されました。