プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

収集するデータの準備

必須ではありませんが、データ処理ワークフローがスムーズに実行されて収集エラーを回避できるように、ソース・データをクリーンアップすることをお薦めします。

データ処理に、収集中のソース・データを操作するコンポーネントがありません。 たとえば、データ処理では、収集中の無効な文字(Hive表に格納されている)は削除できません。 このため、Hiveまたはサード・パーティ・ツールを使用してソース・データをクリーンアップしてください。

データ・セットの作成後、Studioの変換機能を使用してデータ・セットの内容を操作できます。

無効なXML文字の削除

データ処理で実行される収集プロシージャで、収集操作中にDgraphで検出される無効なデータを含むレコードが可能です。 通常、無効なデータは無効なXML文字で構成されます。 収集用の有効な文字は、XML 1.0仕様の本番2に従った文字である必要があります。

無効なXML文字が検出されると、エスケープされたバージョンに置き換えられます。 エスケープ・バージョンでは、無効な文字は、2つのハッシュ文字(##)とセミコロン(;)で囲まれた10進数で表されます。 たとえば、32ビット値が10進数15の制御文字は、次のように表現されます。
##15;

この場合、置換文字を含むレコードが収集されます。

日付フォーマットの修正

収集された日付値は、1つ以上のHive表の列から取得されます:
  • DATEデータ型として構成された列。
  • TIMESTAMPデータ型として構成された列。
  • STRINGデータ型として構成されているが、日付値を持つ列。 このデータ型検出メソッドでサポートされる日付書式は、dateFormats.txtファイルにリストされます。 このファイルの詳細は、「日付書式構成」を参照してください。

STRING列の日付が整形式でdateFormats.txtファイルの書式に準拠していることを確認してください。そうでない場合、Dgraph mdex:dateTimeデータ型ではなく文字列値として収集されます。

また、STRING列の日付が有効な日付であることを確認してください。 たとえば、date Mon, Apr 07, 1925は無効です。1925年4月7日は火曜日で、月曜日ではないためです。 したがって、この無効な日付を使用すると、列がDATE列ではなくSTRING列として検出されます。

ExcelおよびCSVファイルのアップロード

Studioでは、ExcelまたはCSVファイルからデータをアップロードして新規データ・セットを作成できます。 これらのファイル・タイプのデータ・アップロードは常にSTRINGデータ型として実行されます。

このため、ファイル列データが一貫性のあるデータ型であることを確認してください。 たとえば、列に整数を格納することが想定される場合は、その列に非整数データが含まれていないことを確認してください。 同様に、日付入力がdateFormats.txtファイルの書式に準拠していることを確認してください。

BDDは、マルチメディアまたはバイナリ・ファイル(Excel以外)をロードできないことに注意してください。

Hive表のための表以外の入力データ処理

Hive表は、個々のファイル・レベルで、非接続可能圧縮を使用して圧縮された入力データの使用をサポートします。 ただし、Oracleでは、BDDによって処理されるHive表に対しては、添付不可の入力形式を使用することはお薦めしません。 これは、接続不可の圧縮された入力ファイルが使用される場合、その入力に対して明確な分割ポイントがないため、DPの構成で指定された推奨の入力データ分割サイズがSpark (およびHadoop)で使用されないためです。 この場合、Spark (およびHadoop)は各圧縮ファイルを1つのパーティションとして読み取り、処理します。この結果、ワークフロー中に大量のリソースが消費されます。

非接続可能圧縮が必要な場合は、ブロック・ベースの圧縮を使用する必要があります。この圧縮では、データは最初に小さいブロックに分割されてから、各ブロック内でデータが圧縮されます。 詳細は次でご覧いただけます: : https://cwiki.apache.org/confluence/display/Hive/CompressedStorage

要約すると、BZip2などのスプリット表圧縮の使用をお薦めします。 データ圧縮形式の選択の詳細は、を参照してください : http://www.cloudera.com/content/cloudera/en/documentation/core/v5-3-x/topics/admin_data_compression_performance.html

ウイルス対策およびマルウェア

Oracleは、Big Data Discoveryにファイルをアップロードする前に、ウイルス対策製品を使用することをお薦めします。 BDDのデータ処理コンポーネントでは、すでに存在するHive表が検索されてロードされるか、DP CLIを使用して新規のHive表からデータをロードできます。 どちらの場合も、ウイルス対策ソフトウェアを使用して、ロードされているデータの品質を保証します。