収集用のデータの準備

必須ではないものの、ソース・データをクリーニングすることにより、データ処理ワークフローをよりスムーズに実行し、収集エラーを防ぐことができるような状態にすることをお薦めします。

データ処理には、収集中のソース・データを操作するコンポーネントはありません。たとえば、データ処理では、(Hive表に格納される)無効な文字を収集中に削除できません。したがって、Hiveまたはサードパーティのツールを使用してソース・データをクリーニングする必要があります。

データ・セットが消去された後、Studioの変換機能を使用すると、データ・セットのコンテンツを操作できます。

無効なXML文字の削除

収集手順中、レコードに無効なデータが含まれる可能性がありますが、これはスキップされます(つまり、Dgraphには収集されません)。通常、無効なデータは無効なXML文字で構成されています。収集に有効な文字は、XML 1.0仕様のproduction 2に準拠している文字列である必要があります。無効な文字が検出されると、例外がスローされ、次のエラー・メッセージが表示されます。
Character <c> is not legal in XML 1.0

この文字が含まれるレコードは却下されます。

日付書式の修正

収集された日付値は、次のような1つ(または複数の)Hive表の列のものです。
  • DATEデータ型として構成された列。
  • TIMESTAMPデータ型として構成された列。
  • STRINGデータ型として構成されたが、日付値を持たない列。このデータ型検出方法を介してサポートされている日付書式は、dateFormats.txtファイルにリストされています。このファイルの詳細は、「日付書式構成」を参照してください。

文字列列内の日付が正しい形式であり、dateFormats.txtファイル内の書式に準拠していることを確認してください。そうでない場合、これらは、Dgraphのmdex:dateTimeデータ型ではなく文字列値として収集されます。

また、文字列列内の日付が有効な日付であることも確認してください。たとえば、1925年4月7日(月)は無効です。なぜなら、1925年4月7日は月曜日ではなく火曜日であるからです。したがって、この無効な日付を使用すると、列が日付列としてではなく文字列列として検出されます。

ExcelおよびCSVファイルのアップロード

Studioでは、ExcelまたはCSVファイルからデータをアップロードすることにより、新しいデータ・セットを作成できます。これらのファイル・タイプのデータのアップロードは常に文字列として行われます。

このため、ファイルの列データが一貫したデータ型であることを確認する必要があります。たとえば、列に整数が格納されることが想定される場合は、列に整数以外のデータが含まれないことを確認します。同様に、日付入力がdateFormats.txtファイル内の書式に準拠していることも確認します。