必須ではないものの、ソース・データをクリーニングすることにより、データ処理ワークフローをよりスムーズに実行し、収集エラーを防ぐことができるような状態にすることをお薦めします。
データ処理には、収集中のソース・データを操作するコンポーネントはありません。たとえば、データ処理では、(Hive表に格納される)無効な文字を収集中に削除できません。したがって、Hiveまたはサードパーティのツールを使用してソース・データをクリーニングする必要があります。
データ・セットが消去された後、Studioの変換機能を使用すると、データ・セットのコンテンツを操作できます。
Character <c> is not legal in XML 1.0
この文字が含まれるレコードは却下されます。
文字列列内の日付が正しい形式であり、dateFormats.txtファイル内の書式に準拠していることを確認してください。そうでない場合、これらは、Dgraphのmdex:dateTimeデータ型ではなく文字列値として収集されます。
また、文字列列内の日付が有効な日付であることも確認してください。たとえば、1925年4月7日(月)は無効です。なぜなら、1925年4月7日は月曜日ではなく火曜日であるからです。したがって、この無効な日付を使用すると、列が日付列としてではなく文字列列として検出されます。
Studioでは、ExcelまたはCSVファイルからデータをアップロードすることにより、新しいデータ・セットを作成できます。これらのファイル・タイプのデータのアップロードは常に文字列として行われます。
このため、ファイルの列データが一貫したデータ型であることを確認する必要があります。たとえば、列に整数が格納されることが想定される場合は、列に整数以外のデータが含まれないことを確認します。同様に、日付入力がdateFormats.txtファイル内の書式に準拠していることも確認します。