収集で有効な文字

収集で有効な文字は、XML仕様に従った文字である必要があります。

有効な文字の詳細は、XML 1.0仕様の第2版を参照してください。

Endeca Serverは無効な文字を検出すると、そのレコードを却下して、Integrator ETLに次のメッセージを返します。
Error: Character <c> is not legal in XML 1.0

このエラー・メッセージは、実行のログに追加されます。

無効な文字が含まれているレコードのみが却下されます。残りの収集操作は続行されます。

データをクリーンアップするには、このコンポーネントが含まれているグラフにReformatコンポーネントを追加して、次のコードを使用します。
//#CTL2

// Transforms input record into output record.
function integer transform() {
   string regex = "([^\\u0009\\u000a\\u000d\\u0020-\\uD7FF\\uE000-\\uFFFD]|[\\u0092\\u007F]+)";
   $0.YourDataCleanData = replace($YourDatawithInvalidPattern,regex,"");

   return ALL;
}

互換文字も有効ではありません。前述のコードでは互換文字が削除されます。