文字プロファイラ

1.3.6.1 文字プロファイラ

文字プロファイラは、複数のテキスト属性に存在する重複しないすべての文字とその出現回数を検出するために使用します。

文字プロファイラは、テキスト属性内の予期しない文字を検出するのに特に役立ちます。このような文字に対しては、継続的なチェック(無効な文字のチェックを使用)、削除(ノイズ削除を使用)、または置換(文字の置換を使用)が必要になる場合があります。また、パースの前に、文字の不一致を正規化することも有益です。生成された結果は、前述の目的に応じて参照データに簡単に追加できます。また、データのソースに複数の国からのレコードが含まれる場合、文字プロファイラはデータ内の文字の種別を把握するのに役立ちます。

次の表に、構成オプションを示します。

構成	説明
入力	文字インスタンス検索の対象にする文字列属性を指定します。
オプション	なし。
出力	データ属性またはフラグ属性の出力を記述します。
データ属性	なし。
フラグ	なし。

次の表に、このプロファイラによって生成される統計情報を示します。

統計	説明
文字	データ内で検出された文字。
10進数	10進数のUnicode文字参照。文字参照を参照データ内で直接使用できるように、文字参照の先頭にハッシュ文字が付いていることに注意してください。
16進数	16進数のUnicode文字参照。文字参照を参照データ内で直接使用できるように、文字参照の先頭に`#x`が付いていることに注意してください。
合計	選択したすべての入力属性で、当該の文字が出現した合計回数。
レコード数	選択した入力属性で、その文字を含むレコードの数。
[属性名] 合計	属性内での文字の出現回数。
[属性名] レコード数	その属性でその文字を含むレコードの数。

例

たとえば、文字プロファイラを使用して、Unicodeデータベースの複数言語データに含まれる異常な文字を検出しています。「合計」列を基準にして結果をソート(昇順)し、頻度の低い文字から順に表示しています。

表1-120 文字プロファイラ

文字	10進数	16進数	合計(昇順)
ñ	#241	#0xF1	1
ò	#242	#0xF2	1
ó	#243	#0xF3	1
ô	#244	#0xF4	1
õ	#245	#0xF5	1
ö	#246	#0xF6	1
ø	#248	#0xF8	1