Character Profiler

「Character Profiler」では、複数のテキスト属性に存在する重複しないすべての文字とその出現回数を検出します。

用途

「Character Profiler」は、テキスト属性内の予期しない文字を検出するのに特に役立ちます。このような文字は、継続的なチェック（「Invalid Character Check」を使用）、削除（「Denoise」を使用）、または置換（「Character Replace」を使用）が必要になる場合があります。また、パースの前に、文字の不一致を正規化することも有益です。

作成された結果は、前述の目的に応じて参照データに簡単に追加できます。

また、データのソースに複数の国からのレコードが含まれる場合、「Character Profiler」はデータ内の文字の種別を把握するのに役立ちます。

構成

入力

文字インスタンスを検索する文字列属性。

オプション

なし

出力

データ属性

なし

フラグ

なし

実行

実行モード	サポート
バッチ	Yes
リアルタイム・モニタリング	Yes
リアルタイム応答	Yes

結果ブラウザの表示

「Character Profiler」では、結果のサマリー・ビューが作成され、次の統計が表示されます。

統計	意味
Character	データ内で検出された文字（後述の注意を参照）。
Decimal	10進数のUnicode文字参照。文字参照を参照データで直接使用できるように、文字参照の先頭にハッシュ文字が付いていることに注意してください。
Hex	16進数のUnicode文字参照。文字参照を参照データで直接使用できるように、文字参照の先頭に「#x」が付いていることに注意してください。
Total	選択した入力属性全体で、文字が出現した合計回数。
Record Count	選択した入力属性にその文字を含むレコードの数。
[Attribute name] Total	属性内での文字の出現回数。
[Attribute name] Record Count	属性にその文字を含むレコードの数。

注意: 結果ブラウザに四角い文字が表示される場合、その原因は、実際の文字を表示するのに必要なフォントがクライアントにインストールされていないか、（まれに）フォントはインストールされているが、Oracle EDQや他のJavaアプリケーションで正しくレンダリングするにはカスタムのfont.propertiesファイルが必要であることが考えられます。この文字を別のアプリケーション（Microsoft Excelなど）にコピーして貼り付けても正しく表示されない（通常は「?」が表示される）場合は、必要なフォントがインストールされていません。文字を別のアプリケーションに貼り付けると正しく表示される場合、フォントはインストールされていますが、Oracle EDQで文字を表示するにはカスタムのfont.propertiesファイルを追加する必要があります。これについては、サポートに連絡してください。

例

この例では、「Character Profiler」を使用して、Unicodeデータベースの複数言語データに含まれる特異な文字を検出します。ユーザーは、「Total」列を基準にして結果をソート（昇順）し、頻度の低い文字から順に表示しています。