パターン・プロファイラ
パターン・プロファイラは、任意の数の文字列属性でデータ値を分析し、文字タイプの順序に従ってパターンを割り当てます。たとえば、デフォルトのパターン・マップ参照リストを使用した場合、値「10 Lowestoft Lane」にはパターン「NN_aaaaaaaaa_aaaa」が割り当てられます。
注意:
デフォルトの*基本のトークン化マップは、かわりの*Unicodeの基本のトークン化マップや*Unicode文字パターン・マップと同様に、Latin-1エンコード・データで使用するように設計されています。これらのマップがデータの文字エンコーディングに適していない場合は、たとえばマルチバイトのUnicode (16進数)文字参照などを考慮に入れた新しいマップを作成して使用できます。
このプロファイラは次に、各属性で各パターンが出現した回数をカウントして、その結果を表示します。
パターン・プロファイラは、データのパターンを特定し、有効パターンと無効パターンの参照リストを作成するために使用します。この参照リストは、パターン・チェック・プロセッサを使用してデータを継続的に検証するために利用できます。
次の各表に、構成オプションを示します。
構成 | 説明 |
---|---|
入力 |
データのパターンの分析対象にする文字列属性を指定します。 |
オプション |
次のオプションを指定します。
|
デフォルトの標準パターン・マップでは、文字が次のようにマップされます。
文字の種類 | パターンの表現 |
---|---|
英字(a-zまたはA-Z) |
a |
数字(0-9) |
N |
句読点文字(セミコロン、カンマなど) |
その文字のままで表されます。 |
制御文字(キャリッジ・リターンなど) |
C |
スペース |
_ |
文字パターン・マップで認識されない文字は、各パターン内で疑問符(?)で表現されます。
必要に応じて、別の文字パターン・マップを使用して文字をマップできます。たとえば、「x」や「z」など出現頻度の低い文字は、出現頻度の高い文字とは異なる表現にできます。
構成 | 説明 |
---|---|
出力 |
データ属性またはフラグ属性の出力を記述します。 |
データ属性 |
なし。 |
フラグ |
次のフラグが出力されます。
|
次の表に、このプロファイラによって分析される各属性ごとに生成される統計を示します。
統計 | 説明 |
---|---|
パターン |
各値に対して生成されたパターン。 |
長さ |
生成された各パターンの長さ(つまり各値の文字数)。 |
カウント |
パターンと一致した属性の値を含むレコードの数。 |
% |
パターンと一致した属性の値を含むレコードのパーセンテージ。 |
例
この例では、パターン・プロファイラを使用して、顧客レコード表のすべての属性でパターンを分析します。各属性ごとに、次のタイプのビューが生成されます。
パターン | 長さ | カウント | % |
---|---|---|---|
NN-NNNNN-aa |
11 |
1681 |
84.0 |
N-NNNN-aa |
10 |
310 |
15.5 |
aa-NNNNN-aa |
11 |
4 |
0.2 |
NN-NNN-aa |
9 |
2 |
<0.1 |
NN-N-aa |
7 |
1 |
<0.1 |
NN-NNNNN-Na |
11 |
1 |
<0.1 |
[Null] |
10 |
1 |
<0.1 |
NN-NNNNN |
9 |
1 |
<0.1 |
「カウント」列を基準にビューをソートすると、データ内で出現頻度が最も高いパターンと最も低いパターンをすばやく把握でき、有効パターンと無効パターンのリストを構築してパターン・チェックで使用できます。