正規表現パターン・プロファイラ

正規表現パターン・プロファイラは、いくつかの属性が正規表現のリストと一致しているかどうかを分析します。

正規表現パターン・プロファイラは、一般的に認識された書式と一致するデータ(複数の属性で一致する場合があります)を検出するために使用します。これは、郵便番号や国民保険番号など、固有のパターンを持つ値が誤ったフィールドに入力されている場合に役立ちます。

正規表現

正規表現は、パターンを表現し、文字列を操作するための標準の手法であり、一度習得すると非常に有用です。

正規表現に関するチュートリアルや参考資料はインターネットで入手できます。また、Jeffrey E. F. Friedl著、O'Reilly UK発行の『Mastering Regular Expressions』(ISBN: 0-596-00289-0)などの書籍も参考になります。

また、正規表現の習得に役立つソフトウェア・パッケージ(RegExBuddyなど)や、有益な正規表現のオンライン・ライブラリ(RegExLibなど)も使用できます。

次の表に、構成オプションを示します。

構成 説明

入力

正規表現のリストと一致するデータの検索対象にする文字列属性を指定します。

オプション

次のオプションを指定します。

  • パターン・リスト: 値と照合する正規表現のリスト。参照データ(正規表現カテゴリ)として指定します。デフォルト値: None

  • 正規表現: 参照リストを使用するかわりに、正規表現を1つ入力できます。両方のオプションを使用した場合は、このオプションと参照リスト内のすべての正規表現が使用されることに注意してください。デフォルト値: None

出力

データ属性またはフラグ属性の出力を記述します。

データ属性

なし。

フラグ

次のフラグが出力されます。

  • RegExPatternMatch: どのデータが参照データにリストされたパターンと一致しているかを示します。使用可能な値はYまたはNです。

次の表に、入力された各属性ごとに生成される統計を示します。

統計 説明

一致

属性内で参照リストの正規表現の1つと一致したレコードの数。

ドリルダウンすると、一致した正規表現別に一致の明細が表示されます。

不一致

属性内で参照リストのどの正規表現とも一致しなかったレコードの数。

この例では、正規表現パターン・プロファイラを使用して、いくつかの住所属性で郵便番号(英国)を検出しています。サマリー・データは次のとおりです。

属性 一致(降順) 不一致

POSTCODE

1696

305

ADDRESS3

169

1832

ADDRESS1

0

2001

ADDRESS2

0

2001

リスト内の正規表現の1つと属性が一致したレコードの数をドリルダウンすると、一致した正規表現別に明細が表示されます。この場合は、1つの正規表現のみ一致したため、ADDRESS3で一致した169レコードをドリルダウンすると、次のビューが表示されます。

パターン カウント %

([A-Z]{1,2}|[A-Z]{3}|[A-Z]{1,2}[0-9][A-Z])( +)([0-9][A-Z]{2})

169

8.4%