正規表現分割

「正規表現分割」プロセッサは、正規表現を使用して分割が発生する場所を定義し、属性のデータを配列に分割する手段を提供します。

区切り文字を使用する方法より高度なデータの分割方法が必要な場合は、「正規表現分割」を使用してデータを分割します。たとえば、一連の文字のいずれかが発生した場合または一連の文字の可変長が発生した場合にデータを分割することがあります。

正規表現

正規表現は、パターンを表現し、文字列を操作するための標準の手法であり、一度習得すると非常に有用です。

正規表現に関するチュートリアルや参考資料はインターネットで入手できます。また、Jeffrey E. F. Friedl著、O'Reilly UK発行の『Mastering Regular Expressions』(ISBN: 0-596-00289-0)などの書籍も参考になります。

また、正規表現の習得に役立つソフトウェア・パッケージ(RegExBuddyなど)や、有益な正規表現のオンライン・ライブラリ(RegExLibなど)も使用できます。

次の表に、構成オプションを示します。

構成 説明

入力

1つ以上の文字列または文字配列属性を指定します。

オプション

次のオプションを指定します。

  • 正規表現: データを分割する区切り文字として使用する正規表現。正規表現として指定します。デフォルト値: None

出力

データ属性またはフラグ属性の出力を記述します。

データ属性

次のデータ属性が出力されます。

  • RegExSplit: 値の「正規表現分割」の結果を含む新しい配列属性は、「正規表現分割」の結果から導出されます。正規表現自体に一致したデータは区切り文字として機能し、配列には存在しないことに注意してください。

フラグ

次のフラグが出力されます。

  • RegExSplitSuccess: 「正規表現分割」が成功したかどうかを示します。使用可能な値はY/Nです。

次の表に、このプロファイラによって生成される統計情報を示します。

統計 説明

成功

正規表現を使用して分割されたレコードの数。

失敗

正規表現を使用して分割されなかったレコードの数。

出力フィルタ

次の出力フィルタを使用できます。

  • 分割が成功したレコード

  • 分割が失敗したレコード

この例では、「正規表現分割」を使用して、従業員表のNotes属性から個人のイニシャル(シーケンス内で検出された2または3文字の大文字)の左右どちら側でもデータを分割します。

  • 正規表現: ([A-Z]{2,3})

  • 結果(成功した置換):

RegExSplit

started 14/10/1995 JBM ref557

{started 14/10/1995 }{ ref557}

started 15/5/95 JBM ref557

{started 15/5/95 }{ ref557}

start date 15/6/1998 HM etn247

{start date 15/6/1998 }{ etn247}

started 2/1/2004 RLJ ref-1842

{started 2/1/2004 }{ ref-1842}

started 8/10/2000 JBM ref557

{started 8/10/2000 }{ ref557}

started 10/6/2001 JBM ref557

{started 10/6/2001 }{ ref557]