Text Tagger Regexコンポーネントの使用方法

Text Tagger Regexコンポーネントでは、正規表現(regex)を使用して、一致の検索と出力のレンダリングの両方を実行します。

このコンポーネントは、次の2つの入力を受け取ります。

パターンは、入力ファイルに定義されています。

Text Tagger Regexコンポーネントのインスタンス1つにつき1つのフィールドと1つの入力ファイルのみを指定できます。複数のフィールドにタグを付ける場合は、コンポーネントの他のインスタンスを使用する必要があります。

このコンポーネントは、Oracleのjava.util.regexパッケージを実装しており、正規表現のパターンを解析して照合します。したがって、サポートされている正規表現構成は、次のURLにあるjava.util.regex.Patternクラスのドキュメント・ページにあるものと同じです。

http://docs.oracle.com/javase/6/docs/api/java/util/regex/Pattern.html

使用できる有効な構成は次のとおりです。

有効な構成の完全なリストは、前述のURLにあるパターン・クラスのドキュメント・ページを参照してください。

次のコードは、POSIX \p{Alnum}構成を使用する便利な正規表現の例を示しています。
 ^\p{Alnum}[\p{Alnum}\.\-' ]+$

この検索パターン入力の正規表現は、2文字以上で構成され、英数字で始まり、英数字、ピリオド、ダッシュ、アポストロフィおよび空白文字のみを含む条件のみと一致します。(アポストロフィによってO'Malleyなどの条件が一致するようになります)。

また、取得グループまたは一致グループを定義できます。構文$1(ここで、1は含める取得グループの索引)を使用して、これらの取得グループの結果をレンダリング・パターンに含めることができます。$0は一致した式全体を示すことに注意してください。たとえば、2つの取得グループが含まれた正規表現を定義した場合は、次のレンダリング・パターンを定義できます。
$0 includes $1 and $2
詳細は、http://docs.oracle.com/javase/6/docs/api/java/util/regex/Pattern.html#cgを参照してください。