Web CrawlerはSunのjava.util.regexパッケージを実装しており、正規表現のパターンを解析して照合します。
使用できる有効な構成の概要は次のとおりです。
- エスケープ文字(タブ文字を表す\tなど)。
- 文字クラス(単純、否定、範囲、積集合、減算)。たとえば、[^abc]はa、bまたはc以外の任意の文字と一致することを意味し、[a-zA-Z]は任意の大文字または小文字に一致することを意味します。
- 事前定義済の文字クラス(数字を表す\dや空白文字を表す\sなど)。
- POSIX文字クラス(US-ASCIIのみ)。英文字を表す\p{Alpha}、英数字を表す\p{Alnum}、句読点を表す\p{Punct}など。
- 境界マッチャー(行の開始を表す^、行の終了を表す$、語境界を表す\bなど)。
- 論理演算子(XとYのいずれかを表すX|Y)。
有効な構成の完全なリストは、前述のPatternクラスのドキュメント・ページを参照してください。