Unicode文字参照

「Tokenize」では、Unicode文字参照を使用して、トークン化の最初のステップで特定の文字タグにマップされた文字を識別します。たとえば、スペース文字を表す文字参照「#32」は、デフォルトで文字タグ「_」にマップされます。

注意: デフォルトの「*Base Tokenization Map」はLatin-1エンコード・データで使用するように設計されていますが、データの文字エンコーディング(マルチバイトのUnicode(16進数)文字参照を含む)に適した新しいパターン・マップを作成できます。