Unicode文字参照

Unicode文字参照はトークン化で使用され、トークン化の最初のステップで所定の文字タグにマップされる文字を識別します。たとえば、スペース文字を表す文字参照#32はデフォルトでは「_」の文字タグにマップされています。

注意:

デフォルトの*基本のトークン化マップは、かわりの*Unicodeの基本のトークン化マップや*Unicode文字パターン・マップと同様に、Latin-1エンコード・データで使用するように設計されています。これらのマップがデータの文字エンコーディングに適していない場合は、たとえばマルチバイトのUnicode (16進数)文字参照などを考慮に入れた新しいマップを作成して使用できます。