文字タグ

文字タグはトークン化の最初のステップとして使用され、(Unicode文字参照によって識別される)データの各文字に所定のタグを割り当てます。たとえば、すべての子文字に文字タグaを割り当てます。