グループ・タグ

グループ・タグはトークン化の2番目のステップで使用され、文字タグのシーケンスを同じグループ・タグでグループ化します。

同じグループ・タグが付いた文字タグのシーケンスと同じ文字タイプが、1つのトークンを形成します。

たとえば、トークン化の最初のフェーズでは、文字タグを使用してデータ103をNNNとタグ付けする可能性があります。ただし、同じグループ・タグ(N)で同じ文字タイプ(NUMERIC)の文字が3つ並んでいることから、これらはグループ化されて、基本のトークン・タグNの基本のトークン(103)が1つ形成されます。

英字の動作は少し異なることに注意してください。ユーザーは、小文字と大文字のシーケンスがある場合にトークンを分割するかどうかを選択できます。デフォルトでは、トークンは小文字から大文字に遷移するときに分割されますが、大文字から小文字への遷移では分割されません。たとえば、データ「Michael」は文字タグのシーケンス「Aaaaaaa」ですが、最初の文字の後で文字タイプがALPHA_UPPERCASEからALPHA_LOWERCASEに遷移しています。ユーザーがデフォルト設定の「大文字を小文字に対して分離」オプションを設定していない場合、これはグループ化されて、ベース・トークン・タグAの1つのベース・トークン(Michael)を形成します。文字タグaとAはどちらも同じグループ・タグを使用しており、ユーザーが文字タイプの変化に対してデータを分割しないためです。