文字の種類

文字タイプはデータの分割に使用されます。通常は、文字タイプが変わると別々の基本のトークンに分割されます。たとえば、文字列deluxe25mlはdeluxe、25およびmlの3つの基本のトークンに分割されます。これら3つの基本のトークンが文字タグとグループ・タグによってタグ付けされます。

このルールの例外は、デフォルトではALPHA_UPPERCASEからALPHA_LOWERCASEへの文字タイプの変化ではトークンが分割されないことです。これは、大/小文字が適切に使用されているトークンを維持するためです。たとえば、Michaelが2つのトークン(Mとichael)に分割されないようにします。

ユーザーは「大文字を小文字に対して分離」オプションを選択してこの動作を変更できます。

また、「小文字を大文字に対して分離」オプションの選択を解除すると、アルファベット文字のすべての文字列をまとめて保持することもできます。こうすることで、DelUXEを1つのトークンとして保持する効果があります。

また、WHITESPACEまたはDELIMITERのいずれかのタイプで特定の文字をマークできます。これらの文字は、トークンのシーケンスを照合する次のルールで無視できます。たとえば、「再分類」または「解決」で、<Token A>の後に<Token B>があるパターンを照合する場合に、2つの間に空白文字または区切り文字があるかどうかを気にする必要がありません。

文字タイプには、NUMERIC、CONTROL、PUNCTUATION、SYMBOL、ALPHA_UPPERCASE、ALPHA_LOWERCASEおよびUNDEFINEDがあります。