Tokenize

「Tokenize」は、「Parse」のサブプロセッサの1つです。「Tokenize」サブプロセッサでは、パースの最初のステップを実行します。ここでは、データを構文的にベース・トークンの初期セットに分割し、データ内の文字および文字の配列を分析します。

パースにおけるトークンとは、「Parse」プロセッサで認識されるデータの単位です。「Tokenize」ステップでは、トークンの初期セット(ベース・トークンと呼ばれます)を形成します。通常、ベース・トークンとは、別タイプの文字(句読点や空白文字など)で区切られた、同タイプの文字(文字や数字など)の配列です。たとえば、次のデータが入力されたとします。

Address1

10 Harwood Road

3Lewis Drive

「Tokenize」ステップでは、デフォルト・ルールを使用して、データを次のベース・トークンに分割します。

Address1

ベース・トークン

ベース・トークンのパターン

10 Harwood Road

"10" - 数字を示す「N」にタグ付けされます。

" " - 空白文字を示す「_」にタグ付けされます。

"Harwood" - 単語を示す「A」にタグ付けされます。

" " - 空白文字を示す「_」にタグ付けされます。

"Road" - 単語を示す「A」にタグ付けされます。

N_A_A

3Lewis Drive

"3" - 数字を示す「N」にタグ付けされます。

"Lewis" - 単語を示す「A」にタグ付けされます。

" " - 空白文字を示す「_」にタグ付けされます。

"Drive" - 単語を示す「A」にタグ付けされます。

NA_A

ただし、データをさらに分析するときに、特定のベース・トークンを無視する場合があります。たとえば、前述の空白文字を分類しない場合は、解決ルールと照合するときに空白文字を無視します。これを行うには、「Base Tokenization」参照データで、無視する文字を空白文字またはデリミタ・タイプとして指定します。後述の「構成」を参照してください。

用途

「Tokenize」は、パースするデータ属性の内容を最初に把握し、データを理解する方法を決定する場合に使用します。通常は、トークン化ルールのデフォルト・セットを使用して内容を把握し、必要に応じてルールを調整できます。たとえば、データ内で特定の文字が特定の意味を持つため、その他の文字とは異なるタグ付けをする場合です。多くの場合、デフォルトのトークン化ルールを変更する必要はありません。

構成

トークン化ルールは次のオプションで構成されます。

オプション

タイプ

目的

デフォルト値

Character Map

文字トークン・マップ

(Unicode参照により)文字を文字タグ、グループ化された文字タグ、および文字タイプにマップします。

後述の注意を参照してください。

*Base Tokenization Map

Split lower case to upper case

Yes/No

文字の配列を、小文字から大文字に変わる位置で別々のトークンに分割します(たとえば、「HarwoodRoad」は「Harwood」と「Road」の2つのベース・トークンに分割します)。

Yes

Split upper case to lower case

Yes/No

文字の配列を、大文字から小文字に変わる位置で別々のトークンに分割します(たとえば、「SMITHjohn」は「SMITH」と「john」の2つのベース・トークンに分割します)。

No

文字マップ参照データに関する注意

データのトークン化で使用する参照データは、フォーマットが固有で、「Tokenize」の動作に重要な影響があります。

次のスクリーンショットで、デフォルト参照データの各列の目的を説明します。機能の説明は、各列をクリックしてください。

また、参照データの「Comment」列には、Unicode文字参照で参照される実際の文字が表示されます。たとえば、#32はスペース文字を示します。

異なる入力属性に対する異なるルールの使用

デフォルトでは、「Parse」プロセッサに入力されるすべての属性に対して、同じトークン化ルールが適用されます。通常、属性固有のトークン化ルールは必要ありません。ただし、これを変更する場合は、ペインの左側で属性を選択し、「Enable attribute-specific settings」オプションを選択します。これは、様々な文字を重要なセパレータとして使用して、多数の属性を分析する場合に必要になります。

属性固有のルールを指定するとき、属性の設定を別の属性にコピーしたり、「Copy From」オプションを使用してデフォルトのグローバル設定を再適用できます。

この例では、デフォルト・ルールを使用して住所データをトークン化し、次の結果が表示されます。

(ここでは、パースの前に、「Trim Whitespace」プロセッサを使用して、各属性から先頭と末尾の空白文字が削除されていることに注意してください。)

「Base Tokenization」サマリー

ここには、全入力属性のベース・トークンの各パターンがサマリー表示されます。

1番目のベース・トークン・パターンのドリルダウン

「Parse」プロセッサの次の構成ステップは、データの分類です。

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.