照合変換: 最初のN語

「最初のN語」変換を使用すると、照合でクラスタリングまたは比較を実行する際に最初の数(N)単語のみを使用できます。

「最初のN語」変換は、識別子に多数の単語があるが、照合の際に値の先頭付近の単語よりも末尾付近の単語の有用性が低い場合に使用します。これは、会社名を照合する際に、会社名に付加される支店名やその他の補助語を照合時に無視する場合によく使用されます(ただし、この同じ単語が会社の識別に有用である場合もあるため、「単語の削除」変換を使用しても値から削除されません)。たとえば、"Barclays Bank Coventry"と"Barclays Bank Leicester Branch"を照合する場合などです。

次の表に、構成オプションを示します。

構成 説明

オプション

次のオプションを指定します。

  • 区切り文字参照データ: 最初のn文字を取得する前に単語を区切るために使用される文字の標準セットを使用できます。タイプ: 参照データ。デフォルト値: *デリミタ。

  • 区切り文字: 最初のn文字を取得する前に単語を区切るために使用される文字の追加セットを指定します。タイプ: フリー・テキスト。デフォルト値: スペース。

  • 単語数: 識別子の値を変換する際に保持する単語数(左からカウント)。タイプ: 整数デフォルト値: なし。

サンプル構成

この例では、「文字編集距離」比較(「比較: 文字編集距離」を参照)内で「最初のN語」変換を使用して、(照合に必要でない余分な単語が値に含まれることが多い)会社名を照合します。

区切り文字参照データ: *区切り文字

区切り文字: なし

単語数: 2

変換例

次の表に、前述の構成を使用した変換の例を示します。

表1-81 「最初のN語」変換の例

変換済の値

Barclays Bank Plymouth Branch

Barclays Bank

Barclays Bank Coventry

Barclays Bank

Henkel Loctite

Henkel Loctite

Henkel Loctite Adhesives Limited

Henkel Loctite

Wingford Confectioners

Wingford Confectioners

Wingford Confectioners (in administration) - contact Mr J Alexander

Wingford Confectioners