比較: Word Match Count

「Word Match Count」比較を使用すると、共通するいくつかの単語(空白文字で区切られた)が含まれ、複数の単語で構成される文字列値を、それらの単語の検出順序に関係なく照合できます。

用途

「Word Match Count」比較は、複数の単語で構成される文字列識別子値(個人の氏名など)を照合する際に、共通する単語が含まれるが、値が必ずしも標準の順序でないために他の比較では一致にならない場合に使用します。たとえば、名前フィールドで「Character Edit Distance」比較を使用すると値「David SMITH」と「Smith, David」は一致しませんが、これらの値に含まれる2つの単語は共通しており、高い一致であることを示しています(特に、名前データが最大3単語である場合)。

この比較では、結果バンドの使用がサポートされています。

オプション

オプション

タイプ

目的

デフォルト値

Match No Data pairs?

Yes/No

このオプションは、識別子の2つの非データ(Null、または空白文字のみを含む)値を比較する際の比較の結果を決定します。

「False」に設定した場合、非データ値に対して別の非データ値を比較すると、比較は「no data」結果になります。

「True」に設定した場合、非データ値に対して別の非データ値を比較すると、比較の結果0が返されます(一致する単語数が0であるため)。移入された値に対して非データ値を比較した場合、返されるのは「no data」結果のみです。

No

Ignore case?

Yes/No

値を比較するときに、大/小文字を無視するかどうかを設定します。

たとえば、「Joseph Andrew COLE」と「Joseph Andrew Cole」の単語一致数は、大/小文字を無視する場合は3、大/小文字を無視しない場合は2になります。

Yes

Character error tolerance

整数

 

このオプションは、単語を相互に比較するときに許容される文字編集の回数を指定します。文字編集距離が指定の数値以下の単語はすべて同じとみなされます。

たとえば、1に設定した場合、「95 Charnwood Court, Mile End, Parnham, Middlesex」と「95 Charwood Court, Mile End, Parnam, Middlesex」はこの許容範囲内ですべての単語が相互に一致するため、単語一致数は7になります。

0

Ignore tolerance on numbers?

Yes/No

このオプションを使用すると、数値のみで構成される単語については文字エラー許容範囲を無視できます。

たとえば、これを「Yes」に設定し、「Character error tolerance」が1の場合、「95 Charnwood Court, Mile End, Parnham, Middlesex」と「96 Charnwood Court, Mile End, Parnam, Middlesex」の単語一致率は7ではなく6になります。数値の95と96は1文字しか違いませんが、ここでは異なるとみなされるためです。

Yes

Treat tolerance value as percentage?

Yes/No

これを使用すると、文字エラー許容範囲は単語長(文字数)に対するパーセントとして処理できます。たとえば、1つの単語内で5文字ごとに1文字のエラーを許容する場合は、値「20%」を使用します。

このオプションは、2つの短い単語が1文字異なるだけで同じと処理されることを防ぐ一方で、長い単語では入力ミスとして許容できるようにする場合に役立ちます。たとえば、「Parnham」と「Parnam」は同じとみなしますが、「Bath」と「Batt」は異なる内容として処理されます。

「Yes」に設定した場合は、単語に差異があるが同じとみなすために、「Character error tolerance」プロパティは、1つの単語内で差異を許容できる文字数の最大パーセントとして入力する必要があります。たとえば、「Yes」に設定し、「Character error tolerance」が20%の場合、「Parnam」と「Parnham」は同じとみなされます。これは、編集距離が1で、長い方の単語の長さが7文字であるため、文字一致エラー率は14%になり、しきい値の20%を下回るためです。ただし、「Bath」と「Batt」の場合は文字一致エラー率が25%(4文字中に1つのエラー)になるため、同じとはみなされません。

「No」に設定した場合、「Character error tolerance」プロパティは単語間の文字編集許容範囲として処理されます。

No

構成例

この例では、「Word Match Count」比較を使用して個人の氏名を照合します。次のオプションを指定します。

Match No Data pairs?= No

Ignore case?= Yes

Character error tolerance = 2

Ignore tolerance on numbers?= No

Treat tolerance value as percentage?= No

結果例

次の表に、前述の構成を使用した比較結果をいくつか示します。

値A

値B

比較結果

(単語一致数)

David Sheldon Turner

TURNER David Shelldon

3

David Sheldon Turner

TURNER Sheldon David

3

David Turner

David Turner

2

David Turner

Dave Turner

2

Mr David Sheldon Turner

David Turner

2

Alexander Graham Bell

Alexander BELL

2

Mrs Susan Chung

Mrs Susane Chung

3

Susan Smith

Suzanne Smith

1

Susan Simpson

Susan Musslewhite

1

Alexander Wallace

Alex Walace

1

Alexander Wallace

Alex Wace

0

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.