比較: Word Match Percentage

「Word Match Percentage」比較では、2つの文字列の単語編集距離を計算し、2つの値の長い方または短い方の長さ(単語数)を考慮して、複数の単語で構成される2つの値が相互にどの程度一致しているかを判断します。

「Word Match Percentage」比較では、数学用語による次の式を使用して結果が計算されます。

内容は次のとおりです。

WMP = 単語一致率

MWL = 最大単語長(つまり、比較対象の2つの値の最大単語数)

WED = 2つの文字列値の単語編集距離

WL = 「Relate to shorter input」オプションの設定に応じて、最大単語長または最小単語長のいずれか。「Relate to shorter input」を「No」(デフォルト)に設定すると、最大単語長が使用されます。「Relate to shorter input」を「Yes」に設定すると、最小単語長(つまり、2つの値の内、短い方の値の単語数)が使用されます。

したがって、「Andy Joseph Cole」と「Andy Cole」の値のペアの場合は次のようになります。

WED(単語編集距離) = 1

MWL(最大単語長) = 3

mWL(最小単語長) = 2

「Relate to shorter input」オプションを「No」に設定した場合、単語一致率(WMP)は次のように計算されます。

MWL(3) - WED(1) = 2、2 / MWL(3) = 0.66、0.66 * 100 = 66%

「Relate to shorter input」を「Yes」に設定した場合は計算が異なります。

MWL(3) - WED(1) = 2、2 / mWL(2) = 1、1 * 100 = 100%

用途

「Word Match Percentage」比較は、複数の単語で構成される値(名称など)で一致を検索する際に、その他の情報(余分な単語など)が含まれているために、「Character Match Percentage」比較などを使用しても適切に一致しない場合に使用します。たとえば、値「Ali Muhammed Saadiq」と「Ali Saadiq」を照合する場合、文字一致率は53%(空白文字は削除されるとします)で低い一致になりますが、単語一致率は66%(「Relate to shorter input」オプションを「Yes」に設定すると100%)で高い一致になります。識別子値内で一致する単語数が多いほど、「Word Match Percentage」比較の正確度が高くなります。単語数が少ない場合、単語一致率60%以上はかなり高い結果ですが、文字一致率60%はかなり低い結果を示すことに注意してください。

この比較では、結果バンドの使用がサポートされています。

オプション

オプション

タイプ

目的

デフォルト値

Match No Data pairs?

Yes/No

このオプションは、識別子の2つの非データ(Null、または空白文字のみを含む)値を比較する際の比較の結果を決定します。

「False」に設定した場合、非データ値に対して別の非データ値を比較すると、比較は「no data」結果になります。

「True」に設定した場合、非データ値に対して別の非データ値を比較すると、比較の結果0が返されます(一致する単語数が0であるため)。移入された値に対して非データ値を比較した場合、返されるのは「no data」結果のみです。

No

Ignore case?

Yes/No

値を比較するときに、大/小文字を無視するかどうかを設定します。

たとえば、大/小文字を無視する場合、「Joseph Andrew COLE」と「Joseph Andrew Cole」の単語一致率は100%になります。大/小文字を無視しない場合は67%になります。

Yes

Character error tolerance

整数

 

このオプションは、単語を相互に比較するときに許容される文字編集の回数を指定します。文字編集距離が指定の数値以下の単語はすべて同じとみなされます。

たとえば、1に設定した場合、「95 Charnwood Court, Mile End, Parnham, Middlesex」と「95 Charwood Court, Mile End, Parnam, Middlesex」はこの許容範囲内ですべての単語が相互に一致するため、単語一致率は100%になります。

0

Ignore tolerance on numbers?

Yes/No

このオプションを使用すると、数値のみで構成される単語については文字エラー許容範囲を無視できます。

たとえば、これを「Yes」に設定し、「Character error tolerance」が1の場合、「95 Charnwood Court, Mile End, Parnham, Middlesex」と「96 Charnwood Court, Mile End, Parnam, Middlesex」の単語一致率は86%になります。数値の95と96は1文字しか違いませんが、ここでは異なるとみなされるためです。

「No」に設定した場合、数値は他の単語と同様に処理されます。前述の例では、95と96が同じとみなされるため、単語一致率は100%になります。

Yes

Treat tolerance value as percentage?

Yes/No

このオプションを使用すると、文字エラー許容範囲を単語長(文字数)に対するパーセントとして処理できます。たとえば、1つの単語内で5文字ごとに1文字のエラーを許容する場合は、値「20%」を使用します。

このオプションは、2つの短い単語が1文字異なるだけで同じと処理されることを防ぐ一方で、長い単語では入力ミスとして許容できるようにする場合に役立ちます。たとえば、「Parnham」と「Parnam」は同じとみなしますが、「Bath」と「Batt」は異なる内容として処理されます。

「Yes」に設定した場合は、単語に差異があるが同じとみなすために、「Character error tolerance」オプションは、1つの単語内で差異を許容できる文字数の最大パーセントとして入力する必要があります。たとえば、「True」に設定し、「Character error tolerance」が20%の場合、「Parnam」と「Parnham」は同じとみなされます。これは、文字編集距離が1で、長い方の単語の長さが7文字であるため、文字一致エラー率は14%になり、しきい値の20%を下回るためです。ただし、「Bath」と「Batt」の場合は文字一致エラー率が25%(4文字中に1つのエラー)になるため、同じとはみなされません。

「No」に設定した場合、「Character error tolerance」オプションは単語間の文字編集距離の許容範囲として処理されます。

No

Ignore word order?

Yes/No

「Yes」に設定すると、各値の単語の順序による結果への影響はありません。たとえば、「Nomura International Bank」と「International Bank Nomura」の単語一致率は100%になります。

「No」に設定すると、各値の単語の順序が考慮されます。したがって、「Nomura International Bank」と「International Bank Nomura」の単語一致率は0%になります。

No

Relate to shorter input?

Yes/No

このオプションは、「Word Match Percentage」比較で実行される計算を決定します。

「Yes」に設定すると、結果は、比較する2つの入力の内、長さ(単語数)が長い方の入力に対する短い方の単語数がパーセントとして計算されます。

「No」に設定すると、結果は、2つの入力の内、長さ(単語数)が短い方の入力に対して、長い方の入力の単語数がパーセントとして計算されます。

No

構成例

この例では、「Word Match Percentage」比較を使用して会社名全体を照合します。次のオプションを指定します。

Match No Data pairs?= No

Ignore case?= Yes

Character error tolerance = 20

Ignore tolerance on numbers?= Yes

Treat tolerance value as percentage?= Yes

Ignore word order?= No

Relate to shorter input?= Yes

「Denoise」変換を追加して、比較対象の値から句読点(カンマおよびピリオド)を削除します。

結果例

次の表に、前述の構成を使用した比較結果をいくつか示します。

値A

値B

比較結果

(単語一致率)

Federal Mogul Camshafts Ltd

Federal Mogul Camshafts Castings Ltd

100%

Federal Mogul Camshafts Ltd

Federal Mogul Eurofriction Ltd

75%

Stamford High School

Stamford School

100%

Eurofleet Bodyshop Ltd

Eurofleet Ltd

100%

Phoenix Food Ltd

Phoenix Manufacturing Ltd

66%

Cumerland Wood and Chair Corp

Cumberland Wood Corp

100%

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.