比較: 単語一致率

「単語一致率」比較では、2つの文字列の単語編集距離を計算し、2つの値の長い方または短い方の長さ(単語数)を考慮して、複数の単語で構成される2つの文字列/文字配列の値が相互にどの程度一致しているかを判断します。

「単語一致率」比較は、複数の単語で構成される値(名称など)で一致を検索する際に、その他の情報(余分な単語など)が含まれているために、「文字の一致率」比較などを使用しても適切に一致しない場合に使用します。たとえば、値「Ali Muhammed Saadiq」と「Ali Saadiq」を照合する場合、文字一致率はわずか53%(空白文字は削除されるとします)で低い一致になりますが、単語一致率は66%(「より短い入力に関連付け」オプションを「はい」に設定すると100%)で高い一致になります。識別子値内で一致する単語数が多いほど、「単語一致率」比較の正確度が高くなります。単語数が少ない場合、単語一致率60%以上はかなり高い結果ですが、文字一致率60%はかなり低い結果を示すことに注意してください。

この比較では、結果バンドの使用がサポートされています。

次の表に、構成オプションを示します。

オプション タイプ 説明 デフォルト値

データなしのペアを照合

はい/いいえ

このオプションは、識別子の2つのデータなし(Null、または空白文字のみを含む)値を比較した際に、比較結果を判断します。

「False」に設定されている場合、データなし値と別のデータなし値を比較した際、「データなし」の比較結果が返されます。

「True」に設定されている場合、データなし値とデータなし値を比較した際、0の比較結果が返されます(一致する単語数が0であるため)。「データなし」結果が返されるのは、データなし値と移入値を比較した場合のみです。

いいえ

大文字/小文字を区別しない

はい/いいえ

値を比較する際に、大文字/小文字を区別しないかどうかを設定します。

たとえば、大文字/小文字を区別しない場合、「Joseph Andrew COLE」と「Joseph Andrew Cole」の単語一致率は100%です。大文字/小文字を区別する場合は67%です。

はい

文字エラーの許容範囲

整数

このオプションは、単語を相互に比較する際に許容される文字編集の回数を指定します。文字編集距離が指定された数値以下の単語はすべて、同じとみなされます。

たとえば、1に設定した場合、この許容範囲を考慮するとすべての単語が相互に一致するため、「95 Charnwood Court, Mile End, Parnham, Middlesex」と「95 Charwood Court, Mile End, Parnam, Middlesex」の単語一致率は100%になります。

0

数の許容範囲を無視

はい/いいえ

このオプションを使用すると、すべてが数値で構成される単語に対して、文字エラーの許容範囲を無視できます。

たとえば、「はい」に設定して、文字エラーの許容範囲を1にした場合、数値95と96は異なるとみなされるため、1文字しか違わないにもかかわらず、「95 Charnwood Court, Mile End, Parnham, Middlesex」と「96 Charnwood Court, Mile End, Parnam, Middlesex」の単語一致率は86%になります。

「いいえ」に設定した場合、数値は他の単語と同様に処理されるため、前述の例では95と96は同じとみなされ、単語一致率は100%になります。

はい

許容範囲値をパーセンテージ値で処理

はい/いいえ

これを使用すると、文字エラーの許容範囲を、単語長(文字数)に対するパーセントとして処理できます。たとえば、1つの単語で5文字ごとに1つの文字エラーを許容するには、20%の値を使用します。

このオプションは、短い単語が1文字異なるだけで同じと処理されることを防ぐ一方で、長い単語では入力ミスとして許容できるようにする場合に役立ちます。たとえば、「Parnham」と「Parnam」は同じとみなしますが、「Bath」と「Batt」は別として処理されます。

「はい」に設定した場合、単語に差異があるが同じとみなすために、「文字エラーの許容範囲」オプションは、1つの単語内で差異を許容できる文字数の最大パーセントとして入力する必要があります。たとえば、Trueに設定した場合、文字エラーの許容範囲を20%とすると、ParnamとParnhamは同じとみなされます。これは、これらの編集距離が1であり、かつ、ワード長が7文字を超える場合は、1文字の一致エラーの割合が14%となり、20%のしきい値を下回るためです。一方、BathとBattという値は文字の一致エラーの割合が25% (4文字のうち1つがエラー)であるため、同じとはみなされません。

「いいえ」に設定した場合、「文字エラーの許容範囲」オプションは単語間の文字編集の許容範囲として処理されます。

いいえ

より短い入力に関連付け

はい/いいえ

このオプションにより、「単語一致率」比較で行われる計算が決定されます。

「はい」に設定すると、照合する2つの入力のうち、(単語数が)短い方の入力を使用して、その文字数のパーセントとして結果が計算されます。

「いいえ」に設定すると、照合する2つの入力のうち、(単語数が)長い方の入力を使用して、その文字数のパーセントとして結果が計算されます。

いいえ

この例では、「単語一致率」比較を使用して会社名全体を照合します。次のオプションを指定します。

  • データなしのペアを照合= いいえ

  • 大文字/小文字を区別しない = はい

  • より短い入力に関連付け= いいえ

  • 文字エラーの許容範囲 = 20

  • 数の許容範囲を無視= はい

  • 許容範囲値をパーセンテージ値で処理= はい

  • 単語の順序を無視= いいえ

  • より短い入力に関連付け= はい

「ノイズ削除」変換が追加され、比較する値から句読点(カンマおよびピリオド)を削除します。

結果例

次の表に、前述の構成を使用した比較結果をいくつか示します。

表1-59 結果例: 単語一致率

値A 値B 比較結果

Federal Mogul Camshafts Ltd

Federal Mogul Camshafts Castings Ltd

100%

Federal Mogul Camshafts Ltd

Federal Mogul Eurofriction Ltd

75%

Stamford High School

Stamford School

100%

Eurofleet Bodyshop Ltd

Eurofleet Ltd

100%

Phoenix Food Ltd

Phoenix Manufacturing Ltd

66%

Cumerland Wood and Chair Corp

Cumberland Wood Corp

100%