比較: 最長共通部分文字列の比率

「最長共通部分文字列の比率」比較では、2つの値の最長共通部分文字列を検索し、その文字数を、入力値の長い方または短い方の文字数に関連付けることにより、2つの文字列/文字配列の値の相互の類似性を判断します。

「最長共通部分文字列の比率」比較は、「最長共通部分文字列」(指定の値の中の長い単語を単に照合し、値の中の他のデータは考慮されない)では正確な結果が出せない場合に使用します。たとえば、値「Ardent Design Birmingham」と「Britannia Design Birmingham」の最長共通部分文字列は17文字で、高い一致結果を示します。これに対して、最長共通部分文字列率は63%にすぎず、低い一致結果になります。

2つの文字列の短い方の値を使用する場合、「最長共通部分文字列の比率」比較では、2つの値について完全またはあいまいの「次を含む」一致も実行できます。たとえば、「最長共通部分文字列の比率」を使用して、短い方の値に関連付ける場合、値「Ardent」と「Ardent Design UK」はスコア100%で一致し、値「Ardent UK」と「Ardent Design UK」はスコア75%で一致します(すべての空白文字は削除されるとします)。

この比較では、結果バンドの使用がサポートされています。

次の表に、構成オプションを示します。

オプション タイプ 説明 デフォルト値

データなしのペアを照合

はい/いいえ

このオプションは、識別子の2つのデータなし(Null、または空白文字のみを含む)値を比較した際に、比較結果を判断します。

「いいえ」に設定した場合、データなし値と別のデータなし値を比較した際、「データなし」の比較結果が返されます。

「はい」に設定した場合、データなし値と別のデータなし値を比較した際、0の比較結果が返されます。「データなし」結果が返されるのは、データなし値と移入値を比較した場合のみです。

いいえ

大文字/小文字を区別しない

はい/いいえ

値を比較する際に、大文字/小文字を区別しないかどうかを設定します。

はい

より短い入力に関連付け

はい/いいえ

このオプションでは、2つの値の最長共通部分文字列を、2つの値のうち長い方または短い方のどちらに関連付けるかを決定します。

「はい」に設定すると、短い方の値が使用されるため、「最長共通部分文字列の比率」は実質的に、一方の値がもう一方の値にどの程度含まれるかを測定します。たとえば、「Excel」と「Excel Europe」のLCSPは100%です。

「いいえ」に設定した場合、最長共通部分文字列は比較対象の2つの値のうち長い方に関連付けられます。このため、「Excel」と「Excel Europe」のLCSPは42%にすぎず、「Britannia Design」と「Britannia Desn.UK」は72%になります。

いいえ

この例では、「最長共通部分文字列の比率」比較を使用して、住所の1行目で一致候補を識別します。

次のオプションを指定します。

  • データなしのペアを照合= いいえ

  • 大文字/小文字を区別しない = はい

  • より短い文字列に関連付け= はい

「空白の切捨て」変換を使用して、値を比較する前に値からすべての空白を削除します。

結果例

次の表に、前述の構成を使用した比較結果をいくつか示します。

表1-51 結果例: 最長共通部分文字列の比率

値A 値B 比較結果

4 Briars Lane

4 briars lane

100%

10 Beckenham Drive

10 Beckenham Lane

73%

Church Farm Cottage

Church Farm Flat 2

67%

Broomfield House

Broomfield Court Flat 14

67%

10 Galloway Road

14 Galloway Street

57%

5 Jedburgh Street

5 Bath St, Jedburgh

53%