比較: 最長共通部分文字列の合計

「最長共通部分文字列の合計」比較は、2つの文字列/文字配列の値の類似性を判断できる強力な方法の1つで、特に、値に長い文字列や多くの単語が含まれる場合に使用します。

「最長共通部分文字列の合計」(LCSS)は、2つの値に共通する最長共通部分文字列の長さ(文字数)に、その他の重複しない共通部分文字列すべての長さを加えて計算されます。比較のオプションとして、部分文字列の最小長(文字数)を指定します。この比較では、各文字列値内で部分文字列が検出された順序は関係ありません。

これは、共通部分文字列長の可能な最大合計と必ずしも一致しないことに注意してください。

2つの文字列を比較するとき、重複しない部分文字列の複数の異なるセットを構築できる場合があります。「最長共通部分文字列の合計」比較では、可能な最大一致スコアにならない場合でも、2つの値に共通する最長共通部分文字列を含むセットが常に使用されます。

「最長共通部分文字列の合計」比較を使用して、一般的にデータ値に多数の文字や単語が含まれ、入力ミスやその他の差異(一方の値にその他の単語や略語が含まれる場合など)が存在する可能性がある文字列値の間で、あいまい一致を検索します。たとえば、会社名などのデータは値が長い場合があり、そのデータを固定長フィールドに格納するとき、ユーザーは一部の単語を短縮することがあります。このような問題を考慮せずに他のシステムと照合すると、一致を検索するのが困難になります。ただし、「最長共通部分文字列の合計」を使用して、最小文字列長プロパティを4に設定すると、値「Kingfisher Computer Services and Technology Limited」と「Kingfisher Comp Servs & Tech Ltd.」は一致スコアが23文字になり、高い一致を示します。つまり、文字列「Kingfisher Comp」(15文字)、「Serv」(4文字)および「Tech」(4文字)がすべて一致します。

部分文字列は重複できないため、文字列「Kingfisher Comp」は1回のみカウントされ、この文字列内の4文字以上の部分文字列(King、Kingf、Kingfi、ingfiなど)はカウントされません。

両方の値で部分文字列が検出され、その長さが条件を満たしている場合、他の部分文字列と比較して検出された順序は関係ありません。たとえば、最小文字列長プロパティを4に設定した場合、文字列「Kingfisher Servs & Tech」と「Kingfisher Tech & Servs」はスコア20で一致します。これは、部分文字列「Kingfisher」(11文字、スペースを含む)、「Tech」(4文字)および「Servs」(5文字)の合計です。

この比較では、結果バンドの使用がサポートされています。

次の表に、構成オプションを示します。

オプション タイプ 説明 デフォルト値

データなしのペアを照合

はい/いいえ

このオプションは、識別子の2つのデータなし(Null、または空白文字のみを含む)値を比較した際に、比較結果を判断します。

「いいえ」に設定した場合、データなし値と別のデータなし値を比較した際、「データなし」の比較結果が返されます。

「はい」に設定した場合、データなし値と別のデータなし値を比較した際、0の比較結果が返されます。「データなし」結果が返されるのは、データなし値と移入値を比較した場合のみです。

いいえ

大文字/小文字を区別しない

はい/いいえ

値を比較する際に、大文字/小文字を区別しないかどうかを設定します。

はい

長さを超える部分文字列を含めます

はい/いいえ

「最長共通部分文字列の合計」の総合スコアに寄与するには、比較対象の2つの値の共通部分文字列が指定した値より大きい必要があります。

3に設定した場合、2つの値に共通する4文字以上の(重複しない)部分文字列がLCSS計算に含められます。たとえば、比較する前に空白文字が削除されると仮定した場合、値「Acme Micros Ltd Serv」と「Acme and Partners Micro Services Ltd」のLCSSは9です。これは、共通部分文字列「Acme」の4文字、共通部分文字列「Micro」の5文字から計算されます。共通部分文字列「Ltd」は長さが3文字を超えていないため、計算には含められません。

4

この例では、「最長共通部分文字列の合計」比較を使用して、会社名の一致候補を識別します。

次のオプションを指定します。

  • データなしのペアを照合= いいえ

  • 大文字/小文字を区別しない = はい

  • 長さを超える部分文字列を含めます= 3

「空白の切捨て」変換を使用して、値を比較する前に値からすべての空白を削除します。

結果例

次の表に、前述の構成を使用した比較結果をいくつか示します。

表1-52 結果例: 最長共通部分文字列の合計

値A 値B 比較結果

Friars St Dental Practice

Friar Street Dental Pract.

18

Britannia Preservations

Britannia Preservation Ltd

21

Barraclough Partners

Barraclough Stiles and Partners

19

Gem Distribution Ltd

Gem Distribution Ltd (Wildings)

18

Think Consulting Ltd

Think Training

18

Logist Services and Distribution

Consulting Ltd

18

Logist Distribution & Services

Logist Servs and Dist Logist Services & Distribution

26