「Longest Common Substring Sum」比較は、2つの文字列値の類似性を判断できる強力な方法の1つで、特に、値に長い文字列や多くの単語が含まれる場合に使用します。
最長共通部分文字列合計(LCSS)は、2つの値に共通する最長共通部分文字列の長さ(文字数)に、その他の重複しない共通部分文字列すべての長さを加えて計算されます。比較のオプションとして、部分文字列の最小長(文字数)を指定します。この比較では、各文字列値内で部分文字列が検出された順序は関係ありません。
これは、共通部分文字列長の可能な最大合計と必ずしも一致しないことに注意してください。
「Longest Common Substring Sum」比較を使用して、一般的にデータ値に多数の文字や単語が含まれ、入力ミスやその他の差異(一方の値にその他の単語や略語が含まれる場合など)が存在する可能性がある文字列値の間で、あいまい一致を検索します。たとえば、会社名などのデータは値が長い場合があり、そのデータを固定長フィールドに格納するとき、ユーザーは一部の単語を短縮することがあります。このような問題を考慮せずに他のシステムと照合すると、一致を検索するのが困難になります。このような場合、「Longest Common Substring Sum」を使用して、たとえば、最小文字列長プロパティを4に設定すると、値「Kingfisher Computer Services and Technology Limited」と「Kingfisher Comp Servs & Tech Ltd」は一致スコアが23文字になり、高い一致を示します。つまり、文字列「Kingfisher Comp」(15文字)、「Serv」(4文字)および「Tech」(4文字)がすべて一致します。
部分文字列は重複できないため、文字列「Kingfisher Comp」は1回のみカウントされ、この文字列内の4文字以上の部分文字列(King、Kingf、Kingfi、ingfiなど)はカウントされません。
両方の値で部分文字列が検出され、その長さが条件を満たしている場合、他の部分文字列と比較して検出された順序は関係ありません。たとえば、最小文字列長プロパティを4に設定した場合、文字列「Kingfisher Servs & Tech」と「Kingfisher Tech & Servs」はスコア20で一致します。これは、部分文字列「Kingfisher 」(11文字、スペースを含む)、「Tech」(4文字)および「Servs」(5文字)の合計です。
この比較では、結果バンドの使用がサポートされています。
オプション |
タイプ |
目的 |
デフォルト値 |
Match No Data pairs? |
Yes/No |
このオプションは、識別子の2つの非データ(Null、または空白文字のみを含む)値を比較する際の比較の結果を決定します。 「No」に設定した場合、非データ値に対して別の非データ値を比較すると、比較は「no data」結果になります。 「Yes」に設定した場合、非データ値に対して別の非データ値を比較すると、比較の結果は0になります。移入された値に対して非データ値を比較した場合、返されるのは「no data」結果のみです。 |
No |
Ignore case? |
Yes/No |
値を比較するときに、大/小文字を無視するかどうかを設定します。 |
Yes |
Include substrings greater than length |
整数 |
比較対象の2つの値の共通部分文字列は、指定の値を超えている場合、最長共通部分文字列合計のスコアに含まれます。 3に設定すると、2つの値に共通する4文字以上の(重複しない)部分文字列がLCSS計算に含まれます。たとえば、値「Acme Micros Ltd Serv」と「Acme and Partners Micro Services Ltd」のLCSSは9です(比較する前に空白文字を削除します)。これは、共通部分文字列「Acme」の4文字、および共通部分文字列「Micro」の5文字から計算されます。共通部分文字列「Ltd」は、長さが3文字を超えていないため、計算には含まれません。 |
4 |
構成例
この例では、「Longest Common Substring Sum」比較を使用して、会社名の一致候補を識別します。次のオプションを指定します。
Match No Data pairs?= No
Ignore case?= Yes
Include substrings greater than length = 3
「Trim Whitespace」変換を追加して、値を比較する前に、すべての空白文字を値から削除します。
結果例
次の表に、前述の構成を使用した比較結果をいくつか示します。
値A |
値B |
比較結果(最長共通部分文字列合計) |
Friars St Dental Practice |
Friar Street Dental Pract. |
18 |
Britannia Preservations |
Britannia Preservation Ltd |
21 |
Barraclough Partners |
Barraclough Stiles and Partners |
19 |
Gem Distribution Ltd |
Gem Distribution Ltd (Wildings) |
18 |
Think Consulting Ltd |
Think Training Consulting Ltd |
18 |
Logist Services and Distribution |
Logist Servs and Dist |
18 |
Logist Distribution & Services |
Logist Services & Distribution |
26 |
Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.