1.3.3.8.16 比較: 最長共通部分文字列の合計率
「最長共通部分文字列の合計率」比較は、2つの文字列/文字配列の値の類似性を判断できる強力な方法の1つで、特に、値に長い文字列や多くの単語が含まれる場合に使用します。
「最長共通部分文字列の合計率」(LCSSP)では、2つの文字列値の最長共通部分文字列合計を計算し、それを比較対象の文字列の長い方または短い方の文字数に関連付けます。
「最長共通部分文字列の合計率」比較は、複数の単語で構成されるテキスト文字列を照合する際に、単語の順序や空白文字の差異があり、文字列の長さに比例して類似性を判断する必要がある場合に特に役立ちます。
たとえば、アジア人の氏名を複数のソースから照合するときに、氏名が同じ順序で一貫性のある記述でない場合や、音訳の違いや入力ミスにより空白文字が異なる場合がこれに該当します。単語一致比較(「単語一致率」など)は一貫性のある方法で区切られた単語に依存しているため、空白文字の差異があると結果が弱められることに注意してください。
たとえば、次の氏名を考えてみます。
Mary Elizabeth Angus
Mary Elizabeth Francis
Mary Elizabeth
Xiaojian Zhong
ZHONG Xiao Jian
最後の2つの氏名は、両方の単語の順序やスペース設定が異なりますが、高い一致になります。「単語一致率」では高い結果になりません。これらは「最長共通部分文字列の合計」で高い結果になりますが、最初の2つの氏名の場合は高い一致になりません。
「最長共通部分文字列の合計率」では、2つの値の共通部分文字列の合計長を判断し、それを比較対象の合計文字数に関連付ける方法を提供します。
この比較では、結果バンドの使用がサポートされています。
次の表に、構成オプションを示します。
オプション | タイプ | 説明 | デフォルト値 |
---|---|---|---|
データなしのペアを照合 |
はい/いいえ |
このオプションは、識別子の2つのデータなし(Null、または空白文字のみを含む)値を比較した際に、比較結果を判断します。 「いいえ」に設定した場合、データなし値と別のデータなし値を比較した際、「データなし」の比較結果が返されます。 「はい」に設定した場合、データなし値と別のデータなし値を比較した際、0の比較結果が返されます。「データなし」結果が返されるのは、データなし値と移入値を比較した場合のみです。 |
いいえ |
大文字/小文字を区別しない |
はい/いいえ |
値を比較する際に、大文字/小文字を区別しないかどうかを設定します。 |
はい |
長さを超える部分文字列を含めます |
はい/いいえ |
「最長共通部分文字列の合計」の総合スコアに寄与するには、比較対象の2つの値の共通部分文字列が指定した値より大きい必要があります。 3に設定した場合、2つの値に共通する4文字以上の(重複しない)部分文字列がLCSS計算に含められます。たとえば、比較する前に空白文字が削除されると仮定した場合、値「Acme Micros Ltd Serv」と「Acme and Partners Micro Services Ltd」のLCSSは9です。これは、共通部分文字列「Acme」の4文字、共通部分文字列「Micro」の5文字から計算されます。共通部分文字列「Ltd」は長さが3文字を超えていないため、計算には含められません。 |
4 |
より短い入力に関連付け |
はい/いいえ |
「最長共通部分文字列の合計」を比較対象の2つの文字列のうち短い方または長い方のどちらに関連付けるかを設定します。短い方の入力に関連付けると、緩やかな一致ルールが可能になります。これは、短い方の文字列に含まれる部分文字列の大部分は長い方の文字列にも含まれ、長い方の文字列には他のデータも含めることができるためです。 |
いいえ |
例
この例では、「最長共通部分文字列の合計率」比較を使用して氏名を比較します。
次のオプションを指定します。
-
データなしのペアを照合= いいえ
-
大文字/小文字を区別しない = はい
-
長さを超える部分文字列を含めます= 3
-
より短い入力に関連付け= いいえ
「空白の切捨て」変換を使用して、値を比較する前に値からすべての空白を削除します。
結果例
次の表に、前述の構成を使用した比較結果をいくつか示します。
表1-53 結果例: 最長共通部分文字列の合計率
値A | 値B | 比較結果 |
---|---|---|
Mary Elizabeth Angus |
Mary Elizabeth Francis |
65 |
Xiaojian Zhong |
ZHONG Xiao Jian |
100 |
Mary Elizabeth Angus |
Mary Elizabeth |
72 |
Tan Tan WONG |
WONG Tantan |
100 |
James Patrick Robinson |
Robin Patrick Jameson |
85 |