照合変換: イニシャルの生成
「イニシャルの生成」変換を使用すると、たとえば、BMWとBayerische Motoren Werkeを照合するために、識別子からイニシャル変換した値を使用してレコードをクラスタリングまたは照合できます。これは、メインの「イニシャルの生成」プロセッサとまったく同様に機能します。
「イニシャルの生成」変換は、会社名や、識別子の形成時にイニシャル変換することが多いその他の名前を照合する場合に使用します。これは、最初に各値をイニシャル変換しないとコンピュータで照合することが困難な、"International Business Machines"と"IBM"のような一致を検索する場合に役立ちます。"IBM"のような短い単語が"I"にイニシャル変換されないようにするオプションも含まれています。
次の表に、構成オプションを示します。
構成 | 説明 |
---|---|
オプション |
次のオプションを指定します。
|
注意:
通常、「イニシャルの生成」変換では、元の値の大/小文字は無視され、指定の区切り文字で区切られた各単語が検出されて大文字のイニシャルが生成されます。たとえば、値"A j Smith"、"ALAN JOHN SMITH"および"Alan john smith"はすべて"AJS"にイニシャル変換されます。ただし、"PWC"、"IBM"、"BT"のようにすでにイニシャルになっている値もあり、これらは"P"、"I"、"B"のようにさらにイニシャル変換されないようにする必要があります。
これらは次の条件によって区別できます。
-
1単語の値。
-
すでに大文字になっている。
-
長さが数文字である。
「大文字の単語を無視」オプションを使用すると、値が大文字の1単語の場合、その単語が何文字以内のときにイニシャル変換しないかを指定できます。
たとえば、4に設定した場合、値"PWC"、"BT"、"RSPB"および"IBM"は、長さが4文字以内で、1単語の値で大文字であるため、イニシャル変換プロセスで無視されます。これに対して、"IAN JOHN SMITH"は、単語"IAN"の長さが4文字以内で大文字ですが、1単語の値でないため、"IJS"にイニシャル変換されます。また、"RSPCA"は長さが4文字を超えているため、"R"にイニシャル変換されます。
サンプル構成
この例では、「文字列の完全一致」比較(「比較: 文字列の完全一致」を参照)内で「イニシャルの生成」変換を使用して、(値をイニシャル変換することが多い)会社名を照合します。
区切り文字参照データ: なし
区切り文字: <space>。
大文字の単語を無視: 5
「イニシャルの生成」変換の前に、次に示す2つの変換が使用されることに注意してください。
1. 大文字 - すべての値を大文字に変換します。
2. 単語の削除 - 値から特定の単語を削除します。使用する参照データには、'PLC'という単語が含まれています。
変換例
次の表に、前述の構成を使用した変換の例を示します。
表1-83 「イニシャルの生成」変換の例
値 | 「大文字」変換および「単語の削除」変換後の値 | 「イニシャルの生成」変換後の値 |
---|---|---|
IBM |
IBM |
IBM |
I.B.M. |
I.B.M. |
IBM |
International Business Machines |
INTERNATIONAL BUSINESS MACHINES |
IBM |
PWC |
PWC |
PWC |
Price waterhouse coopers |
PRICE WATERHOUSE COOPERS |
PWC |
Price Waterhouse Coopers |
PRICE WATERHOUSE COOPERS |
PWC |
PRICE WATERHOUSE COOPERS |
PRICE WATERHOUSE COOPERS |
PWC |
British Telecom Plc |
BRITISH TELECOM |
BT |
BT plc |
BT |
BT |
BARKERS plc |
BARKERS |
B |
BARKERS & LEWIS plc |
BARKERS & LEWIS |
B&L |