イニシャルの生成

「イニシャルの生成」プロセッサは、値をイニシャルに変換します(たとえば、"Bayerische Motoren Werke"を"BMW"に変換します)。

「イニシャルの生成」変換は、略称と非略称の両方の名称(またはその他の用語)が使用される場合に、データを一致させる(または一致処理のためのレコードのクラスタリング)に最も一般的に使用されます。これは、最初に各値をイニシャル変換しないとコンピュータで照合することが困難な、"International Business Machines"と"IBM"のような一致を検索する場合に役立ちます。"IBM"のような短い単語が"I"にイニシャル変換されないようにするオプションも含まれています。

次の表に、構成オプションを示します。

構成 説明

入力

イニシャルに変換する文字列または文字列配列型の属性を指定します。数値属性および日付属性は有効な入力ではありません。

配列属性を入力すると、変換はすべての配列要素に適用され、1つの配列属性が出力されます。

オプション

次のオプションを指定します。

  • 区切り文字参照データ: イニシャルの生成前に単語を区切るために使用される文字の標準セットを使用できます。参照データとして指定します。デフォルト値: *Delimiters

  • 区切り文字: イニシャルの生成前に単語を区切るために使用される文字の追加セットを指定します。フリー・テキストとして指定します。デフォルト値: スペース

  • 大文字の単語を無視: 「イニシャルの生成」プロセッサでは、すべて大文字でこの文字数以内の1単語の値(つまり、単語の区切りがない)を変換しません(例: 'IBM')。

    整数として指定します。デフォルト値: 4

出力

データ属性またはフラグ属性の出力を記述します。

データ属性

次のデータ属性が出力されます。

  • [Attribute Name].initials: イニシャル変換された値の新しい属性。値は、元の属性値をイニシャルに変換して導出されます。

フラグ

なし。

通常、「イニシャルの生成」変換では、元の値の大/小文字は無視され、指定の区切り文字で区切られた各単語が検出されて大文字のイニシャルが生成されます。たとえば、値"A j Smith"、"ALAN JOHN SMITH"および"Alan john smith"はすべて"AJS"にイニシャル変換されます。ただし、"PWC"、"IBM"、"BT"のようにすでにイニシャルになっている値もあり、これらは"P"、"I"、"B"のようにさらにイニシャル変換されないようにする必要があります。

これらは次の条件によって区別できます。

  • 1単語の値。

  • すでに大文字になっている。

  • 長さが数文字である。

「大文字の単語を無視」オプションを使用すると、値が大文字の1単語の場合、その単語が何文字以内のときにイニシャル変換しないかを指定できます。

たとえば、4に設定した場合、値"PWC"、"BT"、"RSPB"および"IBM"は、長さが4文字以内で、1単語の値で大文字であるため、イニシャル変換プロセスで無視されます。これに対して、"IAN JOHN SMITH"は、単語"IAN"の長さが4文字以内で大文字ですが、1単語の値でないため、"IJS"にイニシャル変換されます。また、"RSPCA"は長さが4文字を超えているため、"R"にイニシャル変換されます。

「イニシャルの生成」トランスフォーマでは、処理に関するサマリー統計は表示されません。データ・ビューには、各入力属性とともに、右側に新しく導出されたイニシャル変換した属性が表示されます。

出力フィルタ

なし。

この例では、「イニシャルの生成」変換を使用して次のデフォルトの構成で会社名をイニシャルの値に変換します。

  • 区切り文字参照データ: 未使用

  • 区切り文字: スペース

  • 大文字の単語を無視: 4

'BMW'は大文字で構成される3文字の単一語であるため、すでにイニシャルで表現されているとみなされ、'B'にイニシャル変換されないことに注意してください。

BusName.Parse BusName.Initials (昇順)

BMW

BMW

Bayerische Motorren Werke

BMW

Bayerishe Motorren Werke

BMW

Broad Oak Woodcraft

BOW

Brunswick Properties

BP

Body Perfect

BP

Byron Pawnbrokers

BP