クラスタ

クラスタは、グループとマージを除くすべての照合プロセッサのサブプロセッサです。照合構成のクラスタ・ステージの目的は、照合処理でレコード間の不要な比較が実行されないようにクラスタリング・プロセスを構成することです。クラスタリングを使用しないと、各データ・ストリーム内の全レコードを他の全レコードと比較する必要があるため、データ・ストリームが小規模であっても照合プロセスは非常に効率が悪くなります。

クラスタは、共通のクラスタ・キーを使用して入力レコードをレコードのグループ(クラスタ・グループ)に分割するために使用し、そのグループ内ではレコードの比較が実行されます。

クラスタの構成には、1つ以上の識別子と、オプションでそれらの識別子の順序付けされた変換が含まれます。クラスタのクラスタ・キーが、その構成に基づいてレコードごとに生成され、そのクラスタ・キー別にレコードがグループ化されます。

1つのクラスタで複数の識別子が使用されている場合(複合クラスタ)、それらの識別子値(または変換された識別子値)は連結されて、各レコードのクラスタ・キーが形成されます。

1つのクラスタで使用されている配列タイプ識別子が1つのみの場合は、この配列のすべての要素に対してクラスタ・キーが生成されます。

1つのクラスタで複数の配列タイプ識別子が使用されている場合は、配列要素のすべての連結に対してクラスタ・キーが生成されます。たとえば、2つの属性の配列と2つの属性の別の配列も1つのクラスタで使用されている場合は、4つのクラスタ・キーが生成されます。

クラスタに識別子を追加するには「識別子の追加」ボタンを使用し、各識別子に変換を追加するには「変換の追加」ボタンを使用します。

識別子に有効に適用できる変換は、その識別子のデータ型(文字列、数値または日付)によって決まることに注意してください。識別子のデータ型は、いずれかの変換(日付を文字列に変換など)を使用して変更できます。無効な変換を構成すると、その変換は赤で表示されます。

前述の文字列を日付に変換を削除すると、最初のN文字変換が無効になります。

追加オプション - デフォルトの上書き

クラスタを構成するときは、3つの追加オプションを使用できます。通常、これらのオプションはデフォルト値から変更する必要はありませんが、特定の場合には変更可能です。次のオプションを選択できます。

  • クラスタ・グループ制限

  • クラスタ比較制限

  • Nullの許可

クラスタ・グループ制限

クラスタ・グループ制限は、1つのクラスタに含めることができるレコードの最大数です。デフォルトでは、クラスタ制限は500レコードです。

これを超えるレコードが1つのクラスタに含まれる場合は(たとえば、姓の最初の5文字による単純なクラスタリング構成を使用したとき、「SMITH」を含むレコードが500を超える場合)、実行される比較の数が多すぎるため、そのクラスタは照合処理で無視されます。このような場合、通常はクラスタリング構成がより厳密になるように変更して、より小さいグループを生成します。ただし、場合によっては、大きいクラスタが無視されないように、単純にサイズ制限を大きくすることもできます。

クラスタ比較制限

クラスタ比較制限は、当該クラスタを破棄する前に照合比較エンジンで実行できる比較の最大数です。デフォルトでは、クラスタ比較制限はnullに設定されています(つまり、制限はありません)。

クラスタで発生する比較の数は、クラスタ処理の開始前に計算できます。比較の数がクラスタ比較制限を超える場合、クラスタは処理の前に破棄され、そのクラスタに対する関係は生成されません。

Nullの許可

Nullの許可オプションを使用すると、すべてのレコードの構成済クラスタ・キーがNullの場合に、それらのレコードのクラスタを作成するかどうかを変更できます。

デフォルトでは、Nullのクラスタ・キーは許容され、グループが生成されます。

たとえば、クラスタが単純にEmail属性の値全体である場合は、Email属性の値がNullの全レコードを相互に比較しますか。しない場合は、このオプションを「False」に設定します。

設定をデフォルト設定の「True」のままにすると、クラスタ・キーがNullのクラスタが生成されますが、クラスタ制限(前述)を超える数のレコードが含まれる場合が多いため、いずれにしても照合処理では無視されます。

次の例では、「Surname」属性の最初の数文字(大文字に変換)、およびDate_of_Birth属性の年の部分を使用して、顧客データのセット内にクラスタを作成します。この場合、Date_of_Birthは日付属性であるため、最初に文字列(ddMMyyyy書式を使用)に変換され、最後の4文字が年を表すとみなされます。

この場合、デフォルトのクラスタ・サイズ制限の500が使用され、クラスタではNullのクラスタ・キーの生成が許容されます。