Cluster

「Cluster」は、「Group and Merge」を除くすべてのマッチ・プロセッサのサブプロセッサです。マッチ構成の「Cluster」ステージの目的は、マッチ処理でレコード間の不要な比較が実行されないようにクラスタリング・プロセスを構成することです。クラスタリングを使用しないと、各データ・ストリーム内の全レコードを他の全レコードと比較する必要があるため、データ・ストリームが小規模であってもマッチ・プロセスは非常に効率が悪くなります。

用途

クラスタは、共通のクラスタ・キーを使用して入力レコードをレコードのグループ(クラスタ・グループ)に分割するために使用し、そのグループ内ではレコードの比較が実行されます。

クラスタリングの詳細は、「クラスタリングの概念ガイド」を参照してください。

構成

クラスタの構成には、1つ以上の識別子と、それらの識別子の順序付けされた変換がオプションで含まれます。クラスタのクラスタ・キーが、該当の構成に基づいてレコードごとに生成され、そのクラスタ・キー別にレコードがグループ化されます。

1つのクラスタで複数の識別子が使用されている場合(複合クラスタ)、それらの識別子値(または変換された識別子値)は連結されて、各レコードのクラスタ・キーが形成されます。

クラスタに識別子を追加するには「Add Identifier」ボタンを使用し、各識別子に変換を追加するには「Add Transformation」ボタンを使用します。

識別子に有効に適用できる変換は、その識別子のデータ型(文字列、数値または日付)によって決まることに注意してください。識別子のデータ型は、いずれかの「Convert」変換(「Convert Date to String」など)を使用して変更できます。無効な変換を構成すると、その変換は赤で表示されます。次のスクリーンショットの例では「First N Characters」変換が無効です。これは、この変換は文字列値に対してのみ機能しますが、値が日付に変換されているためです。

この場合は、「Convert String to Date」変換を削除すると、「First N Characters」変換が有効になります。

追加オプション - デフォルトの上書き

クラスタを構成するときは、3つの追加オプションを使用できます。通常、これらのオプションはデフォルト値から変更する必要はありませんが、特定の場合には変更可能です。オプションは次のとおりです。

Cluster Group Limit

クラスタ・グループ制限は、1つのクラスタに含めることができるレコードの最大数です。デフォルトでは、クラスタ制限は500レコードです。

これを超えるレコードが1つのクラスタに含まれる場合は(たとえば、姓の最初の5文字による単純なクラスタリング構成を使用したとき、「SMITH」を含むレコードが500を超える場合)、実行される比較の数が多すぎるため、そのクラスタはマッチ処理で無視されます。このような場合、通常はクラスタリング構成がより厳密になるように変更して、より小さいグループを生成します。ただし、場合によっては、大きいクラスタが無視されないように、単純にサイズ制限を大きくすることもできます。

Cluster Comparison Limit

クラスタ比較制限は、当該クラスタを破棄する前にマッチ比較エンジンで実行できる比較の最大数です。デフォルトでは、クラスタ比較制限はnullに設定されています(つまり、制限はありません)。

クラスタで発生する比較の数は、クラスタ処理の開始前に計算できます。比較の数がクラスタ比較制限を超える場合、クラスタは処理の前に破棄され、そのクラスタに対する関係は生成されません。

Allow Nulls

「Allow Nulls」オプションを使用すると、すべてのレコードの構成済クラスタ・キーがNullの場合に、それらのレコードのクラスタを作成するかどうかを変更できます。

デフォルトでは、Nullのクラスタ・キーは許容され、グループが生成されます。

たとえば、クラスタが単純に「Email」属性の値全体である場合は、「Email」属性の値がNullの全レコードを相互に比較するかどうかを決定します。しない場合は、このオプションを「False」に設定します。

設定をデフォルト設定の「True」のままにすると、クラスタ・キーがNullのクラスタが生成されますが、クラスタ制限(前述)を超える数のレコードが含まれる場合が多いため、いずれにしてもマッチ処理では無視されます。

次の例では、「Surname」(姓)属性の最初の数文字(大文字に変換)、および「Date_of_Birth」(生年月日)属性の年の部分を使用して、顧客データのセット内にクラスタを作成します。この場合、「Date_of_Birth」は日付属性であるため、最初に文字列(ddMMyyyy書式を使用)に変換され、最後の4文字が年を表すとみなされます。

この場合、デフォルトのクラスタ・サイズ制限の500が使用され、クラスタではNullのクラスタ・キーの生成が許容されます。

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.