Contained Attributes Profiler |
「Contained Attributes Profiler」では、複数の属性があるレコードで、一方の属性値にもう一方の属性値が含まれることが多い属性のペアを検索します。しきい値オプションを使用して、一方の属性値にもう一方の属性値が含まれるレコードのパーセントに基づき、属性のペアに関連があるかどうかを決定します。
「Contained Attributes Profiler」は、関連がある属性、または関連があると考えられる属性を検索するために使用します。属性に強い関連性がある場合は、冗長な属性である可能性があります。
または、属性に関連があると考えられるが、その関係が壊れている場合、つまり、一方の列値は空白だが、もう一方の列値からは導出できる場合もあります。
包含属性の関連性を調べる属性。
オプション |
タイプ |
目的 |
デフォルト値 |
Contained attribute threshold % |
パーセント |
「Contains」を使用して2つの属性を照合し、2つの属性に関連があるとみなされて結果に表示されるために必要な値のマッチ率を制御します。 |
80% 値は50%から100%の間である必要があります。 |
Ignore case? |
Yes/No |
一方の属性値にもう一方の属性値が含まれるかどうかをチェックするときに、大/小文字を無視するかどうかを制御します。 |
Yes |
なし
なし
実行モード |
サポート |
バッチ |
Yes |
リアルタイム・モニタリング |
Yes |
リアルタイム応答 |
No |
「Contained Attributes Profiler」では、統計を作成するためにレコードのバッチが必要です。つまり、属性のペアに意味のある関係があることを検出するには、完了まで実行される必要があります。したがって、データ・セット全体が処理されるまで結果を使用できないため、このプロセッサはリアルタイム応答が必要なプロセスには適していません。
リアルタイム・データ・ソースからのトランザクションのバッチに対して実行した場合、「Reader」プロセッサで構成されたコミット・ポイント(トランザクションまたは時間制限)に到達すると処理が終了します。
「Contained Attributes Profiler」では、一方の属性値にもう一方の属性値が含まれることが多く、関連する値のパーセントが高い属性のペアについてサマリー・ビューが表示されます。最上位レベルのビューには、関連する属性の各ペアに関する次の統計が表示されます。
統計 |
意味 |
Contained |
関連する両方の属性の値が同じであるレコードの数。 |
Not contained |
関連する両方の属性の値が同じでないレコードの数。 |
追加データ
「Additional Data」ボタンをクリックすると、前述の統計が、分析対象レコードに対するパーセントとして表示されます。
属性のペアが完全にマッチしたレコードの数をドリルダウンすると、マッチした各値の出現頻度の明細が表示されます。再度ドリルダウンすると、レコードが表示されます。
あるいは、属性のペアが等しくないレコードの数をドリルダウンすると、レコードが直接表示されます。属性の間に関係があると考えられる場合、それらのレコードは関係が壊れています。
この例では、複数の属性の包含関係をチェックします。Eメール・アドレスには氏名が含まれることが多いため、「FirstName」(名)属性と「EmailAddress」(Eメール・アドレス)属性の間の関係を調べます。
サマリー・ビュー
「EmailAddress」属性に「FirstName」属性が含まれる「1829」レコードをドリルダウンすると、次のビューに、関係が検出されたレコードの各ペアがすべて表示されます。
関連するレコードのドリルダウン
Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.