ヘッダーをスキップ
Oracle Warehouse Builderユーザーズ・ガイド
11gリリース1(11.1)
E05734-03
  目次
目次
索引
索引

戻る
戻る
 
次へ
次へ
 

24 データ品質演算子

この項では、データ品質の実現に役立つマッピング演算子について説明します。エラーのあるデータのレポートを作成するのは時間とコストの無駄であるため、データ品質はBusiness Intelligenceの重要な要素です。エラーのない正確なレコードをターゲットにロードするには、マッピングにデータ品質演算子を使用します。

この項の内容は次のとおりです。

Match-Merge演算子について

レコードが重複すると、実際の顧客と仕入先が不明瞭になる可能性があります。重複したレコードの排除は、データ修正プロセスでの重要なアクティビティです。Match-Merge演算子を使用して一致するレコードを識別して単一のレコードにマージします。同じデータを参照する単一の表内のレコードを識別するためにMatch-Merge演算子により使用されるビジネス・ルールを定義できます。様々なシステムで動作するマスター・データ管理では、この演算子を使用して、レコードが作成されたことおよびそれらのレコードがマスター・レコードに一致することを確認します。

Match-Merge演算子をName and Address演算子と一緒に使用すると、ハウスホールディングを実行できます。ハウスホールディングとは、名前とアドレスのデータにおいて一意のハウスホールドを識別する処理です。

Match-Merge演算子を使用すると、次のことを実行できます。

一致の概念について

Warehouse Builderを使用してレコードを照合する際に、1つ以上の一致ルールを定義できます。複数の一致ルールを作成すると、Warehouse Builderでは2つの行がいずれかの一致ルールを満たしている場合に、両者が一致しているものと判別されます。つまり、Warehouse Builderでは複数の一致ルールがOR論理を使用して評価されます。

顧客データの照合およびマージの例

顧客のメーリング・リスト管理するためにMatch-Merge演算子を使用する方法について考えます。照合を使用して、10,000行ある顧客データの表内の同じ人物を参照するレコードを検出します。

たとえば、類似する名前および姓を持つレコードを選別する一致ルールを定義できます。照合を使用して、5つの行が同じ人物を参照していることが判明したとします。その場合、これらのレコードを1つの新規レコードにマージできます。たとえば、マージ・ルールを作成して、一致した5つのレコードの中で一番長いアドレスを持つレコードの値を保持できます。新しくマージされた表には、各顧客につき1つのレコードが含まれています。

表24-1に、Match-Merge演算子を使用する前の、同じ人物を参照している各レコードを示します。

表24-1 サンプル・レコード

SSN アドレス 単位 Zip

1

Jane

Doe

NULL

123 Main Street

NULL

22222

2

Jane

Doe

987-65-4325

NULL

NULL

22222

3

J.

Doe

NULL

123 Main Street

Apt 4

22222

4

NULL

Smith

987-65-4325

123 Main Street

Apt 4

22222

5

Jane

Smith-Doe

987-65-4325

NULL

NULL

22222


表に、Match-Merge演算子を使用した後のJane Doeに関する単一レコードを示します。新規レコードでは、サンプルの様々な行からデータが取得されていることがわかります。

SSN アドレス 単位 Zip

Jane

Doe

987-65-4325

123 Main Street

Apt 4

22222


複数の一致ルールの例

次の例は、Warehouse BuilderでOR論理を使用して複数の一致ルールがどのように評価されるかを示しています。

「一致ルール」タブの最上部で、表で説明した2つの一致ルールを作成します。

名前 位置 ルール・タイプ 使用方法 説明

Rule_1

1

条件付き

アクティブ

SSNの一致

Rule _2

2

条件付き

アクティブ

姓とPHNの一致


タブの下部で、表で説明するようにRule__1に詳細を割り当てます。

属性 位置 アルゴリズム 類似度のスコア 空白の一致

SSN

1

Exact

0

いずれかが空白の場合は一致しない


Rule_2について、表に示す詳細を割り当てます。

属性 位置 アルゴリズム 類似度のスコア 空白の一致

1

Exact

0

いずれかが空白の場合は一致しない

PHN

2

Exact

0

いずれかが空白の場合は一致しない


表に示すデータがあるとします。

PHN SSN

A

John

Doe

650-555-0111

NULL

B

Jonathan

Doe

650-555-0111

987-65-4328

C

John

Dough

650-555-0111

987-65-4328


Rule_1に従って、行BおよびCは一致します。Rule_2に従って行AおよびBは一致します。したがって、Warehouse Builderでは一致ルールがOR論理を使用して処理されるため、3つのレコードはすべて一致することになります。

推移的一致の例

一般ルールでは、AがBと一致し、BがCと一致する場合、AはCと一致することになります。表24-7で説明するような類似性に基づいて、条件付き一致ルールを割り当てます。

表24-7 条件付き一致ルール

属性 位置 アルゴリズム 類似度のスコア 空白の一致

1

類似度

80

いずれかが空白の場合は一致しない


表24-8に示すデータがあるとします。

表24-8 サンプル・データ

PHN SSN

A

John

Jones

650-555-0110

NULL

B

Jonathan

James

650-555-0110

987-65-4326

C

John

Jamos

650-555-0110

987-65-4326


JonesはJamesと類似度80で一致し、JamesはJamosと類似度80で一致します。Jonesは、類似度が60でしきい値の80より低いため、Jamosとは一致しません。ただし、JonesはJamesと一致し、JamesはJamosと一致するため、3つのレコード(Jones、JamesおよびJamos)はすべて一致することになります。

Match-Merge演算子の使用上の制約

  • Match-Merge演算子ではSQL入力のみが受け入れられるため、Name and Address演算子の出力をMatch-Merge演算子に直接マッピングできません。ステージング表を使用する必要があります。

  • Match-MergeではPL/SQLのみが生成されるため、Match-Merge演算子のMergeまたはXREF出力グループを、ソート演算子または他のMatch-Merge演算子などのSQLのみの演算子に直接マッピングできません。

照合およびマージ・プロセスの概要

照合により、同じ論理データを参照するレコードが判別されます。Warehouse Builderでは、レコードを比較するための様々な一致ルールが提供されます。一致ルールの範囲は、完全一致から、共通のデータ入力エラーを検出して修正できる高度なアルゴリズムまでおよびます。

マージは、一致した複数のレコードを単一レコードに一元化します。単一レコードには、重複レコード、漏れ、スペルの間違いおよび不要なばらつきはありません。マージ・ルールを定義して、一元化されたレコードで使用する優先データ値を選択できます。

レコードの一致およびマージ要件

Warehouse Builderでは、照合およびマージ・プロセスで次が使用されます。

一致bin

一致binは、類似するレコードのためのコンテナで、潜在的な一致を識別するために使用されます。一致bin属性は、レコードが一致bin内に分類される方法を判別するために使用されます。照合の実行中は、同じ一致bin内のレコードのみが比較されます。一致binによりデータ・セット内の潜在的な一致の数が制限されるので、一致アルゴリズムのパフォーマンスが向上します。

一致bin属性

照合を実行する前に、Warehouse Builderによりソース・レコードが分割され、より小規模な類似するレコードのグループになります。一致bin属性はソース属性で、レコードの分類方法の決定に使用されます。同じ一致bin属性を持つレコードは、同じ一致bin内に存在します。また一致bin属性により、管理可能なセットになるように一致binが制限されます。

次の競合するニーズを満たすように、慎重に一致bin属性を選択します。

  • 一致するすべてのレコードが必ず同じ一致bin内に存在するようにします。

  • 一致binサイズをできるかぎり小規模にします。

    小規模な一致binは、効率性を上げるために必要です。

一致レコードのセット

一致レコードのセットは、1つ以上の類似するレコードで構成されています。レコードの照合の後、各一致binに対して一致レコードのセットが作成されます。2つのレコードが類似する場合に判別する一致ルールを定義できます。

マージ済レコード

マージ済レコードには、一致レコードのセット内の複数のレコードを使用してマージされたデータが含まれています。各一致レコードのセットにより、独自のマージ済レコードが生成されます。

レコードの一致およびマージ・プロセス

Match-Merge演算子を使用してレコードの照合およびマージを行います。この演算子では、入力ソースからレコードを受け入れ、論理的に同一であるレコードを判別し、一致したレコードから新規のマージ済レコードを構成します。

図24-1に、一致およびマージ・プロセスの概要を示します。次のプロセスがあります。

図24-1 Match-Mergeプロセス

図24-1の説明が続きます
「図24-1 Match-Mergeプロセス」の説明

一致binの構成

一致binは、一致bin属性を使用して構成されています。一致bin属性値が同じレコードは、同じ一致binに存在します。小さな一致binの使用は効率的ではありません。

一致レコードのセットの構成

一致ルールは、各一致bin内のすべてのレコードに適用され、一致レコードのセットが1つ以上生成されます。一致ルールでは、2つのレコードが一致するかどうかが判別されます。一致ルールは、一致bin内のすべてのレコードを比較するn X nアルゴリズムです。

このアルゴリズムは推移的な照合という点で重要です。レコードA、レコードBおよびレコードCの3つのレコードについて考えてみます。レコードAがレコードBと等しく、レコードBがレコードCと等しい場合、レコードAはレコードCと等しいことを意味します。


関連項目:

一致ルールのタイプと作成方法の詳細は、「一致ルール」を参照してください。

マージ・レコードの構成

1つのマージ・レコードは、1つの照合レコード・セットから作成されます。固有のルールを作成し、マージ・ルールとして使用することで、マージ属性を定義できます


関連項目:

マージ・ルールのタイプの詳細は、「マージ・ルール」を参照してください。

一致ルール

一致ルールは、2つのレコードが論理的に同じかどうかの判別に使用されます。Warehouse Builderを使用すると、様々なタイプのルールを使用してソース・レコードを照合できます。Match-MergeウィザードまたはMatchMergeエディタを使用して一致ルールを定義できます。このエディタを使用して、既存の一致ルールを編集するか、新しいルールを追加します。

一致ルールは、アクティブまたは受動です。アクティブなルールが生成された場合、指定された順序で実行されます。受動ルールは生成されても実行されません。

表24-9に、一致ルールのタイプを説明します。

表24-9 一致ルールのタイプ

一致ルール 説明

すべて一致

一致bin内の行がすべて照合されます。

一致なし

照合がオフになります。一致bin内の行は照合されません。

条件付き

設定したアルゴリズムに基づいて行が照合されます。条件付き一致ルールの詳細および作成方法は、「条件付き一致ルール」を参照してください。

重み

属性に割り当てるスコアに基づいて行が照合されます。重み一致ルールの詳細および作成方法は、「重み一致ルール」を参照してください。

人名

人名に基づいてレコードが照合されます。人名一致ルールの詳細および作成方法は、「人名一致ルール」を参照してください。

会社

組織または会社の名前に基づいてレコードが照合されます。会社一致ルールの詳細および作成方法は、「会社一致ルール」を参照してください。

アドレス

郵便アドレスに基づいてレコードが照合されます。アドレス一致ルールの詳細および作成方法は、「アドレス一致ルール」を参照してください。

カスタム

定義するカスタム比較アルゴリズムに基づいてレコードが照合されます。カスタム一致ルールの詳細および作成方法は、「カスタム一致ルール」を参照してください。


条件付き一致ルール

条件付き一致ルールにより、レコードの一致条件が指定されます。

条件付き一致ルールを使用すると、複数の属性の比較を組み合せて1つの複合ルールにできます。2つ以上の属性が1つのルールに関与する場合、すべての比較がtrueの場合にのみ2つのレコードは一致するとみなされます。Warehouse Builderでは、2番目以降の条件の左端の列に「AND」アイコンが表示されます。

比較アルゴリズムを使用して属性を比較する方法を指定できます。

属性

特定の条件のテスト対象となる属性を識別します。任意の入力属性(INGRP1)から選択できます。

位置

実行順序。行ヘッダーをクリックし、その行を新規の位置にドラッグすると、ルールの位置を変更できます。行ヘッダーは、「属性」列の左側にあるボックスです。

アルゴリズム

一致の判別に使用できる方法のリスト。各アルゴリズムについては、表24-10を参照してください。

類似度のスコア

「Edit Distance」、「標準化されたEdit Distance」、「Jaro-Winkler」または「標準化したJaro-Winkler」アルゴリズムにより計算された、2つの文字列の一致に必要な類似度の最小値。0(ゼロ)から100の値を入力します。値100は完全一致を示し、値0(ゼロ)は類似度がないことを示します。

空白の一致

照合時の空の文字列の処理オプションを示します。

比較アルゴリズム

条件付き一致ルールの各属性に比較アルゴリズムを割り当て、属性値を比較する方法を指定します。複数の属性が、それぞれに選択した固有の比較アルゴリズムを持つ1つのルールで比較される場合があります。

表24-10に、比較のタイプを示します。

表24-10 条件付き一致ルールに対する比較アルゴリズムのタイプ

アルゴリズム 説明

Exact

属性の値が完全に同じ場合にその属性は一致します。たとえば、「Dog」と「dog!」は、2番目の文字列が大文字始まりでなく、余分な文字が含まれているため、両者は一致しません。

STRING以外のデータ型で、比較可能なタイプはこれのみです。

標準化されたExact

完全一致の比較前に、属性の値が標準化されます。標準化すると、比較時に大/小文字区別、空白および非英数字は無視されます。このアルゴリズムを使用すると「Dog」と「dog!」は一致となります。

Soundex

データがSoundex表示に変換された後、テキスト文字列と比較されます。Soundex表示が一致する場合、2つの属性値は一致するとみなされます。

Edit Distance

「類似度のスコア」に0から100を入力します。2つの属性の類似度が指定した値以上の場合、この属性値は一致するとみなされます。

類似度のアルゴリズムでは、2つの文字列のEdit Distanceが計算されます。値が100の場合、2つの値が同一であることを示し、値が0の場合はまったく類似していないことを示します。

たとえば、文字列「tootle」が文字列「tootles」と比較される場合、Edit Distanceは1です。文字列「tootles」の長さは7です。したがって、類似度の値は、(6/7)*100つまり85となります。

標準化されたEdit Distance

類似度のアルゴリズムを使用して一致が判別される前に、属性の値が標準化されます。標準化すると、比較時に大/小文字区別、空白および非英数字は無視されます。

不完全な名前

ある属性の値全体が、同じ単語で始まる他の属性内に含まれる場合、文字列の属性の値は一致するとみなされます。たとえば、「Midtown Power」は「Midtown Power and Light」とは一致しますが、「Northern Midtown Power」とは一致しません。比較時に大/小文字区別および非英数字は無視されます。

略称

ある文字列内で一致する単語の略称が、他の文字列に含まれている場合、文字列の属性の値は一致するとみなされます。このアルゴリズムでは、略称の検出前に、標準化されたExact比較が文字列全体で実行されます。比較時に大/小文字区別および非英数字は無視されます。一致ルールでは、各単語に対して略称が検索されます。比較対象となる長い方の単語に、短い方の単語の文字がすべて含まれる場合、また、その文字が短い方の単語と出現順序が同じ場合、その単語は一致するとみなされます。

たとえば、「Intl. Business Products」は「International Bus Prd」と一致します。

頭文字

ある文字列が他の文字列の頭字語の場合、文字列の属性の値は一致するとみなされます。このアルゴリズムでは、頭字語を識別する前に、標準化されたExact比較が文字列全体で実行されます。一致しない場合は、ある文字列の各単語が、他の文字列内で一致する単語と比較されます。単語全体で一致しない場合、その文字列に含まれる単語の各文字が、他の文字列内の一致していない単語の最初の文字と比較されます。その文字が同じ場合、その名前は一致するとみなされます。

たとえば、「Chase Manhattan Bank NA」は「CMB North America」と一致します。比較時に大/小文字区別および非英数字は無視されます。

Jaro-Wrinkler

「Edit Distance」アルゴリズムをさらに改良した比較システムを使用して、類似度の値に基づいて文字列を一致させます。文字列の長さが考慮され、先頭にあるエラーほど大きなペナルティが適用されます。また、一般的な誤植も認識されます。

その文字列は、類似度が指定する「類似度のスコア」のスコア以上の場合に一致します。類似度が100の場合、2つの文字列が同一であることを示します。類似度が0の場合は、まったく類似していないことを示します。実際にアルゴリズムにより計算された値(0.0から1.0)を100倍するとEdit Distanceスコアと対応することに注意してください。

標準化したJaro-Wrinkler

大/小文字区別、空白および非英数字が排除されてから、「Jaro-Winkler」アルゴリズムを使用して一致が判別されます。

Double Metaphone

「Soundex」アルゴリズムをさらに改良したコーディング・システムを使用して、発音の類似する文字列を一致させます。複数の方法で発音可能な文字列に対して2つのコードを生成します。最初のコードが2つの文字列と一致しているか、2番目のコードが2つの文字列と一致している場合、その文字列は一致しています。「Double Metaphone」アルゴリズムでは他に、イタリア語、スペイン語、フランス語、ゲルマンおよびスラブ系言語の発音が考慮されています。「Soundex」アルゴリズムとは異なり、「Double Metaphone」アルゴリズムは最初の文字をエンコードするため、「Kathy」と「Cathy」は同じ表音コードとして評価されます。


条件付き一致ルールの作成

条件付き一致ルールを定義する手順は、次のとおりです。

  1. 「一致ルール」タブまたは一致ルール・ページの最上位で、「ルール・タイプ」列の「条件付き」を選択します。

    「詳細」セクションが表示されます。

  2. 「追加」をクリックして新規の1行を追加します。

  3. 「属性」列の属性を選択します。

  4. 「アルゴリズム」列で、比較アルゴリズムを選択します。説明は、表24-10を参照してください。

  5. 「Edit Distance」、「標準化されたEdit Distance」、「Jaro-Winkler」または「標準化したJaro-Winkler」アルゴリズムの類似度のスコアを指定します。

  6. 空白の処理方法を選択します。

重み一致ルール

重み付けされた一致ルールにより、ルールに含まれる各属性に整数の重みを割り当てることができます。また、しきい値を指定する必要があります。各属性について、Match-Merge演算子により、その重みに類似度のスコアが乗算されてスコアの合計が計算されます。その合計がしきい値以上である場合、比較している2つのレコードは一致するとみなされます。

重み一致ルールは、多数の属性を比較する必要がある場合に非常に便利で、条件付きルールでは、1つの属性が異なっても不一致が発生する可能性はありませんが、条件付きルールでは発生する可能性があります。

重みルールは、暗黙的に類似度のアルゴリズムを呼び出し、2つの属性値を比較します。このアルゴリズムでは整数、および割合の値を0から100の間の値を戻します。割合の値は、2つの値の類似度を表します。値が100の場合、2つの値が同一であることを示し、値が0の場合はまったく類似していないことを示します。

類似度アルゴリズム

一致の判別に使用する方法。次のアルゴリズムから選択します。

  • Edit Distance: ある文字列から別の文字列への変換に必要な削除、挿入または置換の数が計算されます。

  • Jaro-Winkler: 「Edit Distance」アルゴリズムよりも改善された比較システムが使用されます。文字列の長さが考慮され、先頭にあるエラーほど大きなペナルティが適用されます。また、一般的な誤植も認識されます。

属性

特定の条件のテスト対象となる属性を識別します。任意の入力属性(INGRP1)から選択できます。

最大スコア

属性の重み値。「一致のための必須スコア」よりも大きい値を指定する必要があります。

空白の場合にスコア

レコードの1つが空の場合の類似度の値。

一致のための必須スコア

一致に必要な類似度を表す値。値100は2つの値が同一であることを示し、値0(ゼロ)は類似性がないことを示します。

重み一致ルールの例

表24-11は、2つの異なるレコードに含まれる属性値を示しており、レコードは次の順序で読み込まれます。

表24-11 重み一致ルールの例

レコード番号 ミドル・ネーム

レコード1

Robert

Steve

Paul

レコード2


Steven

Paul


一致ルールを「Edit Distance」類似度のアルゴリズムを使用するように定義します。「一致のための必須スコア」は120です。名およびモジュール名の属性には、「最大スコア」を50、「空白の場合にスコア」を20と定義します。姓の属性は、「最大スコア」は80、「空白の場合にスコア」は0です。

重み一致ルールを使用したレコード1とレコード2の比較の例を考えてみます。

  • レコード2の名は空白のため、空白のスコア = 20です。

  • 2つのレコードのミドル・ネームの類似度は0.83です。この属性に割り当てられた重みは50であるため、この属性の類似度のスコアは43です(0.83 X 50)。

  • 属性の姓は同一であるため、姓の類似度のスコアは1です。重み付けスコアは80です(1 X 80)。

この比較の合計スコアは143です(20+43+80)。この値は「一致のための必須スコア」に定義した値よりも大きいため、このレコードは一致するとみなされます。

重み一致ルールの作成

重み一致ルールを使用する手順は、次のとおりです。

  1. 「一致ルール」タブまたは一致ルール・ページで、「ルール・タイプ」として「重み」を選択します。

    ページの最下部に「詳細」タブが表示されます。

  2. ページの最下部にある「追加」を選択して新規の1行を追加します。

  3. 各行について、「属性」列を使用して属性を選択し、ルールに追加します。

  4. 「最大スコア」で、各属性に重みを割り当てます。Warehouse Builderでは、各属性が類似度のアルゴリズムを使用して比較されます。このアルゴリズムは、2つの行の類似度を表す0から100までのスコアを戻します。

  5. 「空白の場合にスコア」で、レコードのいずれかの属性が空白の場合に使用する値を割り当てます。

  6. 「一致のための必須スコア」で、一致全体のスコアを割り当てます。

    2つの行が一致すると考えられる場合、合計数は「一致のための必須スコア」パラメータで指定した値より大きいはずです。

人名一致ルール

組込み人名ルールは、個々の名前を照合する容易で便利な方法です。人名一致ルールは、最初にName and Address演算子を使用してデータが修正された場合に最も効果的です。

人名一致ルールを使用する場合、レコード内で、人名を表すデータを指定する必要があります。データは複数の列から取得できます。各列には、データが何を表すかを指定する「入力」ロールを割り当てる必要があります。

人名一致ルールを定義するには、ルールの一部である「人名属性」を定義する必要があります。たとえば、「人名属性」の名と姓を比較に使用する人名一致ルールを作成できます。各「人名属性」について、その属性に使用する人名ロールを定義する必要があります。次に、比較に使用するルール・オプションを定義します。たとえば、姓を比較する場合に、ハイフンで連結された姓は一致するとみなすように指定することもできます。

人名ロール

表24-12は、照合に使用する名前の各部分のロールを示しています。一致ルール・ページまたは「一致ルール」タブで、「人名属性」タブの「ロール」列を使用して人名詳細を定義します。

表24-12 人名一致ルールの名前ロール

ロール 説明

プリネーム

プリネームは、次の条件に当てはまる場合にのみ比較されます。

  • 姓および(ある場合は)ミドル・ネーム(Middle_name_std、Middle_name_2_stdおよびMiddle_name_3_stdロール)が両方のレコードで一致しています。

  • 「"Mrs"の一致」オプションが選択されています。

  • いずれかのレコードにFirst_name_stdはありません。

標準化された名前

名を比較します。デフォルトでは、名は完全に一致するはずですが、他の比較オプションも指定できます。

両方が空白の場合、名は一致します。「プリネーム」ロールが割り当てられていなかったり、「"Mrs"の一致」オプションが設定されないかぎり、空白の名は空白以外の名とは一致しません。「姓」ロールが割り当てられていない場合、First_name_stdのロールを割り当てる必要があります。

標準化されたミドル・ネーム、標準化されたミドル・ネーム2、標準化されたミドル・ネーム3

ミドル・ネームを比較します。デフォルトでは、ミドル・ネームは完全に一致するはずですが、他の比較オプションも指定できます。複数の「ミドル・ネーム」ロールが割り当てられている場合、異なるロールに割り当てられた属性はクロス比較されます。

たとえば、Middle_name_stdの値は、「Middle_name_2_std」ロールも割り当てられている場合、他のMiddle_name_std値に対してだけでなく、Middle_name_2_stdに対しても比較されます。いずれかまたは両方が空白の場合、ミドル・ネームは一致します。いずれかの「ミドル・ネーム」ロールが割り当てられている場合、「First_name_std」ロールも割り当てられている必要があります。

姓を比較します。デフォルトでは、姓は完全に一致するはずですが、他の比較オプションも指定できます。両方が空白の場合、姓は一致しますが、いずれか一方が空白の場合は一致しません。

ポストネーム

「Jr.」や「III」などのポストネームを比較します。値が完全に同一である場合またはいずれかの値が空白の場合に、ポストネームは一致します。


人名詳細

表24-13は、人名一致ルールの一致を判別するオプションを示しています。「一致ルール」タブまたは一致ルール・ページの「詳細」タブを使用して人名詳細を定義します。

表24-13 人名一致ルールのオプション

オプション 説明

姓名の順序の変更を検出

「Elmer Fudd」を「Fudd Elmer」と一致させるなど、姓名の順序の変更が検出されます。このオプションを選択できるのは、「人名属性」タブで属性に「名」および「姓」ロールを選択した場合です。

イニシャルの一致

「R.」と「Robert」など、イニシャルを名前と一致させます。このオプションは、「名」および「ミドル・ネーム」ロール用に選択できます。

部分文字列の一致

「Rob」と「Robert」など、部分文字列を名前と一致させます。このオプションは、「名」および「ミドル・ネーム」ロール用に選択できます。

類似度のスコア

類似度がスコア以上の場合、レコードは一致するとみなされます。たとえば、スコアが80以下の場合、「Susan」と「Susen」は一致となります。

「Edit Distance」または「Jaro-Winkler」アルゴリズムにより計算された類似度のスコアを使用して、一致が判別されます。値100を入力すると完全一致が要求され、値0(ゼロ)を入力すると類似度は要求されません。

表音コードの一致

「Soundex」または「Double Metaphone」アルゴリズムを使用して一致を判別します。

複合名の検出

「De Anne」と「Deanne」など、複合名と名前を一致させます。このオプションは、「名」ロール用に選択できます。

"Mrs"の一致

「Mrs. Washington」と「George Washington」など、プリネームと姓名を一致させます。このオプションは「プリネーム」ロール用に選択できます。

ハイフンで連結された一致名

「Reese-Jones」と「Reese」など、ハイフンで連結された名前とハイフンなしの名前を一致させます。このオプションは「姓」ロール用に選択できます。

欠落したハイフンの検出

演算子では、「Hillary Rodham Clinton」と「Hillary Rodham-Clinton」を一致させるなど、欠落したハイフンが検出されます。このオプションは「姓」ロール用に選択できます。


人名一致ルールの作成

人名一致ルールを定義する手順は、次のとおりです。

  1. 「一致ルール」タブで、「ルール・タイプ」として「人名」を選択します。

    ページの下部に「人名属性」タブと「詳細」タブが表示されます。

  2. 「人名属性」タブの左パネルでフルネームを記述する属性を選択し、右矢印を使用して「名前ロール」セクションに移動します。

  3. 各属性について、名前ごとにロールを選択します。

    一致ルールに対して「姓」または「標準化された名前」のいずれかを定義して、一致ルールを効率的なものにする必要があります。割当て可能なロールのタイプの詳細は、表24-12を参照してください。

  4. 「詳細」タブを選択し、表24-13に示す適用可能なオプションを選択します。

会社一致ルール

組込み会社ルールは、ビジネス名を照合する容易で便利な方法です。会社一致ルールは、データが、最初にName and Address演算子を使用してデータが修正された場合に最も効果的です。人名ルールと同様に、このルールでは、レコード内で、どのデータが会社の名前を表すかを設定する必要があります。データは複数の列から取得でき、指定した各列には、データが何を表すかを指定する「入力」ロールを割り当てる必要があります。

すべての属性に対して「会社」ロールを割り当てる必要はなく、また、すべてのロールを属性に割り当てる必要もありません。「会社」ロールに割り当てられた属性は、レコードを比較するために一致ルールで使用されます。割り当てたロールおよび設定した他の比較オプションに基づいて属性が比較されます。各ロールを会社一致ルールで処理する方法の一覧は、「会社ロール」を参照してください。

会社ロール

「会社」ロールでは、照合に使用される会社名の一部を定義します。「会社」ロールに対して選択できるオプションは、会社1または会社2です。属性を1つ選択する場合、会社名に対して、ロールとして会社1を選択します。属性を2つ選択する場合は、いずれか1つを会社1とし、残りを会社2と指定します。

  • 会社1: このロールを割り当てる場合、会社1が表すビジネス名が比較されます。「会社1と会社2のクロス一致」ボックスが選択されていないかぎり、会社1の名前は会社2の名前と比較されません。デフォルトでは、会社名は完全に一致するはずですが、他の比較オプションも指定できます。いずれかまたは両方の名前が空白の場合、会社1の名前は一致しません。

  • 会社2: このロールを割り当てる場合、会社2に割り当てられた属性の値が比較されます。「会社1と会社2のクロス一致」ボックスが選択されていないかぎり、会社2の名前は会社1の名前と比較されません。デフォルトでは、会社名は完全に一致するはずですが、他の比較オプションも指定できます。いずれかまたは両方の名前が空白の場合、会社2の名前は一致しません。「会社1」ロールが割り当てられていない場合、「会社2」ロールが割り当てられることはありません。

会社の詳細

表24-14に、一致を確認するために会社名の各コンポーネントに設定可能なルール・オプションを示します。

表24-14 会社ルールのオプション

オプション 説明

ストライプ・ノイズ・ワード

照合する前に会社1および会社2からTHE、AND、CORP、CORPORATION、CO、COMPANY、INC、INCORPORATED、LTD、TO、OFおよびBYを削除します。

会社1と会社2のクロス一致

照合する2つのレコードを比較する場合、会社1と会社1、および会社2と会社2のレコードをそれぞれ照合し、さらに会社1と会社2のレコードを照合します。

会社名の不完全一致

「不完全な名前」アルゴリズムを使用して、一致が判別されます。たとえば、Midtown PowerとMidtown Power and Lightは一致します。

略称の一致

「略称」アルゴリズムを使用して、一致が判別されます。たとえば、International Business MachinesとIBMは一致します。

頭文字の一致

「頭文字」アルゴリズムを使用して、一致が判別されます。たとえば、CMB, North AmericaとChase Manhattan Bank, NAは一致します。

類似度のスコア

「Edit Distance」または「Jaro-Winkler」アルゴリズムにより計算された類似度スコアを使用して、一致が判別されます。一致に必要な最小類似度として0(ゼロ)から100の値を入力します。値100を入力すると完全一致が要求され、値0(ゼロ)を入力すると類似度は要求されません。

類似度が類似度のスコアの値以上の場合、2つのレコードは一致とみなされます。


会社一致ルールの作成

会社一致ルールを定義する手順は、次のとおりです。

  1. 「一致ルール」タブまたは一致ルール・ページで、「ルール・タイプ」として「会社」を選択します。

    ページの下部に「会社属性」タブと「詳細」タブが表示されます。

  2. 「会社属性」タブの左パネルで、会社名を表す属性を1つまたは2つ選択して右シャトル・ボタンをクリックします。

    選択した属性が「会社ロール」ボックスに移動します。

  3. 属性ごとに「ロール」をクリックします。リストから第1の属性について「会社1」を選択し、存在する場合は第2の属性について「会社2」を選択します。

  4. 「詳細」タブで、使用可能なオプションを選択します。詳細は、「会社の詳細」を参照してください。

アドレス一致ルール

アドレス一致ルールは、郵便アドレスに基づいてレコードを照合する方法です。アドレス一致ルールは、データが、最初にName and Address演算子を使用して修正された場合に最も効果的です。

アドレス・ルールは、処理されているアドレスがName and Address演算子を使用して修正されたかどうかによって異なる働きをします。一般に、修正されたアドレスは、すでに郵便照合データベース内で識別されているため、そのアドレスのある国の郵政公社に準拠した既存のアドレスであり、構文的に正しく正当です。一致ルールはそれらの形式について一定の推測に基づいて処理するため、修正されたアドレスはより迅速に処理できます。

未修正のアドレスは、構文的に正しい場合もありますが、郵便照合データベースでは検出できません。データベース内にないか、アドレスのある国に郵便照合データベースがインストールされていないため、検出されない場合があります。アドレス一致ルールでは、「検出済」ロールに基づいて修正されたアドレスかどうかが判別されます。「検出済」ロールが割り当てられていない場合、一致ルールは、修正されたアドレスと未修正のアドレスの両方に対して比較を実行します。

アドレス一致ルールを作成するには、「アドレス」ロールを様々な属性に割り当てます。「アドレス」ロールに割り当てられた属性は、レコードを比較するために一致ルールで使用されます。属性は、属性が割り当てられたロールおよび他の比較オプションの設定に基づいて比較されます。

アドレス・ロール

表24-15は、アドレスの各部分に対して選択できる「アドレス」ロールを示しています。

表24-15 アドレス・ロール

ロール 説明

第1アドレス

第1アドレスが比較されます。第1アドレスは、番地(100 Main Street)、または私書箱(PO Box 100)などです。デフォルトでは、第1アドレスは完全に一致するはずですが、類似度のオプションも指定できます。

「第1アドレス」ロールを割り当てる必要があります。

区画番号

第1アドレスが一致した場合に、区画番号(部屋番号、階、棟番号など)が比較されます。「空白の第2アドレスの一致」オプションが設定されていないかぎり、いずれか一方のみでなく、両方が空白の場合に区画番号は一致します。「異なる第2アドレスの許可」が設定されている場合は、区画番号は無視されます。

私書箱

私書箱が比較されます。第1アドレスが私書箱(PO Box 100)を表す場合、私書箱は、私書箱の数字部分(100)のみで、第1アドレスのサブセットです。第1アドレスが番地を表す場合、私書箱は空白になります。

二重第1アドレス

二重第1アドレスは他のレコードの二重第1アドレスおよび第1アドレスと比較され、一致が判別されます。

二重区画番号

二重区画番号アドレスは、他のレコードの二重区画番号および区画番号と比較されます。一方または両方が空白の場合、この区画番号は一致します。「二重区画番号」ロールを割り当てるには、「二重第1アドレス」ロールも割り当てられている必要があります。

二重私書箱

あるレコードの二重私書箱アドレスは、他のレコードの二重私書箱および私書箱と比較されます。「二重私書箱」ロールを割り当てるには、「二重第1アドレス」ロールも割り当てられている必要があります。

市区町村

未修正のアドレスの場合、市区町村が比較されます。修正されたアドレスの場合、郵便番号が一致していない場合にのみ市区町村が比較されます。「市区町村」ロールと「都道府県」ロールの両方が一致している場合は、第1アドレスなどの「アドレス行」ロールが比較されます。

デフォルトでは、市区町村は完全に一致するはずです。ただし、最終行の類似度のオプションを指定することもできます。両方が空白の場合、市区町村は一致しますが、いずれか一方が空白の場合は一致しません。「市区町村」ロールが割り当てられている場合、「都道府県」ロールも割り当てられている必要があります。

都道府県

このロールを割り当てるのは、「市区町村」ロールも割り当てる場合のみです。

未修正のアドレスの場合、都道府県が比較されます。修正されたアドレスの場合、郵便番号が一致していない場合にのみ都道府県が比較されます。「市区町村」ロールと「都道府県」ロールの両方が一致している場合は、第1アドレスなどの「アドレス行」ロールが比較されます。デフォルトでは、都道府県は完全に一致するはずです。ただし、最終行の類似度のオプションを指定することもできます。両方が空白の場合、都道府県は一致しますが、いずれか一方が空白の場合は一致しません。「都道府県」ロールが割り当てられている場合、「市区町村」ロールも割り当てられている必要があります。

郵便番号

未修正のアドレス・データの場合、演算子では「郵便番号」は使用されません。

修正されたアドレスの場合、郵便番号が比較されます。未修正のアドレスの場合、「郵便番号」ロールは使用されません。照合するには、郵便番号は完全に同一であるはずです。一方または両方が空白の場合、郵便番号は一致するとみなされます。郵便番号が一致する場合、第1アドレスなどの「アドレス行」ロールが比較されます。郵便番号が一致しない場合、「市区町村」ロールおよび「都道府県」ロールが比較されて、「アドレス行」ロールを比較する必要があるかどうかが判別されます。

検出済

「Is_found_flag」属性は比較されませんが、そのかわりにこの属性を使用して、アドレスが郵便照合データベース内で検出されたかどうかを判別します。したがって、そのアドレスがある国の郵政公社に従った正当なアドレスです。この判別が重要なのは、照合時に行われた比較のタイプは、そのアドレスが郵便データベースで検出されたかどうかによって異なるからです。


アドレスの詳細

表24-16は、アドレス・ルールを使用した場合の一致を判別するオプションを示します。

表24-16 アドレス・ロールのオプション

オプション 説明

異なる第2アドレスの許可

区画番号がNULL値でなく、異なる場合にアドレスの一致を許可します。

空白の第2アドレスの一致

一方の区画番号がNULL値の場合でもアドレスの一致を許可します。

番地または私書箱の一致

番地または私書箱が一致する場合にレコードが一致します。

アドレス行の類似度

アドレス行の類似度>=スコアの場合に一致します。すべての空白および非英数字文字が削除されてから類似度が計算されます。

最終行の類似度

最終行の類似度>=スコアの場合に一致します。最終行は市区町村および都道府県で構成されています。すべての空白および非英数字文字が削除されてから類似度が計算されます。


アドレス一致ルールの作成

アドレス一致ルールを定義する手順は、次のとおりです。

  1. 「一致ルール」タブまたは一致ルール・ページで、「ルール・タイプ」として「アドレス」を選択します。

    ページの下部に「アドレス属性」タブと「詳細」タブが表示されます。

  2. 「アドレス属性」タブの左パネルで、第1アドレスを表す属性を選択します。右シャトル・キーを使用して、選択した属性をアドレス・ロール属性の列に移動します。

  3. 「ロールが必要です」をクリックし、その属性を第1アドレスとして指定します。

    第1アドレスとして属性を1つ指定する必要があります。「第1アドレス」ロールを割り当てない場合、一致ルールは無効です。

  4. 他の属性を追加し、そのロールを必要に応じて指定します。割当て可能なロールのタイプは、表24-15を参照してください。

  5. 「詳細」タブを選択し、表24-16に示す適用可能なオプションを選択します。

カスタム一致ルール

カスタム一致ルールを使用すると、独自の比較アルゴリズムを記述してレコードを照合できます。入力属性を使用したり、この比較内のファンクションを照合できます。アクティブなカスタム・ルールを使用して受動ルールの実行を制御できます。

次の3つの受動組込みルールがあります。

  • NAME_MATCH: 組込み名前ルール

  • ADDRESS_MATCH: 組込みアドレス・ルール

  • TN_MATCH: 組込み条件付きルール

カスタム・ルールを作成して、これらの2つのルールを満たす場合に2つのレコードが一致するとみなされるように指定できます。例24–1は、この例を実装するカスタム一致ルールの作成に使用されるPL/SQLコードを示しています。

例24-1 既存の受動ルールを使用したカスタム・ルールの作成

BEGIN
   RETURN(
       (NAME_MATCH(THIS_,THAT_) AND ADDRESS_MATCH(THIS_,THAT_))
     OR
       (NAME_MATCH(THIS_,THAT_) AND TN_MATCH(THIS_,THAT_))
     OR
       (ADDRESS_MATCH(THIS_,THAT_) AND TN_MATCH(THIS_,THAT_))
         );
END;

カスタム一致ルールの作成

カスタム一致ルールを定義する手順は、次のとおりです。

  1. 「一致ルール」タブまたは一致ルール・ページで、「ルール・タイプ」として「カスタム」を選択します。

    ページの下部に、PL/SQLプログラムのスケルトンとともに「詳細」フィールドが表示されます。

  2. 「編集」をクリックしてカスタム一致ルール・エディタを開きます。

    エディタの使用に関する詳細は、「ヘルプ」メニューから「ヘルプ・トピック」を選択してください。

  3. PL/SQLコードを入力するには、次の任意の手順を組み合せて使用します。

    • ファイルを読み取るには、「コード」メニューから「ファイルを開く」を選択します。

    • テキストを入力するには、マウスまたは矢印キーを使用してカーソルを置いてから入力を開始します。「編集」メニューと「検索」メニューのコマンドを使用することもできます。

    • ナビゲーション・ツリーでファンクション、パラメータまたは変換を参照するには、カーソルを置いてからオブジェクトをダブルクリックするか、「実装」フィールドにドラッグ・アンド・ドロップします。

  4. コードを検証するには、「テスト」メニューから「検証」を選択します。

    検証結果が「メッセージ」タブに表示されます。

  5. コードを保存するには、「コード」メニューから「保存」を選択します。

  6. カスタム一致ルール・エディタを閉じるには、「コード」メニューから「閉じる」を選択します。

マージ・ルール

一致は、論理的に同じレコードのセットを生成します。マージは、一致する一連のレコードから1つのレコードを作成するプロセスです。マージ・ルールは、一致するレコードのセットの属性に適用され、マージ済レコードの属性の単一の値を取得されます。

マージ済レコードの全属性に対してルールを1つ定義する方法と、属性ごとにルールを定義する方法があります。たとえば、マージ済レコードが顧客レコードの場合は、ADDRESS1、ADDRESS2、CITY、STATEおよびZIPなどの属性を持っている可能性があります。各属性の値を最大5つの異なるレコードから選択する5つのルールを記述するか、5つの属性の値をすべて1つのレコードから選択するレコード・ルールを1つ記述できます。レコード・ルールを使用するのは、複数の属性が住所などの論理単位を構成している場合です。たとえば、「市区町村」、「都道府県」および「郵便番号」は3つの異なる属性ですが、これらの属性のデータはすべて同じレコードから取り込まれます。

表に、マージ・ルールのタイプを示します。

マージ・ルール 説明

すべて

空白以外の最初の値が使用されます。

一致ID

他のMatch-Merge演算子を使用して出力済のレコードをマージします。

ランク

一致セットのレコードをランク付けします。最上位にランク付けされたレコードの関連する属性は、マージ属性値の生成に使用されます。

順序

このルールにデータベースの順序を指定します。値には、この順序での次の値が使用されます。

最小/最大

属性およびリレーションを指定して、マージ属性のソースとして使用するレコードを選択します。

コピー

以前にマージした値とは異なる値を選択します。

カスタム

PL/SQLパッケージ・ファンクションを作成して、マージ値を選択します。その演算子によって、このファンクションのシグネチャが提供されます。ユーザーは、BEGINとENDの間にルールを実装する必要があります。一致したレコードおよびマージ・レコードはこのファンクションのパラメータです。

任意のレコード

「すべて」ルールと同じですが、「任意のレコード」ルールは複数の属性に適用されます。

レコードのランク

「ランク」ルールと同じですが、「レコードのランク」ルールは複数の属性に適用されます。

最小/最大レコード

「最小/最大」ルールと同じですが、「最小/最大レコード」ルールは複数の属性に適用されます。

カスタム・レコード

「カスタム」ルールと同じですが、「カスタム・レコード」ルールは複数の属性に適用されます。


「一致ID」マージ・ルール

「一致ID」マージ・ルールを使用して、別のMatch-Merge演算子からのXREFグループ内で出力済のレコードをマージします。このタイプの入力には、他の演算子は無効です。詳細は、「2つのMatch-Merge演算子の使用」を参照してください。

順序の次の値

ルールで使用される順序を識別します。

「順序」リスト

現行のプロジェクトで定義済の順序がすべて表示されます。

順序の選択

ルールの順序を、リストで現在選択されている順序に設定します。「順序」リストから「順序の選択」に順序を移動します。

「ランク」および「レコードのランク」マージ・ルール

「ランク」および「レコードのランク」ルールを使用するのは、複数のソースからデータをマージする場合です。この2つのルールを使用すると、特定のソースのプリファレンスを識別できます。データには、ルールの基礎となる第2入力属性が必要です。

たとえば、第2属性でデータ・ソースを識別し、これらのデータ・ソースを信頼度順にランク付けするとします。最も信頼度の高い値がマージ済レコードで使用されます。このマージ・ルールは次のようになります。

INGRP1.SOURCE = 'Order Entry'

名前

ルールの任意名。Warehouse Builderでは、ランク・マージ・ルールごとにRULE_0などのデフォルト名が作成されます。これらの名前は意味のある名前で置き換えることができます。

位置

実行順序。行ヘッダーをクリックし、その行を新規の位置にドラッグすると、ルールの位置を変更できます。行ヘッダーは、「名前」列の左側にあるボックスです。

式のレコードの選択

ランキングに使用されるカスタムSQL式。省略記号ボタンをクリックすると、「ランク・ルール・エディタ」(「式ビルダー」ユーザー・インタフェース)が表示されます。このエディタを使用してランキング式を作成します。

「順序」マージ・ルール

「順序」ルールでは、順序の次の値が使用されます。

順序の次の値

ルールで使用される順序を識別します。

「順序」リスト

現行のプロジェクトで定義済の順序がすべて表示されます。

順序の選択

ルールの順序がリストで現在選択されている順序に設定されます。

「最小/最大」および「最小/最大レコード」マージ・ルール

「最小/最大」および「最小/最大レコード」ルールを使用して、レコード内の別の属性値のサイズに基づいて属性値を選択します。

たとえば、最大の「姓」値を含む各bin内のレコードから「名」値を選択できます。

属性の選択

すべての入力属性が表示されます。値で順序を指定する属性を選択します。

属性リレーション

選択した属性の値を選択するための特性を選択します。

  • 最小: 最小の数値または最も古い日付値が選択されます。

  • 最大: 最大の数値または最も新しい日付値が選択されます。

  • 最短: 最も短い文字値が選択されます。

  • 最長: 最も長い文字値が選択されます。

「コピー」マージ・ルール

「コピー」ルールでは、別のマージ済属性の値を使用します。

マージ済属性

マージ属性ページで選択した他のマージ済属性が表示されます。

「カスタム」および「カスタム・レコード」マージ・ルール

「カスタム」および「カスタム・レコード」ルールでは、レコードのマージ用に提供したPL/SQLコードが使用されます。次のコードに、レコード1のTAXID属性の値を戻す「カスタム」マージ・ルールの例を示します。

BEGIN
RETURN M_MATCHES(1)."TAXID";
END;

次のコードは、レコード1のレコードを戻す「カスタム・レコード」マージ・ルールの例です。

BEGIN
RETURN M_MATCHES(1);
END;

マージ・ルール詳細

カスタム・アルゴリズムを構成するPL/SQLコードが表示されます。このフィールドでコードを直接編集するか、カスタム・マージ・ルール・エディタを使用できます。

編集

カスタム・マージ・ルール・エディタが表示されます。

Name and Address演算子について

レコードの照合とマージを行った後、顧客と仕入先の情報をさらに検証し、追加のエラーや非一貫性を検出することができます。Warehouse Builderでは、名前とアドレスが解析され、このタイプのデータに固有の方法(よくあるニックネームや略称の照合など)が使用されます。名前とアドレスのクレンジング・ソフトウェアのサード・パーティ・ベンダーから提供されたデータ・ライブラリと入力データを比較できます。これにより、郵便配達区域や地理座標などの情報でレコードを改良できます。

名前とアドレスのデータをクレンジングするのは、正しい配達と郵便料金の削減のみが目的ではありません。データ分析の結果が重複したレコードや不完全な情報で歪曲されていなければ、結果の精度が高まることになります。

Warehouse Builderでは、Name and Address演算子を使用して、データに対して名前とアドレスのクレンジングを実行できます。Name and Address演算子は、名前とアドレス・クレンジング・ソフトウェアのサード・パーティ・ベンダーから提供されたデータ・ライブラリと入力データを比較して、名前とアドレスのソース・データにあるエラーや非一貫性を識別し、修正します。このデータ・ライブラリは、ベンダーから直接購入してください。


注意:

Name and Address演算子を使用するには、別途ライセンスが必要で、サード・パーティの名前とアドレスのクレンジング・ソフトウェアをインストールする必要があります。詳細は、Oracle Warehouse Builderインストレーションおよび管理ガイドを参照してください。

Name and Address演算子によって修正されるエラーや非一貫性には、アドレス形式の相違、略語の使用、スペルの間違い、古くなった情報、一貫性のないデータ、名前の順序変更などがあります。この演算子は、これらのエラーと非一貫性を次のように修正します。

また、Name and Address演算子を使用すると、アドレス修正と郵便照合がサポートされている国の郵便レポートを生成できます。郵便レポートによって、郵便割引を受けられる場合もあります。詳細は、「郵便レポートについて」を参照してください。

例: アドレス情報の修正

この例では、Name and Address演算子を使用するマッピングによってレコードを操作する方法を説明します。このマッピングでは、データ品質のエラーを処理する推奨方法を説明するためにスプリッタ演算子も使用しています。

入力例

この例では、ソース・データには表24-18に示すデータ行のある顧客表が含まれます。

表24-18 Name and Address演算子へのサンプル入力

アドレス列 アドレス・コンポーネント

名前

Joe Smith

番地

8500 Normandale Lake Suite 710

市区町村

Bloomington

郵便番号

55437


このデータにはニックネーム、姓、および郵送先アドレスの一部が含まれますが、顧客のフル・ネーム、完全な番地および州がありません。また、このデータには、トラック輸送の距離計算に使用できる、緯度や経度などの地理的な情報も含まれていません。

手順の例

この例のマッピングでは、Name and Address演算子を使用して名前とアドレスのレコードを整備した後に、スプリッタ演算子を使用して、レコードの解析が成功したかどうかに応じてレコードを別々のターゲットにロードします。この項では、このようなマッピングの設計に必要な一般的な手順を説明します。

サンプル・レコードを変更する手順は、次のとおりです。

  1. マッピング・エディタで、次の演算子をキャンバスに追加します。

    • レコードの抽出元のCUSTOMERS表。これはデータ・ソースです。このソースには、表24-18のデータが含まれています。

    • Name and Address演算子。この演算子をキャンバスに追加すると、Name and Addressウィザードが起動します。ウィザードの手順に従ってください。

    • スプリッタ演算子。この演算子の使用方法は、スプリッタ演算子を参照してください。

    • 解析に成功したレコード、解析エラーが発生したレコード、およびアドレスは解析されたが郵便照合ソフトウェアに存在しなかったレコードをロードする3つのターゲット演算子。

  2. CUSTOMERS表の属性をName and Address演算子のIngroupにマッピングします。Name and Address演算子のOutgroupの属性をスプリッタ演算子のIngroupにマッピングします。

    スプリッタ演算子の使用は必須ではありませんが、この演算子は、適切なレコードと問題が発生したレコードを分割する重要な機能を果します。

  3. スプリッタ演算子の各Outgroupの分割条件を定義し、Outgroupをターゲットにマッピングします。

図24-2に、この例で設計するマッピングを示します。データは、ソース表からName and Address演算子にマッピングされ、次にスプリッタ演算子にマッピングされます。スプリッタ演算子によって、解析に成功したレコードと、解析時にエラーが発生したレコードが分割されます。OUTGRP1の出力は、CUSTOMERS_GOODターゲットにマッピングされます。OUTGRP2の分割条件は、たとえば、Is ParsedフラグがFalseのレコードはNOT_PARSEDターゲットにロードされるように設定されます。この場合、OUTGRP2の「分割条件」はINGRP1.ISPARSED='F'と設定されます。REMAINING_RECORDSグループのレコードは、解析に成功していますが、そのアドレスは郵便照合ソフトウェア内で検出されません。これらのレコードは、PARSED_NOT_FOUNDターゲットにロードされます。

図24-2 Name and Address演算子とともにスプリッタ演算子を使用したマッピング

Name and Address演算子とともにスプリッタ演算子を使用したダイアグラム
「図24-2 Name and Address演算子とともにスプリッタ演算子を使用したマッピング」の説明

出力例

この例で設計したマッピングを実行すると、Name and Address演算子によって、ソース表にあるアドレス・データが標準化および修正され、完全なデータになります。この例では、ターゲット表に、表24-19に示すアドレス・データが含まれています。表24-18の入力レコードと比較してください。

表24-19 Name and Address演算子の出力サンプル

アドレス列 アドレス・コンポーネント

標準化された名前

JOSEPH

SMITH

第1アドレス

8500 NORMANDALE LAKE BLVD

第2アドレス

STE 710

市区町村

BLOOMINGTON

都道府県

MN

郵便番号

55437-3813

緯度

44.849194

経度

-093.356352

解析済

TrueまたはFalse。レコードが個々の要素に分割できるかどうかを示します。

適切な名前

TrueまたはFalse。名前が郵便データベースで見つかったかどうかを示します。

適切なアドレス

TrueまたはFalse。アドレスが郵便データベースで見つかったか、または解析に成功したかを示します。

検出済

TrueまたはFalse。アドレスが郵便データベースで見つかったかどうかを示します。

名前警告

TrueまたはFalse。名前の解析時に問題が発生したかどうかを示します。

番地警告

TrueまたはFalse。アドレスの解析時に問題が発生したかどうかを示します。

市区町村警告

TrueまたはFalse。市区町村名の解析時に問題が発生したかどうかを示します。


この例では、入力データが次のように変更されています。

  • Joe SmithがFirst_Name_Standardized(標準化された名前)とLast_Name(姓)の2列に分割されています。

  • JoeがJOSEPHに標準化され、SuiteがSTEに標準化されています。

  • Normandale LakeがNORMANDALE LAKE BLVDに修正されています。

  • 郵便番号の最初の部分である55437にZIP+4コードが追加され、55437-3813になっています。

  • 緯度および経度が追加されています。

  • レコードが様々な方法でテストされ、適切なレコードは、問題が発生したレコードとは別のターゲットにロードされます。

郵便レポートについて

割引が適用されるオートメーション郵便料金の郵便物の生成に使用されるアドレス一覧はすべて、郵便レポート認証ソフトウェアで照合される必要があります。認証は、サード・パーティ・ベンダーの名前とアドレスのソフトウェアおよびデータによって異なります。次のような認証があります。

  • 米国郵政公社: Coding Accuracy Support System(CASS)

  • カナダ郵便局: Software Evaluation and Recognition Program(SERP)

  • オーストラリア郵便局: Address Matching Approval System(AMAS)

米国郵政公社のCASS認定

Coding Accuracy Support System(CASS)は、米国郵政公社(USPS)と郵便業界の協力によって開発されました。このシステムは、郵便利用者にとって、アドレス照合ソフトウェアの品質を測定する共通プラットフォームとなり、特に、すべての郵便に適用される5桁の郵便番号、ZIP+4番号、配布ポイント・コードおよび配達ルート・コードの正確さを検証します。オートメーション料金の郵便物の生成に使用されるアドレス一覧はすべて、CASS認定ソフトウェアで照合される必要があります。

USPS要件を満たすには、郵便利用者はCASSレポートを原本のフォームでUSPSに送信する必要があります。

カナダ郵便局のSERP認定

カナダ郵便局は、ソフトウェア・パッケージを評価するSoftware Evaluation and Recognition Program(SERP)というテスト・プログラムを開発しました。このプログラムでは、カナダ郵便局の要件に対して、メーリング・リストを検証する機能、または検証して修正する機能が評価されます。SERP要件を満たす郵便プログラムは、カナダ郵便局のWebサイトにリストされています。

カナダのインセンティブ・レターメール、広告付きアドメールおよび刊行物メールを利用する顧客は、アドレス照合プログラムの要件を満たしている必要があります。顧客は、使用しているデータベースとカナダ郵便局のアドレス・データを比較することで、Statement of Accuracyを取得できます。

オーストラリア郵便局のAMAS認定

Address Matching Approval System(AMAS)は、アドレス指定の品質を向上させるためにオーストラリア郵便局によって開発されました。このシステムは、アドレス照合ソフトウェアの次の機能をテストおよび測定する基準を提供します。

  • 郵便アドレス・ファイル(PAF)に対するアドレスの照合および修正。

  • 各アドレス・レコードへの一意の配布ポイントID(DPID)の追加。これは、メールのバーコード化への手順の1つです。

AMASによって、企業は次の機能を持つアドレス照合ソフトウェアを開発できます。

  • バーコード作成用アドレスの準備。

  • 高品質なアドレス指定。

  • 郵便物の事前区分け申請による割引資格の適用。

事前区分けサービス料金は、利用者が、最新バージョンのPAFで有効な配布ポイントID(DPID)を持つAMAS承認ソフトウェアを使用していることが条件です。

郵便局で入手可能な事前区分け申請書を使用する場合は、郵便物が適切に準備されていることを宣言する必要があります。

入力ロールの説明

名前またはアドレスのクレンジングに対して選択する各属性について、ソース属性に格納されるデータのタイプを示す入力ロールを指定する必要があります。Warehouse Builderでは、データに対して最も適した入力ロールを選択できる定義済入力ロールのセットが用意されています。

たとえば、Employees表には、last_name列とcity列が含まれます。これらの列には、それぞれ「姓」と「市区町村」を選択できます。

表24-20に、Name and Address演算子の入力ロールを示します。

表24-20 Name and Address演算子の入力ロール

入力ロール 説明

パススルー

処理を必要としない属性。

名、ニックネームまたは名の略称。

ミドル・ネーム

ミドル・ネームまたはイニシャル。ミドル・ネームが1つのみの場合、または複数のミドル・ネームがある場合は最初のミドル・ネーム(Ethel May Roberta Louise Mertzの場合の「May」など)に使用します。

ミドル・ネーム2

第2のミドル・ネーム(Ethel May Roberta Louise Mertzの場合の「Roberta」など)。

ミドル・ネーム3

第3のミドル・ネーム(Ethel May Roberta Louise Mertzの場合の「Louise」など)。

姓。

最初の部分名

次のように人名の最初の部分。

  • プリネーム

  • ミドル・ネーム(複数可)

これらのコンポーネントが1つのソース列に含まれている場合に使用します。

最後の部分名

次のように人名の最後の部分。

  • ポストネーム

これらのコンポーネントがすべて1つのソース列に含まれている場合に使用します。

プリネーム

Ms.、Mr.またはDr.など、名前の前に付く敬称情報。

ポストネーム

Jr.やPh.D.など、名前の世代または他の敬称情報。

人名

次のような完全人名。

  • 最初の部分名(「プリネーム」、「名」および「ミドル・ネーム」で構成)

  • 最後の部分名(「姓」および「ポストネーム」で構成)

これらのコンポーネントがすべて1つのソース列に含まれている場合に使用します。

人名2

入力に複数の個人連絡先が含まれている場合に第2の人名を指定します。

人名3

入力に複数の個人連絡先が含まれている場合に第3の人名を指定します。

会社名

会社名または組織名。

第1アドレス

次のようなボックス、ルートまたは番地。

  • 番地名

  • 建物番号

  • SWやNなど、市区町村マップのグリッド方向。

  • Avenue、StreetまたはRoadなどの番地タイプ。

これには、区画名や区画番号は含まれません。

第2アドレス

次を含む番地の第2の部分。

  • 区画名

  • 区画番号

たとえば、第2アドレスがSuite 2100の場合、区画名はSTE(Suiteを標準化したもの)で区画番号は2100です。

アドレス

次を含む完全アドレス行。

  • 第1アドレス

  • 第2アドレス

これらのコンポーネントで1列が共有される場合に使用します。

アドレス2

汎用アドレス行。

地区

南アメリカとラテン・アメリカのアドレスに一般的な地区またはバリオ。

地方名

日本の市または島。

ローカリティ2

日本の区。

ローカリティ3

日本の町または村。

ローカリティ4

日本の字、部、地割または線。

市区町村

市区町村名。

都道府県

都道府県名。

郵便番号

アメリカのZIPコードやカナダの郵便番号などの郵便番号。

国名

国の正式名称。

国コード

ISO 3166-1993(E)の2文字または3文字の国コード。たとえば、アメリカはUSまたはUSA、カナダはCAまたはCANです。

最終行

次を含む最後のアドレス行。

  • 市区町村

  • 都道府県

  • 郵便番号

これらのコンポーネントがすべて1つのソース列に含まれている場合に使用します。

最終行2

日本語版アダプタの場合は、アドレスの最後に示される追加の行情報を指定します。

行1 -> 10

任意のタイプの名前、ビジネス、人名およびアドレスの自由形式テキストに使用します。これらのロールは、データの内容に関する情報をパーサーに提供しません。可能な場合は、用意されている個別の入力ロールを使用してください。


出力コンポーネントの説明

出力コンポーネントを使用して、Name and Address演算子によってクレンジングされたデータを格納する属性を定義します。「パススルー」の入力ロールを持つ属性は、自動的に出力コンポーネントとして表示されます。クレンジングされたデータを格納するために、追加の出力コンポーネントを定義できます。

出力コンポーネントのカテゴリ

出力コンポーネントは、次のカテゴリにグループ化されています。

  • パススルー

  • 名前

  • アドレス

  • 付加ベンダー

  • エラー・ステータス

  • 国固有

パススルー

パススルー」出力コンポーネントは、処理を必要としない属性に使用されます。「パススルー」入力ロールを作成すると、対応する「パススルー」出力コンポーネントが自動的に作成されます。「パススルー」出力コンポーネントは編集できませんが、対応する入力ロールは編集できます。

名前

表24-21では、「名前」出力コンポーネントについて説明します。この表に示すように、1つのレコードを処理するために多数のコンポーネントを複数回使用できます。たとえば、会社名が2回出現するレコードの場合、2つの出力属性を追加して両方を抽出できます。一方を「第1」インスタンス、他方を「第2」インスタンスとして割り当てます。

表24-21 「名前」出力コンポーネント

サブフォルダ 出力コンポーネント 説明

なし

プリネーム

名前の前に表示されるタイトルまたは敬称(Ms.またはDr.など)。

複数回使用できます。

なし

標準化された名前

名の標準バージョン(Tedの場合はTheodore、Jimの場合はJamesなど)。複数回使用できます。

なし

標準化されたミドル・ネーム

ミドル・ネームの標準バージョン(Tedの場合はTheodore、Jimの場合はJamesなど)。ミドル・ネームが1つのみの場合に使用するか、複数のミドル・ネームがある場合は最初の1つに使用します。複数回使用できます。

なし

標準化されたミドル・ネーム2

第2のミドル・ネームの標準バージョン(Tedの場合はTheodore、Jimの場合はJamesなど)。複数回使用できます。

なし

標準化されたミドル・ネーム3

第3のミドル・ネームの標準バージョン(Tedの場合はTheodore、Jimの場合はJamesなど)。複数回使用できます。

なし

ポストネーム

世代を示す名前の接尾辞(Sr.、Jr.、IIIなど)。複数回使用できます。

なし

その他のポストネーム

資格、学位、所属を示す名前の接尾辞(Ph.D.、M.D.、R.N.など)。

複数回使用できます。

なし

タイトル

人名のタイトル(マネージャなど)。

なし

名前指示部

人名指定。ATTN(宛)またはC/O(気付)など。複数回使用できます。

なし

関係

他の人に関連する情報(受託者など)。複数回使用できます。

なし

SSN

社会保障番号。

なし

電子メール・アドレス

電子メール・アドレス。

なし

電話番号

電話番号。

なし

名前/会社他

会社名または人名に関連付けられている付加情報。

なし

人名

名、ミドル・ネームおよび姓。複数回使用できます。

人名

入力名に検出された名。複数回使用できます。

人名

ミドル・ネーム

ミドル・ネームまたはイニシャル。ミドル・ネームが1つの場合に使用するか、または複数のミドル・ネームがある場合は最初の1つに使用します(Ethel May Roberta Louise Mertzの場合はMayなど)。複数回使用できます。

人名

ミドル・ネーム2

第2のミドル・ネーム(Ethel May Roberta Louise Mertzの場合はRobertaなど)。複数回使用できます。

人名

ミドル・ネーム3

第3のミドル・ネーム(Ethel May Roberta Louise Mertzの場合はLouiseなど)。複数回使用できます。

人名

姓。複数回使用できます。

導出済

性別

性別。

  • M = 男性

  • F = 女性

  • N= 中性(男性または女性)

  • 空白 = 不明

複数回使用できます。

導出済

人数

レコードで参照される人数。たとえば、人名John and Jane Doeを含むレコードの場合、「人数」は2となります。

ビジネス

会社名

会社名または組織名(部課など)。複数回使用できます。

ビジネス

会社数

レコードで参照される会社数。複数回使用できます。

ビジネス

会社ロケーション

社内のロケーション(買掛管理など)。


アドレス

表24-22では、「アドレス」出力コンポーネントについて説明します。二重アドレスを含むレコードの場合は、表に示すように、標準アドレスとして使用する(「アドレス」コンポーネントに割り当てる)行と、多数の出力コンポーネントに二重アドレスとして使用する行を指定できます。

表24-22 「アドレス」出力コンポーネント

サブフォルダ 出力コンポーネント 説明

なし

アドレス

次を含む完全アドレス行。

  • 第1アドレス

  • 第2アドレス

標準アドレスまたは二重アドレスとして使用できます。

なし

第1アドレス

次のようなボックス、ルートまたは番地。

  • 番地名

  • 建物番号

  • SWやNなど、市区町村マップのグリッド方向。

  • Avenue、StreetまたはRoadなどの番地タイプ。

「区画名」「区画番号」は含めません。標準アドレスまたは二重アドレスとして使用できます。

第1アドレス

番地番号

住宅やビルの番号など、アドレスを識別する番号。プライマリ範囲と呼ぶこともあります。たとえば、200 Oracle Parkwayの場合、「番地番号」の値は200です。標準アドレスまたは二重アドレスとして使用できます。

第1アドレス

前方向

番地名の前に使用される番地の方向インジケータ。たとえば、100 N University Driveの場合、「前方向」の値はNです。標準アドレスまたは二重アドレスとして使用できます。

第1アドレス

番地名

番地名。標準アドレスまたは二重アドレスとして使用できます。

第1アドレス

プライマリ名2

第2の番地名。通常は交差点にあるアドレスに使用されます。

第1アドレス

番地タイプ

街路識別子(ST、AVE、RD、DR、HWYなど)。標準アドレスまたは二重アドレスとして使用できます。

第1アドレス

後方向

番地名の後に使用される番地の方向インジケータ。たとえば、100 15th Ave. S.の場合、「後方向」の値はSです。標準アドレスまたは二重アドレスとして使用できます。

なし

第2アドレス

次を含む番地の第2の部分。

  • 区画名

  • 区画番号

たとえば、第2アドレスSuite 2100の場合、「区画名」はSTE(Suiteの標準化バージョン)で、「区画番号」は2100です。標準アドレスまたは二重アドレスとして使用できます。

第2アドレス

区画名

第2アドレスのタイプ(APTまたはSTEなど)。たとえば、第2アドレスSuite 2100の場合、「区画名」はSTE(Suiteの標準化バージョン)です。標準アドレスまたは二重アドレスとして使用できます。

第2アドレス

区画番号

第2アドレスの識別番号(アパート番号または部屋番号など)。たとえば、第2アドレスSuite 2100の場合、「区画番号」は2100です。標準アドレスまたは二重アドレスとして使用できます。

第2アドレス

非郵便第2アドレス

正式な郵便形式でない第2アドレス。

第2アドレス

非郵便区画名

正式な郵便形式でない区画名。

第2アドレス

非郵便区画番号

正式な郵便形式でない区画番号。

アドレス

最終行

次を含む最後のアドレス行。

  • 市区町村

  • 都道府県

  • アドレスが完全に割り当てられている場合の書式化済郵便番号。

最終行

地区

南アメリカとラテン・アメリカのアドレスに一般的な地区またはバリオ。

最終行

市区町村

市区町村名。アメリカの市名は、米国郵政公社の参照名に変換できます。

最終行

省略市区町村

市区町村名の省略形。アメリカの場合は13文字です。

最終行

省略市区町村2

市区町村名の代替省略形。

最終行

代替市区町村

複数の名前で参照可能な市区町村を表す代替名。アメリカでは、市を実際の名前または地域名で参照できます。たとえば、Brighton Massachusettsの代替市区町村名としてBostonを使用できます。

最終行

地方コード

International Mailsort Codeの末尾3桁。各国の地域または地方を表します。「地方コード」は、000から999までの数値です。

最終行

地方名

イギリスでは、次のアドレスに地方名KNAPHILLが割り当てられています。

Chobham Rd
Knaphill
Woking GU21 2TZ

最終行

ローカリティ2

日本の区。

最終行

ローカリティ3

日本の町または村。

最終行

ローカリティ4

日本の字、部、地割または線。

最終行

区名

イギリス、アメリカまたは他の国の郡の名前。

最終行

都道府県

都道府県名。

最終行

郵便番号

完全郵便番号。空白や他の文字(非英数字)は削除されます。

最終行

書式化された郵便番号

郵便番号の書式化済バージョン。空白や他の文字(ダッシュなどの非英数字)を含みます。

最終行

配布ポイント

アメリカとオーストラリアで使用される指定。

  • アメリカの場合、これは2桁の郵便配布ポイントで、9桁の完全郵便番号およびチェック数値と組み合されて配布ポイントのバーコードを形成します。

  • オーストラリアの場合は、9桁の配布ポイントです。

最終行

国コード

国際標準化機構により定義されたISO 3166-1993(E)の2文字の国コード(アメリカはUS、カナダはCAなど)。

最終行

国コード3

国際標準化機構により定義されたISO 3166-1993(E)の3文字の国コード(アメリカはUSA、フランスはFRA、ウクライナはUKRなど)。

最終行

国名

完全な国名。

アドレス

アドレス2

アドレス行2。通常は、番地とビルまたは階の両方を含む香港のアドレスに使用します。

アドレス

最終行2

日本でアドレスの末尾に表示される追加情報。

その他のアドレス行

ボックス名

私書箱のアドレス名。たとえば、PO Box 95の場合、「ボックス名」はPO BOXです。標準アドレスまたは二重アドレスとして使用できます。

その他のアドレス行

ボックス番号

私書箱のアドレス番号。たとえば、PO Box 95の場合、「ボックス番号」は95です。標準アドレスまたは二重アドレスとして使用できます。

その他のアドレス行

ルート名

地方のルート・アドレスのルート名。アドレスRoute 5 Box 10の場合、「ルート名」はRTE(Routeの標準化バージョン)です。標準アドレスまたは二重アドレスとして使用できます。

その他のアドレス行

ルート番号

地方のルート・アドレスのルート番号。アドレスRoute 5 Box 10の場合、「ルート番号」は5です。標準アドレスまたは二重アドレスとして使用できます。

その他のアドレス行

ビル名

ビル名(Cannon Bridge Houseなど)。イギリスでは、ビル名が一般的です。

その他のアドレス行

複合

ビル、キャンパスまたはその他の複合ビル。次に例を示します。

USS John F. Kennedy
Shadow Green Apartments
Cedarvale Gardens
Concordia College

「出力コンポーネント」ダイアログ・ボックスの「インスタンス」フィールドを使用すると、アドレスに複数の複合コンポーネントが含まれている場合に、どの複合コンポーネントを戻すかを指定できます。

その他のアドレス行

他のアドレス

その他のアドレス情報。

複数の「その他」フィールドを含むレコードの場合は、出力コンポーネント・ページで使用するインスタンスを指定することで各フィールドを抽出できます。

地理

緯度

北緯。北半球の場合はプラス、南半球の場合はマイナスです(北アメリカの場合は常にプラスです)。

地理

経度

東経。東半球の場合はプラス、西半球の場合はマイナスです(北アメリカの場合は常にマイナスです)。

地理

地域一致精度

緯度と経度で識別されたロケーションがアドレスとどの程度一致しているかを示します。


付加ベンダー

ベンダー固有の用途に20個のコンポーネントを使用できます。

エラー・ステータス

表24-23では、「エラー・ステータス」出力コンポーネントについて説明します。「エラー・ステータス」コンポーネントの使用上の注意事項は、「Name and Addressデータでのエラー処理」を参照してください。

表24-23 「エラー・ステータス」出力コンポーネント

サブフォルダ 出力コンポーネント 説明

Name and Address

適切なグループ

名前グループ、アドレス・グループまたは名前およびアドレス・グループが正常に処理されたかどうかを示します。

  • T =

    名前グループの場合、名前が正常に解析されました。

    アドレス・グループの場合、郵便照合データベースでアドレスが検出されたか(使用可能な場合)、郵便データベースがインストールされていない場合は正常に解析されました。

    名前およびアドレス・グループの場合、名前とアドレスの両方が正常に処理されました。

  • F = グループは正常に解析されませんでした。

このフラグを「解析済」フラグのような他のフラグと併用し、後にスプリッタ演算子を使用すると、解析に失敗したレコードを固有のターゲット内で分離して個別に扱うことができます。

Name and Address

解析済

名前またはアドレスが解析済かどうかを示します。

  • T = 名前またはアドレスは正常に解析されましたが、なんらかの警告条件を示すフラグが設定されている可能性があります。

  • F = 名前またはアドレスを解析できません。

「名前警告」または「市区町村警告」などの警告フラグのステータスを確認してください。

Name and Address

解析ステータス

郵便照合ソフトウェアの解析ステータス・コード。

Name and Address

解析ステータスの説明

郵便照合ソフトウェアの解析ステータスのテキスト説明。

名前のみ

適切な名前

名前が正常に解析されたかどうかを示します。

  • T = 名前は正常に解析されましたが、なんらかの警告条件を示すフラグが設定されている可能性があります。

  • F = 名前を解析できません。

名前のみ

名前警告

パーサーにより名前に例外的なデータまたはエラーの可能性のあるデータが検出されたかどうかを示します。

  • T = パーサーが名前を解析できなかったか、例外的なデータが検出されました。解析ステータス・コンポーネントで警告の原因を確認してください。

  • F = 名前の解析に問題はありません。

アドレスのみ

適切なアドレス

アドレスが正常に処理されたかどうかを示します。

  • T = 正常に処理されました。アドレスが郵便照合データベース内で検出されました。または、アドレスが示す国用の郵便照合データベースがインストールされていない場合は、アドレスが正常に解析されました。

  • F = 正常に処理されませんでした。アドレスが示す国用の郵便照合データベースがインストールされている場合は、データベース内でアドレスが検出されませんでした。国に使用可能な郵便照合データベースがない場合は、アドレスを解析できません。

このコンポーネントは、郵便照合対象の国と郵便照合対象外の国のレコードが混在している場合に使用します。

アドレスのみ

検出済

アドレスが示す国用の郵便照合データベース内でアドレスがリストされているかどうかを示します。

  • T = アドレスが郵便照合データベース内で検出されました。

  • F = アドレスは郵便照合データベース内で検出されませんでした。このステータスは、アドレスが有効でないこと、またはその国に郵便照合が使用可能でないことを示している可能性があります。

このフラグがTrueとなるのは、他の検出フラグがすべてTrueの場合のみです。郵便照合が使用可能な場合、このフラグはレコード品質の最高のインジケータです。

アドレスのみ: 検出済

市区町村が検出済

T = 郵便照合ソフトウェアにより市区町村が検出されました。それ以外の場合、値はFです。

アドレスのみ: 検出済

番地名が検出済

T = 郵便照合ソフトウェアにより番地名が検出されました。それ以外の場合、値はFです。

アドレスのみ: 検出済

番地番号が検出済

T = 郵便照合ソフトウェアにより、指定した番地番号の有効範囲内で番地番号が検出されました。それ以外の場合、値はFです。

アドレスのみ: 検出済

番地コンポーネントが検出済

T = 郵便照合ソフトウェアにより、「前方向」または「後方向」などの番地コンポーネントが検出されました。それ以外の場合、値はFです。

アドレスのみ: 検出済

曖昧でない一致が検出済

郵便照合ソフトウェアにより郵便データベース内で一致するアドレスが検出されたかどうかを示します。

  • T = 郵便照合ソフトウェアにより、入力レコードと郵便データベース内の単一エントリとの一致が検出されました。

  • F = アドレスが曖昧です。郵便照合ソフトウェアにより、アドレスが複数の郵便データベース・エントリと一致することが検出されましたが、選択できませんでした。たとえば、入力アドレスは100 4th Avenueですが、郵便データベースには100 4th Ave Nと100 4th Ave Sが含まれており、入力では方向が指定されていないため、一致に失敗します。

アドレスのみ

市区町村警告

T = パーサーにより、市区町村に例外的なデータまたはエラーの可能性のあるデータが検出されました。それ以外の場合、値はFです。

アドレスのみ

番地警告

T = パーサーにより、番地アドレスに例外的なデータまたはエラーの可能性のあるデータが検出されました。それ以外の場合、値はFです。

アドレスのみ

検証可能なアドレス

T = アドレスが該当する国には郵便照合を使用可能です。それ以外の場合、値はFです。

Fは、アドレスに該当する国用の郵便照合データベースがインストール済かどうかを示すものではありません。単に特定のアドレスに照合が使用可能でないことを示します。

アドレスのみ

アドレスが修正済

照合中になんらかの方法でアドレスが修正されたかどうかを示します。この場合、標準化は修正とはみなされません。

  • T = アドレスのなんらかのコンポーネントが、標準化以外の方法で変更されました。他の「修正済」フラグの1つもTrueである必要があります。

  • F = アドレスのコンポーネントは変更されていませんが、標準化された可能性はあります。

アドレスのみ: アドレスが修正済

郵便番号が修正済

T = 照合中に郵便番号が修正されました。枝番が追加された可能性があります。それ以外の場合、値はFです。

アドレスのみ: アドレスが修正済

市区町村が修正済

T = 照合中に市区町村名が修正されました。それ以外の場合、値はFです。

郵便番号入力を使用して、郵政公社で参照している市区町村名が判別されます。

アドレスのみ: アドレスが修正済

番地が修正済

T = 照合中に番地名が修正されました。それ以外の場合、値はFです。

一部の正しい番地名が、郵政公社が参照している代替名に変更された可能性があります。

アドレスのみ: アドレスが修正済

番地コンポーネントが修正済

T = 照合中に、「前方向」または「後方向」など、1つ以上の番地コンポーネントが修正されました。

アドレスのみ

アドレス・タイプ

アドレスのタイプ。次に一般的な例を示します。実際の値は、郵便照合ソフトウェアのベンダーによって異なります。

  • B = ボックス

  • F = 会社

  • G = 普通配送

  • H = 高層アパートまたはオフィス・ビル

  • HD = 高層のデフォルト。この場合、ビル全体に単一のZip+4郵便番号が適用されます。Name and Address演算子では、階または部屋のアドレスが提供されていれば、郵便番号割当てをさらに詳細なレベルで検出できます。その場合、レコードは該当する階または部屋を表す限定的なZip+4コードを使用してHタイプとして処理されます。

  • M = 軍

  • P = 私書箱

  • R = 地方コード

  • S = 番地

アドレスのみ

解析国

レコードの最終解析に使用した国パーサー。


国固有

表24-24に、特定の国に固有の出力コンポーネントを示します。

表24-24 国に固有の出力コンポーネント

サブフォルダ 出力コンポーネント 説明

アメリカ

ZIP5

5桁のアメリカ郵便番号。

アメリカ

ZIP4

ロケーションをさらに詳細に指定するために5桁のアメリカ郵便番号に追加される4桁の接尾辞。

アメリカ

都市名

プエルトリコで使用される地方単位の名前。

アメリカ

LACSフラグ

T = アドレスにはLACS変換が必要であり、LACSベンダーに送信する必要があります。それ以外の場合、値はFです。

Locatable Address Conversion System(LACS)は、911緊急システムが実装された時点で新規のアドレスを提供します。通常、911アドレス変換では、地方スタイルのアドレスが市区町村スタイルの番地アドレスに変更されますが、既存の市区町村スタイルのアドレスの名前や番号が変更されることがあります。

アメリカ

CART

4文字のUSPS運送業者ルート。

アメリカ

DPBCチェック数値

配布ポイントのバーコードを形成するチェック数値。

アメリカ

自動ゾーン・インジケータ

T = この郵便番号による郵便は、バーコード・ソート装置でソートされます。それ以外の場合、値はFです。

アメリカ

都市インジケータ

T = アドレスは地方にあります。それ以外の場合、値はFです。

アメリカ

LOT(Line of Travel)

アメリカ郵政公社(USPS)の移動ライン。

アメリカ

LOT順序

アメリカ郵政公社(USPS)の移動ラインの順序。

アメリカ: 調査/地理

メトロポリタン統計地域

メトロポリタン統計地域(MSA)番号。たとえば、0000はアドレスがMSA内にないことを示します。通常は地方を示します。

アメリカ: 調査/地理

マイナー調査区域

マイナー調査区域。

アメリカ: 調査/地理

CBSAコード

大都市圏と小都市圏を識別する5桁のコア・ベース統計地域コード。

アメリカ: 調査/地理

CBSA記述子

CBSAが大都市圏(人口50,000人以上)であるか小都市圏(人口10,000人から49,999人まで)であるかを示します。

アメリカ: 調査/地理

FIPSコード

連邦情報処理規格(FIPS)により郡に割り当てられた完全(州および郡)コード。FIPSの区コードは州内で一意であるため、完全FIPSコードには2桁の州コードとそれに続く3桁の区コードが含まれています。

アメリカ: 調査/地理

FIPS区

連邦情報処理規格(FIPS)により定義された3桁の区コード。

アメリカ: 調査/地理

FIPS地区コード

連邦情報処理規格(FIPS)により定義された5桁の地区コード。

アメリカ: 地理

調査ID

アメリカの調査の地域およびブロック・グループ番号。最初の6桁は地域番号で、最終桁は地域内のブロック・グループ番号です。これらのコードは、人口統計コーディング・データベースとの照合に使用されます。

カナダ

インストール・タイプ

カナダ郵便施設のタイプ。

  • STN = 局

  • RPO = 郵便取扱小売店

たとえば、アドレスPO Box 7010, Scarborough ON M1S 3C6の場合、インストール・タイプはSTNです。

カナダ

インストレーション名

カナダ郵便設備の名前。たとえば、アドレスPO Box 7010, Scarborough ON M1S 3C6の場合、インストレーション名はAGINCOURTです。

香港

デリバリー・オフィス・コード

香港で使用される郵便コード。たとえば、次のアドレスにはデリバリー・オフィス・コードWCHが割り当てられています。

Oracle
39/F The Lee Gardens
33 Hysan Ave
Causeway Bay

香港

デリバリー・ビート・コード

香港で使用される郵便コード。たとえば、次のアドレスにはデリバリー・ビート・コードS06が割り当てられています。

Oracle
39/F The Lee Gardens
33 Hysan Ave
Causeway Bay

Name and Addressデータでのエラー処理

他の種類の解析と同様に、Name and Address解析は、キーワードとそのキーワードを含むパターンの識別に依存します。自由形式の名前とアドレスのデータは、キーワード・セットが大きく100%完全であることがないため、解析が困難です。キーワード・セットは何百万ものレコードを分析することで構築されますが、新しいデータ・セットに、未定義のキーワードが含まれることもあります。

自由形式の名前とアドレスのレコードの大半には、数字、文字および英数字文字列の共通パターンが含まれるため、多くの場合、解析は英数字のパターンのみに基づいて実行できます。ただし、英数字のパターンが曖昧であったり、特定のパターンがみつからない場合があります。Name and Addressの解析エラーによって、データ・マッピングの制御に使用できる解析ステータス・コードが設定されます。

品質の基準はアプリケーションによって異なるため、特定のレコードの品質を判断するのに役立つフラグが数多く用意されています。郵便照合がサポートされる国の場合は、Is Good Groupフラグを使用してください。このフラグによって、アドレスが郵便データベース内の有効なエントリであることが確認されます。また、米国のCoding Accuracy Support System(CASS)認証およびカナダのSoftware Evaluation and Recognition Program(SERP)認証の郵便でも、Is Good Groupフラグを使用してください。

郵便レポートを指定しないかぎり、アドレスは郵便データベースで見つからなくても使用できます。たとえば、交差点のアドレスやビル名が郵便データベースで見つからない場合がありますが、配達には問題ありません。Is Good Groupフラグが失敗を示す場合は、別のエラー・フラグによって解析ステータスを判断できます。

Is Parsedフラグは、解析プロセスの成功または失敗を示します。Is Parsedが解析の成功を示す場合でも、特異なデータを示す解析警告フラグをチェックする必要があります。このレコードは手動でチェックできます。

Is Parsedが解析の失敗を示す場合は、元のデータを保存して、データの損失を防ぐ必要があります。

スプリッタ演算子を使用して、解析に成功したレコードと解析に失敗したレコードを別々のターゲットにマッピングします。

Match-Merge演算子による重複ソース・レコードの削除

Match-Merge演算子を使用すると、データ・ソース内の一致レコードを識別し、単一のレコードにマージできます。

Match-Merge演算子には、1つの入力グループと2つの出力グループ(MergeグループおよびXrefグループ)があります。ソース・データは入力グループにマップされます。Mergeグループには、プロセスの照合が完了した後にマージしたレコードが含まれます。Xrefグループでは、マージ・プロセスのレコードが提供されます。入力グループのすべてのレコードには、Xrefグループ内に対応するレコードがあります。このレコードには元の属性値およびマージ済属性が含まれる場合があります。

Match-Merge演算子には、順序付けされたレコード・ストリームが入力として使用されます。このストリームから一致binが構成されます。各一致binから、一致したセットが構成されます。一致した各セットから、マージ済レコードが作成されます。最初の問合せには、一致bin属性で構成されたORDER BY句が含まれます。

Match-Merge演算子の使用手順

Match-Merge演算子を使用してソース・データを照合およびマージする手順は、次のとおりです。

  1. ソース・データを表す演算子およびマージしたデータを表す演算子をマッピング・エディタのキャンバスにドラッグ・アンド・ドロップします。

    たとえば、ソース・データが、ある表に格納され、マージ済データが別の表に格納される場合、その表にバインドされる2つの表演算子をキャンバスにドラッグ・アンド・ドロップします。

  2. Match-Merge演算子をマッピング・エディタのキャンバスにドラッグ・アンド・ドロップします。

    Match-Mergeウィザードが表示されます。

  3. 名前とアドレス・ページの「名前」フィールドには、その演算子のデフォルト名が含まれます。この名前を変更するか、デフォルト名を使用できます。

    その演算子の説明を入力できます(オプション)。

  4. グループ・ページで、グループ名を変更したり、グループの説明を追加できます。

    このページには、次の3つのグループが含まれます。

    • INGRP1: 入力属性が含まれます。

    • MERGE: マージ済レコードが含まれます(通常INGRP1よりレコードが少ないことを意味します)。

    • XREF: 元のデータ・セットおよびマージ済データ・セットのリンクが含まれます。マージの実行時に使用される追跡メカニズムです。

  5. 接続の入力ページで、照合およびマージする属性を「使用可能」セクションから「マップ済属性」セクションに移動します。「次へ」をクリックします。

    このページの「使用可能な属性」セクションで、各演算子のノードがキャンバスに表示されます。ノードを展開して演算子に含まれる属性を表示し、属性を選択して、選択した属性をシャトル矢印を使用して「マップ済属性」セクションに移動します。


    注意:

    Match-Merge演算子には、順序付けされた入力データ・セットが必要です。2つ以上の演算子のソース・データがある場合、集合演算演算子を使用してデータを結合し、順序付けされたデータ・セットを取得します。

  6. 入力属性ページで、属性のデータ型と長さを確認します。

    通常、このウィザードを使用する場合は、これらの値をすべて変更する必要はありません。Warehouse Builderは、出力属性に基づいてこれらの値を移入します。

  7. マージ出力ページで、入力属性からマージする属性を選択します。

    これらの属性は、Merge出力グループ(整備されたグループ)に表示されます。このグループの属性に、入力属性の名前およびプロパティが保持されます。

  8. 相互参照出力ページで、XREF出力グループの属性を選択します。

    「ソース属性」セクションには、マージ出力ページで選択したすべての入力属性およびマージ済属性が含まれます。Mergeグループの属性には、接頭辞MMが付きます。他の属性では、変更されていない属性値を定義します。Mergeグループから属性を1つ以上選択して、入力グループおよびMergeグループをリンクします。

  9. 一致binページで、一致bin属性を指定します。これらの属性は、ソース・データを一致binにグループ化する場合に使用されます。

    最初の配布の後に、すべてのレコードまたは新しいレコードのみを照合またはマージするかどうかを選択できます。新しいレコードのみを一致およびマージさせるには「新規レコードのみ一致」を選択します。

    新しいレコードの識別条件を指定する必要があります。match-merge演算子は、新しいレコードを次の方法で処理します。

    • 一致binに新しいレコードが含まれないかぎり、一致bin内のレコードの照合は実行されません。

    • 古いレコード同士は比較されません。

    • 一致するレコード・セットは、新しいレコードが含まれないかぎり、マージ・プロセスに表示されません。

    • 古いレコードは、新しいレコードと一致しないかぎり、Xref出力には表示されません。

    一致bin属性および一致binに関する詳細は、「照合およびマージ・プロセスの概要」を参照してください。

  10. 一致ルールの定義ページで、ソース・データの照合に使用する一致ルールを定義します。

    一致ルールはアクティブまたは受動の可能性があります。受動一致ルールは生成されますが、自動的には起動しません。1つ以上のアクティブ一致ルールを定義する必要があります。

    一致ルール、定義できる一致ルールのタイプ、および一致ルールを定義するために使用する手順に関する詳細は、「一致ルール」を参照してください。

  11. マージ・ルール・ページで、ソース・データから作成した、一致するレコードのセットをマージする場合に使用するルールを定義します。

    レコード内の各属性に対して、またはレコード全体に対して一致ルールを定義できます。Warehouse Builderでは、様々なタイプの一致ルールを使用できます。

    一致ルールのタイプおよび一致ルールを作成する手順に関する詳細は、「マージ・ルール」を参照してください。

  12. サマリー・ページで、選択した項目を確認します。「戻る」をクリックして、選択した項目を変更します。「次へ」をクリックして、Match-Merge演算子の作成を完了します。

  13. Match-Merge演算子のMatchグループを、マージ済データを格納する演算子の入力グループにマッピングします。

Match-Merge演算子を使用したマッピングの設計

図24-3は、Match-Merge演算子を使用して設計できるマッピングを示しています。Match-Merge演算子の前にName and Address演算子NAMEADDRとステージング表CLN_CUSTOMERSがあることがわかります。Name and Address演算子は、マッピングの設計に使用してもしなくてもかまいません。Match-Merge演算子の前にName and Address演算子を使用すると、時間のかかる一致およびマージ操作を開始する前に、エラーのない標準化されたデータが得られます。

図24-3 マッピングでのMatch-Merge演算子

図24-3の説明が続きます
「図24-3 マッピングでのMatch-Merge演算子」の説明

マッピングの設計時には、Name and Address演算子を使用するかどうかに関係なく次の考慮事項に注意してください。

  • オペレーティング・モード: 演算子は、セット・ベースまたは行ベースの入力を受け入れて、セット・ベースまたは行ベースの出力を生成できます。SQLはセット・ベースのため、一度に一連のレコードが処理されます。PL/SQLは行ベースのため、各行が個別に処理されます。Match-Merge演算子は、レコードの照合時に各行をソース内の後続行と比較して行ベースのコードのみを生成します。Match-Merge演算子を含むマッピングを実行できるのは、行ベース・モードの場合のみです。

  • Match-Merge前のSQLベースの演算子: Match-Merge演算子はセット・ベースのSQL入力を受け入れますが、生成するのは行ベースのPL/SQL出力のみです。SQLコードのみを生成する演算子の場合は、いずれもその前にMatch-Merge演算子を使用する必要があります。たとえば、ジョイナ演算子、キー参照演算子および集合演算子はセット・ベースのSQL出力を生成するため、前にMatch-Mergeを使用する必要があります。セット・ベースの演算子がMatch-Mergeよりも後にあるマッピングは無効です。

  • PL/SQL入力: Match-Merge演算子には、他のMatch-Merge演算子以外からのSQL入力が必要です。「2つのMatch-Merge演算子の使用」を参照してください。Match-Mergeの前に、Name and Address演算子のようにPL/SQL出力のみを生成する演算子を使用する場合は、最初にデータをステージング表にロードする必要があります。

  • Match-Merge演算子からのデータの詳細化: データを大幅に詳細化するには、あるMatch-Merge演算子からのXREF出力を別のMatch-Merge演算子にマップします。このシナリオは、Match-Merge演算子のSQL入力ルールに対する1つの例外です。追加の設計要素を使用すると、第2のMatch-Merge演算子はPL/SQLを受け入れます。詳細は、「2つのMatch-Merge演算子の使用」を参照してください。

2つのMatch-Merge演算子の使用

ほとんどのMatch-Merge操作は、1つのMatch-Merge演算子で実行できます。ただし、出力を2つの異なるターゲットに送る場合は、2つのMatch-Merge演算子の連続使用が必要になることがあります。

たとえば、名前とアドレスのデータをハウスホールドする際に、最初にアドレス・データ、次に名前データという順序によるマージが必要になることがあります。MERGE出力をターゲット表にマップすると仮定すれば、XREFグループをもう1つのMatch-Merge演算子にマップできます。XREFグループをステージング表にマップすることもできますが、この方法ではパフォーマンスが大幅に低下する可能性があります。

図24-4は、2つのMatch-Merge演算子を使用するマッピングを示しています。MMからのXREFグループはMM_1に直接マップされています。このマッピングを有効にするには、第1のXREFグループ用に生成された一致IDを、第2のMatch-Merge演算子の一致binルールとして割り当てる必要があります。

図24-4 データのハウスホールディング: 第2のMatch-Merge演算子にマージされたXREFグループ

図24-4の説明が続きます
「図24-4 データのハウスホールディング: 第2のMatch-Merge演算子にマージされたXREFグループ」の説明

Name and Address演算子を使用したソース・データのクレンジング

Name and Address演算子は、PL/SQL入力を1つ受け入れてPL/SQL出力を1つ生成します。

タイムアウト・エラーになる場合は、Name and Addressサーバーのソケット・タイムアウト設定の値を大きくする必要があります。タイムアウト設定は、サーバーが接続をドロップする前にマッピングからの解析リクエストを待機する秒数です。デフォルト設定は600秒(10分)です。非アクティブが原因でサーバーが接続をドロップすると、以降の解析リクエストは失敗してNAS-00021エラーが戻されます。

ほとんどのマッピングの場合、2つの解析リクエストの間に長時間が経過することはまれです。ただし、行ベース・モードでレコードをフィルタするのは非効率的なため、フィルタ演算子を使用して行ベース・モードで動作するマップの場合は、2つのレコード解析リクエスト間に長時間経過することがあります。このタイプのマッピングの場合は、接続がドロップされないようにソケットのタイムアウト値の増加が必要になることがあります。

ソケットのタイムアウト設定値を大きくするには、「Name and Addressサーバーの管理」を参照してください。

Name and Address演算子を使用したマッピングの作成

Name and Address演算子は、入力グループ1つと出力グループ1つを使用します。

Name and Address演算子によってマッピングを作成する手順は次のとおりです。

  1. ソース・データを表す演算子とクレンジングしたデータを表す演算子を、マッピング・エディタのキャンバスにドラッグ・アンド・ドロップします。

    たとえば、ソース・データが、ある表に格納され、整備済データが別の表に格納される場合、その表にバインドされる2つの表演算子をキャンバスにドラッグ・アンド・ドロップします。

  2. Name and Address演算子をマッピング・エディタのキャンバスにドラッグ・アンド・ドロップします。

    Name and Addressウィザードが表示されます。

  3. 名前ページで、Name and Address演算子に対して名前(およびオプションの説明)を指定します。

    あるいは「名前」フィールドに表示されたデフォルト名をそのまま採用できます。

  4. 定義ページで、ソース・データのタイプを定義する値を選択します。

    詳細は、「ソース・データ詳細の指定と解析タイプの設定」を参照してください。

  5. グループ・ページで、入力グループや出力グループの名前を任意に変更します。

    Name and Address演算子は、1つの入力グループINGRP1と1つの出力グループOUTGRP1を使用します。グループは編集、追加または削除できません。入力データに複数のグループが必要な場合は、グループごとに別個のName and Address演算子を作成します。

  6. 接続の入力ページで、マッピング内の任意の演算子から、Name and Address演算子にコピーおよびマップする属性を選択します。

    演算子の接続の入力ページで指定する手順は次のとおりです。

    1. 「使用可能な属性」パネルで、グループ全体または個別の属性を選択します。

      特定の属性またはグループを名前で検索するには、「検索」にテキストを入力して「実行」をクリックします。次の一致を検索するには、「実行」を再度クリックします。

      複数のグループまたは属性を選択するには、[Shift]キーを押しながら選択します。異なるグループの属性を選択する場合は、ジョイナ演算子または集合演算子を使用してグループを結合する必要があります。


      注意:

      ソース・データに演算子を作成していない場合、「使用可能な属性」セクションは空です。

    2. 2つのパネルの間にある右矢印ボタンを使用して、選択内容を「マップ済属性」パネルに移動します。

      「マップ済属性」セクションには、Name and Address演算子によって処理される属性がリストされます。

  7. 入力属性ページで、そこで選択した各属性に入力ロールを割り当てます。

    入力ロールには、データの行にある名前およびアドレスの情報のタイプを指定します。できるかぎり、個別でないロール(「最終行」)でなく個別ロール(「市区町村」、「都道府県」、および「郵便番号」)を選択してください。個別ロールの方が解析に適しています。


    関連項目:

    入力ロールの説明

    入力ロールが「パススルー」に設定された属性の場合、データ型詳細を指定する際に、「データ型」、「長さ」、「精度」、「スケール」および「秒精度」フィールドを使用します。

  8. 出力属性ページで、Name and Address演算子での解析済データの処理方法を決定する出力属性を定義します。出力属性プロパティによって、パーサー出力から抽出されたデータが特徴付けられます。

    「パススルー」入力ロールを割り当てられている属性は、すべて出力属性として自動的にリストされます。出力属性は追加できます。


    注意:

    「パススルー」ロールを持つ出力コンポーネントの属性は変更できません

    出力属性を追加する手順は次のとおりです。

    1. 「追加」をクリックします。

      新規の出力属性の行がデフォルト名で追加されます。出力属性の名前を変更するには、名前を選択して新しい名前を入力します。

    2. 「出力コンポーネント」フィールドの省略記号をクリックして、属性の出力コンポーネントを選択します。


      関連項目:

      出力コンポーネントの詳細は、「出力コンポーネントの説明」を参照してください

      「解析済」、「適切な名前」、「適切なアドレス」などのエラー処理フラグも追加してください。これらのフラグをスプリッタ演算子に使用すると、適切なレコードをエラーのあったレコードから分離して、別のターゲットにロードできます。

    3. 「データ型」、「長さ」、「精度」、「スケール」および「秒精度」フィールドを使用して、出力属性のデータ型詳細を指定します。

  9. アドレス修正および郵便番号照合をサポートする国の場合、郵便レポート・ページを使用して郵便レポートの詳細を指定します。

    「郵便レポートの詳細の指定」を参照してください。

ソース・データの詳細の指定および解析タイプの設定

定義ページまたは「定義」タブで、ソース・データに関する情報を入力し、ソース・データに対して実行される解析のタイプを指定します。「解析タイプ」「国」および「二重アドレス割当」の値を設定します。

解析タイプ

次の解析タイプから1つを選択してください。

  • 名前のみ: 入力データに名前データのみが含まれている場合に、このオプションを選択します。個人名とビジネス名の両方が対象となります。より一般的な「Name and Address」オプションのかわりにこのオプションを選択すると、アダプタによってはパフォーマンスと精度が向上することがあります。

  • アドレスのみ: 入力データがアドレス・データのみで構成され、名前データが含まれていない場合に、このオプションを選択します。より一般的な「Name and Address」オプションのかわりにこのオプションを選択すると、アダプタによってはパフォーマンスと精度が向上することがあります。

  • Name and Address: 入力データに名前データとアドレス・データの両方が含まれている場合に、このオプションを選択します。


注意:

解析タイプを指定できるのは、最初にマッピングにName and Address演算子を追加するときのみです。エディタでは解析タイプを変更できません。

データの中で最も頻出する国を選択します。主国は、レコードの最初の解析に使用する適切なパーサーまたは解析ルールの手がかりとして、名前とアドレスのクレンジング・ソフトウェアの一部のプロバイダによって使用されています。それ以外の名前とアドレスのサービス・プロバイダの場合は、インストールの外部構成によってこの動作が制御されています。

二重アドレス割当

二重アドレスには、同じアドレス・レコードの私書箱と町村の両方が含まれます。二重アドレスを持つレコードの場合、標準アドレスになるアドレスと、二重アドレスになるアドレスを選択します。二重アドレスの例は、次のとおりです。

PO Box 2589
4439 Mormon Coulee Rd
La Crosse WI 54601-8231

「二重アドレス割当」での選択によって、郵便番号の修正時に割り当てられる郵便コードが決まります。これは、町村の郵便番号と私書箱の郵便番号が異なる場合があるためです。

  • 「番地」割当: 町村が標準アドレスで、私書箱が二重アドレスです。これは、Addressコンポーネントに町村が割り当てられることを意味します。前述の例では、Addressは4439 MORMON COULEE RDです。この選択により、郵便番号は54601-8220に修正されます。

  • 「私書箱」割当: 私書箱が標準アドレスで、町村が二重アドレスです。これは、Addressコンポーネントに私書箱が割り当てられることを意味します。前述の例では、AddressはPO BOX 2589です。この選択により、郵便番号は54602-2589に修正されます。

  • 最終行に最も近い: 最終行に最も近いアドレスが標準アドレスで、もう一方のアドレスが二重アドレスです。これは、最終行に最も近いアドレス行がAddressコンポーネントに割り当てられることを意味します。前述の例では、Addressは4439 MORMON COULEE RDです。この選択により、郵便番号は54601-8220に修正されます。

このオプションは、町村または私書箱を1つ持つレコードには影響しません。


注意:

名前とアドレスのクレンジング・ソフトウェア・プロバイダによっては、「二重アドレス割当」をサポートしていない場合があります。

郵便レポートの詳細の指定

国の認証は、Name and Addressクレンジング・ソフトウェア・ベンダーによって異なります。最も一般的な国の認証は、アメリカ、カナダおよびオーストラリアです。このプロセスにより、郵便利用業者に、アドレス照合ソフトウェアの品質を測定する共通プラットフォームが提供され、あらゆる郵便に適用される郵便番号(アメリカの場合、5桁の郵便番号とZIP+4コード)、デリバリ・ポイント・コードおよび配達ルート・コードの正確さについて検証されます。Name and Addressクレンジング・ソフトウェア・ベンダーによっては、これらのパラメータが無視され、郵便レポートを生成する外部のセットアップが必要になる場合もあります。詳細は、「郵便レポートについて」を参照してください。

郵便レポートを指定するには、「郵便レポート」ファイルで「はい」を選択し、次のフィールドに値を入力します。

プロセッサ名: このフィールドの用途は、名前とアドレスのクレンジング・ソフトウェアのベンダーに応じて異なります。通常、この値はUnited States Coding Accuracy Support System(CASS)レポートに記載されます。

リスト名: オプションの参照フィールド。アメリカおよびイギリスのレポートの「リスト名」セクションに記載されますが、その他のレポートには記載されません。リスト名は、「July 2005 Promotional Campaign」など、複数の郵便レポートを追跡するための資料として役に立ちます。

プロセッサ・アドレス行:これらのアドレス行が各種の郵便レポートに表示される場合があります。名前とアドレスのクレンジング・ソフトウェア・ベンダーによってこれらのフィールドの使用方法が異なります。通常、これらの行には、会社の詳細アドレスを含めます。

Name and Addressサーバーの管理

外部のName and Addressサーバーは、Oracle Databaseとサード・パーティのName and Address処理ライブラリの間にインタフェースを提供します。この項では、Name and Addressサーバーの構成、起動および停止方法について説明します。

Name and Addressサーバーの構成

Name and Address演算子は、ランタイム・スキーマにインストールされたUTL_NAME_ADDRパッケージをコールするPL/SQLコードを生成します。UTL_NAME_ADDRパッケージを参照するために、ターゲット・スキーマにプライベート・シノニムNAME_ADDRが定義されます。UTL_NAME_ADDRパッケージは外部Name and Addressサーバーに処理リクエストを送信するJavaパッケージをコールし、外部Name and Addressサーバーはサード・パーティのName and Address処理ライブラリ(Trilliumなど)とのインタフェースを提供します。

サーバー・プロパティ・ファイルNameAddr.propertiesを使用して、サーバー・オプションを構成できます。このファイルは、サーパー・コンポーネントのインストール時に指定したOracleホームの下のowb/bin/adminにあります。次のコードは、一部の重要なプロパティとそのデフォルト設定を示しています。

TraceLevel=0
SocketTimeout=180
ClientThreads=4
Port=4040

TraceLevelプロパティは、通常、サーバー通信の診断を実行して郵便照合プログラムのパーサーからの出力を表示するように変更されます。他のプロパティが変更されることはまれです。

  • TraceLevel: owb/bin/adminフォルダにあるファイルNASvrTrace.logの出力を可能にします。このファイルはすべての受信データと送信データを示しており、マッピングがName and Addressサーバーと通信中であることと、Name and Addressサーバーがサービス・プロバイダから出力を受信中であることを検証します。このトレース・ログはすべてのサーバーの入出力を示しており、実行中のマッピングにより解析リクエストが発行されているかどうかを判断する上で最も有効です。ロギングを有効化するには、TraceLevel=1に設定します。ただし、トレースによりパフォーマンスが低下し、作成されるログ・ファイルが大きくなります。本番用にロギングを無効化するには、TraceLevel=0に設定します。

  • SocketTimeOut: Name and Addressサーバーが接続をクローズする前に解析リクエストを待機する秒数を指定します。タイムアウトを防ぐためにコンカレント・マッピングを実行する場合は、この時間を1800(30分)まで増やすことができます。

  • ClientThreads: クライアント接続の処理に使用するスレッド数を指定します。マップがパラレル化されている場合は、データベース・セッションまたはスレーブ・セッションごとにクライアント接続が1つ確立されます。ほとんどのマップはパラレル化されており、パラレル・プロセス数はプロセッサ数に比例します。単一プロセッサ・コンピュータの場合、大きいマップ用に2つのパラレル・プロセスが生成されます。4プロセッサ・コンピュータの場合は、最高8つのプロセスを生成できます。パラレル化は、Sessionsなどのデータベース初期化設定でも制御できます。

    最大のパフォーマンスを得るには、ClientThreadsを同時接続するクライアントの最大数に設定します。実際の接続クライアント数は、マップの実行後にNASvr.logに記録されます。ログに表示されるクライアント接続数が最大数よりも大きい場合は、ClientThreadsの値を増やす必要があります。

    スレッドはクライアント間で共有されるため、クライアント数がスレッド数を超えても、すべてのクライアントが処理されます。

  • Port: サーバーがリスニングに使用するポートを指定します。このポートはインストーラにより最初に割り当てられています。デフォルト・ポートが他のプロセスと競合する場合は、この値を変更できます。ポートを変更した場合は、utl_name_addrパッケージが接続を確立できるように、runtime_schema.nas_connection表でポートの属性も変更する必要があります。

Name and Addressサーバーの起動と停止

プロパティ・ファイルを編集するか表の保守を実行するたびに、Name and Addressサーバーを停止してから再起動して、変更内容を有効にする必要があります。

Name and Addressサーバーを手動で停止する手順は、次のとおりです。

  • Windowsの場合は、OWB_ORACLE_HOME/owb/bin/win32/NAStop.batを実行します。

  • UNIXの場合は、OWB_ORACLE_HOME/owb/bin/unix/NAStop.shを実行します。

Warehouse Builderでマッピングを起動すると、Name and Addressサーバーを自動的に再起動できます。サーバーを手動で再起動することもできます。

Name and Addressサーバーを手動で再起動する手順は、次のとおりです。

  • Windowsの場合は、OWB_ORACLE_HOME/owb/bin/win32/NAStart.batを実行します。

  • UNIXの場合は、OWB_ORACLE_HOME/owb/bin/unix/NAStart.shを実行します。