ヘッダーをスキップ
Oracle Warehouse Builderユーザーズ・ガイド
10gリリース2(10.2)
B31258-02
  目次
目次
索引
索引

戻る
戻る
 
次へ
次へ
 

21 データ品質演算子

エラーのあるデータのレポートを作成するには時間とコストがかかるため、データ品質はBusiness Intelligenceの重要な要素です。エラーのない正確なレコードをターゲットにロードするには、マッピングにWarehouse Builderのデータ品質演算子を使用します。

この章では、データ品質の達成に役立つWarehouse Builderのマッピング演算子について説明します。内容は次のとおりです。

Match-Merge演算子の使用

この項では、マッピングでMatch-Merge演算子を使用する方法を、例をあげて説明します。Match-Merge演算子をName and Address演算子と併用すると、ハウスホールディングをサポートできます。ハウスホールディングは、名前およびアドレス・データに含まれる一意のハウスホールドを識別するプロセスです。

顧客データの照合およびマージの例

Match-Merge演算子を使用して顧客の郵送先リストを管理する方法を考えてみます。一致を使用して、10,000行を含む顧客データ表で同一の人名を参照しているレコードを検索します。たとえば、類似する姓名を持つレコードを除外する一致ルールを定義できます。一致を介して、5行が同一の人名を参照していることが検出されるとします。これらのレコードをマージして新規レコードを1つ作成できます。たとえば、一致した5つのレコードのうち、最もアドレスの長い1レコードの値を保持するように、マージ・ルールを作成できます。新規にマージされた表には、顧客ごとに1つずつレコードが含まれます。

表21-1に、Match-Merge演算子を使用する前の、同一人を参照している各レコードを示します。

表21-1 サンプル・レコード

SSN アドレス 区画 Zip

1

Jane

Doe

NULL

123 Main Street

NULL

22222

2

Jane

Doe

111111111

NULL

NULL

22222

3

J.

Doe

NULL

123 Main Street

Apt 4

22222

4

NULL

Smith

111111111

123 Main Street

Apt 4

22222

5

Jane

Smith-Doe

111111111

NULL

NULL

22222


表21-2に、Match-Merge演算子を使用した後のJane Doeに関する単一レコードを示します。新規レコードでは、サンプルの様々な行からデータが取得されていることがわかります。

表21-2 Match-Merge演算子を使用した後のJane Doeのレコード

SSN アドレス 区画 Zip

Jane

Doe

111111111

123 Main Street

Apt 4

22222


一致の概念について

Warehouse Builderを使用してレコードを照合する際に、1つ以上の一致ルールを定義できます。複数の一致ルールを作成すると、Warehouse Builderでは2つの行がいずれかの一致ルールを満たしている場合に、両者が一致しているものと判別されます。つまり、Warehouse Builderでは複数の一致ルールがOR論理を使用して評価されます。

複数の一致ルールの例

次の例は、Warehouse BuilderでOR論理を使用して複数の一致ルールがどのように評価されるかを示しています。

「一致ルール」タブの最上部で、表21-3で説明した2つの一致ルールを作成します。

表21-3

名前 位置 ルール・タイプ 使用方法 説明

Rule_1

1

条件付き

アクティブ

SSNの一致

Rule _2

2

条件付き

アクティブ

姓とPHNの一致


タブの下部で、表21-4で説明するようにRule_1に詳細を割り当てます。

表21-4

属性 位置 アルゴリズム 類似度のスコア 空白の一致

SSN

1

Exact

0

いずれかが空白の場合は一致しない


Rule_2については、表21-5で説明するように詳細を割り当てます。

表21-5

属性 位置 アルゴリズム 類似度のスコア 空白の一致

1

Exact

0

いずれかが空白の場合は一致しない

PHN

2

Exact

0

いずれかが空白の場合は一致しない


表21-6に示すデータがあるとします。

表21-6

PHN SSN

A

John

Doe

650-123-1111

NULL

B

Jonathan

Doe

650-123-1111

555-55-5555

C

John

Dough

650-123-1111

555-55-5555


Rule_1に従って、行BおよびCは一致します。Rule_2に従って行AおよびBは一致します。したがって、Warehouse Builderでは一致ルールがOR論理を使用して処理されるため、3つのレコードはすべて一致することになります。

推移的一致の例

一般ルールでは、AがBと一致し、BがCと一致する場合、AはCと一致することになります。表21-7で説明するような類似性に基づいて、条件付き一致ルールを割り当てます。

表21-7 条件付き一致ルール

属性 位置 アルゴリズム 類似度のスコア 空白の一致

1

類似度

80

いずれかが空白の場合は一致しない


表21-8に示すデータがあるとします。

表21-8 サンプル・データ

PHN SSN

A

John

Jones

650-123-1111

NULL

B

Jonathan

James

650-123-1111

555-55-5555

C

John

Jamos

650-123-1111

555-55-5555


JonesはJamesと類似度80で一致し、JamesはJamosと類似度80で一致します。Jonesは、類似度が60でしきい値の80より低いため、Jamosとは一致しません。ただし、JonesはJamesと一致し、JamesはJamosと一致するため、3つのレコード(Jones、JamesおよびJamos)はすべて一致することになります。

Match-Merge演算子を使用したマッピングの設計

図21-1は、Match-Merge演算子を使用して設計できるマッピングを示しています。Match-Merge演算子の前にName and Address演算子NAMEADDRとステージング表CLN_CUSTOMERSがあることがわかります。Name and Address演算子は、マッピングの設計に使用してもしなくてもかまいません。Match-Merge演算子の前にName and Address演算子を使用すると、時間のかかる一致およびマージ操作を開始する前に、エラーのない標準化されたデータが得られます。

図21-1 マッピングでのMatch-Merge演算子

マッピングでのMatch-Merge演算子のスクリーン・キャプチャ
「図21-1 マッピングでのMatch-Merge演算子」の説明

マッピングの設計時には、Name and Address演算子を使用するかどうかに関係なく次の考慮事項に注意してください。

  • オペレーティング・モード: Warehouse Builderの演算子は、セット・ベースまたは行ベースの入力を受け入れて、セット・ベースまたは行ベースの出力を生成できます。SQLはセット・ベースのため、一度に一連のレコードが処理されます。PL/SQLは行ベースのため、各行が個別に処理されます。Match-Merge演算子は、レコードの照合時に各行をソース内の後続行と比較して行ベースのコードのみを生成します。Match-Merge演算子を含むマッピングを実行できるのは、行ベース・モードの場合のみです。セット・ベースの演算子と行ベースの演算子の詳細は、第8章「パフォーマンスおよび拡張ETL概念の理解」を参照してください。

  • Match-Merge前のSQLベースの演算子: Match-Merge演算子はセット・ベースのSQL入力を受け入れますが、生成するのは行ベースのPL/SQL出力のみです。SQLコードのみを生成する演算子の場合は、いずれもその前にMatch-Merge演算子を使用する必要があります。たとえば、ジョイナ演算子、キー参照演算子および集合演算子はセット・ベースのSQL出力を生成するため、前にMatch-Mergeを使用する必要があります。セット・ベースの演算子がMatch-Mergeよりも後にあるマッピングは無効です。

  • PL/SQL入力: Match-Merge演算子には、他のMatch-Merge演算子以外からのSQL入力が必要です。「2つのMatch-Merge演算子の使用」を参照してください。Match-Mergeの前に、Name and Address演算子のようにPL/SQL出力のみを生成する演算子を使用する場合は、最初にデータをステージング表にロードする必要があります。

  • Match-Merge演算子からのデータの詳細化: データを大幅に詳細化するには、あるMatch-Merge演算子からのXREF出力を別のMatch-Merge演算子にマップします。このシナリオは、Match-Merge演算子のSQL入力ルールに対する1つの例外です。追加の設計要素を使用すると、第2のMatch-Merge演算子はPL/SQLを受け入れます。詳細は、「2つのMatch-Merge演算子の使用」を参照してください。

2つのMatch-Merge演算子の使用

ほとんどのMatch-Merge操作は、1つのMatch-Merge演算子で実行できます。ただし、出力を2つの異なるターゲットに送る場合は、2つのMatch-Merge演算子の連続使用が必要になることがあります。

たとえば、名前とアドレスのデータをハウスホールドする際に、最初にアドレス・データ、次に名前データという順序によるマージが必要になることがあります。MERGE出力をターゲット表にマップすると仮定すれば、XREFグループをもう1つのMatch-Merge演算子にマップできます。XREFグループをステージング表にマップすることもできますが、この方法ではパフォーマンスが大幅に低下する可能性があります。

図21-2は、2つのMatch-Merge演算子を使用するマッピングを示しています。MMからのXREFグループはMM_1に直接マップされています。このマッピングを有効にするには、第1のXREFグループ用に生成された一致IDを、第2のMatch-Merge演算子の一致binルールとして割り当てる必要があります。

図21-2 データのハウスホールディング: 第2のMatch-Merge演算子にマップされたXREFグループ

2つのMatch-Merge演算子を使用したマッピング
「図21-2 データのハウスホールディング: 第2のMatch-Merge演算子にマップされたXREFグループ」の説明

Match-Mergeウィザードおよびエディタ: 名前

名前ページを使用して、演算子の名前と説明(オプション)を指定します。デフォルトでは、Match-Merge演算子にはMATCHMERGEという名前が使用されます。

Match-Mergeウィザードおよびエディタ: グループ

グループ・ページを使用して、入力グループと出力グループのカスタマイズ済の名前と説明を入力します。

グループ

事前定義済の入力グループと出力グループのリストが表示されます。グループ名は変更できますが、Match-Merge演算子に対するグループの追加または削除はできません。

方向

グループが入力用であるか出力用であるかを示します。Match-Merge演算子は、SQL入力グループを1つ受け入れてPL/SQL出力グループを2つ生成します。MERGEグループにはマージ済データが入ります。XREFグループは、マージ・プロセスを文書化するためのグループ(オプション)です。

説明

説明を入力します(オプション)。

Match-Mergeウィザードおよびエディタ: 接続の入力

接続の入力ページを使用して、入力グループ(INGRP1)の属性を選択します。

演算子の接続の入力ページで指定する手順は次のとおりです。

  1. 左側のパネルで、グループ全体または個別の属性を選択します。

    特定の属性またはグループを名前で検索するには、「検索」にテキストを入力して「実行」をクリックします。次の一致を検索するには、「実行」を再度クリックします。

    複数のグループまたは属性を選択するには、[Shift]キーを押しながら選択します。異なるグループの属性を選択する場合は、最初にジョイナ演算子または集合演算子を使用してグループを結合する必要があります。

  2. ページ中央にある「>」ボタンを使用して、選択内容をウィザード・ページの右側に移動します。

    接続の入力のリストからグループまたは属性を移動するには、「<」矢印を使用できます。Warehouse Builderでは、選択内容が入力グループから削除され、ソース演算子と現行の演算子間のマッピング線も削除されます。

Match-Mergeウィザードおよびエディタ: 入力属性

入力属性ページを使用して、各入力属性に入力ロールを割り当てます。

属性

接続の入力ページで選択した属性が自動的に表示されます。新規の入力属性を追加するには「追加」をクリックします。

入力ロール

入力ロールは、データ行の情報の種類を示します。属性ごとに、ソース属性に含まれたデータに最も近い入力ロールを選択します。

データ型、長さ、精度、スケール、秒精度

属性は自動的に「NUMBER」に設定されます。

説明

入力属性の説明(オプション)を入力します。

追加

新規属性を定義できるように1行を追加します。

削除

選択した属性を削除します。

Match-Mergeウィザードおよびエディタ: マージ出力

このページで、出力MERGEグループの属性を指定します。MERGEグループは、選択した属性から統合されたレコードを生成します。

ソース属性

このMatch-Merge演算子に定義されている属性がすべて表示されます。シャトル・ボタンを使用して、選択した属性を「出力属性」フィールドに移動します。

出力属性

出力MERGEグループ用に選択した属性が表示されます。

Match-Mergeウィザードおよびエディタ: 相互参照出力

相互参照出力ページで、XREFグループの属性をオプションで選択します。Match-Merge演算子では、デフォルトでXREFグループが作成されますが、オプションでそのグループに属性を追加したり、空にしたりできます。

XREFグループを使用すると、マージ・プロセスを文書化できます。元のデータ・セットと新しくマージしたデータ・セットの間に外部キー関係を作成します。XREFグループの属性を、マージした各行に対応するソース行を記録する表に渡します。

また、XREFグループを第2のMatch-Merge演算子への入力として使用することもできます。2つの演算子を使用して、属性セットからマージされた出力を2つの異なるターゲットに渡すことができます。例については、「2つのMatch-Merge演算子の使用」を参照してください。

ソース属性

各MATCH出力属性の入力属性(INGRP1)とXREF出力属性が表示されます。XREF属性は、接頭辞(デフォルト値はMM_)で区別されます。

出力属性

相互参照する属性。選択した属性を「ソース属性」リストと「出力属性」リストの間で移動するには、シャトル・キーを使用します。

マージ接頭辞

相互参照出力をデータ出力と区別するための接頭辞。

接頭辞の設定

両方のリストで、XREF属性の接頭辞が「マージ接頭辞」フィールドに表示される値に変更されます。

Match-Mergeウィザードおよびエディタ: 一致bin

一致binページで、比較する行数を制限します。Warehouse Builderで行を照合するときには、同じグループ内で各行が他の行と1つずつ比較されていきます。Warehouse Builderではデータ・セット全体ではなく、bin内でのみ一致するデータが検索されるため、行数を制限するとパフォーマンスが大幅に向上します。

理想的には、グループごとの行数を2000行未満にとどめる必要があります。Warehouse Builderで実行する比較の件数は、次の計算式に基づきます。

n=(b*(b-1))/2 

nは比較の件数を示し、bはbin内のレコード数を示します。

たとえば、5件のレコードを照合するには10回、50件のレコードを照合するには1,225回、500件のレコードを照合するには124,750回比較を行う必要があります。

「一致bin」の定義で、行を適度な数のグループに分離できますが、一致するはずの行までが分離されるようなことは避ける必要があります。類似行のグループに選択する属性は、データによって異なります。たとえば、100万行の顧客アドレスの表がある場合には、部分的な番地名、都市名および郵便番号でデータをグループ化できます。

使用可能な属性

すべての入力属性が表示され、ビニングに使用する属性を選択できます。

選択された属性

行が特定のbinに含まれるために一致する必要のある1つ以上の属性。「ソース属性」リストと「出力属性」リストの間で属性を移動するには、1つ以上の属性を選択して2つのリスト間にある矢印キーをクリックします。右側にある矢印キーを使用すると、最上部にある一般的な属性(「国」など)から最下部にある限定的な属性(「番地」など)へと順序付けできます。

新規レコードのみ一致

初回の配布後に、全レコードを照合してマージするか新規レコードのみを照合してマージするかを選択できます。パフォーマンスへの影響を考慮して、同じデータを2回照合してマージするのを避けることができます。かわりに、整備されていない新規データのみを照合してマージできます。このオプションを選択すると、整備されていないデータをデータ・ウェアハウスに追加できます。

新規レコード条件

新規レコードの識別に使用される条件式が表示されます。省略記号のボタンをクリックすると、「新規レコード条件一致エディタ」(「式ビルダー」ユーザー・インタフェース)が表示されます。

Match-Mergeウィザードおよびエディタ: 一致ルール

「一致ルール」を使用すると、一部のフィールドの値が異なる場合にも重複レコードが識別されます。演算子の単一または複数の属性について一致ルールを定義できます。「一致ルール」タブのページ上部で一致ルールを作成します。「一致ルール」タブの下部では、各一致ルールの詳細を指定します。表21-9に、一致ルールを示します。

複数の一致ルールを作成すると、Warehouse Builderでは、2行が一致ルールのいずれかを満たす場合に一致と判断されます。つまり、Warehouse BuilderではOR論理を使用して複数の一致ルールが評価されます。このOR論理は、2行目の各行の左側にある「OR」アイコンによって示されます。詳細は、「一致の概念について」を参照してください。

名前

ルールの任意名。Warehouse Builderでは、一致ルールごとにMA_0やMA_1などのデフォルト名が作成されます。これらの名前は、意味のある名前で置き換えることができます。意味のある名前が特に役立つのは、カスタムPL/SQLプログラムからルールを参照する場合です。

位置

実行順序。行ヘッダーをクリックし、その行を新規の位置にドラッグすると、ルールの位置を変更できます。行ヘッダーは、「名前」列の左側にあるボックスです。

ルール・タイプ

表21-9に示すルール・タイプを1つ割り当てます。ルール・タイプを選択すると、「一致ルール」タブの下部がアクティブになり、一致ルールの詳細を入力できます。

使用方法

一致ルールを「アクティブ」または「受動」として指定できます。

  • アクティブ: 一致ルールをアクティブとして指定すると、Warehouse Builderで実行されます。複数の一致ルールがアクティブな場合は、一致がみつかるか、すべてのルールが評価されるまで、各ルールが順番に評価されます。いずれかのルールで一致が識別されると、そのレコードが一致とみなされます。

  • 受動: 受動一致ルールがWarehouse Builderで直接実行されることはありません。受動ルールは、アクティブなカスタム一致ルールを介してコールされる場合にのみ実行されます。定義済のすべての一致ルールは、「カスタム一致ルール・エディタ」の使用可能なファンクションのリストに表示されます。

説明

入力可能な説明(オプション)が表示されます。

一致ルールの説明

表21-9に、一致ルールのタイプを説明します。

表21-9 一致ルールの説明

一致ルール 説明

すべて一致

一致bin内の行がすべて照合されます。

一致なし

照合がオフになります。一致bin内の行は照合されません。

条件付き

選択したアルゴリズムに基づいて行が照合されます。詳細は、「条件付き一致ルール」を参照してください。

重み

属性に割り当てるスコアに基づいて行が照合されます。詳細は、「重み一致ルール」を参照してください。

人名

人名に基づいてレコードが照合されます。詳細は、「人名一致ルール」を参照してください。

会社

ビジネス名に基づいてレコードが照合されます。詳細は、「会社一致ルール」を参照してください。

アドレス

郵送先アドレスに基づいてレコードが照合されます。詳細は、「アドレス一致ルール」を参照してください。

カスタム

カスタム比較アルゴリズムを作成します。「編集」を選択して「カスタム一致ルール・エディタ」を起動します。詳細は、「カスタム一致ルール」を参照してください。


条件付き一致ルール

条件付き一致ルールを使用して、複数の属性比較を結合して1つの複合ルールにします。比較用に複数の属性を割り当てる場合、レコードが一致とみなされるには、比較がすべてTRUEになる必要があります。Warehouse Builderでは、2番目以降の条件の左端の列に「AND」アイコンが表示されます。

属性

特定の条件のテスト対象となる属性を識別します。任意の入力属性(INGRP1)から選択できます。

位置

実行順序。行ヘッダーをクリックし、その行を新規の位置にドラッグすると、ルールの位置を変更できます。行ヘッダーは、「属性」列の左側にあるボックスです。

アルゴリズム

一致の判別に使用できる方法のリスト。各アルゴリズムについては、表21-10を参照してください。

類似度のスコア

「Edit Distance」、「標準化されたEdit Distance」、「Jaro-Winkler」または「標準化したJaro-Winkler」アルゴリズムにより計算された、2つの文字列の一致に必要な類似度の最小値。0(ゼロ)から100の値を入力します。値100は完全一致を示し、値0(ゼロ)は類似度がないことを示します。

空白の一致

照合時の空の文字列の処理オプションを示します。

条件付き一致ルールの定義

条件付き一致ルールを定義する手順は、次のとおりです。

  1. 「一致ルール」タブの上部で、ルール・タイプの「条件付き」を選択します。

    タブの下部に「詳細」セクションが表示されます。

  2. 「追加」をクリックして新規の1行を追加します。

  3. 属性を選択します。

  4. アルゴリズムを選択します。説明は、表21-10を参照してください。

  5. 「Edit Distance」、「標準化されたEdit Distance」、「Jaro-Winkler」または「標準化したJaro-Winkler」アルゴリズムの類似度のスコアを指定します。

  6. 空白の処理方法を選択します。

条件付き一致ルールのアルゴリズム

表21-10に、条件付き一致ルールを定義するために使用できるアルゴリズムを説明します。

表21-10 条件付き一致ルールのアルゴリズム

アルゴリズム 説明

Exact

完全に同一の場合にのみ値が一致します。

たとえば、「Dog」と「dog!」の場合、後者は1文字目が小文字で余分な文字が含まれているため、両者は一致しません。数値、日付および文字以外のデータ型の場合、使用できるのはこのタイプの比較のみです。

標準化されたExact

大/小文字区別、空白および非英数字が排除されてから、完全一致かどうかが比較されます。

たとえば、「Dog」と「dog!」は一致します。

Soundex

発音の類似する文字列が一致します。演算子では、文字列が表音コードに変換されます。コードが一致すると、2つの文字列は一致します。通常、このアルゴリズムは名前の一致に使用されます。「Double Metaphone」よりも古い表音アルゴリズムです。

「Soundex」アルゴリズムでは、大/小文字区別と空白が無視されます。基本的には1文字目が保持され、母音が排除され、子音が数値で置換されます。発音の似た子音には同じ数値が使用されます。

Edit Distance

類似度の値が「類似度のスコア」で指定した値以上の文字列が一致します。通常、このアルゴリズムは書き換えられた文字のような誤植を修正するために使用されます。

「Edit Distance」アルゴリズムでは、ある文字列から別の文字列への変換に必要な削除、挿入または置換の数が計算されます。類似度が値100の場合は、2つの文字列が同一であることを示します。値0(ゼロ)は、類似度がないことを示します。

たとえば、文字列「tootle」が文字列「tootles」と比較される場合、Edit Distanceは1です。文字列「tootles」の長さは7です。したがって、類似度の値は、6/7*100つまり85となります。

標準化されたEdit Distance

大/小文字区別、空白および非英数字が排除されてから、「Edit Distance」アルゴリズムを使用して一致が判別されます。

不完全な名前

ある文字列が他の文字列の最初の単語に含まれている場合に文字列が一致します。このアルゴリズムでは、文字列全体の「標準化されたExact」比較が実行されてから、不完全な名前の一致が試行されます。

たとえば、「Midtown Power」は「Midtown Power and Light」と一致しますが、「Northern Midtown Power」とは一致しません。

略称

ある文字列に含まれる単語が他の文字列内で対応する単語の略称である場合に、両方の文字列が一致します。

演算子では、最初に文字列全体の「標準化されたExact」比較が実行されます。次に、各単語の略称が検索されます。長い方の単語に短い方の単語のすべての文字が同じ順序で含まれている場合に、2つの単語が一致とみなされます。

たとえば、「Intl. Business Products」は「International Bus Prd」と一致します。

頭文字

ある文字列が他の文字列の頭字語である場合に、両方の文字列が一致します。

演算子では、最初に文字列全体の「標準化されたEdit Distance」比較が実行されます。一致がみつからなければ、一方の文字列の各単語が他方の文字列の対応する単語と比較されます。単語全体が一致しなければ、一方の文字列の単語の各文字が他方の文字列の残りの各単語の1文字目と比較されます。文字が同一であれば、名前は一致します。

たとえば、「Chase Manhattan Bank NA」は「CMB North America」と一致します。比較では、大/小文字区別、非英数字および「and」や「the」などのノイズ・ワードは無視されます。

Jaro-Winkler

「Edit Distance」アルゴリズムよりも改善された比較システムを使用し、類似度の値に基づいて文字列が照合されます。文字列の長さが考慮され、先頭にあるエラーほど大きなペナルティが適用されます。また、一般的な誤植も認識されます。類似度の値が「類似度のスコア」に指定した値以上の場合に、文字列が一致します。

類似度が値100の場合は、2つの文字列が同一であることを示します。値0(ゼロ)は、類似度がないことを示します。アルゴリズムにより実際に計算される値(0.0から1.0)を100で乗算すると、「Edit Distance」のスコアとなることに注意してください。

標準化したJaro-Winkler

大/小文字区別、空白および非英数字が排除されてから、「Jaro-Winkler」アルゴリズムを使用して一致が判別されます。

Double Metaphone

「SOUNDEX」アルゴリズムよりも改善されたコーディング・システムを使用して、発音の似た文字列が照合されます。複数の方法で発音可能な文字列の場合は2つのコードが生成されます。2つの文字列の第1コードが一致するか、第2コードが一致すると、その文字列が一致します。

「Double Metaphone」アルゴリズムでは、イタリア語、スペイン語、フランス語、ドイツ語およびスラブ系言語の代替発音が考慮されます。「SOUNDEX」アルゴリズムとは異なり、「Double Metaphone」アルゴリズムでは1文字目がエンコードされるため、「Kathy」と「Cathy」は同じ表音コードとして評価されます。


重み一致ルール

このルールを使用し、重み値に基づいて行を照合します。重み一致ルールは、多数の属性を比較する際に最も役立ちます。このルールでは、条件付きルールのAND論理の結果として1つの属性により一致が無効化されるのを防止できます。

Warehouse Builderでは、行相互の類似度を表す0(ゼロ)から100のスコアを戻す類似度アルゴリズムを使用して各属性が比較されます。2つの行が一致とみなされるためには、カウント合計が指定したスコア全体よりも大きくなる必要があります。

類似度アルゴリズム

一致の判別に使用する方法。次のアルゴリズムから選択します。

  • Edit Distance: ある文字列から別の文字列への変換に必要な削除、挿入または置換の数が計算されます。

  • Jaro-Winkler: 「Edit Distance」アルゴリズムよりも改善された比較システムが使用されます。文字列の長さが考慮され、先頭にあるエラーほど大きなペナルティが適用されます。また、一般的な誤植も認識されます。

属性

特定の条件のテスト対象となる属性を識別します。任意の入力属性(INGRP1)から選択できます。

最大スコア

属性の重み値。「一致のための必須スコア」よりも大きい値を指定する必要があります。

空白の場合にスコア

レコードの1つが空の場合の類似度の値。

一致のための必須スコア

一致に必要な類似度を表す値。値100は2つの値が同一であることを示し、値0(ゼロ)は類似性がないことを示します。

重み一致ルールの使用

重み一致ルールを使用する手順は、次のとおりです。

  1. 「一致ルール」タブで、「ルール・タイプ」として「重み」を選択します。

    ページの最下部に「詳細」タブが表示されます。

  2. ページの最下部にある「追加」を選択して新規の1行を追加します。

  3. 行ごとに、ルールに追加する属性を選択します。

  4. 「最大スコア」で、各属性に重みを割り当てます。Warehouse Builderでは、各属性が類似度のアルゴリズムを使用して比較されます。このアルゴリズムは、2つの行の類似度を表す0から100までのスコアを戻します。

  5. 「一致のための必須スコア」で、一致全体のスコアを割り当てます。

    2行が一致とみなされるためには、合計カウントが必須スコアよりも大きいことが必要です。

重み一致ルールの例

表21-11に示すデータに、重み一致ルールを適用するとします。

表21-11 一致のレコードの例

レコード番号 Attr_1 Attr_2

Rec_1

CA

QQ

Rec_2

CA

QQ

Rec_3

CA

QR


「最大スコア」で、Attr_1とAttr_2の両方に値50を割り当てます。「一致のための必須スコア」に値80を割り当てます。次の結果を予想できます。

  • Rec_1は新規レコードです。演算子は最初にこのレコードを読み取ります。

  • Rec_2では、Attr_1の値はCAです。新規レコードRec_1の値に対するCAの類似度は100です。Attr_1の重み値は50のため、スコアは50(50の100%)となります。

  • Rec_2では、Attr_2の値はQQで、類似度は100です。Attr_2の重み値も50のため、スコアは50(50の100%)です。最大スコアの合計は100(50+50)です。この値100は「一致のための必須スコア」の値以上であるため、Rec_2とRec_1は一致となります。

  • Rec_3では、Attr_1はCAで、Rec_1との類似度は100です。Attr_1の重み値は50のため、加重後のスコアは50(50の100%)となります。

  • Rec_3では、Attr_2の値はQRで、類似度は50です。Attr_2の最大値は50のため、スコアは25(50の50%)です。加重後のスコア合計は75(50+25)となります。これは「一致のための必須スコア」の値を下回っています。そのため、Rec_3とRec_1は不一致となります。

人名一致ルール

人名一致ルールを使用して、レコードを名前で照合します。名前による照合は、最初にName and Address演算子を使用してアドレス・データを修正してからMatch-Merge演算子を使用する場合に最も効率的です。

人名一致ルールを選択すると、一致ルール・ページに「人名属性」および「詳細」タブが表示されます。

「人名属性」タブ

  • 適格属性: すべての入力属性が表示されます。

  • 属性: 名前の各部を含む属性。シャトル・キーを使用して、属性を適格属性から「名前ロール」の「属性」列に移動します。

  • 名前ロール: 名前の各部のロールが表示されます。属性ごとに適切なロールを選択します。表21-12に、各ロールについて説明します。

表21-12 人名一致ルールの名前ロール

ロール 説明

プリネーム

演算子では、あるレコードの「標準化された名前」が空白で、「"Mrs"の一致」オプションが選択されていて、「姓」といずれかの「ミドル・ネーム」ロールが一致する場合にのみ、プリネームが比較されます。この基準を満たしている場合、レコード「Mrs. William Webster」は「Mrs. Webster」と一致します。

標準化された名前

名は、両方が空白の場合に一致します。「プリネーム」ロールが割り当てられている場合に「"Mrs"の一致」オプションを設定しないかぎり、空白の名が空白でない名と一致することはありません。

標準化されたミドル・ネーム、標準化されたミドル・ネーム2、標準化されたミドル・ネーム3

演算子では、割り当てられているミドル・ネームのいずれかが比較および相互比較されます。デフォルトでは、ミドル・ネームは完全一致になる必要があります。ミドル・ネームが一致するのは、一方または両方が空白の場合です。「ミドル・ネーム」ロールのいずれかを割り当てるには、「標準化された名前」ロールも割り当てる必要があります。

演算子では、両方が空白の場合は一致、一方のみが空白の場合は不一致として姓が割り当てられます。

ポストネーム

これは、「Jr.」や「Sr.」などのポストネームと同じです。演算子では、両方の値が完全一致であるか、一方が空白の場合に、一致として割り当てられます。


「人名詳細」タブ

「詳細」タブを使用して、一致の判別オプションを設定します。表21-13に、名前の各構成要素について選択できるルール・オプションを示します。アルゴリズムの説明は、表21-10を参照してください。

表21-13 人名一致ルールのオプション

オプション 説明

姓名の順序の変更を検出

「Elmer Fudd」を「Fudd Elmer」と一致させるなど、姓名の順序の変更が検出されます。このオプションを選択できるのは、「人名属性」タブで属性に「名」および「姓」ロールを選択した場合です。

イニシャルの一致

「R.」と「Robert」など、イニシャルを名前と一致させます。このオプションは、「名」および「ミドル・ネーム」ロール用に選択できます。

部分文字列の一致

「Rob」と「Robert」など、部分文字列を名前と一致させます。このオプションは、「名」および「ミドル・ネーム」ロール用に選択できます。

類似度のスコア

「Edit Distance」または「Jaro-Winkler」アルゴリズムにより計算された類似度スコアを使用して、一致が判別されます。一致に必要な最小類似度として0(ゼロ)から100の値を入力します。値100を入力すると完全一致が要求され、値0(ゼロ)を入力すると類似度は要求されません。

表音コードの一致

「Soundex」または「Double Metaphone」アルゴリズムを使用して一致を判別します。

複合名の検出

「De Anne」と「Deanne」など、複合名と名前を一致させます。このオプションは、「名」ロール用に選択できます。

"Mrs"の一致

「Mrs. Washington」と「George Washington」など、プリネームと姓名を一致させます。このオプションは「プリネーム」ロール用に選択できます。

ハイフンで連結された一致名

演算子では、「Reese-Jones」と「Reese」など、ハイフンで連結された名前とハイフンなしの名前を一致させます。このオプションは「姓」ロール用に選択できます。

欠落したハイフンの検出

演算子では、「Hillary Rodham Clinton」と「Hillary Rodham-Clinton」を一致させるなど、欠落したハイフンが検出されます。このオプションは「姓」ロール用に選択できます。


人名一致ルールの定義

人名一致ルールを定義する手順は、次のとおりです。

  1. 「一致ルール」タブで、「ルール・タイプ」として「人名」を選択します。

    ページの下部に「人名属性」タブと「詳細」タブが表示されます。

  2. 「人名属性」タブの左パネルでフルネームを記述する属性を選択し、矢印キーを使用して「名前ロール属性」に移動します。

  3. 属性ごとに、名前におけるロールを選択します。一致ルールを有効にするには、「姓」または「標準化された名前」のどちらか一方を定義する必要があります。割当て可能なロールのタイプについては、表21-12を参照してください。

  4. 「詳細」タブを選択し、表21-13に示す適用可能なオプションを選択します。

会社一致ルール

会社一致ルールを使用して、レコードをビジネス名で照合します。このタイプの照合は、最初にName and Address演算子を使用してアドレス・データを修正してからMatch-Merge演算子を使用する場合に最も効率的です。

会社一致ルールを選択すると、一致ルール・ページに「会社属性」および「詳細」タブが表示されます。

「会社属性」タブ

「会社属性」タブを使用して、ビジネス名を含む属性を識別します。

  • 適格属性: すべての入力属性が表示されます。

  • 属性: ビジネス名を含む属性。ビジネス名を含む1つまたは2つの属性を適格属性から「会社ロール」の「属性」列に移動します。

  • 会社ロール: 2つのロール「会社1」および「会社2」が表示されます。属性を1つ選択した場合は、そのロールとして「会社1」を指定します。属性を2つ選択した場合は、一方を「会社1」、他方を「会社2」として指定します。

会社詳細ページ

「詳細」タブを使用して、一致の判別オプションを設定します。演算子では、デフォルトで「会社1」の値が完全一致かどうかが比較されます。

表21-14に、名前の各構成要素について選択できるルール・オプションを示します。アルゴリズムの説明は、表21-10を参照してください。

表21-14 会社ルールのオプション

オプション 説明

ストライプ・ノイズ・ワード

「and」や「the」などの単語が削除されます。

会社1と会社2のクロス一致

「会社1」属性と「会社2」属性の間で一致の検索が試行されます。

会社名の不完全一致

「不完全な名前」アルゴリズムを使用して一致が判別されます。

略称の一致

「略称」アルゴリズムを使用して一致が判別されます。

頭文字の一致

「頭文字」アルゴリズムを使用して一致が判別されます。

類似度のスコア

「Edit Distance」または「Jaro-Winkler」アルゴリズムにより計算された類似度スコアを使用して、一致が判別されます。一致に必要な最小類似度として0(ゼロ)から100の値を入力します。値100を入力すると完全一致が要求され、値0(ゼロ)を入力すると類似度は要求されません。


会社一致ルールの定義

会社一致ルールを定義する手順は、次のとおりです。

  1. 「一致ルール」タブで、「ルール・タイプ」として「会社」を選択します。

    ページの下部に「会社属性」タブと「詳細」タブが表示されます。

  2. 「会社属性」タブの左パネルで、会社名を表す属性を1つまたは2つ選択して右シャトル・ボタンをクリックします。

    選択した属性が「会社ロール」ボックスに移動します。

  3. 属性ごとに「ロールが必要です」をクリックします。リストから第1の属性について「会社1」を選択し、存在する場合は第2の属性について「会社2」を選択します。

  4. 「詳細」タブで、適用可能なオプションを選択します。

アドレス一致ルール

アドレス一致ルールを使用し、郵送先アドレスに基づいてレコードを一致させます。

アドレスによる一致は、最初にName and Address演算子、次にMatch-Merge演算子を使用してアドレス・データを修正する場合に最も効率的です。Name and Address演算子では、郵便照合データベースに存在するアドレスが識別され、レコードが「検出済」フラグで指定されます。データの構文が正しく、有効で存在することがわかっているため、Match-Merge演算子では「検出済」ロールを持つアドレスが高速で処理されます。

「アドレス属性」タブ

「アドレス属性」タブを使用して、アドレスを含む属性を識別します。

  • 適格属性: すべての入力属性が表示されます。

  • 属性: アドレスの各部を含む属性。シャトル・キーを使用して、アドレス情報を含む属性を適格属性から「アドレス・ロール」の「属性」列に移動します。

  • アドレス・ロール: アドレスの各部が表示されます。各属性に最も近いものを選択します。表21-15で、アドレス・ロールについて説明します。

表21-15 アドレス・ロール

ロール 説明

第1アドレス

100 Main Streetなどの番地またはPO Box 100などの私書箱。このロールを属性の1つに割り当てなければ、一致ルールは無効です。

区画番号

第1アドレスの部屋番号、階または棟番号。

第1アドレスが一致するアドレスの場合、演算子では区画番号が比較されます。両方の区画番号が空白であれば、両者は一致します。一方の区画番号のみが空白であれば、「空白の第2アドレスの一致」オプションを選択した場合にのみ一致します。

私書箱

第1アドレスの私書箱番号。

第1アドレスが「私書箱」の場合、演算子では私書箱番号が第1アドレスの番号部分と比較されます。第1アドレスが番地を表す場合、私書箱番号は空白になります。

二重第1アドレス

第2アドレス。追加のロケーションまたは以前のロケーションを表すことができます。

2つのアドレスの第1アドレスが一致する場合、演算子では二重第1アドレスが比較されます。

二重区画番号

二重第1アドレスの部屋番号、階または棟番号。

演算子では、あるレコードの「二重区画番号」が別のレコードの「区画番号」および「二重区画番号」と比較されます。一方または両方が空白の場合、区画番号は一致します。

二重私書箱

二重第1アドレスの私書箱番号。

演算子では、あるレコードの「二重私書箱」が別のレコードの「私書箱」および「二重私書箱」と比較されます。

市区町村

このロールを割り当てるのは、「都道府県」ロールも割り当てる場合のみです。

未修正のアドレス・データの場合、演算子では各「市区町村」が比較されます。

Name and Address演算子により修正済のアドレスの場合、Match-Mergeでは郵便番号が一致しない場合にのみ「市区町村」が比較されます。「市区町村」と「都道府県」の両方が一致する場合、演算子ではアドレス・ロールが比較されます。「市区町村」は、両方が空白の場合は一致しますが、一方のみが空白の場合は一致しません。

都道府県

このロールを割り当てるのは、「市区町村」ロールも割り当てる場合のみです。

未修正のアドレス・データの場合、演算子では各「都道府県」が比較されます。

「Name and Address」演算子により修正済のアドレスの場合、「Match-Merge」では郵便番号が一致しない場合にのみ「都道府県」が比較されます。「市区町村」と「都道府県」の両方が一致する場合、演算子ではアドレス・ロールが比較されます。「都道府県」は、両方が空白の場合は一致しますが、一方のみが空白の場合は一致しません。

郵便番号

未修正のアドレス・データの場合、演算子では「郵便番号」は使用されません。

Name and Address演算子により修正済のアドレスの場合、Match-Mergeでは各「郵便番号」のみが比較されます。郵便番号が一致する場合、演算子ではアドレス・ロールが比較されます。郵便番号が一致しなければ、演算子では「市区町村」と「都道府県」が比較され、「第1アドレス」などのアドレス・ロールを比較する必要があるかどうかが判別されます。

検出済

このロールを、前にName and Address演算子で整備と標準化を完了しているアドレスに割り当てます。Name and Address演算子では、アドレスが国の郵便照合データベースの一部として識別されると、レコードが「検出済」フラグでマークされます。


アドレス詳細ページ

「詳細」タブを使用して、一致の判別オプションを設定します。表21-16に、アドレス・ロールに割当可能なオプションを説明します。

表21-16 アドレス・ロールのオプション

オプション 説明

異なる第2アドレスの許可

区画番号の異なるアドレスが一致します。

空白の第2アドレスの一致

一方の区画番号が空白の場合に、2つのアドレスが一致します。

番地または私書箱の一致

番地または私書箱が一致する場合にレコードが一致します。

アドレス行の類似度

「Edit Distance」または「Jaro-Winkler」アルゴリズムにより計算された類似度スコアを使用して、アドレス行の一致を判別します。一致に必要な最小類似度として0(ゼロ)から100の値を入力します。値100を入力すると完全一致が要求され、値0(ゼロ)を入力すると類似度は要求されません。

アドレスの番地名は「第1アドレス」で、区画番号は「第2アドレス」です。「アドレス行の類似度」では、第1アドレスと第2アドレスの両方が評価されます。

最終行の類似度

「Edit Distance」または「Jaro-Winkler」アルゴリズムにより計算された類似度スコアを使用して、「市区町村」、「都道府県」および「郵便番号」属性の一致を判別します。一致に必要な最小類似度として0(ゼロ)から100の値を入力します。値100を入力すると完全一致が要求され、値0(ゼロ)を入力すると類似度は要求されません。


アドレス一致ルールの定義

アドレス一致ルールを定義する手順は、次のとおりです。

  1. 「一致ルール」タブで、「ルール・タイプ」として「アドレス」を選択します。

    ページの下部に「アドレス属性」タブと「詳細」タブが表示されます。

  2. 「アドレス属性」タブの左パネルで、第1アドレスを表す属性を選択します。右シャトル・キーを使用して、選択した属性をアドレス・ロール属性の列に移動します。

  3. 「ロールが必要です」をクリックし、その属性を第1アドレスとして指定します。

    これは必須手順です。第1アドレス・ロールを割り当てなければ、一致ルールは無効です。

  4. 他の属性を追加し、そのロールを必要に応じて指定します。割当て可能なロールのタイプは、表21-15を参照してください。

  5. 「詳細」タブを選択し、表21-16に示す適用可能なオプションを選択します。

カスタム一致ルール

カスタム一致ルールを使用して、独自のPL/SQLプログラムを比較アルゴリズムとして実行します。

一致ルール詳細

カスタム・アルゴリズムを構成するPL/SQLコードが表示されます。このフィールドでコードを直接編集するか、「カスタム一致ルール・エディタ」を使用できます。

編集

「カスタム一致ルール・エディタ」が表示されます。

カスタム一致ルール・エディタ

「カスタム一致ルール・エディタ」を使用して、比較アルゴリズムとして使用するカスタムPL/SQLプログラムを開発します。

このエディタには、基本的なプログラム開発サポート機能が用意されています。コンポーネントは次のとおりです。

メニュー・バー

メニュー・バーは次のメニューで構成されています。

  • コード: ローカル・コンピュータ・ネットワーク上のファイルの読取りと書込み、編集した変更内容の保存などができます。

  • 編集: 基本的な切取り、コピーおよび貼付け機能を提供します。

  • 検索: 基本的な検索および置換機能を提供します。

  • テスト: 「実装」フィールドに入力したコードの構文エラーをチェックできます。

  • ヘルプ: このトピックが表示されます。

「検索」フィールド

ナビゲーション・ツリーで検索する機能名の全体または一部。「実行」を1回目にクリックすると最初のインスタンスが検索され、もう1回クリックすると次のインスタンスが検索されます。

ナビゲーション・ツリー

プログラムに組み込むことのできる入力パラメータと変換が表示されます。ナビゲーション・ツリーには、次のフォルダがあります。

  • MATCH FUNCTIONS: 定義済のアクティブ・ルールと受動ルールの両方が表示されます。これらのルールは、他のPL/SQLファンクションと同様にコールできます。

  • パラメータ: 「THIS_」および「THAT_」という2つのサブフォルダの下に入力属性がすべて表示されます。プログラムでは、同じ属性または異なる属性の2行を比較できます。

  • 変換ライブラリ: Warehouse Builderのすべての変換が表示されます。

ファンクション、パラメータまたは変換をカーソル位置にあるコードに挿入するには、ダブルクリックするか、「実装」フィールドにドラッグ・アンド・ドロップします。

「実装」フィールド

プログラム・コードが表示されます。

「定義」タブ

選択したファンクションのシグネチャが表示されます。

「メッセージ」タブ

コードの検証成功または失敗に関する情報が表示されます。

カスタム一致ルールの定義

カスタム一致ルールを定義する手順は、次のとおりです。

  1. 「一致ルール」タブで、「ルール・タイプ」として「カスタム」を選択します。

    ページの下部に、PL/SQLプログラムのスケルトンとともに「詳細」フィールドが表示されます。

  2. 「編集」をクリックしてカスタム一致ルール・エディタを開きます。

  3. PL/SQLコードを入力するには、次の任意の手順を組み合せて実行します。

    • ファイルを読み取るには、「コード」メニューから「ファイルを開く」を選択します。

    • テキストを入力するには、マウスまたは矢印キーを使用してカーソルを置いてから入力を開始します。「編集」メニューと「検索」メニューのコマンドを使用することもできます。

    • ナビゲーション・ツリーでファンクション、パラメータまたは変換を参照するには、カーソルを置いてからオブジェクトをダブルクリックするか、「実装」フィールドにドラッグ・アンド・ドロップします。

  4. コードを検証するには、「テスト」メニューから「検証」を選択します。

    検証結果が「メッセージ」タブに表示されます。

  5. コードを保存するには、「コード」メニューから「保存」を選択します。

  6. カスタム一致ルール・エディタを閉じるには、「コード」メニューから「閉じる」を選択します。

マージ・ルール・ページ

マージ・ルール・ページで、マージしたレコードの属性の値を選択します。

名前

ルールの任意名。Warehouse Builderでは、マージ・ルールごとにME_0などのデフォルト名が作成されます。これらの名前は、意味のある名前で置き換えることができます。意味のある名前が特に役立つのは、PL/SQLカスタム・ルールからルールをコールする場合です。

位置

実行順序。行ヘッダーをクリックし、その行を新規の位置にドラッグすると、ルールの位置を変更できます。行ヘッダーは、「名前」列の左側にあるボックスです。

ルール・タイプ

表21-17に示すルール・タイプを1つ割り当てます。ルール・タイプを選択すると、「マージ・ルール」タブの下部がアクティブになり、マージ・ルールの詳細を入力できます。

属性

値がマージ・ルールにより選択される属性を識別します。マージされたすべての属性のリストが表示されます。

「レコード」ルールを選択すると、属性リストが無効になります。ページ下部に表示される「属性」タブで複数の属性を選択します。

説明

ルールの説明(オプション)を入力できます。

マージ・ルールの説明

マージ・ルールを定義する際に、マージ済レコードの全属性に対してルールを1つ定義する方法と、属性ごとにルールを定義する方法があります。たとえば、マージ済レコードが顧客レコードの場合は、ADDRESS1、ADDRESS2、CITY、STATEおよびZIPなどの属性を持っている可能性があります。各属性の値を最大5つの異なるレコードから選択する5つのルールを記述するか、5つの属性の値をすべて1つのレコードから選択するレコード・ルールを1つ記述できます。レコード・ルールを使用するのは、複数の属性が住所などの論理単位を構成している場合です。たとえば、「市区町村」、「都道府県」および「郵便番号」は3つの異なる属性ですが、これらの属性のデータはすべて同じレコードから取り込まれます。

表21-17に、マージ・ルールのタイプを説明します。

表21-17 マージ・ルールのタイプ

マージ・ルール 説明

すべて

空白以外の最初の値が使用されます。

一致ID

別のMatch-Merge演算子から出力されたレコードがマージされます。詳細は、「「一致ID」マージ・ルール」を参照してください。

ランク

第2属性のランク値を使用して優先値が選択されます。詳細は、「「ランク」および「レコードのランク」マージ・ルール」を参照してください。

順序

順序内の値を使用してデータのロード時に一意キーが生成されます。詳細は、「「順序」マージ・ルール」を参照してください。

最小/最大

別の属性の順序に基づいて最初の値が使用されます。詳細は、「「最小/最大」および「最小/最大レコード」マージ・ルール」を参照してください。

コピー

別のマージ済属性の値が使用されます。詳細は、「「コピー」マージ・ルール」を参照してください。

カスタム

レコードのマージ基準として入力するPL/SQLコードが使用されます。詳細は、「「カスタム」および「カスタム・レコード」マージ・ルール」を参照してください。

任意のレコード

「すべて」ルールと同じですが、「任意のレコード」ルールは複数の属性に適用されます。

レコードのランク

「ランク」ルールと同じですが、「レコードのランク」ルールは複数の属性に適用されます。

最小/最大レコード

「最小/最大」ルールと同じですが、「最小/最大レコード」ルールは複数の属性に適用されます。

カスタム・レコード

「カスタム」ルールと同じですが、「カスタム・レコード」ルールは複数の属性に適用されます。


「一致ID」マージ・ルール

「一致ID」マージ・ルールを使用して、別のMatch-Merge演算子からのXREFグループ内で出力済のレコードをマージします。このタイプの入力には、他の演算子は無効です。詳細は、「2つのMatch-Merge演算子の使用」を参照してください。

順序の次の値

ルールで使用される順序を識別します。

「順序」リスト

現行のプロジェクトで定義済の順序がすべて表示されます。

順序の選択

ルールの順序を、リストで現在選択されている順序に設定します。「順序」リストから「順序の選択」に順序を移動します。

「ランク」および「レコードのランク」マージ・ルール

「ランク」および「レコードのランク」ルールを使用するのは、複数のソースからデータをマージする場合です。この2つのルールを使用すると、特定のソースのプリファレンスを識別できます。データには、ルールの基礎となる第2入力属性が必要です。

たとえば、第2属性でデータ・ソースを識別し、これらのデータ・ソースを信頼度順にランク付けするとします。最も信頼度の高い値がマージ済レコードで使用されます。このマージ・ルールは次のようになります。

INGRP1.SOURCE = 'Order Entry'

名前

ルールの任意名。Warehouse Builderでは、ランク・マージ・ルールごとにRULE_0などのデフォルト名が作成されます。これらの名前は意味のある名前で置き換えることができます。

位置

実行順序。行ヘッダーをクリックし、その行を新規の位置にドラッグすると、ルールの位置を変更できます。行ヘッダーは、「名前」列の左側にあるボックスです。

式のレコードの選択

ランキングに使用されるカスタムSQL式。省略記号ボタンをクリックすると、「ランク・ルール・エディタ」(「式ビルダー」ユーザー・インタフェース)が表示されます。このエディタを使用してランキング式を作成します。

「順序」マージ・ルール

「順序」ルールでは、順序の次の値が使用されます。

順序の次の値

ルールで使用される順序を識別します。

「順序」リスト

現行のプロジェクトで定義済の順序がすべて表示されます。

順序の選択

ルールの順序がリストで現在選択されている順序に設定されます。

「最小/最大」および「最小/最大レコード」マージ・ルール

「最小/最大」および「最小/最大レコード」ルールを使用して、レコード内の別の属性値のサイズに基づいて属性値を選択します。

たとえば、最大の「姓」値を含む各bin内のレコードから「名」値を選択できます。

属性の選択

すべての入力属性が表示されます。値で順序を指定する属性を選択します。

属性リレーション

選択した属性の値を選択するための特性を選択します。

  • 最小: 最小の数値または最も古い日付値が選択されます。

  • 最大: 最大の数値または最も新しい日付値が選択されます。

  • 最短: 最も短い文字値が選択されます。

  • 最長: 最も長い文字値が選択されます。

「コピー」マージ・ルール

「コピー」ルールでは、別のマージ済属性の値を使用します。

マージ済属性

マージ属性ページで選択した他のマージ済属性が表示されます。

「カスタム」および「カスタム・レコード」マージ・ルール

「カスタム」および「カスタム・レコード」ルールでは、レコードのマージ用に提供したPL/SQLコードが使用されます。次のコードに、レコード1のTAXID属性の値を戻す「カスタム」マージ・ルールの例を示します。

BEGIN
RETURN M_MATCHES(1)."TAXID";
END;

次のコードは、レコード1のレコードを戻す「カスタム・レコード」マージ・ルールの例です。

BEGIN
RETURN M_MATCHES(1);
END;

マージ・ルール詳細

カスタム・アルゴリズムを構成するPL/SQLコードが表示されます。このフィールドでコードを直接編集するか、カスタム・マージ・ルール・エディタを使用できます。

編集

カスタム・マージ・ルール・エディタが表示されます。

カスタム・マージ・ルール・エディタ

「カスタム・マージ・ルール・エディタ」を使用して、マージ・アルゴリズムとして使用するカスタムPL/SQLプログラムを開発します。

このエディタには、基本的なプログラム開発サポート機能が用意されています。コンポーネントは次のとおりです。

メニュー・バー

メニュー・バーは次のメニューで構成されています。

  • コード: ローカル・コンピュータ・ネットワーク上のファイルの読取りと書込み、編集した変更内容の保存などができます。

  • 編集: 基本的な切取り、コピーおよび貼付け機能を提供します。

  • 検索: 基本的な検索および置換機能を提供します。

  • テスト: 「実装」フィールドに入力したコードの構文エラーをチェックできます。

  • ヘルプ: このトピックが表示されます。

「検索」フィールド

ナビゲーション・ツリーで検索する機能名の全体または一部。「実行」を1回目にクリックすると最初のインスタンスが検索され、もう1回クリックすると次のインスタンスが検索されます。

ナビゲーション・ツリー

プログラムに組み込むことのできる入力パラメータと変換が表示されます。ナビゲーション・ツリーには、次のフォルダがあります。

  • パラメータ: M_MATCHESフォルダの下にすべての入力属性が表示され、M_MERGEフォルダの下にマージされた属性が表示されます。

  • 変換ライブラリ: Warehouse Builderのすべての変換が表示されます。

パラメータまたは変換をカーソル位置にあるコードに挿入するには、ダブルクリックするか、「実装」フィールドにドラッグ・アンド・ドロップします。

「実装」フィールド

プログラム・コードが表示されます。

「定義」タブ

選択したファンクションのシグネチャが表示されます。

「メッセージ」タブ

コードの検証成功または失敗に関する情報が表示されます。

マッピングでのName and Address演算子の使用

Name and Address演算子は、PL/SQL入力を1つ受け入れてPL/SQL出力を1つ生成します。

タイムアウト・エラーになる場合は、Name and Addressサーバーのソケット・タイムアウト設定の値を大きくする必要があります。タイムアウト設定は、サーバーが接続をドロップする前にマッピングからの解析リクエストを待機する秒数です。デフォルト設定は600秒(10分)です。非アクティブが原因でサーバーが接続をドロップすると、以降の解析リクエストは失敗してNAS-00021エラーが戻されます。

ほとんどのマッピングの場合、2つの解析リクエストの間に長時間が経過することはまれです。ただし、行ベース・モードでレコードをフィルタするのは非効率的なため、フィルタ演算子を使用して行ベース・モードで動作するマップの場合は、2つのレコード解析リクエスト間に長時間経過することがあります。このタイプのマッピングの場合は、接続がドロップされないようにソケットのタイムアウト値の増加が必要になることがあります。

ソケットのタイムアウト設定値を大きくするには、「Name and Addressサーバーの構成」を参照してください。

Name and Addressウィザードおよびエディタ: 一般

一般ページを使用して、演算子の名前と説明(オプション)を指定します。デフォルトのName and Address演算子名はNAMEADDRです。

名前とアドレス・ウィザードおよびエディタ: 定義

このName and Address演算子に一般的な定義を指定して、入力データを特徴付けます。「定義」ページで、「解析タイプ」「国」および「二重アドレス割当」を選択します。

解析タイプ

ドロップダウン・リストから次のいずれかの解析タイプを選択します。


注意:

解析タイプを指定できるのは、最初にマッピングにName and Address演算子を追加するときのみです。エディタでは解析タイプを変更できません。

  • 名前のみ: 入力データに名前データのみが含まれている場合に、このオプションを選択します。個人名とビジネス名の両方が対象となります。より一般的な「Name and Address」オプションのかわりにこのオプションを選択すると、アダプタによってはパフォーマンスと精度が向上することがあります。

  • アドレスのみ: 入力データがアドレス・データのみで構成され、名前データが含まれていない場合に、このオプションを選択します。より一般的な「Name and Address」オプションのかわりにこのオプションを選択すると、アダプタによってはパフォーマンスと精度が向上することがあります。

  • Name and Address: 入力データに名前データとアドレス・データの両方が含まれている場合に、このオプションを選択します。

データの中で最も頻出する国を選択します。主国は、レコードの最初の解析に使用する適切なパーサーまたは解析ルールの手がかりとして、Name and Addressクレンジング・ソフトウェアの一部のプロバイダによって使用されています。それ以外のName and Addressサービス・プロバイダの場合は、インストールの外部構成によってこの動作が制御されています。

二重アドレス割当

二重アドレスには、同じアドレス・レコードの私書箱と町村の両方が含まれます。二重アドレスを持つレコードの場合、標準アドレスになるアドレスと、二重アドレスになるアドレスを選択します。二重アドレスの例は、次のとおりです。

PO Box 2589
4439 Mormon Coulee Rd
La Crosse WI 54601-8231

「二重アドレス割当」での選択によって、郵便番号の修正時に割り当てられる郵便コードが決まります。これは、町村の郵便番号と私書箱の郵便番号が異なる場合があるためです。

  • 「番地」割当: 町村が標準アドレスで、私書箱が二重アドレスです。これは、Addressコンポーネントに町村が割り当てられることを意味します。前述の例では、Addressは4439 MORMON COULEE RDです。この選択により、郵便番号は54601-8220に修正されます。

  • 「私書箱」割当: 私書箱が標準アドレスで、町村が二重アドレスです。これは、Addressコンポーネントに私書箱が割り当てられることを意味します。前述の例では、AddressはPO BOX 2589です。この選択により、郵便番号は54602-2589に修正されます。

  • 最終行に最も近い: 最終行に最も近いアドレスが標準アドレスで、もう一方のアドレスが二重アドレスです。これは、最終行に最も近いアドレス行がAddressコンポーネントに割り当てられることを意味します。前述の例では、Addressは4439 MORMON COULEE RDです。この選択により、郵便番号は54601-8220に修正されます。

このオプションは、町村または私書箱を1つ持つレコードには影響しません。


注意:

名前とアドレスのクレンジング・ソフトウェア・プロバイダによっては、「二重アドレス割当」をサポートしていない場合があります。

Name and Addressウィザードおよびエディタ: グループ

グループ・ページには、演算子に対して定義されている入力グループと出力グループが表示されます。定義では、Name and Address演算子は入力グループ1つと出力グループ1つを使用します。Name and Address演算子のグループの編集、追加または削除はできません。入力グループ名はINGRP1で、出力グループ名はOUTGRP1です。これらの名前は編集できます。入力データに複数のグループが必要な場合は、グループごとにName and Address演算子を個別に作成します。

Name and Addressウィザードおよびエディタ: 接続の入力

接続の入力ページを使用して、マッピングに含まれる任意の演算子から、演算子にコピーしてマップする属性を選択します。「使用可能な属性」ボックスには、使用可能な属性が表示されます。「マップ済属性」ボックスには、Name and Address演算子で処理される属性が表示されます。属性グループ全体を移動するか、単一グループから属性を個別に移動できます。

まだソース・データ用に演算子を1つ以上作成していない場合、「使用可能な属性」列は空になっています。

演算子の接続の入力ページで指定する手順は次のとおりです。

  1. 「使用可能な属性」パネルから、グループ全体または個別の属性を選択します。「使用可能な属性」パネルでは、マッピングに含まれる任意の演算子から属性を選択できます。

    特定の属性またはグループを名前で検索するには、「検索」にテキストを入力して「実行」をクリックします。次の一致を検索するには、「実行」を再度クリックします。

    複数のグループまたは属性を選択するには、[Shift]キーを押しながら選択します。異なるグループの属性を選択する場合は、ジョイナ演算子または集合演算子を使用してグループを結合する必要があります。

  2. 2つのパネルの間にある「>」ボタンを使用して、選択内容を「マップ済属性」パネルに移動します。

名前とアドレス・ウィザードおよびエディタ: 入力属性

入力属性ページを使用して、各入力属性に入力ロールを割り当てます。

属性

接続の入力ページで選択した属性が自動的に表示されます。リストが空の場合もあります。各入力属性を追加するには「追加」をクリックします。

すべての属性は、処理しないものを含めてName and Address演算子を介してマップされます。以前のリリースのWarehouse BuilderではName and Address演算子のバイパスが有効でしたが、このリリースでは問題が発生することがあります。かわりに、これらの属性にはName and Address演算子で「パススルー」入力ロールを割り当ててください。

入力ロール

入力ロールは、どのような種類の名前およびアドレス情報がデータ行にあるかを示します。各属性で、ソース属性に含まれるデータに最も近い入力ロールを選択します。入力ロールのリストとその説明は、「入力ロールの説明」を参照してください。

可能な場合は、個別でない行指向のロール(「最終行」など)ではなく個別ロール(「市区町村」「都道府県」および「郵便番号」など)を選択してください。個別ロールの方が、データ内容に関して多くの情報がName and Address演算子に提供され、適切に解析されます。

データ型、長さ、精度、スケール、秒精度

「パススルー」入力ロールで指定した属性のデータ型と関連パラメータを設定します。他の入力ロールを持つ属性は自動的にVARCHAR2に設定され、変更できません。

説明

入力属性の説明(オプション)を入力します。

入力ロールの説明

表21-18に、Name and Address演算子の入力ロールを説明します。

表21-18Name and Address演算子の入力ロール

入力ロール 説明

パススルー

処理を必要としない属性。

名、ニックネームまたは名の略称。

ミドル・ネーム

ミドル・ネームまたはイニシャル。ミドル・ネームが1つのみの場合、または複数のミドル・ネームがある場合は最初のミドル・ネーム(Ethel May Roberta Louise Mertzの場合の「May」など)に使用します。

ミドル・ネーム2

第2のミドル・ネーム(Ethel May Roberta Louise Mertzの場合の「Roberta」など)。

ミドル・ネーム3

第3のミドル・ネーム(Ethel May Roberta Louise Mertzの場合の「Louise」など)。

姓。

最初の部分名

次のように人名の最初の部分。

  • プリネーム

  • ミドル・ネーム(複数可)

これらのコンポーネントが1つのソース列に含まれている場合に使用します。

最後の部分名

次のように人名の最後の部分。

  • ポストネーム

これらのコンポーネントがすべて1つのソース列に含まれている場合に使用します。

プリネーム

Ms.、Mr.またはDr.など、名前の前に付く敬称情報。

ポストネーム

Jr.やPh.D.など、名前の世代または他の敬称情報。

人名

次のような完全人名。

  • 最初の部分名(「プリネーム」、「名」および「ミドル・ネーム」で構成)

  • 最後の部分名(「姓」および「ポストネーム」で構成)

これらのコンポーネントがすべて1つのソース列に含まれている場合に使用します。

人名2

入力に複数の個人連絡先が含まれている場合に第2の人名を指定します。

人名3

入力に複数の個人連絡先が含まれている場合に第3の人名を指定します。

会社名

会社名または組織名。

第1アドレス

次のようなボックス、ルートまたは番地。

  • 番地名

  • 建物番号

  • SWやNなど、市区町村マップのグリッド方向。

  • Avenue、StreetまたはRoadなどの番地タイプ。

これには、区画名や区画番号は含まれません。

第2アドレス

次を含む番地の第2の部分。

  • 区画名

  • 区画番号

たとえば、第2アドレスがSuite 2100の場合、区画名はSTE(Suiteを標準化したもの)で区画番号は2100です。

アドレス

次を含む完全アドレス行。

  • 第1アドレス

  • 第2アドレス

これらのコンポーネントで1列が共有される場合に使用します。

アドレス2

汎用アドレス行。

地区

南アメリカとラテン・アメリカのアドレスに一般的な地区またはバリオ。

地方名

日本の市または島。

ローカリティ2

日本の区。

ローカリティ3

日本の町または村。

ローカリティ4

日本の字、部、地割または線。

市区町村

市区町村名。

都道府県

都道府県名。

郵便番号

アメリカのZIPコードやカナダの郵便番号などの郵便番号。

国名

国の正式名称。

国コード

ISO 3166-1993(E)の2文字または3文字の国コード。たとえば、アメリカはUSまたはUSA、カナダはCAまたはCANです。

最終行

次を含む最後のアドレス行。

  • 市区町村

  • 都道府県

  • 郵便番号

これらのコンポーネントがすべて1つのソース列に含まれている場合に使用します。

最終行2

日本語版アダプタの場合は、アドレスの最後に示される追加の行情報を指定します。

行1 -> 10

任意のタイプの名前、ビジネス、人名およびアドレスの自由形式テキストに使用します。これらのロールは、データの内容に関する情報をパーサーに提供しません。可能な場合は、用意されている個別の入力ロールを使用してください。


名前とアドレス・ウィザードおよびエディタ: 出力属性

出力属性ページを使用して、Name and Address演算子での解析済データの処理方法を決定する出力属性を定義します。具体的には、出力属性プロパティによって、パーサー出力から抽出されたデータが特徴付けられます。

出力属性ページは、最初は空です。属性は次のように作成して、編集できます。


注意:

「パススルー」ロールを持つ出力コンポーネントの属性は変更できません。

「追加」ボタン

新規の出力属性を作成するには「追加」をクリックします。

「属性」列

新規属性にはOUTPUT1などのデフォルト名が割り当てられます。このデフォルト名は、出力コンポーネントを選択するとPrimary_Addressなどのデフォルトの記述名に変更されます。すでに名前を置換している場合は変更されません。名前をクリックすると、新規の名前で置換できます。

「出力コンポーネント」列

各出力属性の出力コンポーネントを選択します。セルの右にある省略記号のボタンをクリックし、「出力属性コンポーネント」ダイアログを開きます。出力コンポーネントの詳細リストは、「出力コンポーネントの説明」を参照してください。

「解析済」「適切な名前」「適切なアドレス」などのエラー処理フラグも追加してください。これらのフラグをスプリッタ演算子に使用すると、適切なレコードをエラーのあったレコードから分離して、別のターゲットにロードできます。

「データ型」列

「パススルー」出力コンポーネントの入力データ型は保持されます。他のすべての出力コンポーネントはVARCHAR2型です。この列は読取り専用です。

「長さ」列

出力属性のマップ先となるターゲット属性の長さにあわせてフィールド長を調整します。これにより、コード生成時のデータ切捨て警告や実行時のエラーを防止できます。

「出力属性コンポーネント」ダイアログ・ボックス

「出力属性コンポーネント」ダイアログを使用して、各出力属性のコンポーネントを選択します。出力コンポーネントは、姓、名、番地名、市区町村または都道府県など、属性を構成するコンポーネントを示します。

出力コンポーネントを選択

出力属性に適用するコンポーネントをナビゲーション・ツリーから選択します。これらのコンポーネントについては、「出力コンポーネントの説明」を参照してください。

出力コンポーネント

ツリーから現在選択されているコンポーネントが識別されます。このフィールドが空であれば、現在はフォルダが選択されています。フォルダを拡張して有効なコンポーネントを選択します。一部のフォルダは有効なコンポーネントであることに注意してください。

アドレス・タイプ

二重アドレスの場合にのみ使用可能で、サポートしていないName and Addressクレンジング・ソフトウェア・プロバイダもあります。二重アドレスとして番地と私書箱のどちらが使用されるかは、定義ページで指定した「二重アドレス割当」オプションによって決まります。「標準」または「二重」を選択します。二重アドレスの詳細は、「二重アドレス割当」を参照してください。

インスタンス

1つのレコードに同じ属性が複数出現する場合、どの出力コンポーネントのインスタンスを使用するかを指定します。インスタンス制御は、すべての名前コンポーネントと、「他のアドレス」「複合」のようないくつかのアドレス・コンポーネントに適用されます。この設定により、同じ性質の属性を多数抽出できます。各種のコンポーネントに使用できるインスタンス数は、サード・パーティのName and Addressクレンジング・ソフトウェアによって異なります。

たとえば、JohnとJane Doeが含まれる入力レコードには、John DoeとJane Doeの2つの名前が出現します。インスタンス1を「名」および「姓」に割り当てると、John Doeを抽出できます。同様に、「名」および「姓」コンポーネントにインスタンス2を割り当てると、Jane Doeを抽出できます。

出力コンポーネントの説明

出力コンポーネントは、次のカテゴリにグループ化されています。

パススルー

パススルー」出力コンポーネントは、処理を必要としない属性に使用されます。「パススルー」入力ロールを作成すると、対応する「パススルー」出力コンポーネントが自動的に作成されます。「パススルー」出力コンポーネントは編集できませんが、対応する入力ロールは編集できます。

名前

表21-9では、名前出力コンポーネントについて説明します。この表に示すように、1つのレコードを処理するために多数のコンポーネントを複数回使用できます。たとえば、会社名が2回出現するレコードの場合、2つの出力属性を追加して両方を抽出できます。一方を第1インスタンス、他方を第2インスタンスとして割り当てます。

表21-19 名前出力コンポーネント

サブフォルダ 出力コンポーネント 説明

なし

プリネーム

名前の前に表示されるタイトルまたは敬称(Ms.またはDr.など)。

複数回使用できます。

なし

標準化された名前

名の標準バージョン(Tedの場合はTheodore、Jimの場合はJamesなど)。複数回使用できます。

なし

標準化されたミドル・ネーム

ミドル・ネームの標準バージョン(Tedの場合はTheodore、Jimの場合はJamesなど)。ミドル・ネームが1つのみの場合に使用するか、複数のミドル・ネームがある場合は最初の1つに使用します。複数回使用できます。

なし

標準化されたミドル・ネーム2

第2のミドル・ネームの標準バージョン(Tedの場合はTheodore、Jimの場合はJamesなど)。複数回使用できます。

なし

標準化されたミドル・ネーム3

第3のミドル・ネームの標準バージョン(Tedの場合はTheodore、Jimの場合はJamesなど)。複数回使用できます。

なし

ポストネーム

世代を示す名前の接尾辞(Sr.、Jr.、IIIなど)。複数回使用できます。

なし

その他のポストネーム

資格、学位、所属を示す名前の接尾辞(Ph.D.、M.D.、R.N.など)。

複数回使用できます。

なし

タイトル

人名のタイトル(マネージャなど)。

なし

名前指示部

人名指定。ATTN(宛)またはC/O(気付)など。複数回使用できます。

なし

関係

他の人に関連する情報(受託者など)。複数回使用できます。

なし

SSN

社会保障番号。

なし

電子メール・アドレス

電子メール・アドレス。

なし

電話番号

電話番号。

なし

名前/会社他

会社名または人名に関連付けられている付加情報。

なし

人名

名、ミドル・ネームおよび姓。複数回使用できます。

人名

入力名に検出された名。複数回使用できます。

人名

ミドル・ネーム

ミドル・ネームまたはイニシャル。ミドル・ネームが1つの場合に使用するか、または複数のミドル・ネームがある場合は最初の1つに使用します(Ethel May Roberta Louise Mertzの場合はMayなど)。複数回使用できます。

人名

ミドル・ネーム2

第2のミドル・ネーム(Ethel May Roberta Louise Mertzの場合はRobertaなど)。複数回使用できます。

人名

ミドル・ネーム3

第3のミドル・ネーム(Ethel May Roberta Louise Mertzの場合はLouiseなど)。複数回使用できます。

人名

姓。複数回使用できます。

導出済

性別

性別。

  • M = 男性

  • F = 女性

  • N= 中性(男性または女性)

  • 空白 = 不明

複数回使用できます。

導出済

人数

レコードで参照される人数。たとえば、人名John and Jane Doeを含むレコードの場合、「人数」は2となります。

ビジネス

会社名

会社名または組織名(部課など)。複数回使用できます。

ビジネス

会社数

レコードで参照される会社数。複数回使用できます。

ビジネス

会社ロケーション

社内のロケーション(買掛管理など)。


アドレス

表21-20では、アドレス出力コンポーネントについて説明します。二重アドレスを含むレコードの場合は、表に示すように、標準アドレスとして使用する(アドレス・コンポーネントに割り当てる)行と、多数の出力コンポーネントに二重アドレスとして使用する行を指定できます。

表21-20 アドレス出力コンポーネント

サブフォルダ 出力コンポーネント 説明

なし

アドレス

次を含む完全アドレス行。

  • 第1アドレス

  • 第2アドレス

標準アドレスまたは二重アドレスとして使用できます。

なし

第1アドレス

次のようなボックス、ルートまたは番地。

  • 番地名

  • 建物番号

  • SWやNなど、市区町村マップのグリッド方向。

  • Avenue、StreetまたはRoadなどの番地タイプ。

「区画名」「区画番号」は含めません。標準アドレスまたは二重アドレスとして使用できます。

第1アドレス

番地番号

住宅やビルの番号など、アドレスを識別する番号。プライマリ範囲と呼ぶこともあります。たとえば、200 Oracle Parkwayの場合、「番地番号」の値は200です。標準アドレスまたは二重アドレスとして使用できます。

第1アドレス

前方向

番地名の前に使用される番地の方向インジケータ。たとえば、100 N University Driveの場合、「前方向」の値はNです。標準アドレスまたは二重アドレスとして使用できます。

第1アドレス

番地名

番地名。標準アドレスまたは二重アドレスとして使用できます。

第1アドレス

プライマリ名2

第2の番地名。通常は交差点にあるアドレスに使用されます。

第1アドレス

番地タイプ

街路識別子(ST、AVE、RD、DR、HWYなど)。標準アドレスまたは二重アドレスとして使用できます。

第1アドレス

後方向

番地名の後に使用される番地の方向インジケータ。たとえば、100 15th Ave. S.の場合、「後方向」の値はSです。標準アドレスまたは二重アドレスとして使用できます。

なし

第2アドレス

次を含む番地の第2の部分。

  • 区画名

  • 区画番号

たとえば、第2アドレスSuite 2100の場合、「区画名」はSTE(Suiteの標準化バージョン)で、「区画番号」は2100です。標準アドレスまたは二重アドレスとして使用できます。

第2アドレス

区画名

第2アドレスのタイプ(APTまたはSTEなど)。たとえば、第2アドレスSuite 2100の場合、「区画名」はSTE(Suiteの標準化バージョン)です。標準アドレスまたは二重アドレスとして使用できます。

第2アドレス

区画番号

第2アドレスの識別番号(アパート番号または部屋番号など)。たとえば、第2アドレスSuite 2100の場合、「区画番号」は2100です。標準アドレスまたは二重アドレスとして使用できます。

第2アドレス

非郵便第2アドレス

正式な郵便形式でない第2アドレス。

第2アドレス

非郵便区画名

正式な郵便形式でない区画名。

第2アドレス

非郵便区画番号

正式な郵便形式でない区画番号。

アドレス

最終行

次を含む最後のアドレス行。

  • 市区町村

  • 都道府県

  • アドレスが完全に割り当てられている場合の書式化済郵便番号。

最終行

地区

南アメリカとラテン・アメリカのアドレスに一般的な地区またはバリオ。

最終行

市区町村

市区町村名。アメリカの市名は、米国郵政公社の参照名に変換できます。

最終行

省略市区町村

市区町村名の省略形。アメリカの場合は13文字です。

最終行

省略市区町村2

市区町村名の代替省略形。

最終行

代替市区町村

複数の名前で参照可能な市区町村を表す代替名。アメリカでは、市を実際の名前または地域名で参照できます。たとえば、Brighton Massachusettsの代替市区町村名としてBostonを使用できます。

最終行

地方コード

International Mailsort Codeの末尾3桁。各国の地域または地方を表します。「地方コード」は、000から999までの数値です。

最終行

地方名

イギリスでは、次のアドレスに地方名KNAPHILLが割り当てられています。

Chobham Rd
Knaphill
Woking GU21 2TZ

最終行

ローカリティ2

日本の区。

最終行

ローカリティ3

日本の町または村。

最終行

ローカリティ4

日本の字、部、地割または線。

最終行

区名

イギリス、アメリカまたは他の国の郡の名前。

最終行

都道府県

都道府県名。

最終行

郵便番号

完全郵便番号。空白や他の文字(非英数字)は削除されます。

最終行

書式化された郵便番号

郵便番号の書式化済バージョン。空白や他の文字(ダッシュなどの非英数字)を含みます。

最終行

配布ポイント

アメリカとオーストラリアで使用される指定。

  • アメリカの場合、これは2桁の郵便配布ポイントで、9桁の完全郵便番号およびチェック数値と組み合されて配布ポイントのバーコードを形成します。

  • オーストラリアの場合は、9桁の配布ポイントです。

最終行

国コード

国際標準化機構により定義されたISO 3166-1993(E)の2文字の国コード(アメリカはUS、カナダはCAなど)。

最終行

国コード3

国際標準化機構により定義されたISO 3166-1993(E)の3文字の国コード(アメリカはUSA、フランスはFRA、ウクライナはUKRなど)。

最終行

国名

完全な国名。

アドレス

アドレス2

アドレス行2。通常は、番地とビルまたは階の両方を含む香港のアドレスに使用します。

アドレス

最終行2

日本でアドレスの末尾に表示される追加情報。

その他のアドレス行

ボックス名

私書箱のアドレス名。たとえば、PO Box 95の場合、「ボックス名」はPO BOXです。標準アドレスまたは二重アドレスとして使用できます。

その他のアドレス行

ボックス番号

私書箱のアドレス番号。たとえば、PO Box 95の場合、「ボックス番号」は95です。標準アドレスまたは二重アドレスとして使用できます。

その他のアドレス行

ルート名

地方のルート・アドレスのルート名。アドレスRoute 5 Box 10の場合、「ルート名」はRTE(Routeの標準化バージョン)です。標準アドレスまたは二重アドレスとして使用できます。

その他のアドレス行

ルート番号

地方のルート・アドレスのルート番号。アドレスRoute 5 Box 10の場合、「ルート番号」は5です。標準アドレスまたは二重アドレスとして使用できます。

その他のアドレス行

ビル名

ビル名(Cannon Bridge Houseなど)。イギリスでは、ビル名が一般的です。

その他のアドレス行

複合

ビル、キャンパスまたはその他の複合ビル。次に例を示します。

USS John F. Kennedy
Shadow Green Apartments
Cedarvale Gardens
Concordia College

「出力コンポーネント」ダイアログの「インスタンス」フィールドを使用すると、アドレスに複数の複合コンポーネントが含まれている場合に、どの複合コンポーネントを戻すかを指定できます。

その他のアドレス行

他のアドレス

その他のアドレス情報。

複数の「その他」フィールドを含むレコードの場合は、出力コンポーネント・ページで使用するインスタンスを指定することで各フィールドを抽出できます。

地理

緯度

北緯。北半球の場合はプラス、南半球の場合はマイナスです(北アメリカの場合は常にプラスです)。

地理

経度

東経。東半球の場合はプラス、西半球の場合はマイナスです(北アメリカの場合は常にマイナスです)。

地理

地域一致精度

緯度と経度で識別されたロケーションがアドレスとどの程度一致しているかを示します。


付加ベンダー

ベンダー固有の用途に20個のコンポーネントを使用できます。

エラー・ステータス

表21-21では、エラー・ステータス出力コンポーネントについて説明します。エラー・ステータス・コンポーネントの使用上の注意事項は、「Name and Addressデータでのエラー処理」を参照してください。

表21-21 エラー・ステータス出力コンポーネント

サブフォルダ 出力コンポーネント 説明

Name and Address

適切なグループ

名前グループ、アドレス・グループまたは名前およびアドレス・グループが正常に処理されたかどうかを示します。

  • T =

    名前グループの場合、名前が正常に解析されました。

    アドレス・グループの場合、郵便照合データベースでアドレスが検出されたか(使用可能な場合)、郵便データベースがインストールされていない場合は正常に解析されました。

    名前およびアドレス・グループの場合、名前とアドレスの両方が正常に処理されました。

  • F = グループは正常に解析されませんでした。

このフラグを「解析済」フラグのような他のフラグと併用し、後にスプリッタ演算子を使用すると、解析に失敗したレコードを固有のターゲット内で分離して個別に扱うことができます。

Name and Address

解析済

名前またはアドレスが解析済かどうかを示します。

  • T = 名前またはアドレスは正常に解析されましたが、なんらかの警告条件を示すフラグが設定されている可能性があります。

  • F = 名前またはアドレスを解析できません。

「名前警告」または「市区町村警告」などの警告フラグのステータスを確認してください。

Name and Address

解析ステータス

郵便照合ソフトウェアの解析ステータス・コード。

Name and Address

解析ステータスの説明

郵便照合ソフトウェアの解析ステータスのテキスト説明。

名前のみ

適切な名前

名前が正常に解析されたかどうかを示します。

  • T = 名前は正常に解析されましたが、なんらかの警告条件を示すフラグが設定されている可能性があります。

  • F = 名前を解析できません。

名前のみ

名前警告

パーサーにより名前に例外的なデータまたはエラーの可能性のあるデータが検出されたかどうかを示します。

  • T = パーサーが名前を解析できなかったか、例外的なデータが検出されました。解析ステータス・コンポーネントで警告の原因を確認してください。

  • F = 名前の解析に問題はありません。

アドレスのみ

適切なアドレス

アドレスが正常に処理されたかどうかを示します。

  • T = 正常に処理されました。アドレスが郵便照合データベース内で検出されました。または、アドレスが示す国用の郵便照合データベースがインストールされていない場合は、アドレスが正常に解析されました。

  • F = 正常に処理されませんでした。アドレスが示す国用の郵便照合データベースがインストールされている場合は、データベース内でアドレスが検出されませんでした。国に使用可能な郵便照合データベースがない場合は、アドレスを解析できません。

このコンポーネントは、郵便照合対象の国と郵便照合対象外の国のレコードが混在している場合に使用します。

アドレスのみ

検出済

アドレスが示す国用の郵便照合データベース内でアドレスがリストされているかどうかを示します。

  • T = アドレスが郵便照合データベース内で検出されました。

  • F = アドレスは郵便照合データベース内で検出されませんでした。このステータスは、アドレスが有効でないこと、またはその国に郵便照合が使用可能でないことを示している可能性があります。

このフラグがTrueとなるのは、他の検出フラグがすべてTrueの場合のみです。郵便照合が使用可能な場合、このフラグはレコード品質の最高のインジケータです。

アドレスのみ: 検出済

市区町村が検出済

T = 郵便照合ソフトウェアにより市区町村が検出されました。それ以外の場合、値はFです。

アドレスのみ: 検出済

番地名が検出済

T = 郵便照合ソフトウェアにより番地名が検出されました。それ以外の場合、値はFです。

アドレスのみ: 検出済

番地番号が検出済

T = 郵便照合ソフトウェアにより、指定した番地番号の有効範囲内で番地番号が検出されました。それ以外の場合、値はFです。

アドレスのみ: 検出済

番地コンポーネントが検出済

T = 郵便照合ソフトウェアにより、「前方向」または「後方向」などの番地コンポーネントが検出されました。それ以外の場合、値はFです。

アドレスのみ: 検出済

曖昧でない一致が検出済

郵便照合ソフトウェアにより郵便データベース内で一致するアドレスが検出されたかどうかを示します。

  • T = 郵便照合ソフトウェアにより、入力レコードと郵便データベース内の単一エントリとの一致が検出されました。

  • F = アドレスが曖昧です。郵便照合ソフトウェアにより、アドレスが複数の郵便データベース・エントリと一致することが検出されましたが、選択できませんでした。たとえば、入力アドレスは100 4th Avenueですが、郵便データベースには100 4th Ave Nと100 4th Ave Sが含まれており、入力では方向が指定されていないため、一致に失敗します。

アドレスのみ

市区町村警告

T = パーサーにより、市区町村に例外的なデータまたはエラーの可能性のあるデータが検出されました。それ以外の場合、値はFです。

アドレスのみ

番地警告

T = パーサーにより、番地アドレスに例外的なデータまたはエラーの可能性のあるデータが検出されました。それ以外の場合、値はFです。

アドレスのみ

検証可能なアドレス

T = アドレスが該当する国には郵便照合を使用可能です。それ以外の場合、値はFです。

Fは、アドレスに該当する国用の郵便照合データベースがインストール済かどうかを示すものではありません。単に特定のアドレスに照合が使用可能でないことを示します。

アドレスのみ

アドレスが修正済

照合中になんらかの方法でアドレスが修正されたかどうかを示します。この場合、標準化は修正とはみなされません。

  • T = アドレスのなんらかのコンポーネントが、標準化以外の方法で変更されました。他の「修正済」フラグの1つもTrueである必要があります。

  • F = アドレスのコンポーネントは変更されていませんが、標準化された可能性はあります。

アドレスのみ: アドレスが修正済

郵便番号が修正済

T = 照合中に郵便番号が修正されました。枝番が追加された可能性があります。それ以外の場合、値はFです。

アドレスのみ: アドレスが修正済

市区町村が修正済

T = 照合中に市区町村名が修正されました。それ以外の場合、値はFです。

郵便番号入力を使用して、郵政公社で参照している市区町村名が判別されます。

アドレスのみ: アドレスが修正済

番地が修正済

T = 照合中に番地名が修正されました。それ以外の場合、値はFです。

一部の正しい番地名が、郵政公社が参照している代替名に変更された可能性があります。

アドレスのみ: アドレスが修正済

番地コンポーネントが修正済

T = 照合中に、「前方向」または「後方向」など、1つ以上の番地コンポーネントが修正されました。

アドレスのみ

アドレス・タイプ

アドレスのタイプ。次に一般的な例を示します。実際の値は、郵便照合ソフトウェアのベンダーによって異なります。

  • B = ボックス

  • F = 会社

  • G = 普通配送

  • H = 高層アパートまたはオフィス・ビル

  • HD = 高層のデフォルト。この場合、ビル全体に単一のZip+4郵便番号が適用されます。Name and Address演算子では、階または部屋のアドレスが提供されていれば、郵便番号割当てをさらに詳細なレベルで検出できます。その場合、レコードは該当する階または部屋を表す限定的なZip+4コードを使用してHタイプとして処理されます。

  • M = 軍

  • P = 私書箱

  • R = 地方コード

  • S = 番地

アドレスのみ

解析国

レコードの最終解析に使用した国パーサー。


国固有

表21-22では、特定の国に固有の出力コンポーネントについて説明します。

表21-22 国に固有の出力コンポーネント

サブフォルダ 出力コンポーネント 説明

アメリカ

ZIP5

5桁のアメリカ郵便番号。

アメリカ

ZIP4

ロケーションをさらに詳細に指定するために5桁のアメリカ郵便番号に追加される4桁の接尾辞。

アメリカ

都市名

プエルトリコで使用される地方単位の名前。

アメリカ

LACSフラグ

T = アドレスにはLACS変換が必要であり、LACSベンダーに送信する必要があります。それ以外の場合、値はFです。

Locatable Address Conversion System(LACS)は、911緊急システムが実装された時点で新規のアドレスを提供します。通常、911アドレス変換では、地方スタイルのアドレスが市区町村スタイルの番地アドレスに変更されますが、既存の市区町村スタイルのアドレスの名前や番号が変更されることがあります。

アメリカ

CART

4文字のUSPS運送業者ルート。

アメリカ

DPBCチェック数値

配布ポイントのバーコードを形成するチェック数値。

アメリカ

自動ゾーン・インジケータ

T = この郵便番号による郵便は、バーコード・ソート装置でソートされます。それ以外の場合、値はFです。

アメリカ

都市インジケータ

T = アドレスは地方にあります。それ以外の場合、値はFです。

アメリカ

LOT(Line of Travel)

アメリカ郵政公社(USPS)の移動ライン。

アメリカ

LOT順序

アメリカ郵政公社(USPS)の移動ラインの順序。

アメリカ: 調査/地理

メトロポリタン統計地域

メトロポリタン統計地域(MSA)番号。たとえば、0000はアドレスがMSA内にないことを示します。通常は地方を示します。

アメリカ: 調査/地理

マイナー調査区域

マイナー調査区域。

アメリカ: 調査/地理

CBSAコード

大都市圏と小都市圏を識別する5桁のコア・ベース統計地域コード。

アメリカ: 調査/地理

CBSA記述子

CBSAが大都市圏(人口50,000人以上)であるか小都市圏(人口10,000人から49,999人まで)であるかを示します。

アメリカ: 調査/地理

FIPSコード

連邦情報処理規格(FIPS)により郡に割り当てられた完全(州および郡)コード。FIPSの区コードは州内で一意であるため、完全FIPSコードには2桁の州コードとそれに続く3桁の区コードが含まれています。

アメリカ: 調査/地理

FIPS区

連邦情報処理規格(FIPS)により定義された3桁の区コード。

アメリカ: 調査/地理

FIPS地区コード

連邦情報処理規格(FIPS)により定義された5桁の地区コード。

アメリカ: 地理

調査ID

アメリカの調査の地域およびブロック・グループ番号。最初の6桁は地域番号で、最終桁は地域内のブロック・グループ番号です。これらのコードは、人口統計コーディング・データベースとの照合に使用されます。

カナダ

インストール・タイプ

カナダ郵便施設のタイプ。

  • STN = 局

  • RPO = 郵便取扱小売店

たとえば、アドレスPO Box 7010, Scarborough ON M1S 3C6の場合、インストール・タイプはSTNです。

カナダ

インストレーション名

カナダ郵便設備の名前。たとえば、アドレスPO Box 7010, Scarborough ON M1S 3C6の場合、インストレーション名はAGINCOURTです。

香港

デリバリー・オフィス・コード

香港で使用される郵便コード。たとえば、次のアドレスにはデリバリー・オフィス・コードWCHが割り当てられています。

Oracle
39/F The Lee Gardens
33 Hysan Ave
Causeway Bay

香港

デリバリー・ビート・コード

香港で使用される郵便コード。たとえば、次のアドレスにはデリバリー・ビート・コードS06が割り当てられています。

Oracle
39/F The Lee Gardens
33 Hysan Ave
Causeway Bay

Name and Addressウィザードおよびエディタ: 郵便レポート・ページ

郵便レポートは、アドレス修正と郵便照合がサポートされている国にのみ適用されます。国の認証は、Name and Addressクレンジング・ソフトウェア・ベンダーによって異なります。最も一般的な国の認証は、アメリカ、カナダおよびオーストラリアです。このプロセスにより、郵便利用業者に、アドレス照合ソフトウェアの品質を測定する共通プラットフォームが提供され、あらゆる郵便に適用される郵便番号(アメリカの場合、5桁の郵便番号とZIP+4コード)、デリバリ・ポイント・コードおよび配達ルート・コードの正確さについて検証されます。Name and Addressクレンジング・ソフトウェア・ベンダーによっては、これらのパラメータが無視され、郵便レポートを生成する外部のセットアップが必要になる場合もあります。詳細は、「郵便レポートについて」を参照してください。

郵便レポート

定義ページで選択した国の郵便レポートを生成する場合は、「はい」を選択します。アクティブにすることのできる郵便レポートは1つのみです。

プロセッサ名

このフィールドの用途は、Name and Addressクレンジング・ソフトウェアのベンダーに応じて異なります。通常、この値はUnited States Coding Accuracy Support System(CASS)レポートに表示されます。

リスト名

アメリカ・レポートおよびイギリス・レポートの「リスト名」セクションに表示されるオプションの参照フィールドですが、他のレポートには含まれません。リスト名により、「July 2005 Promotional Campaign」のように、複数の郵便レポートを追跡するための参照が指定されます。

プロセッサ・アドレス行

これらのアドレス行が各種の郵便レポートに表示される場合があります。Name and Addressクレンジング・ソフトウェア・ベンダーによってこれらのフィールドの使用方法が異なります。通常、これらの行には、会社の詳細アドレスを含めます。

郵便レポートについて

割引が適用されるオートメーション郵便料金の郵便物の生成に使用されるアドレス一覧はすべて、郵便レポート認証ソフトウェアで照合される必要があります。認証は、サード・パーティ・ベンダーの名前とアドレスのソフトウェアおよびデータによって異なります。次のような認証があります。

  • 米国郵政公社: Coding Accuracy Support System(CASS)

  • カナダ郵便局: Software Evaluation and Recognition Program(SERP)

  • オーストラリア郵便局: Address Matching Approval System(AMAS)

米国郵政公社のCASS認定

Coding Accuracy Support System(CASS)は、米国郵政公社(USPS)と郵便業界の協力によって開発されました。このシステムは、郵便利用者にとって、アドレス照合ソフトウェアの品質を測定する共通プラットフォームとなり、特に、すべての郵便に適用される5桁の郵便番号、ZIP+4番号、配布ポイント・コードおよび配達ルート・コードの正確さを検証します。オートメーション料金の郵便物の生成に使用されるアドレス一覧はすべて、CASS認定ソフトウェアで照合される必要があります。

USPS要件を満たすには、郵便利用者はCASSレポートを原本のフォームでUSPSに送信する必要があります。

カナダ郵便局のSERP認定

カナダ郵便局は、ソフトウェア・パッケージを評価するSoftware Evaluation and Recognition Program(SERP)というテスト・プログラムを開発しました。このプログラムでは、カナダ郵便局の要件に対して、メーリング・リストを検証する機能、または検証して修正する機能が評価されます。SERP要件を満たす郵便プログラムは、カナダ郵便局のWebサイトにリストされています。

カナダのインセンティブ・レターメール、広告付きアドメールおよび刊行物メールを利用する顧客は、アドレス照合プログラムの要件を満たしている必要があります。顧客は、使用しているデータベースとカナダ郵便局のアドレス・データを比較することで、Statement of Accuracyを取得できます。

オーストラリア郵便局のAMAS認定

Address Matching Approval System(AMAS)は、アドレス指定の品質を向上させるためにオーストラリア郵便局によって開発されました。このシステムは、アドレス照合ソフトウェアの次の機能をテストおよび測定する基準を提供します。

  • 郵便アドレス・ファイル(PAF)に対するアドレスの照合および修正。

  • 各アドレス・レコードへの一意の配布ポイントID(DPID)の追加。これは、メールのバーコード化への手順の1つです。

AMASによって、企業は次の機能を持つアドレス照合ソフトウェアを開発できます。

  • バーコード作成用アドレスの準備

  • 高品質なアドレス指定

  • 郵便物の事前区分け申請による割引資格の適用

事前区分けサービス料金は、利用者が、最新バージョンのPAFで有効な配布ポイントID(DPID)を持つAMAS承認ソフトウェアを使用していることが条件です。

郵便局で入手可能な事前区分け申請書を使用する場合は、郵便物が適切に準備されていることを宣言する必要があります。

Name and Addressサーバーの管理

外部のName and Addressサーバーは、Oracle Databaseとサード・パーティのName and Address処理ライブラリの間にインタフェースを提供します。この項では、Name and Addressサーバーの構成、起動および停止方法について説明します。

Name and Addressサーバーの構成

Name and Address演算子は、ランタイム・スキーマにインストールされたUTL_NAME_ADDRパッケージをコールするPL/SQLコードを生成します。UTL_NAME_ADDRパッケージを参照するために、ターゲット・スキーマにプライベート・シノニムNAME_ADDRが定義されます。UTL_NAME_ADDRパッケージは外部Name and Addressサーバーに処理リクエストを送信するJavaパッケージをコールし、外部Name and Addressサーバーはサード・パーティのName and Address処理ライブラリ(Trilliumなど)とのインタフェースを提供します。

サーバー・プロパティ・ファイルNameAddr.propertiesを使用して、サーバー・オプションを構成できます。このファイルは、Oracle Warehouse Builderサーバー側インストールのOracleホームの下のowb/bin/adminにあります。次のコードは、一部の重要なプロパティとそのデフォルト設定を示しています。

TraceLevel=0
SocketTimeout=180
ClientThreads=4
Port=4040

TraceLevelプロパティは、通常、サーバー通信の診断を実行して郵便照合プログラムのパーサーからの出力を表示するように変更されます。他のプロパティが変更されることはまれです。

  • TraceLevel: owb/bin/adminフォルダにあるファイルNASvrTrace.logの出力を可能にします。このファイルはすべての受信データと送信データを示しており、マッピングがName and Addressサーバーと通信中であることと、Name and Addressサーバーがサービス・プロバイダから出力を受信中であることを検証します。このトレース・ログはすべてのサーバーの入出力を示しており、実行中のマッピングにより解析リクエストが発行されているかどうかを判断する上で最も有効です。ロギングを有効化するには、TraceLevel=1に設定します。ただし、トレースによりパフォーマンスが低下し、作成されるログ・ファイルが大きくなります。本番用にロギングを無効化するには、TraceLevel=0に設定します。

  • SocketTimeOut: Name and Addressサーバーが接続をクローズする前に解析リクエストを待機する秒数を指定します。タイムアウトを防ぐためにコンカレント・マッピングを実行する場合は、この時間を1800(30分)まで増やすことができます。

  • ClientThreads: クライアント接続の処理に使用するスレッド数を指定します。マップがパラレル化されている場合は、データベース・セッションまたはスレーブ・セッションごとにクライアント接続が1つ確立されます。ほとんどのマップはパラレル化されており、パラレル・プロセス数はプロセッサ数に比例します。単一プロセッサ・コンピュータの場合、大きいマップ用に2つのパラレル・プロセスが生成されます。4プロセッサ・コンピュータの場合は、最高8つのプロセスを生成できます。パラレル化は、Sessionsなどのデータベース初期化設定でも制御できます。

    最大のパフォーマンスを得るには、ClientThreadsを同時接続するクライアントの最大数に設定します。実際の接続クライアント数は、マップの実行後にNASvr.logに記録されます。ログに表示されるクライアント接続数が最大数よりも大きい場合は、ClientThreadsの値を増やす必要があります。

    スレッドはクライアント間で共有されるため、クライアント数がスレッド数を超えても、すべてのクライアントが処理されます。

  • Port: サーバーがリスニングに使用するポートを指定します。このポートはインストーラにより最初に割り当てられています。デフォルト・ポートが他のプロセスと競合する場合は、この値を変更できます。ポートを変更した場合は、utl_name_addrパッケージが接続を確立できるように、runtime_schema.nas_connection表でポートの属性も変更する必要があります。

Name and Addressサーバーの起動と停止

プロパティ・ファイルを編集するか表の保守を実行するたびに、Name and Addressサーバーを停止してから再起動して、変更内容を有効にする必要があります。

Name and Addressサーバーを手動で停止する手順は、次のとおりです。

  • Windowsの場合は、OWB_ORACLE_HOME/owb/bin/win32/NAStop.batを実行します。

  • UNIXの場合は、OWB_ORACLE_HOME/owb/bin/unix/NAStop.shを実行します。

Warehouse Builderでマッピングを起動すると、Name and Addressサーバーを自動的に再起動できます。サーバーを手動で再起動することもできます。

Name and Addressサーバーを手動で再起動する手順は、次のとおりです。

  • Windowsの場合は、OWB_ORACLE_HOME/owb/bin/win32/NAStart.batを実行します。

  • UNIXの場合は、OWB_ORACLE_HOME/owb/bin/unix/NAStart.shを実行します。