この章では、Oracle Warehouse Builderの名前とアドレスのクレンジング機能について説明します。
この章の内容は次のとおりです。
Oracle Warehouse Builderには名前とアドレスのクレンジング機能が備わっています。この機能は、複数のサード・パーティ・ベンダーの名前とアドレスのクレンジング・ツールと統合できます。Oracle Warehouse Builderでは、名前とアドレスが解析され、このタイプのデータに固有の方法(よくあるニックネームや略称の照合など)が使用されます。名前とアドレスのクレンジング・ソフトウェアのサード・パーティ・ベンダーから提供されたデータ・ライブラリと入力データを比較して、名前およびアドレスのソース・データのエラーや不整合を識別して修正できます。また、郵便配達区域や地理座標などの情報を使用して、レコードを補強できます。
注意: Name and Address演算子を使用するには、別途ライセンスが必要で、サード・パーティの名前とアドレスのクレンジング・ソフトウェアをインストールする必要があります。『Oracle Warehouse Builderインストレーションおよび管理ガイド』を参照してください。 |
Name and Address演算子によって修正されるエラーや非一貫性には、アドレス形式の相違、略語の使用、スペルの間違い、古くなった情報、一貫性のないデータ、名前の順序変更などがあります。この演算子は、これらのエラーと非一貫性を次のように修正します。
名前とアドレスの入力データを個々の要素に解析します。
名前とアドレスのデータを標準化します。これには、一般的なニックネームやビジネス名、および各国の郵政公社で承認されているアドレス・コンポーネントの標準的な略称が使用されます。名前やアドレスを標準化すると、照合や世帯検索が容易になり、顧客を単一のビューで表示するのに非常に役立ちます。
番地名や市区町村名などのアドレス情報を修正します。不適切なアドレスや郵送不可能なアドレスをフィルタリングすると、マーケティング・キャンペーンのコストの削減につながります。
性別、郵便番号、国コード、区画ID、ビジネスIDと顧客IDなどの追加データを名前とアドレスに追加します。この情報以外に調査ジオコーディングなどのアドレス情報を加えると、地理的な場所に基づくマーケティング・キャンペーンに使用できます。
アドレスに地理的情報を追加しておくと、地域特有のマーケティング活動が容易になります。たとえば、大都市圏内の顧客(都市圏の半径nマイル以内)に限定したマーケティングや、会社の店舗が対象とする顧客(店舗の半径xマイル以内)に限定したマーケティングなどがあります。Oracle DatabaseのオプションであるOracle Spatial、およびOracle Databaseに同梱されているOracle Locatorは、この機能とともに使用できる製品です。
また、Name and Address演算子を使用すると、アドレス修正と郵便照合がサポートされている国の郵便レポートを生成できます。郵便レポートによって、郵便割引を受けられる場合もあります。詳細は、「郵便レポートについて」を参照してください。
この例では、Name and Address演算子を使用するマッピングによってレコードを操作する方法を説明します。このマッピングでは、データ品質のエラーを処理する推奨方法を説明するためにスプリッタ演算子も使用しています。
この例では、ソース・データには表22-1に示すデータ行のあるCustomer
表が含まれます。
表22-1 Name and Address演算子へのサンプル入力
アドレス列 | アドレス・コンポーネント |
---|---|
名前 |
Joe Smith |
番地 |
8500 Normandale Lake Suite 710 |
市区町村 |
Bloomington |
郵便番号 |
55437 |
このデータにはニックネーム、姓および郵送先アドレスの一部が含まれますが、顧客のフル・ネーム、完全な番地および州がありません。また、このデータには、トラック輸送の距離計算に使用される、緯度や経度などの地理的な情報も含まれていません。
この例のマッピングでは、Name and Address演算子を使用して名前とアドレスのレコードを整備した後に、スプリッタ演算子を使用して、レコードの解析が成功したかどうかに応じてレコードを別々のターゲットにロードします。この項では、このようなマッピングの設計に必要な一般的な手順を説明します。
サンプル・レコードを変更する手順は、次のとおりです。
マッピング・エディタで、次の演算子をキャンバスに追加します。
CUSTOMERS
表の属性をName and Address演算子のIngroupにマッピングします。Name and Address演算子のOutgroupの属性をスプリッタ演算子のIngroupにマッピングします。
スプリッタ演算子の使用は必須ではありませんが、この演算子は、適切なレコードと問題が発生したレコードを分割する重要な機能を果します。
スプリッタ演算子の各Outgroupの分割条件を定義し、Outgroupをターゲットにマッピングします。
図22-1に、この例で設計するマッピングを示します。データは、CUSTOMERS
ソース表からName and Address演算子にマッピングされ、次にスプリッタ演算子にマッピングされます。スプリッタ演算子によって、解析に成功したレコードと、解析時にエラーが発生したレコードが分割されます。OUTGRP1の出力は、CUSTOMERS_GOOD
ターゲットにマッピングされます。OUTGRP2の分割条件は、たとえば、Is Parsed
フラグがFalse
のレコードはNOT_PARSEDターゲットにロードされるように設定されます。この場合、OUTGRP2の「分割条件」はINGRP1.ISPARSED='F'と設定されます。REMAINING_RECORDSグループのレコードは、解析に成功していますが、そのアドレスは郵便照合ソフトウェア内で検出されません。これらのレコードは、PARSED_NOT_FOUNDターゲットにロードされます。
図22-1 Name and Address演算子とともにスプリッタ演算子を使用したマッピング
この例で設計したマッピングを実行すると、Name and Address演算子によって、ソース表にあるアドレス・データが標準化および修正され、完全なデータになります。この例では、ターゲット表に、表22-2に示すアドレス・データが含まれています。表22-1の入力レコードと比較してください。
表22-2 Name and Address演算子の出力サンプル
アドレス列 | アドレス・コンポーネント |
---|---|
標準化された名前 |
JOSEPH |
姓 |
SMITH |
第1アドレス |
8500 NORMANDALE LAKE BLVD |
第2アドレス |
STE 710 |
市区町村 |
BLOOMINGTON |
都道府県 |
MN |
郵便番号 |
55437-3813 |
緯度 |
44.849194 |
経度 |
-093.356352 |
解析済 |
True |
適切な名前 |
True |
適切なアドレス |
True |
検出済 |
True |
名前警告 |
False |
番地警告 |
False |
市区町村警告 |
False |
この例では、入力データが次のように変更されています。
Joe SmithがFirst_Name_Standardized
(標準化された名前)とLast_Name
(姓)の2列に分割されています。
JoeがJOSEPHに標準化され、SuiteがSTEに標準化されています。
Normandale LakeがNORMANDALE LAKE BLVDに修正されています。
郵便番号の最初の部分である55437にZIP+4コードが追加され、55437-3813になっています。
緯度および経度が追加されています。
レコードが様々な方法でテストされ、適切なレコードは、問題が発生したレコードとは別のターゲットにロードされます。
割引が適用されるオートメーション郵便料金の郵便物の生成に使用されるアドレス一覧はすべて、郵便レポート認証ソフトウェアで照合される必要があります。認証は、サード・パーティ・ベンダーの名前とアドレスのソフトウェアおよびデータによって異なります。次のような認証があります。
米国郵政公社: Coding Accuracy Support System(CASS)
カナダ郵便局: Software Evaluation and Recognition Program(SERP)
オーストラリア郵便局: Address Matching Approval System(AMAS)
Coding Accuracy Support System(CASS)は、米国郵政公社(USPS)と郵便業界の協力によって開発されました。このシステムは、郵便利用者にとって、アドレス照合ソフトウェアの品質を測定する共通プラットフォームとなり、特に、すべての郵便に適用される5桁の郵便番号、ZIP+4番号、配布ポイント・コードおよび配達ルート・コードの正確さを検証します。オートメーション料金の郵便物の生成に使用されるアドレス一覧はすべて、CASS認定ソフトウェアで照合される必要があります。
USPS要件を満たすには、郵便利用者はCASSレポートを原本のフォームでUSPSに送信する必要があります。
カナダ郵便局は、ソフトウェア・パッケージを評価するSoftware Evaluation and Recognition Program(SERP)というテスト・プログラムを開発しました。このプログラムでは、カナダ郵便局の要件に対して、メーリング・リストを検証する機能、または検証して修正する機能が評価されます。SERP要件を満たす郵便プログラムは、カナダ郵便局のWebサイトにリストされています。
カナダのインセンティブ・レターメール、広告付きアドメールおよび刊行物メールを利用する顧客は、アドレス照合プログラムの要件を満たしている必要があります。顧客は、使用しているデータベースとカナダ郵便局のアドレス・データを比較することで、Statement of Accuracyを取得できます。
Address Matching Approval System(AMAS)は、アドレス指定の品質を向上させるためにオーストラリア郵便局によって開発されました。このシステムは、アドレス照合ソフトウェアの次の機能をテストおよび測定する基準を提供します。
郵便アドレス・ファイル(PAF)に対するアドレスの照合および修正。
各アドレス・レコードへの一意の配布ポイントID(DPID)の追加。これは、メールのバーコード化への手順の1つです。
AMASによって、企業は次の機能を持つアドレス照合ソフトウェアを開発できます。
バーコード作成用アドレスの準備。
高品質なアドレス指定。
郵便物の事前区分け申請による割引資格の適用。
事前区分けサービス料金は、利用者が、最新バージョンのPAFで有効な配布ポイントID(DPID)を持つAMAS承認ソフトウェアを使用していることが条件です。
郵便局で入手可能な事前区分け申請書を使用する場合は、郵便物が適切に準備されていることを宣言する必要があります。
名前またはアドレスのクレンジングに対して選択する各属性について、ソース属性に格納されるデータのタイプを示す入力ロールを指定する必要があります。Oracle Warehouse Builderでは、データに対して最も適した入力ロールを選択できる定義済入力ロールのセットが用意されています。
たとえば、Employees表には、last_name列とcity列が含まれます。これらの列には、それぞれ「姓」と「市区町村」を選択できます。
表22-3に、Name and Address演算子の入力ロールを示します。
表22-3 Name and Address演算子の入力ロール
入力ロール | 説明 |
---|---|
パススルー |
処理を必要としない属性。 |
名 |
名、ニックネームまたは名の略称。 |
ミドル・ネーム |
ミドル・ネームまたはイニシャル。ミドル・ネームが1つのみの場合または複数のミドル・ネームがある場合は最初のミドル・ネーム(Ethel May Roberta Louise Mertzの場合の「May」など)に使用します。 |
ミドル・ネーム2 |
第2のミドル・ネーム(Ethel May Roberta Louise Mertzの場合の「Roberta」など)。 |
ミドル・ネーム3 |
第3のミドル・ネーム(Ethel May Roberta Louise Mertzの場合の「Louise」など)。 |
姓 |
姓。 |
最初の部分名 |
次のように人名の最初の部分。
これらのコンポーネントが1つのソース列に含まれている場合に使用します。 |
最後の部分名 |
次のように人名の最後の部分。
これらのコンポーネントがすべて1つのソース列に含まれている場合に使用します。 |
プリネーム |
Ms.、Mr.またはDr.など、名前の前に付く敬称情報。 |
ポストネーム |
Jr.やPh.D.など、名前の世代または他の敬称情報。 |
人名 |
次のような完全人名。
これらのコンポーネントがすべて1つのソース列に含まれている場合に使用します。 |
人名2 |
入力に複数の個人連絡先が含まれている場合に第2の人名を指定します。 |
人名3 |
入力に複数の個人連絡先が含まれている場合に第3の人名を指定します。 |
会社名 |
会社名または組織名。 |
第1アドレス |
次のようなボックス、ルートまたは番地。
これには、区画名や区画番号は含まれません。 |
第2アドレス |
次を含む番地の第2の部分。
たとえば、第2アドレスがSuite 2100の場合、区画名はSTE(Suiteを標準化したもの)で区画番号は2100です。 |
アドレス |
次を含む完全アドレス行。
これらのコンポーネントで1列が共有される場合に使用します。 |
アドレス2 |
汎用アドレス行。 |
地区 |
南アメリカとラテン・アメリカのアドレスに一般的な地区またはバリオ。 |
地方名 |
日本の市または島。 |
ローカリティ2 |
日本の区。 |
ローカリティ3 |
日本の町または村。 |
ローカリティ4 |
日本の字、部、地割または線。 |
市区町村 |
市区町村名。 |
都道府県 |
都道府県名。 |
郵便番号 |
アメリカのZIPコードやカナダの郵便番号などの郵便番号。 |
国名 |
国の正式名称。 |
国コード |
ISO 3166-1993(E)の2文字または3文字の国コード。たとえば、アメリカはUSまたはUSA、カナダはCAまたはCANです。 |
最終行 |
次を含む最後のアドレス行。
これらのコンポーネントがすべて1つのソース列に含まれている場合に使用します。 |
最終行2 |
日本語版アダプタの場合は、アドレスの後に示される追加の行情報を指定します。 |
行1 -> 10 |
任意のタイプの名前、ビジネス、人名およびアドレスの自由形式テキストに使用します。これらのロールは、データの内容に関する情報をパーサーに提供しません。可能な場合は、用意されている個別の入力ロールを使用してください。 |
出力コンポーネントを使用して、Name and Address演算子によってクレンジングされたデータを格納する属性を定義します。「パススルー」の入力ロールを持つ属性は、自動的に出力コンポーネントとして表示されます。クレンジングされたデータを格納するために、追加の出力コンポーネントを定義できます。
出力コンポーネントのカテゴリ
出力コンポーネントは、次のカテゴリにグループ化されています。
「パススルー」出力コンポーネントは、処理を必要としない属性に使用されます。「パススルー
」入力ロールを作成すると、対応する「パススルー
」出力コンポーネントが自動的に作成されます。「パススルー
」出力コンポーネントは編集できませんが、対応する入力ロールは編集できます。
表22-4では、「名前」出力コンポーネントについて説明します。この表に示すように、1つのレコードを処理するために多数のコンポーネントを複数回使用できます。たとえば、会社名が2回出現するレコードの場合、2つの出力属性を追加して両方を抽出できます。一方を「第1」インスタンス、他方を「第2」インスタンスとして割り当てます。
表22-4 「名前」出力コンポーネント
サブフォルダ | 出力コンポーネント | 説明 |
---|---|---|
なし |
プリネーム |
名前の前に表示されるタイトルまたは敬称(Ms.またはDr.など)。複数回使用できます。 |
なし |
標準化された名前 |
名の標準バージョン(Tedの場合はTheodore、Jimの場合はJamesなど)。複数回使用できます。 |
なし |
標準化されたミドル・ネーム |
ミドル・ネームの標準バージョン(Tedの場合はTheodore、Jimの場合はJamesなど)。ミドル・ネームが1つのみの場合に使用するか、複数のミドル・ネームがある場合は最初の1つに使用します。複数回使用できます。 |
なし |
標準化されたミドル・ネーム2 |
第2のミドル・ネームの標準バージョン(Tedの場合はTheodore、Jimの場合はJamesなど)。複数回使用できます。 |
なし |
標準化されたミドル・ネーム3 |
第3のミドル・ネームの標準バージョン(Tedの場合はTheodore、Jimの場合はJamesなど)。複数回使用できます。 |
なし |
ポストネーム |
世代を示す名前の接尾辞(Sr.、Jr.、IIIなど)。複数回使用できます。 |
なし |
その他のポストネーム |
資格、学位、所属を示す名前の接尾辞(Ph.D.、M.D.、R.N.など)。複数回使用できます。 |
なし |
タイトル |
人名のタイトル(マネージャなど)。複数回使用できます。 |
なし |
名前指示部 |
人名指定。ATTN(宛)またはC/O(気付)など。複数回使用できます。 |
なし |
関係 |
他の人に関連する情報(受託者など)。複数回使用できます。 |
なし |
SSN |
社会保障番号。 |
なし |
電子メール・アドレス |
電子メール・アドレス。 |
なし |
電話番号 |
電話番号。 |
なし |
名前/会社他 |
会社名または人名に関連付けられている付加情報。 |
なし |
人名 |
名、ミドル・ネームおよび姓。複数回使用できます。 |
人名 |
名 |
入力名に検出された名。複数回使用できます。 |
人名 |
ミドル・ネーム |
ミドル・ネームまたはイニシャル。ミドル・ネームが1つの場合に使用するかまたは複数のミドル・ネームがある場合は最初の1つに使用します(Ethel May Roberta Louise Mertzの場合はMayなど)。複数回使用できます。 |
人名 |
ミドル・ネーム2 |
第2のミドル・ネーム(Ethel May Roberta Louise Mertzの場合の「Roberta」など)。複数回使用できます。 |
人名 |
ミドル・ネーム3 |
第3のミドル・ネーム(Ethel May Roberta Louise Mertzの場合の「Louise」など)。複数回使用できます。 |
人名 |
姓 |
姓。複数回使用できます。 |
導出済 |
性別 |
性別。
複数回使用できます。 |
導出済 |
人数 |
レコードで参照される人数。たとえば、人名John and Jane Doeを含むレコードの場合、「人数」は2となります。 |
ビジネス |
会社名 |
会社名または組織名(部課など)。複数回使用できます。 |
ビジネス |
会社数 |
レコードで参照される会社数。複数回使用できます。 |
ビジネス |
会社ロケーション |
社内のロケーション(買掛管理など)。 |
表22-5では、「アドレス」出力コンポーネントについて説明します。二重アドレスを含むレコードの場合は、表に示すように、標準アドレスとして使用する(「アドレス」コンポーネントに割り当てる)行と、多数の出力コンポーネントに二重アドレスとして使用する行を指定できます。
表22-5 「アドレス」出力コンポーネント
サブフォルダ | 出力コンポーネント | 説明 |
---|---|---|
なし |
アドレス |
次を含む完全アドレス行。
標準アドレスまたは二重アドレスとして使用できます。 |
なし |
第1アドレス |
次のようなボックス、ルートまたは番地。
出力コンポーネント「区画名」や「区画番号」は含めません。標準アドレスまたは二重アドレスとして使用できます。 |
第1アドレス |
番地番号 |
住宅やビルの番号など、アドレスを識別する番号。プライマリ範囲と呼ぶこともあります。たとえば、200 Oracle Parkwayの場合、 |
第1アドレス |
前方向 |
番地名の前に使用される番地の方向インジケータ。たとえば、100 N University Driveの場合、 |
第1アドレス |
番地名 |
番地名。標準アドレスまたは二重アドレスとして使用できます。 |
第1アドレス |
プライマリ名2 |
第2の番地名。通常は交差点にあるアドレスに使用されます。 |
第1アドレス |
番地タイプ |
街路識別子(ST、AVE、RD、DR、HWYなど)。標準アドレスまたは二重アドレスとして使用できます。 |
第1アドレス |
後方向 |
番地名の後に使用される番地の方向インジケータ。たとえば、100 15th Ave.S.の場合、 |
なし |
第2アドレス |
次を含む番地の第2の部分。
たとえば、第2アドレスSuite 2100の場合、 |
第2アドレス |
区画名 |
第2アドレスのタイプ(APTまたはSTEなど)。たとえば、第2アドレスSuite 2100の場合、 |
第2アドレス |
区画番号 |
第2アドレスの識別番号(アパート番号または部屋番号など)。たとえば、第2アドレスSuite 2100の場合、 |
第2アドレス |
非郵便第2アドレス |
正式な郵便形式でない第2アドレス。 |
第2アドレス |
非郵便区画名 |
正式な郵便形式でない区画名。 |
第2アドレス |
非郵便区画番号 |
正式な郵便形式でない区画番号。 |
アドレス |
最終行 |
次を含む最後のアドレス行。
|
最終行 |
地区 |
南アメリカとラテン・アメリカのアドレスに一般的な地区またはバリオ。 |
最終行 |
市区町村 |
市区町村名。アメリカの市名は、米国郵政公社の参照名に変換できます。 |
最終行 |
省略市区町村 |
市区町村名の省略形。アメリカの場合は13文字です。 |
最終行 |
省略市区町村2 |
市区町村名の代替省略形。 |
最終行 |
代替市区町村 |
複数の名前で参照可能な市区町村を表す代替名。アメリカでは、市を実際の名前または地域名で参照できます。たとえば、Brighton Massachusettsの代替市区町村名としてBostonを使用できます。 |
最終行 |
地方コード |
International Mailsort Codeの末尾3桁。各国の地域または地方を表します。「地方コード」は、000から999までの数値です。 |
最終行 |
地方名 |
イギリスでは、次のアドレスに地方名KNAPHILLが割り当てられています。 Chobham Rd Knaphill Woking GU21 2TZ |
最終行 |
ローカリティ2 |
日本の区。 |
最終行 |
ローカリティ3 |
日本の町または村。 |
最終行 |
ローカリティ4 |
日本の字、部、地割または線。 |
最終行 |
区名 |
イギリス、アメリカまたは他の国の郡の名前。 |
最終行 |
都道府県 |
都道府県名。 |
最終行 |
郵便番号 |
完全郵便番号。空白や他の文字(非英数字)は削除されます。 |
最終行 |
書式化された郵便番号 |
郵便番号の書式化済バージョン。空白や他の文字(ダッシュなどの非英数字)を含みます。 |
最終行 |
配布ポイント |
アメリカとオーストラリアで使用される指定。
|
最終行 |
国コード |
国際標準化機構により定義されたISO 3166-1993(E)の2文字の国コード(アメリカはUS、カナダはCAなど)。 |
最終行 |
国コード3 |
国際標準化機構により定義されたISO 3166-1993(E)の3文字の国コード(アメリカはUSA、フランスはFRA、ウクライナはUKRなど)。 |
最終行 |
国名 |
完全な国名。 |
アドレス |
アドレス2 |
アドレス行2。通常は、番地とビルまたは階の両方を含む香港のアドレスに使用します。 |
アドレス |
最終行2 |
日本でアドレスの後に表示される追加情報。 |
その他のアドレス行 |
ボックス名 |
私書箱のアドレス名。たとえば、PO Box 95の場合、「ボックス名」はPO BOXです。標準アドレスまたは二重アドレスとして使用できます。 |
その他のアドレス行 |
ボックス番号 |
私書箱のアドレス番号。たとえば、PO Box 95の場合、「ボックス番号」は95です。標準アドレスまたは二重アドレスとして使用できます。 |
その他のアドレス行 |
ルート名 |
地方のルート・アドレスのルート名。アドレスRoute 5 Box 10の場合、「ルート名」はRTE(Routeの標準化バージョン)です。標準アドレスまたは二重アドレスとして使用できます。 |
その他のアドレス行 |
ルート番号 |
地方のルート・アドレスのルート番号。アドレスRoute 5 Box 10の場合、「ルート番号」は5です。標準アドレスまたは二重アドレスとして使用できます。 |
その他のアドレス行 |
ビル名 |
ビル名(Cannon Bridge Houseなど)。イギリスでは、ビル名が一般的です。 |
その他のアドレス行 |
複合 |
ビル、キャンパスまたはその他の複合ビル。次に例を示します。 USS John F. Kennedy Shadow Green Apartments Cedarvale Gardens Concordia College 「出力コンポーネント」ダイアログ・ボックスの「インスタンス」フィールドを使用すると、アドレスに複数の複合コンポーネントが含まれている場合に、どの複合コンポーネントを戻すかを指定できます。 |
その他のアドレス行 |
他のアドレス |
その他のアドレス情報。 複数の「その他」フィールドを含むレコードの場合は、出力コンポーネント・ページで使用するインスタンスを指定することで各フィールドを抽出できます。 |
地理 |
緯度 |
北緯。北半球の場合はプラス、南半球の場合はマイナスです(北アメリカの場合は常にプラスです)。 |
地理 |
経度 |
東経。東半球の場合はプラス、西半球の場合はマイナスです(北アメリカの場合は常にマイナスです)。 |
地理 |
地域一致精度 |
緯度と経度で識別されたロケーションがアドレスとどの程度一致しているかを示します。 |
ベンダー固有の用途に20個のコンポーネントを使用できます。
表22-6では、「エラー・ステータス」出力コンポーネントについて説明します。「エラー・ステータス」コンポーネントの使用上の注意事項は、「Name and Addressデータでのエラー処理」を参照してください。
表22-6 「エラー・ステータス」出力コンポーネント
サブフォルダ | 出力コンポーネント | 説明 |
---|---|---|
名前とアドレス |
適切なグループ |
名前グループ、アドレス・グループまたは名前およびアドレス・グループが正常に処理されたかどうかを示します。
このフラグを |
名前とアドレス |
解析済 |
名前またはアドレスが解析済かどうかを示します。
|
名前とアドレス |
解析ステータス |
郵便照合ソフトウェアの解析ステータス・コード。 |
名前とアドレス |
解析ステータスの説明 |
郵便照合ソフトウェアの解析ステータスのテキスト説明。 |
名前のみ |
適切な名前 |
名前が正常に解析されたかどうかを示します。
|
名前のみ |
名前警告 |
パーサーにより名前に例外的なデータまたはエラーの可能性のあるデータが検出されたかどうかを示します。
|
アドレスのみ |
適切なアドレス |
アドレスが正常に処理されたかどうかを示します。
このコンポーネントは、郵便照合対象の国と郵便照合対象外の国のレコードが混在している場合に使用します。 |
アドレスのみ |
検出済 |
アドレスが示す国用の郵便照合データベース内でアドレスがリストされているかどうかを示します。
このフラグがTrueとなるのは、他の検出フラグがすべてTrueの場合のみです。郵便照合が使用可能な場合、このフラグはレコード品質の最高のインジケータです。 |
アドレスのみ: 検出済 |
市区町村が検出済 |
T = 郵便照合ソフトウェアにより市区町村が検出されました。それ以外の場合、値はFです。 |
アドレスのみ: 検出済 |
番地名が検出済 |
T = 郵便照合ソフトウェアにより番地名が検出されました。それ以外の場合、値はFです。 |
アドレスのみ: 検出済 |
番地番号が検出済 |
T = 郵便照合ソフトウェアにより、指定した番地番号の有効範囲内で番地番号が検出されました。それ以外の場合、値はFです。 |
アドレスのみ: 検出済 |
番地コンポーネントが検出済 |
T = 郵便照合ソフトウェアにより、「前方向」または「後方向」などの番地コンポーネントが検出されました。それ以外の場合、値はFです。 |
アドレスのみ: 検出済 |
曖昧でない一致が検出済 |
郵便照合ソフトウェアにより郵便データベース内で一致するアドレスが検出されたかどうかを示します。
|
アドレスのみ |
市区町村警告 |
T = パーサーにより、市区町村に例外的なデータまたはエラーの可能性のあるデータが検出されました。それ以外の場合、値はFです。 |
アドレスのみ |
番地警告 |
T = パーサーにより、番地アドレスに例外的なデータまたはエラーの可能性のあるデータが検出されました。それ以外の場合、値はFです。 |
アドレスのみ |
検証可能なアドレス |
T = アドレスが該当する国には郵便照合を使用可能です。それ以外の場合、値はFです。 Fは、アドレスに該当する国用の郵便照合データベースがインストール済かどうかを示すものではありません。単に特定のアドレスに照合が使用可能でないことを示します。 |
アドレスのみ |
アドレスが修正済 |
照合中になんらかの方法でアドレスが修正されたかどうかを示します。この場合、標準化は修正とはみなされません。
|
アドレスのみ: アドレスが修正済 |
郵便番号が修正済 |
T = 照合中に郵便番号が修正されました。枝番が追加された可能性があります。それ以外の場合、値はFです。 |
アドレスのみ: アドレスが修正済 |
市区町村が修正済 |
T = 照合中に市区町村名が修正されました。それ以外の場合、値はFです。 郵便番号入力を使用して、郵政公社で参照している市区町村名が判別されます。 |
アドレスのみ: アドレスが修正済 |
番地が修正済 |
T = 照合中に番地名が修正されました。それ以外の場合、値はFです。 一部の正しい番地名が、郵政公社が参照している代替名に変更された可能性があります。 |
アドレスのみ: アドレスが修正済 |
番地コンポーネントが修正済 |
T = 照合中に、 |
アドレスのみ |
アドレス・タイプ |
アドレスのタイプ。次に一般的な例を示します。実際の値は、郵便照合ソフトウェアのベンダーによって異なります。
|
アドレスのみ |
解析国 |
レコードの最終解析に使用した国パーサー。 |
表22-7に、特定の国に固有の出力コンポーネントを示します。
表22-7 国に固有の出力コンポーネント
サブフォルダ | 出力コンポーネント | 説明 |
---|---|---|
アメリカ |
ZIP5 |
5桁のアメリカ郵便番号。 |
アメリカ |
ZIP4 |
ロケーションをさらに詳細に指定するために5桁のアメリカ郵便番号に追加される4桁の接尾辞。 |
アメリカ |
都市名 |
プエルトリコで使用される地方単位の名前。 |
アメリカ |
LACSフラグ |
T = アドレスにはLACS変換が必要であり、LACSベンダーに送信する必要があります。それ以外の場合、値はFです。 Locatable Address Conversion System(LACS)は、911緊急システムが実装された時点で新規のアドレスを提供します。通常、911アドレス変換では、地方スタイルのアドレスが市区町村スタイルの番地アドレスに変更されますが、既存の市区町村スタイルのアドレスの名前や番号が変更されることがあります。 |
アメリカ |
CART |
4文字のUSPS運送業者ルート。 |
アメリカ |
DPBCチェック数値 |
配布ポイントのバーコードを形成するチェック数値。 |
アメリカ |
自動ゾーン・インジケータ |
T = この郵便番号による郵便は、バーコード・ソート装置でソートされます。それ以外の場合、値はFです。 |
アメリカ |
都市インジケータ |
T = アドレスは地方にあります。それ以外の場合、値はFです。 |
アメリカ |
LOT(Line of Travel) |
アメリカ郵政公社(USPS)の移動ライン。 |
アメリカ |
LOT順序 |
アメリカ郵政公社(USPS)の移動ラインの順序。 |
アメリカ: 調査/地理 |
メトロポリタン統計地域 |
メトロポリタン統計地域(MSA)番号。たとえば、0000はアドレスがMSA内にないことを示します。通常は地方を示します。 |
アメリカ: 調査/地理 |
マイナー調査区域 |
マイナー調査区域 |
アメリカ: 調査/地理 |
CBSAコード |
大都市圏と小都市圏を識別する5桁のコア・ベース統計地域(CBSA)コード。 |
アメリカ: 調査/地理 |
CBSA記述子 |
"CBSAが大都市圏(人口50,000人以上)であるか小都市圏(人口10,000人から49,999人まで)であるかを示します。" |
アメリカ: 調査/地理 |
FIPSコード |
連邦情報処理規格(FIPS)により郡に割り当てられた完全(州および郡)コード。FIPSの区コードは州内で一意であるため、完全FIPSコードには2桁の州コードとそれに続く3桁の区コードが含まれています。 |
アメリカ: 調査/地理 |
FIPS区 |
連邦情報処理規格(FIPS)により定義された3桁の区コード。 |
アメリカ: 調査/地理 |
FIPS地区コード |
連邦情報処理規格(FIPS)により定義された5桁の地区コード。 |
アメリカ: 地理 |
調査ID |
アメリカの調査の地域およびブロック・グループ番号。最初の6桁は地域番号で、最終桁は地域内のブロック・グループ番号です。これらのコードは、人口統計コーディング・データベースとの照合に使用されます。 |
カナダ |
インストール・タイプ |
カナダ郵便施設のタイプ。
"たとえば、アドレスPO Box 7010, Scarborough ON M1S 3C6の場合、インストール・タイプはSTNです。" |
カナダ |
インストレーション名 |
カナダ郵便設備の名前。たとえば、アドレスPO Box 7010, Scarborough ON M1S 3C6の場合、「インストレーション名」はAGINCOURTです。 |
香港 |
デリバリー・オフィス・コード |
香港で使用される郵便コード。たとえば、次のアドレスにはデリバリー・オフィス・コードWCHが割り当てられています。 Oracle 39/F The Lee Gardens 33 Hysan Ave Causeway Bay |
香港 |
デリバリー・ビート・コード |
香港で使用される郵便コード。たとえば、次のアドレスにはデリバリー・ビート・コードS06が割り当てられています。 Oracle 39/F The Lee Gardens 33 Hysan Ave Causeway Bay |
他の種類の解析と同様に、Name and Address解析は、キーワードとそのキーワードを含むパターンの識別に依存します。自由形式の名前とアドレスのデータは、キーワード・セットが大きく100%完全であることがないため、解析が困難な場合があります。キーワード・セットは何百万ものレコードを分析することで構築されますが、新しいデータ・セットに、未定義のキーワードが含まれることもあります。
自由形式の名前とアドレスのレコードの大半には、数字、文字および英数字文字列の共通パターンが含まれるため、多くの場合、解析は英数字のパターンのみに基づいて実行できます。ただし、英数字のパターンが曖昧であったり、特定のパターンがみつからない場合があります。Name and Addressの解析エラーによって、データ・マッピングの制御に使用できる解析ステータス・コードが設定されます。
品質の基準はアプリケーションによって異なるため、特定のレコードの品質を判断するのに役立つフラグが数多く用意されています。郵便照合がサポートされる国の場合は、Is Good Group
フラグを使用してください。このフラグによって、アドレスが郵便データベース内の有効なエントリであることが確認されます。また、米国のCoding Accuracy Support System(CASS)認証およびカナダのSoftware Evaluation and Recognition Program(SERP)認証の郵便でも、Is Good Group
フラグを使用してください。
郵便レポートを指定しないかぎり、アドレスは郵便データベースで見つからなくても使用できます。たとえば、交差点のアドレスやビル名が郵便データベースで見つからない場合がありますが、配達には問題ありません。Is Good Group
フラグが失敗を示す場合は、別のエラー・フラグによって解析ステータスを判断できます。
Is Parsed
フラグは、解析プロセスの成功または失敗を示します。Is Parsed
が解析の成功を示す場合でも、特異なデータを示す解析警告フラグをチェックする必要があります。このレコードは手動でチェックできます。
Is Parsed
が解析の失敗を示す場合は、元のデータを保存して、データの損失を防ぐ必要があります。
スプリッタ演算子を使用して、解析に成功したレコードと解析に失敗したレコードを別々のターゲットにマッピングします。
Name and Address演算子は、PL/SQL入力を1つ受け入れてPL/SQL出力を1つ生成します。
タイムアウト・エラーになる場合は、Name and Addressサーバーのソケット・タイムアウト設定の値を大きくする必要があります。タイムアウト設定は、サーバーが接続をドロップする前にマッピングからの解析リクエストを待機する秒数です。デフォルト設定は600秒(10分)です。非アクティブが原因でサーバーが接続をドロップすると、以降の解析リクエストは失敗してNAS-00021エラーが戻されます。
ほとんどのマッピングの場合、2つの解析リクエストの間に長時間が経過することはまれです。ただし、行ベース・モードでレコードをフィルタするのは非効率的なため、フィルタ演算子を使用して行ベース・モードで動作するマップの場合は、2つのレコード解析リクエスト間に長時間経過することがあります。このタイプのマッピングの場合は、接続がドロップされないようにソケットのタイムアウト値の増加が必要になります。
ソケットのタイムアウト設定値を大きくするには、「Name and Addressサーバーの管理」を参照してください。
Name and Address演算子は、入力グループ1つと出力グループ1つを使用します。
Name and Address演算子によってマッピングを作成する手順は次のとおりです。
ソース・データを表す演算子とクレンジングしたデータを表す演算子を、マッピング・エディタのキャンバスにドラッグ・アンド・ドロップします。
たとえば、ソース・データがある表に格納され、クレンジングしたデータが別の表に格納される場合、その表にバインドされる2つの表演算子をキャンバスにドラッグ・アンド・ドロップします。
Name and Address演算子をマッピング・エディタのキャンバスにドラッグ・アンド・ドロップします。
Name and Addressウィザードが表示されます。
名前ページで、Name and Address演算子に対して名前(およびオプションの説明)を指定します。
あるいは「名前」フィールドに表示されたデフォルト名をそのまま採用できます。
定義ページで、ソース・データのタイプを定義する値を選択します。
「ソース・データの詳細の指定および解析タイプの設定」を参照してください。
グループ・ページで、入力グループや出力グループの名前を任意に変更します。
Name and Address演算子は、1つの入力グループINGRP1と1つの出力グループOUTGRP1を使用します。グループは編集、追加または削除できません。入力データに複数のグループが必要な場合は、グループごとに別個のName and Address演算子を作成します。
接続の入力ページで、マッピング内の任意の演算子から、Name and Address演算子にコピーおよびマップする属性を選択します。
演算子の接続の入力ページで指定する手順は次のとおりです。
「使用可能な属性」パネルで、グループ全体または個別の属性を選択します。
特定の属性またはグループを名前で検索するには、「検索」にテキストを入力して「実行」をクリックします。次の一致を検索するには、「実行」を再度クリックします。
複数のグループまたは属性を選択するには、[Shift]キーを押しながら選択します。異なるグループの属性を選択するには、最初にジョイナ演算子または集合演算子を使用してグループを結合する必要があります。
注意: ソース・データに演算子を作成していない場合、「使用可能な属性」セクションは空です。 |
2つのパネルの間にある右矢印ボタンを使用して、選択内容を「マップ済属性」パネルに移動します。
「マップ済属性」セクションには、Name and Address演算子によって処理される属性がリストされます。
入力属性ページで、そこで選択した各属性に入力ロールを割り当てます。
入力ロールには、データの行にある名前およびアドレスの情報のタイプを指定します。できるかぎり、個別でないロール(「最終行」)でなく個別ロール(「市区町村」、「都道府県」および「郵便番号」)を選択してください。個別ロールの方が解析が強化されます。
入力ロールが「パススルー」に設定された属性の場合、データ型詳細を指定する際に、「データ型」、「長さ」、「精度」、「スケール」および「秒精度」フィールドを使用します。
出力属性ページで、Name and Address演算子での解析済データの処理方法を決定する出力属性を定義します。出力属性プロパティによって、パーサー出力から抽出されたデータが特徴付けられます。
「パススルー」入力ロールを割り当てられている属性は、すべて出力属性として自動的にリストされます。出力属性は追加できます。
注意: 「パススルー」ロールを持つ出力コンポーネントの属性は変更できません。 |
出力属性を追加する手順は次のとおりです。
「出力」タブの空の行をクリックして属性名を入力します。
出力属性の名前を変更するには、名前を選択して新しい名前を入力します。
「出力コンポーネント」フィールドの省略記号ボタンをクリックして、属性の出力コンポーネントを選択します。
「解析済」、「適切な名前」、「適切なアドレス」などのエラー処理フラグも追加してください。これらのフラグをスプリッタ演算子に使用すると、適切なレコードをエラーのあったレコードから分離して、別のターゲットにロードできます。
「データ型」、「長さ」、「精度」、「スケール」および「秒精度」フィールドを使用して、出力属性のデータ型詳細を指定します。
アドレス修正および郵便番号照合をサポートする国の場合、郵便レポート・ページを使用して郵便レポートの詳細を指定します。
「郵便レポートの詳細の指定」を参照してください。
定義ページまたは「定義」タブで、ソース・データに関する情報を入力し、ソース・データに対して実行される解析のタイプを指定します。「解析タイプ」、「国」および「二重アドレス割当」の値を設定します。
次の解析タイプから1つを選択してください。
名前のみ: 入力データに名前データのみが含まれている場合に、このオプションを選択します。個人名とビジネス名の両方が対象となります。より一般的な「Name and Address」オプションのかわりにこのオプションを選択すると、アダプタによってはパフォーマンスと精度が向上することがあります。
アドレスのみ: 入力データがアドレス・データのみで構成され、名前データが含まれていない場合に、このオプションを選択します。より一般的な「Name and Address」オプションのかわりにこのオプションを選択すると、アダプタによってはパフォーマンスと精度が向上することがあります。
Name and Address: 入力データに名前データとアドレス・データの両方が含まれている場合に、このオプションを選択します。
注意: 解析タイプを指定できるのは、最初にマッピングにName and Address演算子を追加するときのみです。エディタでは解析タイプを変更できません。 |
データの中で最も頻出する国を選択します。主国は、レコードの最初の解析に使用する適切なパーサーまたは解析ルールの手がかりとして、名前とアドレスのクレンジング・ソフトウェアの一部のプロバイダによって使用されています。それ以外の名前とアドレスのサービス・プロバイダの場合は、インストールの外部構成によってこの動作が制御されています。
二重アドレスには、同じアドレス・レコードの私書箱と町村の両方が含まれます。二重アドレスを持つレコードの場合、標準アドレスになるアドレスと、二重アドレスになるアドレスを選択します。二重アドレスの例は、次のとおりです。
PO Box 2589 4439 Mormon Coulee Rd La Crosse WI 54601-8231
「二重アドレス割当」での選択によって、郵便番号の修正時に割り当てられる郵便コードが決まります。これは、町村の郵便番号と私書箱の郵便番号が異なる場合があるためです。
「番地」割当: 町村が標準アドレスで、私書箱が二重アドレスです。これは、Address
コンポーネントに町村が割り当てられることを意味します。前述の例では、Address
は4439 MORMON COULEE RDです。この選択により、郵便番号は54601-8220に修正されます。
「私書箱」割当: 私書箱が標準アドレスで、町村が二重アドレスです。これは、Address
コンポーネントに私書箱が割り当てられることを意味します。前述の例では、Address
はPO BOX 2589です。この選択により、郵便番号は54602-2589に修正されます。
最終行に最も近い: 最終行に最も近いアドレスが標準アドレスで、もう一方のアドレスが二重アドレスです。これは、最終行に最も近いアドレス行がAddress
コンポーネントに割り当てられることを意味します。前述の例では、Address
は4439 MORMON COULEE RDです。この選択により、郵便番号は54601-8220に修正されます。
このオプションは、町村または私書箱を1つ持つレコードには影響しません。
注意: 名前とアドレスのクレンジング・ソフトウェア・プロバイダによっては、「二重アドレス割当」をサポートしていない場合があります。 |
国の認証は、Name and Addressクレンジング・ソフトウェア・ベンダーによって異なります。最も一般的な国の認証は、アメリカ、カナダおよびオーストラリアです。このプロセスにより、郵便利用業者に、アドレス照合ソフトウェアの品質を測定する共通プラットフォームが提供され、あらゆる郵便に適用される郵便番号(アメリカでは、5桁の郵便番号とZIP+4コード)、デリバリ・ポイント・コードおよび配達ルート・コードの正確さについて検証されます。Name and Addressクレンジング・ソフトウェア・ベンダーによっては、これらのパラメータが無視され、郵便レポートを生成する外部の設定が必要になる場合もあります。詳細は、「郵便レポートについて」を参照してください。
郵便レポートを指定するには、「郵便レポート」ファイルで「はい」を選択し、次のフィールドに値を入力します。
プロセッサ名: このフィールドの用途は、名前とアドレスのクレンジング・ソフトウェアのベンダーに応じて異なります。通常、この値はUnited States Coding Accuracy Support System(CASS)レポートに記載されます。
リスト名:アメリカ・レポートおよびイギリス・レポートの「リスト名」セクションに表示されるオプションの参照フィールドですが、他のレポートには含まれません。リスト名により、「July 2005 Promotional Campaign」のように、複数の郵便レポートを追跡するための参照が指定されます。
プロセッサ・アドレス行:これらのアドレス行が各種の郵便レポートに表示される場合があります。名前とアドレスのクレンジング・ソフトウェア・ベンダーによってこれらのフィールドの使用方法が異なります。通常、これらの行には、会社の詳細アドレスを含めます。
外部のName and Addressサーバーは、Oracle Databaseとサード・パーティのName and Address処理ライブラリの間にインタフェースを提供します。この項では、Name and Addressサーバーの構成、起動および停止の詳細について説明します。
Name and Address演算子は、ランタイム・スキーマにインストールされたUTL_NAME_ADDR
パッケージをコールするPL/SQLコードを生成します。UTL_NAME_ADDR
パッケージを参照するために、ターゲット・スキーマにプライベート・シノニムNAME_ADDR
が定義されます。UTL_NAME_ADDR
パッケージは外部Name and Addressサーバーに処理リクエストを送信するJavaパッケージをコールし、外部Name and Addressサーバーはサード・パーティのName and Address処理ライブラリ(Trilliumなど)とのインタフェースを提供します。
サーバー・プロパティ・ファイルNameAddr.properties
を使用して、サーバー・オプションを構成できます。このファイルは、サーバー・コンポーネントのインストール時に指定したOracleホームの下のowb/bin/admin
にあります。次のコードは、一部の重要なプロパティとそのデフォルト設定を示しています。
TraceLevel=0 SocketTimeout=180 ClientThreads=4 Port=4040
TraceLevel
プロパティは、通常、サーバー通信の診断を実行して郵便照合プログラムのパーサーからの出力を表示するように変更されます。他のプロパティが変更されることはまれです。
TraceLevel: owb/bin/admin
フォルダにあるファイルNASvrTrace.log
の出力を可能にします。このファイルはすべての受信データと送信データを示しており、マッピングがName and Addressサーバーと通信中であることと、Name and Addressサーバーがサービス・プロバイダから出力を受信中であることを検証します。このトレース・ログはすべてのサーバーの入出力を示しており、実行中のマッピングにより解析リクエストが発行されているかどうかを判断する上で最も有効です。ロギングを有効化するには、TraceLevel=1
に設定します。ただし、トレースによりパフォーマンスが低下し、作成されるログ・ファイルが大きくなります。本番用にロギングを無効化するには、TraceLevel=0
に設定します。
SocketTimeOut: Name and Addressサーバーが接続をクローズする前に解析リクエストを待機する秒数を指定します。タイムアウトを防ぐためにコンカレント・マッピングを実行する場合は、この時間を1800(30分)まで増やすことができます。
ClientThreads: クライアント接続の処理に使用するスレッド数を指定します。マップがパラレル化されている場合は、データベース・セッションまたはスレーブ・セッションごとにクライアント接続が1つ確立されます。ほとんどのマップはパラレル化されており、パラレル・プロセス数はプロセッサ数に比例します。単一プロセッサ・コンピュータの場合、大きいマップ用に2つのパラレル・プロセスが生成されます。4プロセッサ・コンピュータの場合は、最高8つのプロセスを生成できます。パラレル化は、Sessionsなどのデータベース初期化設定でも制御できます。
最大のパフォーマンスを得るには、ClientThreadsを同時接続するクライアントの最大数に設定します。実際の接続クライアント数は、マップの実行後にNASvr.log
に記録されます。ログに表示されるクライアント接続数が最大数よりも大きい場合は、ClientThreadsの値を増やす必要があります。
スレッドはクライアント間で共有されるため、クライアント数がスレッド数を超えても、すべてのクライアントが処理されます。
Port: サーバーがリスニングに使用するポートを指定します。このポートはインストーラにより最初に割り当てられています。デフォルト・ポートが他のプロセスと競合する場合は、この値を変更できます。ポートを変更した場合は、utl_name_addr
パッケージが接続を確立できるように、runtime_schema
.nas_connection
表でポートの属性も変更する必要があります。
プロパティ・ファイルを編集するか表の保守を実行するたびに、Name and Addressサーバーを停止してから再起動して、変更内容を有効にする必要があります。
Name and Addressサーバーを手動で停止する手順は、次のとおりです。
Windowsの場合は、OWB_HOME
/owb/bin/win32/NAStop.bat
を実行します。
UNIXの場合は、OWB_HOME
/owb/bin/unix/NAStop.sh
を実行します。
Name and Addressサーバーを手動で再起動する手順は、次のとおりです。
Windowsの場合は、OWB_HOME
/owb/bin/win32/NAStart.bat
を実行します。
UNIXの場合は、OWB_HOME
/owb/bin/unix/NAStart.sh
を実行します。
または、Name and Addressサーバーを手動で再起動することもできます。ただし、自動起動の前に、スクリプトOWB_HOME
/owb/bin/unix/NAStart.sh
のEXECUTE権限をOWBSYS
スキーマに付与していることを確認します。
たとえば、SYS
ユーザーを使用してSYSBDBA
としてSQL*Plusにログインし、次を実行します。
SQL> EXEC DBMS_JAVA.GRANT_PERMISSION( 'OWBSYS', 'SYS:java.io.FilePermission', '/owb_11g/oracle/owb/bin/unix/NAStart.sh', 'execute' );
ここで、/owb_11g
はOracle Warehouse Builderがインストールされるパスです。