「First N Characters」変換を使用すると、値を左からN文字までに短くすることにより、比較の実行時にマッチ処理で値の末尾を無視できます。
これは、メインの「Trim Characters」プロセッサを使用して、値を最初の数文字に短くするのと同じです。
「First N Characters」変換は、識別子の最初の数文字を使用してクラスタリングする場合、または値の末尾が「ノイズ」である可能性がある識別子を照合する場合に使用します。これは、多くの場合、「Exact String Match」比較を使用する2番目のマッチ・ルールで使用されます。これにより、識別子の主要部分は同じだが残りの部分はかなり異なるため、他の比較を使用すると検索が困難な場合に、マッチ候補を検索できます。たとえば、住所を照合するとき、住所の1行目の最初の8文字が同じ場合は、一方の値にないデータがもう一方の値に含まれていても、マッチの可能性が高くなります。
オプション |
タイプ |
目的 |
デフォルト値 |
Number of characters |
整数 |
識別子の値を変換するときに保持して使用する文字数(左からカウント)。 |
1 |
Characters to ignore |
整数 |
(オプション)変換後の値に保持する文字数をカウントする前に、スキップする文字数(値の左からカウント)。これにより、値を変換する前に、共通の接頭辞をスキップできます。 |
0 |
注意: 空白文字(スペースや改行など)が値の中に存在する場合は、他の文字と同様に文字としてカウントされます。データ文字のみを選択する必要がある場合は、この変換を使用する前に「Trim Whitespace」変換を使用できます。 |
構成例
この例では、住所の1行目に建物名以外の情報が含まれることがある場合に、「First N Characters」変換を使用して住所の1行目を照合します。
Number of characters: 8
Characters to ignore: 0
変換例
次の表に、前述の構成を使用した変換の例を示します。
値 |
変換された値 |
Homesteads, 145 Herring Way |
Homestea |
Homesteads |
Homestea |
135 Burbage Road, Minster, MI5 6DF |
135 Burb |
135 Burbage Road |
135 Burb |
Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.