照合変換のリスト
照合プロセッサ内で変換を使用すると、値をクラスタリングする際にも比較する際にも、ソース値を変換することでより正確な照合結果を得ることができます。これにより、照合前に一連の変換を構成しなくても、照合目的で変換を使用できます。
それぞれのクラスタ構成またはクラスタ比較内で、いくつかの変換を順番に使用できます。変換は、識別子のデータ型と互換性を持つ必要があります(ただし、変換を使用してそのデータ型を変更することもできます)。
EDQの一部として、次の照合変換が提供されています。これらはメインの変換プロセッサと似ていますが、照合プロセッサで値をクラスタリングまたは比較する際に簡便に使用できるよう設計されています。
照合変換
変換 | 互換性のある識別子タイプ | 説明 | 変換例 |
---|---|---|---|
絶対値 |
数値、番号配列 |
数値を絶対値に変換(つまり、負の値を正の値に変換し、不要な桁を削除)します。 |
"-1.5" -> "1.5" "1.5" -> "1.5" "0001908" -> "1908" |
文字の置換 |
文字列、文字配列 |
文字列属性の個々の文字を置換します。 |
"é"から"e" |
日付を文字列に変換 |
日付 |
日付書式を使用して日付値を文字列に変換します。 |
書式dd-MMM-yyyyを使用: "23-Mar-2001 00:00:00" (日付) -> "23/03/2001" (文字列) |
数値を文字列に変換 |
数値 |
数値書式を使用して数値を文字列に変換します。 |
書式0.0を使用: "175.66" (数値) -> "175.6" (文字列) "175.00" (数値) -> "175.0" (文字列) |
文字列を日付に変換 |
文字列 |
日付書式を使用して、文字列値を日付に変換します。 |
書式dd/MM/yyyyを使用: "01/11/2001" (文字列) -> "01-Nov-2001 00:00:00" (日付) "10/04/1975" (文字列) -> "10-Apr-1975 00:00:00" (日付) |
文字列を数値に変換 |
文字列 |
数値書式を使用して、文字列値を数値に変換します。 |
書式0.0を使用: "28" (文字列) -> "28.0" (数値) "68.22" (文字列) -> "68.2" (数値) |
ノイズ削除 |
文字列、文字配列 |
文字列値からノイズ文字(#'<>,/?*%+など)を削除します。 |
"Oracle (U.K.)" -> "Oracle UK" "A+D Engineering" -> "AD Engineering" "John#Davison" -> "JohnDavison" "SIMPSON, David" -> "SIMPSON David" |
日付配列の重複除外 |
日付配列 |
配列での日付の重複除外。 |
入力: {Jun 22 2015 10:14:22 AM}{Feb 17, 1986 12:00:00 AM}{Jun 22 2015 10:14:22 AM} 出力: {Jun 22 2015 10:14:22 AM}{Feb 17, 1986 12:00:00 AM} |
番号配列の重複除外 |
番号配列 |
配列での番号の重複除外。 |
入力: {32}{14}{2}{32} 出力: {32}{14}{2} |
文字配列の重複除外 |
文字列配列 |
配列での文字要素の重複除外。 |
入力: {A}{B}{A} 出力: {A}{B} |
最初のN文字 |
文字列、文字配列 |
値が最初からn文字までになるように文字列値を削除します。 |
「文字数」が4の場合: "Simpson" -> "Simp" "Simposn" -> "Simp" "Robertson" -> "Robe" |
最初のN語 |
文字列、文字配列 |
値が最初からn番目の単語までになるように文字列値を削除します。 |
「単語数」が2の場合: "Barclays Bank (Sheffield)" -> "Barclays Bank" "Balfour Beatty Construction" -> "Balfour Beatty" |
イニシャルの生成 |
文字列、文字配列 |
文字列値からイニシャルを生成します。 |
「次未満の語を無視」が4の場合: "IBM" -> "IBM" "International Business Machines" -> "IBM" "Price Waterhouse Coopers" -> "PWC" "PWC" -> "PWC" "Aj Smith" -> "AS" "A j Smith" -> "AJS" |
最後のN語 |
文字列、文字配列 |
値が最後からn語までになるように文字列値を削除します。 |
「単語数」が2の場合: "(Sheffield) Barclays Bank" -> "Barclays Bank" "Balfour Beatty Construction" -> "Beatty Construction" |
最後のN文字 |
文字列、文字配列 |
値が最後からn文字までになるように文字列値を削除します。 |
「文字数」が5の場合: "01223 421630" ->"21630" "07771 821630"->"21630" "01223 322766"->"22766" |
小文字 |
文字列、文字配列 |
文字列値を小文字に変換します。 |
"ORACLE" -> "oracle" "Oracle" -> "oracle" "OraCle" -> "oracle" |
文字列から配列を作成 |
文字列 |
文字列を値の配列に変換し、その配列内の各値が個別の索引キーを構成するようにします。 |
カンマおよびスペースのデリミタを使用: "John Simpson" -> "John", "Simpson" "John R Adams" -> "John", "R", "Adams" "Adams, John" -> "Adams", "John" |
Metaphone |
文字列、文字配列 |
文字列からmetaphone値を生成します。 |
"John Murray" -> "JNMR" "John Moore" -> "JNMR" "Joan Muir" -> "JNMR" |
空白の正規化 |
文字列、文字配列 |
連続する空白文字をすべて1つのスペースに変換します。 |
"10 Harwood Road" -> "10 Harwood Road" "3 Perse Row" -> "3 Perse Row" |
置換 |
文字列、文字配列 |
たとえば、共通シノニムを標準化するために、参照データ・マップを使用して値を標準化します。 |
参照データ・マップに適切な置換が含まれる場合: "Bill" -> "William" "Billy" -> "William" "William" -> "William" |
丸め |
数値、番号配列 |
数値を特定の小数点以下桁数にまで端数処理します。 |
小数点以下2桁に端数処理する場合: "175.853" -> "175.85" "180.658" -> "180.66" |
余りの丸め |
数値 |
数値を端数処理し、複数の端数処理済の値を出力します。 |
10の位に端数処理し、3つの数値を出力する場合: "45" -> "50", "40, "60" "23" -> "20", "10, "30" |
スクリプト |
任意 |
スクリプト化したカスタム照合変換を使用できます。 |
カスタム・スクリプトにより指定された変換。 |
配列要素の選択 |
任意 |
値のクラスタリングまたは比較時に使用するために、配列内の任意の位置から個々の配列要素を選択できます。 |
"11 Grange Road, Cambridge" -> "Cambridge" |
Soundex |
文字列、文字配列 |
文字列からsoundex値を生成します。 |
"Smith" -> "S530" "Snaith" -> "S530" "Clark" -> "C462" "Clarke" -> "C462" "Clarke-Jones" -> "C462" |
数値の削除 |
文字列、文字配列 |
文字列からすべての数値を削除します。 |
"CB37XL" -> "CBXL" "7 Harwood Drive" -> " Harwood Drive" "Lemonade 300ML" -> "Lemonade ML" |
単語の削除 |
文字列、文字配列 |
単語の参照データ・リストを使用して、文字列から単語を削除します。 |
参照データ・リストに会社の接尾辞が含まれる場合: "ORACLE CORP" -> "ORACLE" "VODAFONE GROUP PLC" -> "VODAFONE GROUP" "ORACLE CORPORATION" -> "ORACLE" |
空白の切捨て |
文字列、文字配列 |
文字列から空白(スペースおよび印刷不可能な文字)を削除します。 |
"Nigel Lewis" -> "NigelLewis" "Nigel Lewis" -> "NigelLewis" " Nigel Lewis " -> "NigelLewis" |
大文字 |
文字列、文字配列 |
文字列値を大文字に変換します。 |
"Oracle" -> "ORACLE" "OraCle" -> "ORACLE" "oracle" -> "ORACLE" |