住所GeoTagger

住所GeoTaggerは、有効なグローバル・アドレスに関する地理情報を返します。

地理情報には、アドレスで使用可能なすべての管理区分とともに、この特定のアドレスに関する緯度および経度情報が含まれます。住所GeoTaggerは、市区町村に解析できる有効かつ明確な住所に対してのみ動作します。また、入力テキストの長さは350文字以下である必要があります。

有効な書式には、次のようなものがあります。

  • 市区町村 + 州
  • 市区町村 + 州 + 郵便番号
  • 市区町村 + 郵便番号
  • 郵便番号 + 国
  • 市区町村 + 州 + 国
  • 市区町村 + 国(この国の中に同じ名前の市区町村が複数存在する場合、最も人口が多い市区町村に関する情報が返されます)
たとえば、次の入力により、マサチューセッツ州ボストン市に関する地理情報が生成されます。
  • Boston, MA (またはBoston, Massachusetts)
  • Boston, Massachusetts 02116
  • 02116 US
  • Boston, MA US
  • Boston US

最後の例("Boston US")の場合、マサチューセッツ州ボストンに関する情報が返されます。なぜなら、米国内に"Boston"という名前の市区町村が複数存在していても、米国内の"Boston"という名前のすべての市区町村のうちマサチューセッツ州ボストンの人口が最も多いからです。

自動実行の場合、最小要件は、市区町村 + 州または郵便番号です。

どのようなアドレスを入力しようとも、地理解決によって市区町村より詳細なレベルに達することはありません。たとえば、このモジュールでは、完全な住所を指定してもストリート・レベルまで解決されることはありません。つまり、次の完全な住所を入力した場合、
400 Oracle Parkway, Redwood City, CA 94065
得られる結果は、市区町村 + 州のみを指定した場合と同じです。
Redwood City, CA

サブGeoTagger

住所GeoTaggerモジュールは、個別に実行できる次のサブGeoTaggerの周囲にあるラッパーです。
  • 市区町村GeoTagger — 住所GeoTaggerと同じ情報を返します。
  • 地域GeoTagger — 地域コード、地域名、地域IDおよび国コードで構成される地域に関する地理情報を返します。
  • サブ地域GeoTagger — 地域コード、地域名、地域ID、サブ地域名、サブ地域IDおよび国コードで構成されるサブ地域に関する地理情報を返します。
  • 国GeoTagger — 地域コードおよび国コードで構成される国に関する地理情報を返します。

GeoNamesデータ

この地域コード・タガーによって返される情報は、データ・エンリッチメント・パッケージの一部として出荷されるGeoNames地理データベースのものです。

構成可能性

このモジュールは、データ処理のサンプリング操作中に(正しい形式の住所に対して)実行されます。ただし、このような操作には構成オプションがありません。

変換操作の場合、入力と出力を制御するために2つのフラグ(preferred_levelおよびisStrict)が用意されています。

出力

出力情報には、緯度と経度とともに、管理領域のすべてのレベルが含まれます。

国によっては、出力属性が次の管理区分および住所の地域コードで構成されています。
  • <colname>_geo_geocode — 住所の緯度と経度の値("42.35843 -71.05977"など)。
  • <colname>_geo_city — 市区町村("Boston"など)に対応します。
  • <colname>_geo_country — 国コード("US"など)。
  • <colname>_geo_postcode — 米国の郵便番号などの郵便番号("02117"など)に対応します。
  • <colname>_geo_region — 米国の州などの地理的な地域("Massachusetts"など)に対応します。
  • <colname>_geo_regionid — GeoNamesデータベース内の地域のID (マサチューセッツ州を表す"6254926"など)。
  • <colname>_geo_subregion — 米国の郡などの地理的なサブ地域("Suffolk County"など)に対応します。
  • <colname>_geo_subregionid — GeoNamesデータベース内のサブ地域のID (マサチューセッツ州のサフォーク郡を表す"4952349"など)。

これらはすべて、単一割当文字列(mdex:string)属性として出力されますが、単一割当地域コード(mdex:geocode)属性であるGeocodeは例外です。

無効な入力(市区町村や州に対しては無効である郵便番号など)が行われた場合、出力はNULLになる可能性があります。

"Boston, Massachusetts USA"という住所に対しては、次の出力が返される場合があります。
ext_geo_city              Boston
ext_geo_country           US
ext_geo_geocode           42.35843 -71.05977
ext_geo_postcode          02117
ext_geo_region            Massachusetts
ext_geo_regionid          6254926
ext_geo_subregion         Suffolk Country
ext_geo_subregionid       4952349
次のサンプル出力は、"London England"という住所の場合です。
ext_geo_city              City of London
ext_geo_country           GB
ext_geo_geocode           51.51279 -0.09184
ext_geo_postcode          ec4r
ext_geo_region            England
ext_geo_regionid          6269131
ext_geo_subregion         Greater London
ext_geo_subregionid       2648110