エンリッチメント関数

エンリッチメント関数は、Big Data Discoveryでデータ処理の一環として使用されるデータ・エンリッチメント・モジュールに基づいています。これらの関数を使用して、データから意味のある情報を抽出し、属性を変更して分析対象としての有用性を高めることができます。

これらと同じ関数が変換APIリファレンス(Groovydoc)で説明されています。

データ・エンリッチメント・モジュールの詳細は、『データ処理ガイド』を参照してください。

detectLanguage

指定したドキュメントの言語を検索し、Oracle言語名(Americanなど)を返します。正確な結果を得るには、テキスト内に少なくとも10語を含める必要があります。

detectLanguageは、次のパラメータを受け取ります。
  • text。これは、言語検出を実行するためのString型のデータです。

extractArticleFromHTML

Webページのメイン・テキスト・コンテンツの周囲にある余計な散乱物(ボイラープレート、テンプレート)を検出して削除します。HTMLテキストから<article>要素をObjectとして返します。

extractKeyPhrases

Stringから主要語句を抽出し、語句のリストを返します。この関数は、TF/IDFアルゴリズムを使用して主要語句を計算します。このアルゴリズムでは、各語がString内に出現する合計回数を使用し、この値から、この語がより大きい処理本文内に出現する回数を相殺します。値を相殺することにより、"the"や"it"などの頻繁に使用される語をフィルタで除外しやすくなります。コントロールとして使用される処理本文は、Stringの言語に基づいて内部で選択されます。たとえば、英語に使用されるモデルはニューヨークタイムズのコーパスに基づいています。extractKeyPhrases関数は、TF/IDF語エクストラクタ・エンリッチメント・モジュールのラッパー関数です。

extractKeyPhrasesによって返される主要語句の数は、TF/IDF曲線の関数です。デフォルトでは、指定した語のスコアが68%を下回ると、語を返すことを停止します。

extractKeyPhrasesは、次のパラメータを受け取ります。
  • text。処理対象であるString型のテキスト。特にテキストがすべて大文字である場合など、テキストを最初に小文字に変換することをお薦めします。
  • language。精度を上げるためにOLT言語の名前またはコード("en"、"English"、"German"など)を指定するオプションのパラメータ。サポートされている言語は、英語(英国/米国)、ポルトガル語(ブラジル)、スペイン語、フランス語、ドイツ語、イタリア語です。指定された場合、その言語に固有のモデルを使用するよう関数に強制します。指定されていない場合、またはnullとして渡された場合(これがデフォルトです)、言語は自動的に検出されます。
注意: この関数を使用した結果として新しい属性を作成する場合、属性の型が複数割当であることを確認してください。

extractNounGroups

名詞グループが含まれるStringを返します。名詞グループは、"movie"や"building"などの任意の名詞です。これは、単一のエンティティ・タイプを返す名前エンティティ・エクストラクタ・エンリッチメント・モジュールのラッパー関数です。

extractNounGroupsは、次のパラメータを受け取ります。
  • text。処理対象のString。
  • language。精度を上げるためにOLT言語の名前またはコード("en"、"English"、"German"など)を指定するオプションのパラメータ。サポートされている言語は、英語(英国/米国)、ポルトガル語(ブラジル)、スペイン語、フランス語、ドイツ語、イタリア語です。指定された場合、その言語に固有のモデルを使用するよう関数に強制します。指定されていない場合、またはnullとして渡された場合(これがデフォルトです)、言語は自動的に検出されます。

extractWhiteListTags

入力テキスト内の文字列の有限セット(ホワイトリスト)の要素を特定するディクショナリ一致アルゴリズムを使用します。この関数は、ホワイトリスト内の語の出現をすべて検索し、一致する完全表記のリストを返します。入力テキストは、ホワイトリストに対して照合されます。ホワイトリストは、改行区切りです。これは、ホワイトリスト・タガー・エンリッチメント・モジュールのラッパー関数です。

各行は、コメント(先頭文字の#によって示されます)である場合や、1つまたは2つの値(タブ区切り)で構成された一致するディレクティブである場合があります。2番目の値は、一致出力をリライトするために使用されます。

次に、簡単なホワイトリストの例を示します。
  • helium
  • neon
  • argon
  • krypton
  • xenon
  • radon

これは、次のようにリライトできます。

  • heliumHe
  • neonNe
  • argonAr
  • kryptonKr
  • xenonXe
  • radonRn

このホワイトリストを"The only noble gas is radon"というテキストに対して実行すると、['Rn']という出力リストが生成されます。

extractWhiteListTagsは、次のパラメータを受け取ります。
  • text。処理対象のString。
  • whitelist。ホワイトリスト内の語が含まれるドキュメント。これは、リテラルおよび構成語の改行区切りのリストが含まれるプレーン・テキスト・ファイルである必要があります。
  • language。精度を上げるためにStringの言語を指定するオプションのパラメータ。デフォルトでは、英語に設定されています。サポートされている言語は、英語(米国/英国)、デンマーク語、ドイツ語、スペイン語、フランス語、イタリア語、日本語、韓国語、簡体字中国語、繁体字中国語およびポルトガル語(ブラジル)です。
  • caseSensitive。入力の大文字と小文字が区別されるかどうかを示します(デフォルト値はfalseです)。
  • unbounded。語全体のみ(デフォルトであるfalseに設定されている場合)と語の一部(trueに設定されている場合)のどちらと一致するかを示します。"red""reduce"と一致しないようにします。

geotagAddress*

次の関数のセットです。
  • geotagAddressGetCity
  • geotagAddressGetCountry
  • geotagAddressGetGeocode
  • geotagAddressGetPostcode
  • geotagAddressGetRegion
  • geotagAddressGetSubRegion
  • geotagAddressGetRegionID
  • geotagAddressGetSubRegionID
有効な住所Stringを市区町村、国、ジオコード、郵便番号、地域、サブ地域、または地域IDおよびサブ地域IDなどのGeocodeオブジェクトに変換します。これは、住所Geotaggerデータ・エンリッチメント・モジュールのラッパー関数です。これは、次のフィールドが含まれるデータに複数割当属性(列)を追加します。
  • city
  • country
  • geocode (住所の緯度および経度座標)
  • latitude
  • longitude
  • population
  • postal_code
  • region
  • sub_region
  • regionまたはsub_regionの地域名ID
geoTagAddress*は、次のパラメータを受け取ります。
  • arg1 address。処理対象の住所String。これは、350文字以下である必要があります。
  • Map。これは、拡張オプションのマップです。
    • OUTPUT LANGUAGE。出力言語を指定するオプションのパラメータ。デフォルト値は、言語を英語に設定するnullです。
    • PREFERRED_LEVEL。精度を上げるために管理区分を指定するString型のオプションのパラメータ。これは、次の値(大文字と小文字は区別されません)の1つに対してのみ設定できます。
      • CITY。市区町村一致のターゲット。
      • COUNTRY。国一致のターゲット。
      • REGION。地域一致のターゲット(米国の州など)。
      • SUB_REGION。サブ地域一致のターゲット(郡など)。
      • NONE。この値が使用された場合、関数は、住所Stringと最も密接に一致する最も人口の多い場所を返します。これがデフォルト値です。
      注意: 管理区分は国によって異なるため、返される値は予期したものとは異なる可能性があります。また、受入可能なリスト内に入力値がない場合、例外がスローされます。
    • STRICT_MODE。あいまいな住所や書式が正しくない住所(不正な郵便番号が含まれる住所など)を関数が処理する方法を指定するオプションのBooleanパラメータ。これは、次の1つに設定できます。
      • true。住所が無効の場合、関数はnullを戻します。
      • false。住所が無効の場合、関数は最も近い一致を返します。これがデフォルトです。
次の例は、マップ内の関数geotagAddressGetSubRegionに対してこれらのパラメータを指定する方法を示しています。
geotagAddressGetSubRegion (' 1 Main Street Cambridge', ['PREFERRED_LEVEL':'CITY', 'STRICT_MODE':true])

geotagIPAddressGetCity

IPアドレスをGeocodeに変換し、そのcityフィールドをObjectとして返します。これは、単一値を返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

geoTagIPAddressGetCityは、次のパラメータを受け取ります。
  • IPAddress。処理対象のString型のIPアドレス。
  • language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。

geotagIPAddressGetCountry

IPアドレスをGeocodeに変換し、そのcountryフィールドをObjectとして返します。これは、単一エンティティ・タイプを返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

geoTagIPAddressGetCountryは、次のパラメータを受け取ります。
  • IPAddress。処理対象のString型のIPアドレス。
  • language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。

geotagIPAddressGetGeocode

IPアドレスをGeocodeに変換し、そのgeocodeフィールドをObjectとして返します。これは、単一エンティティ・タイプを返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

geoTagIPAddressGetGeoCodeは、次のパラメータを受け取ります。
  • IPAddress。処理対象のString型のIPアドレス。
  • language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。

geotagIPAddressGetPostCode

IPアドレスを郵便番号に変換し、そのpostal_codeフィールドをObjectとして返します。これは、単一エンティティ・タイプを返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

geoTagIPAddressGetPostCodeは、次のパラメータを受け取ります。
  • IPAddress。処理対象のString型のIPアドレス。
  • language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。

geotagIPAddressGetRegion

IPアドレスをGeocodeに変換し、そのregionフィールドをObjectとして返します。これは、単一エンティティ・タイプを返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

geoTagIPAddressGetRegionは、次のパラメータを受け取ります。
  • IPAddress。処理対象のString型のIPアドレス。
  • language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。

geotagIPAddressGetRegionID

IPアドレスをGeocodeに変換し、そのregionフィールドの地域名IDをObjectとして返します。これは、単一エンティティ・タイプを返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

geoTagIPAddressGetRegionIDは、次のパラメータを受け取ります。
  • IPAddress。処理対象のString型のIPアドレス。
  • language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。

geotagIPAddressGetSubRegion

IPアドレスをGeocodeに変換し、そのsub_regionフィールドをObjectとして返します。これは、単一エンティティ・タイプを返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

geoTagIPAddressGetSubRegionは、次のパラメータを受け取ります。
  • IPAddress。処理対象のString型のIPアドレス。
  • language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。

geotagIPAddressGetSubRegionID

IPアドレスをGeocodeに変換し、そのsub_regionフィールドの地域名IDをObjectとして返します。これは、単一エンティティ・タイプを返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

geoTagIPAddressGetSubRegionは、次のパラメータを受け取ります。
  • IPAddress。処理対象のString型のIPアドレス。
  • language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。

getLocationEntities

String内のすべての場所エンティティをObjectとして返します。場所エンティティは、場所の名前("Boston"や"Canada"など)です。この関数は、データ・セット内に新しい複数割当列を作成します。これは、単一のエンティティ・タイプを返す名前エンティティ・エクストラクタ・データ・エンリッチメント・モジュールのラッパー関数です。

getLocationEntitiesは、次のパラメータを受け取ります。
  • text。処理対象のString。

getNegativeLocationEntitySentiment

場所エンティティが含まれるString内のパッセージを特定し、これらのパッセージの負のセンチメントをObjectとして返します。

getNegativeLocationEntitySentimentは、次のパラメータを受け取ります。
  • text。処理対象のString。
  • language。精度を上げるためにString型のOLT言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は英語のみです。

getNegativeNounGroupsSentiment

名詞グループが含まれるString内のパッセージを特定し、これらのパッセージの負のセンチメントをObjectとして返します。

getNegativeNounGroupsSentimentは、次のパラメータを受け取ります。
  • text。処理対象のString。
  • language。精度を上げるためにString型のOLT言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は、英語(英国/米国)、ポルトガル語(ブラジル)、スペイン語、フランス語、ドイツ語、イタリア語です。

getNegativeOrganizationEntitySentiment

組織エンティティが含まれるString内のパッセージを特定し、これらのパッセージの負のセンチメントをObjectとして返します。

getNegativeOrganizationEntitySentimentは、次のパラメータを受け取ります。
  • arg1。処理対象のString。
  • language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は英語のみです。

getNegativePersonEntitySentiment

個人エンティティが含まれるString内のパッセージを特定し、これらのパッセージの負のセンチメントをObjectとして返します。

getNegativePersonEntitySentimentは、次のパラメータを受け取ります。
  • arg1。処理対象のString。
  • language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は英語のみです。

getNegativeTFIDFSentiment

負のセンチメントを持つセンテンス内の主要語句を抽出します。

getNegativeTFIDFSentimentは、次のパラメータを受け取ります。
  • arg1。処理対象のString。
  • language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は、英語(英国/米国)、ポルトガル語(ブラジル)、スペイン語、フランス語、ドイツ語、イタリア語です。

getOrganizationEntities

String内で見つかった組織エンティティが含まれるObjectを返します。これは、単一のエンティティ・タイプを返す名前エンティティ・エクストラクタ・データ・エンリッチメント・モジュールのラッパー関数です。

注意: この関数は、データ・セット内に新しい複数割当列を作成します。
getOrganizationEntitiesは、次のパラメータを受け取ります。
  • arg1。処理対象のString。

getPersonEntities

String内で見つかった個人エンティティが含まれるObjectを返します。これは、単一のエンティティ・タイプを返す名前エンティティ・エクストラクタ・データ・エンリッチメント・モジュールのラッパー関数です。

注意: この関数は、データ・セット内に新しい複数割当列を作成します。
getPersonEntitiesは、次のパラメータを受け取ります。
  • arg1。処理対象のString。

getPositiveLocationEntitySentiment

場所エンティティが含まれるString内のパッセージを特定し、これらのパッセージの正のセンチメントをObjectとして返します。

getPositiveLocationEntitySentimentは、次のパラメータを受け取ります。
  • arg1。処理対象のString。
  • language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は英語のみです。

getPositiveNounGroupsSentiment

名詞グループが含まれるString内のパッセージを特定し、これらのパッセージの正のセンチメントをObjectとして返します。

getPositiveNounGroupsSentimentは、次のパラメータを受け取ります。
  • arg1。処理対象のString。
  • language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は英語のみです。

getPositivePersonEntitySentiment

個人エンティティが含まれるString内のパッセージを特定し、これらのパッセージの正のセンチメントをObjectとして返します。

getPositivePersonEntitySentimentは、次のパラメータを受け取ります。
  • arg1。処理対象のString。
  • language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は英語のみです。

getPositiveOrganizationEntitySentiment

組織エンティティが含まれるString内のパッセージを特定し、これらのパッセージの正のセンチメントをObjectとして返します。

getPositiveOrganizationEntitySentimentは、次のパラメータを受け取ります。
  • arg1。処理対象のString。
  • language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は英語のみです。

getPositiveTFIDFSentiment

正のセンチメントを持つセンテンス内の主要語句を抽出します。

getNegativeTFIDFSentimentは、次のパラメータを受け取ります。
  • arg1。処理対象のString。
  • language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は、英語(英国/米国)、ポルトガル語(ブラジル)、スペイン語、フランス語、ドイツ語、イタリア語です。

getSentiment

Stringのセンチメント全体が含まれるObjectを返します。これは、センチメント分析(ドキュメント・レベル)データ・エンリッチメント・モジュールのラッパー関数です。Stringのセンチメントには、次のどちらかがあります。
  • POSITIVE
  • NEGATIVE
getSentimentは、次のパラメータを受け取ります。
  • arg1。処理対象のString。
  • language。精度を上げるためにStringの言語を指定するオプションのパラメータ。サポートされている言語は、英語(英国/米国)、ポルトガル語(ブラジル)、スペイン語、フランス語、ドイツ語、イタリア語です。null(デフォルト値)に設定すると、言語は自動的に検出されます。

reverseGeotagGetCity

GeocodeからcityフィールドをObjectとして返します。入力したGeocodeから指定した半径内の市区町村を検索します。これは、単一値を返すリバースGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

reverseGeotagGetCityは、次のパラメータを受け取ります。
  • geo。処理対象のGeocode。
  • language。出力言語を指定するオプションのパラメータ。デフォルト値は、出力言語を英語に設定するnullです。
  • proximityThreshold。入力されるジオコードおよび出力される地理的な場所に許可される距離の最大マイル数を指定するオプションのパラメータ。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超える場合、nullが返されます。

reverseGeotagGetCountry

GeocodeからcountryフィールドをObjectとして返します。入力したGeocodeから指定した半径内の国を検索します。これは、単一値を返すリバースGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

reverseGeotagGetCountryは、次のパラメータを受け取ります。
  • geo。処理対象のGeocode。
  • language。出力言語を指定するオプションのパラメータ。デフォルト値は、出力言語を英語に設定するnullです。
  • proximityThreshold。入力されるジオコードおよび出力される地理的な場所に許可される距離の最大マイル数を指定するオプションのパラメータ。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超える場合、nullが返されます。

reverseGeotagGetPostCode

Geocodeからpostal_codeフィールドをObjectとして返します。入力したGeocodeから指定した半径内の郵便番号を検索します。これは、単一値を返すリバースGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

reverseGeotagGetPostCodeは、次のパラメータを受け取ります。
  • geo。処理対象のGeocode。
  • language。出力言語を指定するオプションのパラメータ。デフォルト値は、出力言語を英語に設定するnullです。
  • proximityThreshold。入力されるジオコードおよび出力される地理的な場所に許可される距離の最大マイル数を指定するオプションのパラメータ。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超える場合、nullが返されます。

reverseGeotagGetRegion

GeocodeからregionフィールドをObjectとして返します。入力したGeocodeから指定した半径内の地域を検索します。これは、単一値を返すリバースGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

reverseGeotagGetRegionは、次のパラメータを受け取ります。
  • geo。処理対象のGeocode。
  • language。出力言語を指定するオプションのパラメータ。デフォルト値は、出力言語を英語に設定するnullです。
  • proximityThreshold。入力されるジオコードおよび出力される地理的な場所に許可される距離の最大マイル数を指定するオプションのパラメータ。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超える場合、nullが返されます。

reverseGeotagGetRegionID

regionフィールドのGeocodeから地域名地域IDフィールドをObjectとして返します。入力したGeocodeから指定した半径内の地域を検索します。これは、単一値を返すリバースGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

reverseGeotagGetRegionは、次のパラメータを受け取ります。
  • geo。処理対象のGeocode。
  • language。出力言語を指定するオプションのパラメータ。デフォルト値は、出力言語を英語に設定するnullです。
  • proximityThreshold。入力されるジオコードおよび出力される地理的な場所に許可される距離の最大マイル数を指定するオプションのパラメータ。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超える場合、nullが返されます。

reverseGeotagGetSubRegion

Geocodeからsub_regionフィールドをObjectとして返します。入力したGeocodeから指定した半径内のサブ地域を検索します。これは、単一値を返すリバースGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

reverseGeotagGetSubRegionは、次のパラメータを受け取ります。
  • geo。処理対象のGeocode。
  • language。出力言語を指定するオプションのパラメータ。デフォルト値は、出力言語を英語に設定するnullです。
  • proximityThreshold。入力されるジオコードおよび出力される地理的な場所に許可される距離の最大マイル数を指定するオプションのパラメータ。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超える場合、nullが返されます。

reverseGeotagGetSubRegionID

sub_regionフィールドからGeocodeの地域名IDをObjectとして返します。入力したGeocodeから指定した半径内のサブ地域を検索します。これは、単一値を返すリバースGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。

reverseGeotagGetSubRegionは、次のパラメータを受け取ります。
  • geo。処理対象のGeocode。
  • language。出力言語を指定するオプションのパラメータ。デフォルト値は、出力言語を英語に設定するnullです。
  • proximityThreshold。入力されるジオコードおよび出力される地理的な場所に許可される距離の最大マイル数を指定するオプションのパラメータ。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超える場合、nullが返されます。

runExternalPlugin

pluginNameの外部ファイルに定義されているとおりに外部Groovyスクリプトを実行し、スクリプトの結果を返します。

runExternalPluginは、次のパラメータを受け取ります。
  • pluginName。外部プラグインの名前。
  • arg1。外部プラグインに渡される引数。

stripTagsFromHTML

入力StringからHTML、XMLおよびXHTMLマークアップを削除し、結果をObjectとして返します。これは、タグ・ストリッパ・データ・エンリッチメント・モジュールのラッパー関数です。

stripTagsFromHTMLは、次のパラメータを受け取ります。
  • arg1。処理対象のHTML String。

toPhoneticHash

テキストの音声を表す入力テキスト(英語のみ)のStringハッシュを生成します。

語句の音声ハッシュは、スペルではなく発音に基づいています。音声ハッシュの適用例の1つに検索エンジンがあります。検索語によって結果が返されない場合、検索エンジンは、語の音声ハッシュを他の語のハッシュと比較し、最も適合する語の結果を返します。たとえば、"purple"と"pruple"は同じ音声ハッシュ(PRPL)を持つため、スペルが間違った語である"pruple"を検索した場合でも、"purple"と同じ結果が得られます。

toPhoneticHashは、次のパラメータを受け取ります。
  • arg1。処理対象のString。