エンリッチメント関数は、Big Data Discoveryでデータ処理の一環として使用されるデータ・エンリッチメント・モジュールに基づいています。これらの関数を使用して、データから意味のある情報を抽出し、属性を変更して分析対象としての有用性を高めることができます。
これらと同じ関数が変換APIリファレンス(Groovydoc)で説明されています。
データ・エンリッチメント・モジュールの詳細は、『データ処理ガイド』を参照してください。
「変換」では、次のエンリッチメント関数をサポートしています。
detectLanguage
指定したドキュメントの言語を検索し、Oracle言語名(Americanなど)を返します。正確な結果を得るには、テキスト内に少なくとも10語を含める必要があります。
detectLanguageは、次のパラメータを受け取ります。
- text。これは、言語検出を実行するためのString型のデータです。
extractArticleFromHTML
Webページのメイン・テキスト・コンテンツの周囲にある余計な散乱物(ボイラープレート、テンプレート)を検出して削除します。HTMLテキストから<article>要素をObjectとして返します。
geotagAddress*
次の関数のセットです。
- geotagAddressGetCity
- geotagAddressGetCountry
- geotagAddressGetGeocode
- geotagAddressGetPostcode
- geotagAddressGetRegion
- geotagAddressGetSubRegion
- geotagAddressGetRegionID
- geotagAddressGetSubRegionID
有効な住所Stringを市区町村、国、ジオコード、郵便番号、地域、サブ地域、または地域IDおよびサブ地域IDなどのGeocodeオブジェクトに変換します。これは、住所Geotaggerデータ・エンリッチメント・モジュールのラッパー関数です。これは、次のフィールドが含まれるデータに複数割当属性(列)を追加します。
- city
- country
- geocode (住所の緯度および経度座標)
- latitude
- longitude
- population
- postal_code
- region
- sub_region
- regionまたはsub_regionの地域名ID
geoTagAddress*は、次のパラメータを受け取ります。
- arg1 address。処理対象の住所String。これは、350文字以下である必要があります。
- Map。これは、拡張オプションのマップです。
次の例は、マップ内の関数
geotagAddressGetSubRegionに対してこれらのパラメータを指定する方法を示しています。
geotagAddressGetSubRegion (' 1 Main Street Cambridge', ['PREFERRED_LEVEL':'CITY', 'STRICT_MODE':true])
geotagIPAddressGetCity
IPアドレスをGeocodeに変換し、そのcityフィールドをObjectとして返します。これは、単一値を返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
geoTagIPAddressGetCityは、次のパラメータを受け取ります。
- IPAddress。処理対象のString型のIPアドレス。
- language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。
geotagIPAddressGetCountry
IPアドレスをGeocodeに変換し、そのcountryフィールドをObjectとして返します。これは、単一エンティティ・タイプを返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
geoTagIPAddressGetCountryは、次のパラメータを受け取ります。
- IPAddress。処理対象のString型のIPアドレス。
- language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。
geotagIPAddressGetGeocode
IPアドレスをGeocodeに変換し、そのgeocodeフィールドをObjectとして返します。これは、単一エンティティ・タイプを返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
geoTagIPAddressGetGeoCodeは、次のパラメータを受け取ります。
- IPAddress。処理対象のString型のIPアドレス。
- language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。
geotagIPAddressGetPostCode
IPアドレスを郵便番号に変換し、そのpostal_codeフィールドをObjectとして返します。これは、単一エンティティ・タイプを返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
geoTagIPAddressGetPostCodeは、次のパラメータを受け取ります。
- IPAddress。処理対象のString型のIPアドレス。
- language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。
geotagIPAddressGetRegion
IPアドレスをGeocodeに変換し、そのregionフィールドをObjectとして返します。これは、単一エンティティ・タイプを返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
geoTagIPAddressGetRegionは、次のパラメータを受け取ります。
- IPAddress。処理対象のString型のIPアドレス。
- language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。
geotagIPAddressGetRegionID
IPアドレスをGeocodeに変換し、そのregionフィールドの地域名IDをObjectとして返します。これは、単一エンティティ・タイプを返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
geoTagIPAddressGetRegionIDは、次のパラメータを受け取ります。
- IPAddress。処理対象のString型のIPアドレス。
- language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。
geotagIPAddressGetSubRegion
IPアドレスをGeocodeに変換し、そのsub_regionフィールドをObjectとして返します。これは、単一エンティティ・タイプを返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
geoTagIPAddressGetSubRegionは、次のパラメータを受け取ります。
- IPAddress。処理対象のString型のIPアドレス。
- language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。
geotagIPAddressGetSubRegionID
IPアドレスをGeocodeに変換し、そのsub_regionフィールドの地域名IDをObjectとして返します。これは、単一エンティティ・タイプを返すIPアドレスGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
geoTagIPAddressGetSubRegionは、次のパラメータを受け取ります。
- IPAddress。処理対象のString型のIPアドレス。
- language。出力言語を指定するオプションのStringパラメータ。デフォルト値は、言語を英語に設定するnullです。
getLocationEntities
String内のすべての場所エンティティをObjectとして返します。場所エンティティは、場所の名前("Boston"や"Canada"など)です。この関数は、データ・セット内に新しい複数割当列を作成します。これは、単一のエンティティ・タイプを返す名前エンティティ・エクストラクタ・データ・エンリッチメント・モジュールのラッパー関数です。
getLocationEntitiesは、次のパラメータを受け取ります。
getNegativeLocationEntitySentiment
場所エンティティが含まれるString内のパッセージを特定し、これらのパッセージの負のセンチメントをObjectとして返します。
getNegativeLocationEntitySentimentは、次のパラメータを受け取ります。
- text。処理対象のString。
- language。精度を上げるためにString型のOLT言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は英語のみです。
getNegativeNounGroupsSentiment
名詞グループが含まれるString内のパッセージを特定し、これらのパッセージの負のセンチメントをObjectとして返します。
getNegativeNounGroupsSentimentは、次のパラメータを受け取ります。
- text。処理対象のString。
- language。精度を上げるためにString型のOLT言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は、英語(英国/米国)、ポルトガル語(ブラジル)、スペイン語、フランス語、ドイツ語、イタリア語です。
getNegativeOrganizationEntitySentiment
組織エンティティが含まれるString内のパッセージを特定し、これらのパッセージの負のセンチメントをObjectとして返します。
getNegativeOrganizationEntitySentimentは、次のパラメータを受け取ります。
- arg1。処理対象のString。
- language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は英語のみです。
getNegativePersonEntitySentiment
個人エンティティが含まれるString内のパッセージを特定し、これらのパッセージの負のセンチメントをObjectとして返します。
getNegativePersonEntitySentimentは、次のパラメータを受け取ります。
- arg1。処理対象のString。
- language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は英語のみです。
getNegativeTFIDFSentiment
負のセンチメントを持つセンテンス内の主要語句を抽出します。
getNegativeTFIDFSentimentは、次のパラメータを受け取ります。
- arg1。処理対象のString。
- language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は、英語(英国/米国)、ポルトガル語(ブラジル)、スペイン語、フランス語、ドイツ語、イタリア語です。
getOrganizationEntities
String内で見つかった組織エンティティが含まれるObjectを返します。これは、単一のエンティティ・タイプを返す名前エンティティ・エクストラクタ・データ・エンリッチメント・モジュールのラッパー関数です。
注意: この関数は、データ・セット内に新しい複数割当列を作成します。
getOrganizationEntitiesは、次のパラメータを受け取ります。
getPersonEntities
String内で見つかった個人エンティティが含まれるObjectを返します。これは、単一のエンティティ・タイプを返す名前エンティティ・エクストラクタ・データ・エンリッチメント・モジュールのラッパー関数です。
注意: この関数は、データ・セット内に新しい複数割当列を作成します。
getPersonEntitiesは、次のパラメータを受け取ります。
getPositiveLocationEntitySentiment
場所エンティティが含まれるString内のパッセージを特定し、これらのパッセージの正のセンチメントをObjectとして返します。
getPositiveLocationEntitySentimentは、次のパラメータを受け取ります。
- arg1。処理対象のString。
- language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は英語のみです。
getPositiveNounGroupsSentiment
名詞グループが含まれるString内のパッセージを特定し、これらのパッセージの正のセンチメントをObjectとして返します。
getPositiveNounGroupsSentimentは、次のパラメータを受け取ります。
- arg1。処理対象のString。
- language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は英語のみです。
getPositivePersonEntitySentiment
個人エンティティが含まれるString内のパッセージを特定し、これらのパッセージの正のセンチメントをObjectとして返します。
getPositivePersonEntitySentimentは、次のパラメータを受け取ります。
- arg1。処理対象のString。
- language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は英語のみです。
getPositiveOrganizationEntitySentiment
組織エンティティが含まれるString内のパッセージを特定し、これらのパッセージの正のセンチメントをObjectとして返します。
getPositiveOrganizationEntitySentimentは、次のパラメータを受け取ります。
- arg1。処理対象のString。
- language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は英語のみです。
getPositiveTFIDFSentiment
正のセンチメントを持つセンテンス内の主要語句を抽出します。
getNegativeTFIDFSentimentは、次のパラメータを受け取ります。
- arg1。処理対象のString。
- language。精度を上げるためにStringの言語を指定するオプションのパラメータ。null(デフォルト値)に設定すると、言語は自動的に検出されます。サポートされている言語は、英語(英国/米国)、ポルトガル語(ブラジル)、スペイン語、フランス語、ドイツ語、イタリア語です。
getSentiment
Stringのセンチメント全体が含まれるObjectを返します。これは、センチメント分析(ドキュメント・レベル)データ・エンリッチメント・モジュールのラッパー関数です。Stringのセンチメントには、次のどちらかがあります。
getSentimentは、次のパラメータを受け取ります。
- arg1。処理対象のString。
- language。精度を上げるためにStringの言語を指定するオプションのパラメータ。サポートされている言語は、英語(英国/米国)、ポルトガル語(ブラジル)、スペイン語、フランス語、ドイツ語、イタリア語です。null(デフォルト値)に設定すると、言語は自動的に検出されます。
reverseGeotagGetCity
GeocodeからcityフィールドをObjectとして返します。入力したGeocodeから指定した半径内の市区町村を検索します。これは、単一値を返すリバースGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
reverseGeotagGetCityは、次のパラメータを受け取ります。
- geo。処理対象のGeocode。
- language。出力言語を指定するオプションのパラメータ。デフォルト値は、出力言語を英語に設定するnullです。
- proximityThreshold。入力されるジオコードおよび出力される地理的な場所に許可される距離の最大マイル数を指定するオプションのパラメータ。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超える場合、nullが返されます。
reverseGeotagGetCountry
GeocodeからcountryフィールドをObjectとして返します。入力したGeocodeから指定した半径内の国を検索します。これは、単一値を返すリバースGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
reverseGeotagGetCountryは、次のパラメータを受け取ります。
- geo。処理対象のGeocode。
- language。出力言語を指定するオプションのパラメータ。デフォルト値は、出力言語を英語に設定するnullです。
- proximityThreshold。入力されるジオコードおよび出力される地理的な場所に許可される距離の最大マイル数を指定するオプションのパラメータ。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超える場合、nullが返されます。
reverseGeotagGetPostCode
Geocodeからpostal_codeフィールドをObjectとして返します。入力したGeocodeから指定した半径内の郵便番号を検索します。これは、単一値を返すリバースGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
reverseGeotagGetPostCodeは、次のパラメータを受け取ります。
- geo。処理対象のGeocode。
- language。出力言語を指定するオプションのパラメータ。デフォルト値は、出力言語を英語に設定するnullです。
- proximityThreshold。入力されるジオコードおよび出力される地理的な場所に許可される距離の最大マイル数を指定するオプションのパラメータ。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超える場合、nullが返されます。
reverseGeotagGetRegion
GeocodeからregionフィールドをObjectとして返します。入力したGeocodeから指定した半径内の地域を検索します。これは、単一値を返すリバースGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
reverseGeotagGetRegionは、次のパラメータを受け取ります。
- geo。処理対象のGeocode。
- language。出力言語を指定するオプションのパラメータ。デフォルト値は、出力言語を英語に設定するnullです。
- proximityThreshold。入力されるジオコードおよび出力される地理的な場所に許可される距離の最大マイル数を指定するオプションのパラメータ。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超える場合、nullが返されます。
reverseGeotagGetRegionID
regionフィールドのGeocodeから地域名地域IDフィールドをObjectとして返します。入力したGeocodeから指定した半径内の地域を検索します。これは、単一値を返すリバースGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
reverseGeotagGetRegionは、次のパラメータを受け取ります。
- geo。処理対象のGeocode。
- language。出力言語を指定するオプションのパラメータ。デフォルト値は、出力言語を英語に設定するnullです。
- proximityThreshold。入力されるジオコードおよび出力される地理的な場所に許可される距離の最大マイル数を指定するオプションのパラメータ。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超える場合、nullが返されます。
reverseGeotagGetSubRegion
Geocodeからsub_regionフィールドをObjectとして返します。入力したGeocodeから指定した半径内のサブ地域を検索します。これは、単一値を返すリバースGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
reverseGeotagGetSubRegionは、次のパラメータを受け取ります。
- geo。処理対象のGeocode。
- language。出力言語を指定するオプションのパラメータ。デフォルト値は、出力言語を英語に設定するnullです。
- proximityThreshold。入力されるジオコードおよび出力される地理的な場所に許可される距離の最大マイル数を指定するオプションのパラメータ。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超える場合、nullが返されます。
reverseGeotagGetSubRegionID
sub_regionフィールドからGeocodeの地域名IDをObjectとして返します。入力したGeocodeから指定した半径内のサブ地域を検索します。これは、単一値を返すリバースGeotaggerデータ・エンリッチメント・モジュールのラッパー関数です。
reverseGeotagGetSubRegionは、次のパラメータを受け取ります。
- geo。処理対象のGeocode。
- language。出力言語を指定するオプションのパラメータ。デフォルト値は、出力言語を英語に設定するnullです。
- proximityThreshold。入力されるジオコードおよび出力される地理的な場所に許可される距離の最大マイル数を指定するオプションのパラメータ。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超える場合、nullが返されます。
runExternalPlugin
pluginNameの外部ファイルに定義されているとおりに外部Groovyスクリプトを実行し、スクリプトの結果を返します。
runExternalPluginは、次のパラメータを受け取ります。
- pluginName。外部プラグインの名前。
- arg1。外部プラグインに渡される引数。
toPhoneticHash
テキストの音声を表す入力テキスト(英語のみ)のStringハッシュを生成します。
語句の音声ハッシュは、スペルではなく発音に基づいています。音声ハッシュの適用例の1つに検索エンジンがあります。検索語によって結果が返されない場合、検索エンジンは、語の音声ハッシュを他の語のハッシュと比較し、最も適合する語の結果を返します。たとえば、"purple"と"pruple"は同じ音声ハッシュ(PRPL)を持つため、スペルが間違った語である"pruple"を検索した場合でも、"purple"と同じ結果が得られます。
toPhoneticHashは、次のパラメータを受け取ります。