エンリッチメント関数

エンリッチメント関数は、Big Data Discoveryでデータ処理の一環として使用されるデータ・エンリッチメント・モジュールに基づいています。これらの関数を使用して、データから意味のある情報を抽出したり、属性を変更して分析に役立てることができます。

「変換APIリファレンス」 (Groovydoc)では、同じ機能を説明しています。

データ・エンリッチメント・モジュールの詳細は、「データ処理ガイド」で入手できます。

「変換」では、次のエンリッチメント関数をサポートしています:

detectLanguage

指定したString属性の言語を検索し、Oracle言語コード(たとえば、es for Spanish)を返します。正確な結果を得るには、テキストに10語以上含める必要があります。

構文は次のとおりです。

detectLanguage(String attribute)

説明:

attributeは、言語検出を実行するString属性です。

結果は単一割当て属性で返されます。

例:

detectLanguage(labor_description)

labor_description文字列属性に対してはenを返すことがあります。

extractKeyPhrases

文字列属性からキー・フレーズを抽出し、複数割当属性のフレーズのリストを返します。この関数は、TF/IDFアルゴリズムを使用してキー・フレーズを計算します。このアルゴリズムでは、各語が文字列内に出現する合計回数を使用し、この値から、この語がより大きい処理本文内に出現する回数を相殺します。値を指定すると、よく使用される用語(theやitなど)をフィルタで除外できます。コントロールとして使用される作業の本文は、文字列言語に基づいて内部的に選択されます。たとえば、英語で使用されるモデルは、New York Times corpusに基づいています。 extractKeyPhrases関数は、TF/IDF用語エクストラクタ・モジュールのラッパー関数です。

extractKeyPhrasesから返されるキー・フレーズの数は、TF/IDF曲線の関数です。デフォルトでは、指定された語のスコアが68%より小さい場合に、用語の戻りが停止されます。

構文は次のとおりです。

extractKeyPhrases(String attribute, String languageCode, Boolean smartCasing)

説明:

attributeは、処理される文字列属性です。特にすべて大文字である場合は、テキストを小文字に変換することをお薦めします。
languageCodeはオプションの文字列パラメータであり、言語名またはコード(たとえば、"en"、"English"、"German")を指定することで、正確性を向上します。サポートされている言語は英語(UK/US)、ポルトガル語(ブラジル)、スペイン語、フランス語、ドイツ語およびイタリア語です。指定すると、関数ではその言語に固有のモデルが使用されます。指定しない場合、またはnullとして渡された場合(これがデフォルト)、関数は自動的に言語モデルを検出します。サポートされていない言語が指定されている場合は、エラーがスローされます。
smartCasingはオプションのパラメータで、trueに設定すると、大/小文字または大文字のいずれかで主にドキュメントが処理されるように指定します。このパラメータを使用しない場合、trueにデフォルト設定されます。

例:

extractKeyPhrases(toLowerCase(comments))

extractKeyPhrases(surveys, 'en', true)

この関数を使用した結果として新しい属性を作成するときは、属性のタイプが複数割当であることを確認してください。

extractNounGroups

名詞グループを含む文字列を返します。名詞グループは、movie、buildingなどの名詞です。これは、Noun Group Extractorモジュールのラッパー関数です。このモジュールでは、サポートされている各言語のString属性からnounグループを検索して戻します。データ内で共通して発生するテーマを見つけるために、タグ・クラウド視覚化で使用されます。

構文は次のとおりです。

extractNounGroups(String attribute, String languageCode)

説明:

attributeは、処理される文字列属性です。
languageCodeは、精度を向上するために言語名またはコードを指定するオプション・パラメータ(たとえば、"en"、"English"、"German")です。サポートされている言語は英語(イギリス/US)、スペイン語、フランス語、ドイツ語およびイタリア語です。指定すると、関数ではその言語に固有のモデルが使用されます。指定しない場合、またはnullとして渡された場合(これがデフォルト)、関数は自動的に言語モデルを検出します。サポートされていない言語が指定されている場合は、エラーがスローされます。

例:

extractNounGroups(labor_description, 'en')

labor_description文字列属性の名詞を戻します("バッテリ"、"マス・エア・フロー・センサー"など)。

この関数を使用した結果として新しい属性を作成するときは、属性のタイプが複数割当であることを確認してください。

extractWhiteListTags

入力テキスト内にある文字列(ホワイトリスト)の有限セットの要素を特定する、辞書一致アルゴリズムを使用します。この関数は、ホワイトリストの語がすべて検索され、一致する拡張子のリストを返します。入力テキストはホワイトリストと照合されます。ホワイトリストは改行で区切られます。これは、ホワイトリスト・タグ・エンリッチ・モジュールのラッパー関数です。

各行は、コメント(最初の文字は#で示される)または1つ以上の値(delimiter文字で区切られた)から構成される一致ディレクティブです。 2番目の値は、一致出力をリライトするために使用されます。

次に、単純なホワイトリストの例を示します:

ヘウリム
ネ・オン
アルゴン
クリプトン
キセノン
ラドン

区切り文字としてスラッシュ(/)を使用して、次のように書き換えることができます:

helium/He
neon/Ne
argon/Ar
krypton/Kr
xenon/Xe
radon/Rn

このホワイトリストをテキスト実行すると、実行できないガスが唯一発生しますという出力リストが生成され、['Rn']の出力リストが生成されます

構文は次のとおりです。

extractWhiteListTags(String attribute, String whitelist, String languageCode,
      boolean caseSensitive, boolean matchWholeWords, String delimiter)

説明:

attributeは、処理する文字列属性です。
whitelistは、ホワイトリストに記載されたエントリを含むドキュメントです。これは、リテラルと構成用語の改行区切りのリストが含まれたプレーン・テキスト・ファイルである必要があります。
languageCodeは、精度を向上するためのString言語を指定するオプションのStringパラメータです。デフォルトでは、英語に設定されています。サポートされている言語は、空白で区切られた言語のみです。
caseSensitiveは、入力の大/小文字を区別する(デフォルトはfalse)かどうかを示すオプションのブール・パラメータです。
matchWholeWordsはオプションのブール・パラメータであり、単語全体(デフォルトのfalseに設定されている場合)または単語の一部(trueに設定されている場合)にのみ一致するかどうかを示します。 "red"と"reduce"が一致していないようにします。
delimiterは、一致および出力の値にホワイトリスト・エントリを解析する際に使用する区切り文字を指定するオプションのStringパラメータです。 TAB文字(\t)がデフォルトです。各ホワイトリスト・エントリで使用できる区切り文字は1つのみです(最初の区切り文字の後にあるすべてのデリミタは無視されます)。

ホワイトリスト・エントリを一致値および出力値に区切るdelimiter文字は、次の例のようになることに注意してください:

delimiter=','
Rn,86
Ne,10
He,2

delimiter='/'
Rn/86
Ne/10
He/2

no delimiter specified (uses the default <tab> character)
Rn<tab>86
Ne<tab>10
He<tab>2

このextractWhiteListTagsの例では、最初の行はtagListというホワイトリストを定義し、2番目の行はドキュメントを定義し、3番目の行は指定されたホワイトリストに対する入力テキストに最初に一致するextractWhiteListTags変換エンリッチメント機能を使用しています。次に、ホワイトリスト(英語)にリストされているすべての語のすべての出現箇所をWhitelistTagsとして検索して抽出し、一致する展開機能のリストを返します:

def whitelist = '''
helium/He
neon/Ne
argon/Ar
krypton/Kr
xenon/Xe
radon/Rn
'''
def document = 'The noble gases make a group of chemical elements with similar properties: 
under standard conditions, they are all odorless, colorless, monatomic gases with very low 
chemical reactivity. The six noble gases that occur naturally are helium (He), neon (Ne), 
argon (Ar), krypton (Kr), xenon (Xe), and the radioactive RADON (Rn).'

extractWhitelistTags(document, whitelist, 'en', false, true, '/')

指定した言語が英語(en)であるため、一致では大/小文字が区別されず(false)、バインドされないため、単語全体が一致することになります(false)。ホワイトリストの解析には、/'デリミタが使用されます。

geotagIPAddress

IPアドレスを管理レベルに応じてジオコード文字列アドレスに変換します。管理部門は国によって異なるため、戻り値は予期した値とは異なる場合があります。これは、IPアドレスGeoTaggerデータ・エンリッチメント・モジュールのラッパー関数です。

構文は次のとおりです。

geotagIPAddress(String IPAddress, String adminLevel)

説明:

IPAddressは、文字列型の有効な処理対象IPアドレスです。
adminLevelはオプションのStringパラメータで、返される管理部門を指定します。この値は、次の定数またはリテラル値のいずれかにのみ設定できます(大文字と小文字は区別されます):
- 市区町村が一致する場合のADMIN_LEVEL_CITYまたは'City'。
- 国の一致の場合はADMIN_LEVEL_COUNTRYまたは'Country'。
- リージョンが一致するためのADMIN_LEVEL_REGIONまたは'Region'(米国の州など)。
- Massachusettsの6254926など、GeoNamesデータベース内のリージョンのIDに対するADMIN_LEVEL_REGIONIDまたは'RegionID'。
- 米国内の郡など、サブリージョンのADMIN_LEVEL_SUBREGIONまたは'SubRegion'は一致します。
- MassachusettsでのMiddlesex Countyの4943909など、GeoNamesデータベース内のサブリージョンのIDのADMIN_LEVEL_SUBREGIONIDまたは'SubRegionID'。
- 郵便番号のADMIN_LEVEL_POSTCODEまたは'Postcode'(米国の郵便番号など)。

adminLevelで戻されるデータ型は次のとおりです:

adminLevelの文字列= City、Country、Postcode、Region、SubRegion、RegionID、SubRegionID
adminLevelのジオコード= Geocode

例:

geotagIPAddress('148.86.25.54', 'City')

geotagIPAddress('148.86.25.54', ADMIN_LEVEL_CITY)

どちらの例でも、1つの割当文字列属性としてNew York Cityが返されます。

geotagIPAddressGetGeocode

IPアドレスをジオコードに変換し、そのgeocodeフィールドをオブジェクトとして返します。これは、ジオコード型として単一の属性を返すIPアドレスGeoTaggerデータ・エンリッチメント・モジュールのラッパー関数です。

構文は次のとおりです。

geotagIPAddressGetGeocode(String IPAddress)

説明:

IPAddressは、文字列型の有効な処理対象IPアドレスです。

例:

geotagIPAddressGetGeocode('148.86.25.54')

単一割当てジオコード属性として、"40.714270 -74.005970"のジオコードを返します。

geotagStructuredAddress

構造化フィールドに基づいて、住所をタグ付けします。

構文は次のとおりです。

geotagStructuredAddress(String country, String region, String subregion, String city, 
      String postcode, Boolean returnByPopulation, String adminLevel)

説明:

countryは住所の国のフィールドです(不明な場合はnullを使用してください)。
regionは、アドレス・リージョンのフィールドです(不明な場合はnullを使用してください)。リージョンは米国の州になります。
subregionは、住所のサブリージョンのフィールドです(不明の場合はnullを使用してください)。サブリージョンは米国の国になります。
cityは住所の市区町村のフィールドです(不明の場合はnullを使用してください)。
postcodeは住所の郵便番号フィールドです(不明な場合はnullを使用してください)。郵便番号は米国の郵便番号です。
returnByPopulationはオプションのブール・パラメータであり、trueに設定すると、最大の人口を持つロケーションが返されます。デフォルトは、falseです。
adminLevelは、戻す特定のフィールドを指定するオプションのStringパラメータです。この値は、次の定数またはリテラル値のいずれかにのみ設定できます(大文字と小文字は区別されます):
- ADMIN_LEVEL_CITYまたは'City'は、住所の市を戻します。
- ADMIN_LEVEL_COUNTRYまたは'Country'が住所の国を戻します。
- ADMIN_LEVEL_REGIONまたは'Region'は、アメリカ合衆国の州などの住所のリージョンを戻します。
- ADMIN_LEVEL_REGIONIDまたは'RegionID'は、マサチューセッツの"6254926"など、GeoNamesデータベース内のリージョンのIDを戻します。
- ADMIN_LEVEL_SUBREGIONまたは'SubRegion'によって、米国の郡などの住所のサブリージョンが返されます。
- ADMIN_LEVEL_SUBREGIONIDまたは'SubRegionID'は、MassachusettsのSuffolk Countryの4952349など、GeoNamesデータベース内のサブリージョンのIDを返します。
- ADMIN_LEVEL_POSTCODEまたは'Postcode'が、住所の郵便番号を戻します。
- ADMIN_LEVEL_GEOCODEまたは'Geocode'で、最下位階層管理レベルのジオコードが戻されます。これはデフォルトです。

adminLevelパラメータは唯一のオプション・パラメータであるため、省略できる唯一のパラメータです。その他のすべてのパラメータは、値を指定するか、またはNullとして指定する必要があります。

この関数は、adminLevelパラメータがリクエストする値を返します。 adminLevelで戻されるデータ型は次のとおりです:

adminLevelの文字列= City、Country、Postcode、Region、SubRegion、RegionID、SubRegionID
adminLevelのジオコード= Geocode

住所の解決が多数のロケーションであり、returnByPopulationがtrueの場合、関数は最も大きな人口のあるロケーションを選択し、そのジオコードを返します。

例1 :

// Get the geocode for San Francisco in the US and return the location with the largest population.
geotagStructuredAddress( 'us', null, null, 'san francisco', null, true, 'Geocode')

"39.76 -98.5" (サンフランシスコ州のジオコード)を返します。

例2 :

// Get the region (state in the US) in which the Boston with the highest population is located.
geotagStructuredAddress('us', '', '', 'boston', '', true, 'Region')

"Massachusetts"を返します(Boston, Massachusettsは米国内のすべてのボストン地域の最大人口を持つため)。

geotagUnstructuredAddress

文字列属性の有効なアドレスを管理レベルに応じてジオコード文字列アドレスに変換します。管理部門は国によって異なるため、戻り値は予期した値とは異なる場合があります。

これは、Address GeoTaggerデータ・エンリッチメント・モジュールのラッパー関数です。ジオコードの住所を含むデータ・セットに複数割当属性(列)を追加します。

構文は次のとおりです。

geotagUnstructuredAddress(String addressText, String adminLevel, String addressGrain, Boolean validateAddress)

説明:

addressTextは、処理するアドレス文字列です。これは350文字以下にする必要があります。
adminLevelはオプションのStringパラメータで、返される管理部門を指定します。この値は、次の定数またはリテラル値のいずれかにのみ設定できます(大文字と小文字は区別されます):
- 市区町村が一致する場合のADMIN_LEVEL_CITYまたは'City'。
- 国の一致の場合はADMIN_LEVEL_COUNTRYまたは'Country'。
- リージョンが一致するためのADMIN_LEVEL_REGIONまたは'Region'(米国の州など)。
- Massachusettsの6254926など、GeoNamesデータベース内のリージョンのIDに対するADMIN_LEVEL_REGIONIDまたは'RegionID'。
- 米国内の郡など、サブリージョンのADMIN_LEVEL_SUBREGIONまたは'SubRegion'は一致します。
- MassachusettsでのMiddlesex Countyの4943909など、GeoNamesデータベース内のサブリージョンのIDのADMIN_LEVEL_SUBREGIONIDまたは'SubRegionID'。
- 郵便番号のADMIN_LEVEL_POSTCODEまたは'Postcode'(米国の郵便番号など)。
addressGrainはオプションのStringパラメータであり、GeoTaggerが特定レベルで最も一致することが多い管理部門を指定します。この値は、次の定数またはリテラル値のいずれかにのみ設定できます(大文字と小文字は区別されます):
- 市区町村が一致する場合のADMIN_LEVEL_CITYまたは'City'。
- 国の一致の場合はADMIN_LEVEL_COUNTRYまたは'Country'。
- リージョンのADMIN_LEVEL_REGIONまたは'Region'と一致します。
- サブリージョンのADMIN_LEVEL_SUBREGIONまたは'SubRegion'と一致しています。
- ADMIN_LEVEL_NONEまたは'None'では、アドレスStringと最も厳密に一致する多くのpopulousのロケーションが返されます。これがデフォルト値です。
validateAddressは、GeoTaggerがアドレスを検証するかどうかを指定するオプションのブール・パラメータです。

adminLevelで戻されるデータ型は次のとおりです:

adminLevelの文字列= City、Country、Postcode、Region、SubRegion、RegionID、SubRegionID
adminLevelのジオコード= Geocode

次の例は、国文字列属性で国名のジオコード・アドレスを取得する方法を示しています:

geotagUnstructuredAddress(countries, 'Country', , true, 'en')
geotagUnstructuredAddress('New York, NY 10029', 'Region', 'SubRegion', false)

geotagUnstructuredAddressGetGeocode

IPアドレスをジオコードに変換し、そのgeocodeフィールドをオブジェクトとして返します。これは、Address GeoTaggerモジュールのラッパー関数です。

構文は次のとおりです。

geotagUnstructuredAddressGetGeocode(String addressText, String addressGrain, Boolean validateAddress)

説明:

addressTextは、処理するアドレス文字列です。これは350文字以下にする必要があります。
addressGrainはオプションの文字列パラメータで、GeoTaggerが特定のレベルに最も一致するものを見つけるのに役立ちます。次の値のいずれかにのみ設定できます(大/小文字の区別なし):
- 市区町村が一致する場合のADMIN_LEVEL_CITYまたは'City'。
- 国の一致の場合はADMIN_LEVEL_COUNTRYまたは'Country'。
- リージョンが一致するためのADMIN_LEVEL_REGIONまたは'Region'(米国の州など)。
- 米国内の郡など、サブリージョンのADMIN_LEVEL_SUBREGIONまたは'SubRegion'は一致します。
- ADMIN_LEVEL_NONEまたは'None'では、アドレスStringと最も厳密に一致する多くのpopulousのロケーションが返されます。これがデフォルト値です。
validateAddressは、GeoTaggerがアドレスを検証するかどうかを指定するオプションのブール・パラメータです。

例:

geotagUnstructuredAddressGetGeocode(cities, ADMIN_LEVEL_CITY, false)

geotagUnstructuredAddressGetGeocode(cities, 'City', false)

getEntities

入力文字列属性から、指定された型のすべてのエンティティを返します。エンティティは文字列のリストとして戻されます。この関数は、エンティティ結果のデータ・セット内に新しい複数割当列を作成します。これは、名前付きエンティティ認識エクストラクタ・モジュールのラッパー関数です。英語の入力テキストのみサポートします。

構文は次のとおりです。

getEntities(String attribute, String entityType)

説明:

attributeは、処理される文字列属性を指定します。
entityTypeは、抽出するエンティティのタイプを指定するStringパラメータです。次の定数またはリテラル値は1つのみ指定できます(大文字と小文字は区別されます):
- ENTITY_TYPE_PERSONまたは'Person'では、属性で見つかったすべての個人エンティティが返されます。
- ENTITY_TYPE_ORGANIZATIONまたは'Organization'では、属性内で検出されたすべての組織エンティティが戻されます。
- ENTITY_TYPE_LOCATIONまたは'Location'では、属性内で見つかったすべてのロケーション・エンティティが返されます。ロケーション・エンティティは、BostonやCanadaなどの場所の名前です。

例:

getEntities(claims, ENTITY_TYPE_LOCATION)

getEntities(reviews, 'Person')

getSentiment

文字列属性の全体的なセンチメントを含む文字列を返します。属性センチメントは次のいずれかです:

POSITIVE
NEGATIVE

これは、センチメント分析(ドキュメント・レベル)データ・エンリッチメント・モジュールのラッパー関数です。

構文は次のとおりです。

getSentiment(String textAttribute, String languageCode)

説明:

attributeは、処理される文字列属性を指定します。
languageCodeは、精度を向上するために言語名またはコードを指定するオプション・パラメータ(たとえば、"en"、"English"、"German")です。サポートされている言語は英語(イギリス/US)、スペイン語、フランス語、ドイツ語およびイタリア語です。指定すると、関数ではその言語に固有のモデルが使用されます。指定しない場合、またはnullとして渡された場合(これがデフォルト)、関数は自動的に言語モデルを検出します。サポートされていない言語が指定されている場合は、エラーがスローされます。

例:

getSentiment(comments, 'English')

この例では、"comments"はString属性です。

getTermSentiment

ポジティブまたはネガティブなセンチメントを含むセンテンス内の語句を抽出します。この関数コールでは、抽出するフレーズの型と使用するセンチメントの型を指定します。必要な用語のリストが(文字列として)返されます。

構文は次のとおりです。

getTermSentiment(String textAttribute, String termAttribute, String sentimentCategory, String languageCode)

説明:

textAttributeは、処理する文字列属性です。
termAttributeは、センチメント(sentimentCategory引数で設定)に基づいて抽出する語のタイプを指定するStringパラメータです。用語タイプには次の値のうち1つのみ(大文字と小文字を区別)を指定できます:
- ENTITY_TYPE_PERSONまたは'Person'は、個人エンティティを格納してそれらの年齢のセンチメントを戻します。
- ENTITY_TYPE_ORGANIZATIONまたは'Organization'は、組織のエンティティを含む過去のものを検索し、それらの過去のセンチメントを返します。
- ENTITY_TYPE_LOCATIONまたは'Location'は、事業所エンティティを格納してパスを検索し、それらの年齢のセンチメントを返します。
- NOUN_GROUPSまたは'NounGroups'は、指定されたセンチメントに基づいて名詞のグループを文に抽出します。
- KEY_PHRASESまたは'KeyPhrases'は、指定されたセンチメントに基づいて文のキー・フレーズを抽出します。
sentimentCategoryでは、用語に対して考慮するセンチメントのタイプが指定されます。否定的なセンチメントの場合は、SENTIMENT_POSITIVE (または'Positive')を負のセンチメントの場合は、SENTIMENT_NEGATIVE ('Negative')を指定できます。すべての値は大文字と小文字が区別されます。
languageCode. 言語名またはコードを指定するオプション・パラメータ(たとえば、"en"、"English"、"German")です。これにより正確性が向上します。サポートされている言語は英語(イギリス/US)、スペイン語、フランス語、ドイツ語およびイタリア語です。指定すると、関数ではその言語に固有のモデルが使用されます。指定しない場合、またはnullとして渡された場合(これがデフォルト)、関数は自動的に言語モデルを検出します。サポートされていない言語が指定されている場合は、エラーがスローされます。

例:

getTermSentiment(comments, 'KeyPhrases', 'Positive')
getTermSentiment(comments, KEY_PHRASES, SENTIMENT_POSITIVE)

getTermSentiment(companies, 'Organization', 'Negative')
getTermSentiment(companies, ENTITY_TYPE_ORGANIZATION, SENTIMENT_NEGATIVE)

getTermSentiment(reviews, 'NounGroups', 'Positive')
getTermSentiment(reviews, NOUN_GROUPS, SENTIMENT_POSITIVE)

reverseGeotag

指定した管理部門のジオコードの住所を返します。入力したジオコードから、指定した半径内の管理部門を検索します。これは、単一値を戻すリバースGeoTaggerデータ・エンリッチメント・モジュールのラッパー機能です。

構文は次のとおりです。

reverseGeotag(Geocode geoAttribute, String adminLevel, Double proximityThreshold)

説明:

geoAttributeは、処理対象のジオコードです。
adminLevelは、戻す管理部門を指定するStringパラメータです。この値は、次の定数またはリテラル値のいずれか(大/小文字を区別)にのみ設定できます:
- 市区町村が一致する場合のADMIN_LEVEL_CITYまたは'City'。
- 国の一致の場合はADMIN_LEVEL_COUNTRYまたは'Country'。
- リージョンが一致するためのADMIN_LEVEL_REGIONまたは'Region'(米国の州など)。
- Massachusettsの6254926など、GeoNamesデータベース内のリージョンのIDに対するADMIN_LEVEL_REGIONIDまたは'RegionID'。
- 米国内の郡など、サブリージョンのADMIN_LEVEL_SUBREGIONまたは'SubRegion'は一致します。
- MassachusettsでのMiddlesex Countyの4943909など、GeoNamesデータベース内のサブリージョンのIDのADMIN_LEVEL_SUBREGIONIDまたは'SubRegionID'。
- 郵便番号のADMIN_LEVEL_POSTCODEまたは'Postcode'(米国の郵便番号など)。
proximityThresholdは、入力ジオコードおよび出力地理的ロケーションの最大距離をマイル数で指定するオプションのDoubleパラメータです。このパラメータを指定しない場合、デフォルトの100マイルが使用されます。距離がしきい値を超えると、nullが返されます。

この関数は、adminLevelパラメータでリクエストされたタグを戻します。 adminLevelで戻されるデータ型は次のとおりです:

adminLevelの文字列= City、Country、Postcode、Region、SubRegion、RegionID、SubRegionID
adminLevelのジオコード= Geocode

次の例では、2つの値を使用してジオコード・オブジェクトを作成し、Geocode cityフィールドを返します:

reverseGeotag(toGeocode(42.35843, -71.05977), 'CITY', 'en', 50)

runExternalPlugin

pluginNameの外部ファイルに定義されているカスタムの外部Groovyスクリプトを実行して、スクリプトの結果を戻します。

構文は次のとおりです。

runExternalPlugin(String pluginName, String attribute, Map options)

説明:

pluginNameは、Groovyスクリプト・ファイル(MyPlugin.groovyなど)の名前(ベース名と拡張子)です。
attributeは、スクリプトに渡される入力文字列です。
optionsはオプションのマップで、Groovyスクリプトで使用されるオプションが含まれています。デフォルトは空です。

外部プラグインの作成の詳細は、「変換関数ライブラリの拡張」を参照してください。

stripTagsFromHTML

HTML、XMLおよびXHTMLマークアップ・タグを入力文字列から削除し、結果を文字列として返します。これは、データ・エンリッチメント・モジュール当たりのタグ・ストライプのラッパー機能です。

構文は次のとおりです。

stripTagsFromHTML(String attribute)

説明:

attributeは、処理するHTML文字列です。

関数はプレーン・テキストを返します。

toPhoneticHash

テキストの音声を表す入力テキスト(英語のみ)の文字列ハッシュを生成します。

発音ハッシュという単語は、スペルではなく、その発音に基づいています。 phoneticハッシュの1つのアプリケーションは検索エンジンです。検索用語が何も結果を返さない場合、検索エンジンは音声ハッシュという用語を他の用語のハッシュと比較し、最適な用語の結果を戻すことができます。たとえば、purpleとprupleには同じ表音ハッシュ(PRPL)があるため、prupleという語を検索すると、purpleの結果も生成されます。

構文は次のとおりです。

toPhoneticHash(String attribute)

説明:

attributeは、処理する文字列属性です。

例:

toPhoneticHash(terms)

この例では、用語は文字列属性です。