このプラグインは、入力テキストから名詞グループを抽出します。
名詞エクストラクタは、サポートされている各言語の文字列属性から名詞のグループを取得します。 抽出された名詞グループは、C値でソートされ、(オプションで)有効な数に切り詰められます。この数は、元のドキュメントのサイズおよび抽出されるグループの数によって決まります。 このプラグインの1つの用途は、データ内で共通して発生するテーマを検索するためのタグ・クラウドの視覚化です。
これらの要素の割当て、フォームおよび位置は、使用する言語の構文によって異なります。
設計
このプラグインは、言語固有のフレーズ・グループ化ルールを入力テキストに適用することで機能します。 フレーズ・グループ化ルールは、グループ化アクションを識別する文のトークンに適用される一連の字句テストで構成されます。 グループ化ルールのアクションは、重み値を持つ1つの品詞の部分で、負または正の整数を指定し、オプションでコンポーネント・ラベルと位置を指定できます。 名詞グループのPOS (品詞の一部)では、名詞POSを使用します。 コンポーネントは、ヘッドまたはmodである必要があり、位置はゼロ・ベースのインデックスでパターンになります(左と右のコンテキストは存在する場合)。
構成オプション
構成オプションがありません。
このプラグインは、データ処理サンプリング・フェーズでは自動的に実行されません(つまり、新規または変更されたHive表のサンプリング時)。
出力
このプラグインの出力は、複数割当の文字列属性としてDgraphに収集されるフレーズ(単一または複数の単語)の順序付けられたリストです。
出力属性の名前は<colname>_ noun_groups
です。
また、変換APIには、名前グループのエクストラクタをラップするラッパーであるextractNounGroups関数があり、入力テキストから名詞の単一値が返されます。
例
The quick brown fox jumped over the lazy dog.
各名詞グループは、複数の割当て文字列属性としてDgraphに収集されます。