名詞グループ・エクストラクタ

このプラグインは、入力テキストから名詞グループを抽出します。

名詞エクストラクタは、サポートされている各言語の文字列属性から名詞のグループを取得します。抽出された名詞グループは、C値でソートされ、(オプションで)有効な数に切り詰められます。この数は、元のドキュメントのサイズおよび抽出されるグループの数によって決まります。このプラグインの1つの用途は、データ内で共通して発生するテーマを検索するためのタグ・クラウドの視覚化です。

典型的な名詞は、様々なタイプの決定子(フレーズの先頭)、名詞、および0以上の扶養家族で構成されます。これらの依存関係の一部を次に示します:

ヌーイの調節
属性形容詞
形容詞句
参加者のフレーズ
事前配置されたフレーズ
相対条項
無限大句

これらの要素の割当て、フォームおよび位置は、使用する言語の構文によって異なります。

設計

このプラグインは、言語固有のフレーズ・グループ化ルールを入力テキストに適用することで機能します。フレーズ・グループ化ルールは、グループ化アクションを識別する文のトークンに適用される一連の字句テストで構成されます。グループ化ルールのアクションは、重み値を持つ1つの品詞の部分で、負または正の整数を指定し、オプションでコンポーネント・ラベルと位置を指定できます。名詞グループのPOS (品詞の一部)では、名詞POSを使用します。コンポーネントは、ヘッドまたはmodである必要があり、位置はゼロ・ベースのインデックスでパターンになります(左と右のコンテキストは存在する場合)。

構成オプション

構成オプションがありません。

このプラグインは、データ処理サンプリング・フェーズでは自動的に実行されません(つまり、新規または変更されたHive表のサンプリング時)。

出力

このプラグインの出力は、複数割当の文字列属性としてDgraphに収集されるフレーズ(単一または複数の単語)の順序付けられたリストです。

出力属性の名前は<colname>_ noun_groupsです。

また、変換APIには、名前グループのエクストラクタをラップするラッパーであるextractNounGroups関数があり、入力テキストから名詞の単一値が返されます。

例

次の文は、複数の名詞のグループ化を高いレベルで説明しています:

The quick brown fox jumped over the lazy dog.

この文から、エクストラクタは次の2つの名詞群を返します:

クイック・ブラウンのfox
レイジー

各名詞グループは、複数の割当て文字列属性としてDgraphに収集されます。