プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

名詞グループ・エクストラクタ

このプラグインは、入力テキストから名詞グループを抽出します。

名詞エクストラクタは、サポートされている各言語の文字列属性から名詞のグループを取得します。 抽出された名詞グループは、C値でソートされ、(オプションで)有効な数に切り詰められます。この数は、元のドキュメントのサイズおよび抽出されるグループの数によって決まります。 このプラグインの1つの用途は、データ内で共通して発生するテーマを検索するためのタグ・クラウドの視覚化です。

典型的な名詞は、様々なタイプの決定子(フレーズの先頭)、名詞、および0以上の扶養家族で構成されます。 これらの依存関係の一部を次に示します:
  • ヌーイの調節
  • 属性形容詞
  • 形容詞句
  • 参加者のフレーズ
  • 事前配置されたフレーズ
  • 相対条項
  • 無限大句

これらの要素の割当て、フォームおよび位置は、使用する言語の構文によって異なります。

設計

このプラグインは、言語固有のフレーズ・グループ化ルールを入力テキストに適用することで機能します。 フレーズ・グループ化ルールは、グループ化アクションを識別する文のトークンに適用される一連の字句テストで構成されます。 グループ化ルールのアクションは、重み値を持つ1つの品詞の部分で、負または正の整数を指定し、オプションでコンポーネント・ラベルと位置を指定できます。 名詞グループのPOS (品詞の一部)では、名詞POSを使用します。 コンポーネントは、ヘッドまたはmodである必要があり、位置はゼロ・ベースのインデックスでパターンになります(左と右のコンテキストは存在する場合)。

構成オプション

構成オプションがありません。

このプラグインは、データ処理サンプリング・フェーズでは自動的に実行されません(つまり、新規または変更されたHive表のサンプリング時)。

出力

このプラグインの出力は、複数割当の文字列属性としてDgraphに収集されるフレーズ(単一または複数の単語)の順序付けられたリストです。

出力属性の名前は<colname>_ noun_groupsです。

また、変換APIには、名前グループのエクストラクタをラップするラッパーであるextractNounGroups関数があり、入力テキストから名詞の単一値が返されます。

次の文は、複数の名詞のグループ化を高いレベルで説明しています:
The quick brown fox jumped over the lazy dog.
この文から、エクストラクタは次の2つの名詞群を返します:
  • クイック・ブラウンのfox
  • レイジー

各名詞グループは、複数の割当て文字列属性としてDgraphに収集されます。