エンティティ・エクストラクタ

エンティティ・エクストラクタは、テキスト内のアトミック要素を特定して事前定義済カテゴリに分類できます。

事前定義済カテゴリは、PERSON、ORGANIZATIONおよびLOCATIONです。つまり、入力テキストから人物、会社および場所の名前が抽出されます。

エンティティ・エクストラクタは、英語の入力テキストのみをサポートしています。

このモジュールは、データ処理ワークフローのサンプリング・フェーズ中は実行されません。

構成可能性

このモジュールは、データ処理ワークフロー中は実行されません。

出力

事前定義済カテゴリごとに、複数割当文字列属性としてDgraphに収集される名前のリストが出力されます。出力属性の名前は、次のとおりです。
  • <colname>_entity_person
  • <colname>_entity_loc
  • <colname>_entity_org
また、変換APIには、名前エンティティ・エクストラクタの周囲のラッパーである次の関数が用意されており、これらは入力テキストから単一の値を返します。
  • getPersonEntitiesは、入力内で識別された各人物の名前を返します。
  • getOrganizationEntitiesは、入力内で識別された各組織の名前を返します。
  • getLocationEntitiesは、入力内で識別された各場所の名前を返します。

次のような入力テキストがあるとします。
While in New York City, Jim Davis bought 300 shares of Acme Corporation in 2012.

出力は次のようになります。

location: New York City
organization: Acme Corporation
person: Jim Davis