エンティティ抽出モジュールでは、個人、会社および場所の名前をソース・データのレコード内の入力テキストから抽出します。
エンティティのエクストラクタは、テキスト内の個々の要素を、PERSON、ORGANIZATIONおよびLOCATIONという事前定義済のカテゴリに分類します。
エンティティ抽出は、英語入力テキストのみをサポートしています。
構成オプション
このモジュールは、データ処理ワークフローのサンプリング・フェーズ中に自動的には実行されませんが、Studioの「変換」から起動できます。
出力
<attribute>_entity_person
<attribute>_entity_loc
<attribute>_entity_org
さらに、変換APIには、名前エンティティのエクストラクタをラップして、入力テキストから単一の値を返すgetEntities関数があります。
例
While in New York City, Jim Davis bought 300 shares of Acme Corporation in 2012.
出力は次のようになります。
location: New York City organization: Acme Corporation person: Jim Davis