プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

エンティティ・エクストラクタ

エンティティ抽出モジュールでは、個人、会社および場所の名前をソース・データのレコード内の入力テキストから抽出します。

エンティティのエクストラクタは、テキスト内の個々の要素を、PERSON、ORGANIZATIONおよびLOCATIONという事前定義済のカテゴリに分類します。

エンティティ抽出は、英語入力テキストのみをサポートしています。

構成オプション

このモジュールは、データ処理ワークフローのサンプリング・フェーズ中に自動的には実行されませんが、Studioの「変換」から起動できます。

出力

事前定義されたカテゴリごとに、出力は、複数割当文字列Dgraph属性としてDgraphに収集される名前のリストです。 出力属性の名前は次のとおりです:
  • <attribute>_entity_person
  • <attribute>_entity_loc
  • <attribute>_entity_org

さらに、変換APIには、名前エンティティのエクストラクタをラップして、入力テキストから単一の値を返すgetEntities関数があります。

入力テキストを次のように指定します:
While in New York City, Jim Davis bought 300 shares of Acme Corporation in 2012.

出力は次のようになります。

location: New York City
organization: Acme Corporation
person: Jim Davis