Text Enrichmentの使用

Text Enrichmentコンポーネントを使用すると、自由形式のテキスト・データを抽出したり評価できます。

次の情報を抽出できます。

Text Enrichmentコンポーネントは、Lexalytics社のSalience Engineを使用します。Salience Engineでは、ライセンスによっては、入力テキストのセンチメントも評価できます。センチメントは、入力(またはドキュメント)全体、特定のエンティティへのセンチメントまたは特定のテーマへのセンチメントに対して評価できます。

サポートされるテキスト・エンリッチメント機能

Salience Engineは様々なテキスト抽出機能をサポートしますが、Endeca Text Enrichmentコンポーネントでサポートされるのは、その機能の一部のみです。次の表は、Endeca Text Enrichmentコンポーネントによってサポートされるテキスト抽出機能の一覧です。
表1 サポートされるテキスト・エンリッチメント機能
テキスト・エンリッチメント機能 結果として生じる出力レコードの情報
センチメント分析 現在のドキュメント、特定のエンティティ、特定のテーマの全体的なセンチメントのスコア。この機能は、特別なライセンスでのみ使用できます。

この値は有効または無効にできます。

名前付きエンティティ 現在のドキュメントの名前付きエンティティのリスト。抽出するエンティティのタイプを指定できます。サポートされているエンティティ・タイプは、次のとおりです。
  • 会社(企業)
  • 場所(地理的な位置)
  • 製品
  • スポーツ
  • タイトル
  • リスト(ユーザー定義エンティティの場合)

出力レコードには、タイプにつき1列が含まれます。各列に複数の値を格納できます。

センチメント分析が有効な場合は、エンティティはそのセンチメント・スコアに基づいて各グループに追加されます。エンティティのセンチメント・スコアの範囲を指定する必要があります。出力レコードには、範囲につき1列が含まれ、各列は複数の値を持つことができます。

この機能は有効または無効にできます。

テーマ ドキュメント内のテーマのリスト。指定したフィールドの出力レコードにすべてのメタテーマが追加されます。
メタテーマではないテーマでは、テーマのスコアがユーザー定義のしきい値よりも高い場合は、次のようになります。
  • センチメント分析が有効な場合は、テーマはセンチメント・スコアに基づいてグループに追加されます。センチメント・スコアの範囲を指定する必要があります。出力レコードには、範囲につき1列が含まれ、各列は複数の値を持つことができます。
  • センチメント分析が有効であるかどうかに関係なく、テーマは別の(メタテーマではない)ユーザー指定のフィールドに追加されます。

この機能は有効または無効にできます。

引用 話し手に属するドキュメント内の引用のリスト。引用の最大長と出力レコードのフィールド/プロパティの名前を指定できます。

この機能は有効または無効にできます。

ドキュメントのサマリー 限られた文字数でコンテンツ全体を適切に表す、入力コンテンツの省略されたバージョン。

この機能は常に有効になります。これを無効にすることはできません。

Lexalytics情報ソース

Lexalytics Support Webサイトに、次の2種類のSalience Engineの情報ソースが掲載されています。

どちらのソースも、開発者を対象にしていますが、テキスト・エンリッチメント機能を実装しているIntegrator ETLユーザーに役立つ情報を提供しています。