Text Enrichmentコンポーネント

Text Enrichmentコンポーネントは入力テキストの抽出、要約および評価を行います。

Text Enrichmentコンポーネント

Text Enrichmentコンポーネントは、LexalyticsのSalience Engineを使用してソース・ファイルのエンティティ(人、場所、組織、テーマおよび引用)を抽出します。抽出されたエンティティは、出力ファイルに書き込んだり、Endecaデータ・ドメインにロードしたりできます。

Salience Engineには入力テキストのセンチメントを評価する機能もあります。

メタデータ・スキーマ

Text Enrichmentコンポーネントのメタデータ・スキーマは修正されません。

構成プロパティ

注意: すべてのコネクタのビジュアル・プロパティの詳細は、「コンポーネントのビジュアル・プロパティ」を参照してください。すべてのコネクタに共通の構成プロパティの詳細は、「コンポーネントの共通構成プロパティ」を参照してください。

次の表は、Text Enrichmentコンポーネントに使用可能な構成プロパティを示しています。

表1 Text Enrichmentのプロパティ
名前 説明 有効な値
構成ファイル テキスト・エンリッチメント・プロパティ・ファイルへの絶対パス。

構成ファイルはプロジェクト・ディレクトリに格納することをお薦めします。

有効なファイル・パス

${PROJECT}または同様のグローバル変数を使用してパスを指定できます。

${PROJECT}/TextEnrichments.properties
入力フィールド エンリッチメントを適用する入力ソース・レコードのソース・フィールド名(エンティティの抽出とセンチメントの評価) フィールド名 survey_responses
Salienceデータ・パス Lexalytics dataディレクトリへの絶対パス 有効なファイル・パス C:/Program Files (x86)/Lexalytics/data

/usr/endeca/salience/data

エラー処理キー・フィールド エラー処理出力を格納するためのフィールドを指定します。このフィールドの値を指定する必要があります。特定のエラー・フィールドがない場合は、主キー・フィールド名を指定できます。(主キー・フィールドは、入力メタデータ内に存在している必要があります。) 英数字 salience_errors
テキストしきい値(パーセント) 処理するフィールドに対して、入力フィールドに含まれている必要がある英数字の最小パーセンテージ。しきい値が指定されていない場合、システム・デフォルトは80です。 正の整数 80
スレッド数 コンポーネントで使用する必要があるスレッド数。スレッド数が指定されていない場合、コンポーネントは1つのスレッドを使用します。 正の整数 4
複数割当てデリミタ ソース・レコードのプロパティ内の複数割当て値を区切る文字を設定します。このデリミタは、ソース・レコードのプロパティ・フィールドを区切るデリミタとは異なることに注意してください。

「複数割当てデリミタ」も参照してください。

複数割当てのデリミタである単一文字。デフォルトはUnicode DELETE文字(\U007F)です。データに複数割当てプロパティが含まれていない場合は、このフィールドを使用する必要はありません。
Salience警告ログ・レベル Integrator ETLログでレポートされる、Salienceエンジンからのメッセージのロギング・レベルを指定します。

デフォルトはWARNです。

このプロパティの値は、Integrator ETL全体のロギング・レベルを上書きするものではありません。Integrator ETLのロギング・レベルが、Salienceロギング・レベルよりも詳細でない場合、詳細なSalienceロギング出力はIntegrator ETLロギング出力には含まれません。

  • OFF
  • FATAL
  • ERROR
  • WARN
  • INFO
  • DEBUG
  • TRACE
  • ALL