Text Enrichmentコンポーネントは入力テキストの抽出、要約および評価を行います。
Text Enrichmentコンポーネントは、LexalyticsのSalience Engineを使用してソース・ファイルのエンティティ(人、場所、組織、テーマおよび引用)を抽出します。抽出されたエンティティは、出力ファイルに書き込んだり、Endecaデータ・ドメインにロードしたりできます。
Salience Engineには入力テキストのセンチメントを評価する機能もあります。
Text Enrichmentコンポーネントのメタデータ・スキーマは修正されません。
次の表は、Text Enrichmentコンポーネントに使用可能な構成プロパティを示しています。
名前 | 説明 | 有効な値 | 例 |
---|---|---|---|
構成ファイル | テキスト・エンリッチメント・プロパティ・ファイルへの絶対パス。
構成ファイルはプロジェクト・ディレクトリに格納することをお薦めします。 |
有効なファイル・パス
${PROJECT}または同様のグローバル変数を使用してパスを指定できます。 |
${PROJECT}/TextEnrichments.properties |
入力フィールド | エンリッチメントを適用する入力ソース・レコードのソース・フィールド名(エンティティの抽出とセンチメントの評価) | フィールド名 | survey_responses |
Salienceデータ・パス | Lexalytics dataディレクトリへの絶対パス | 有効なファイル・パス | C:/Program Files (x86)/Lexalytics/data
/usr/endeca/salience/data |
エラー処理キー・フィールド | エラー処理出力を格納するためのフィールドを指定します。このフィールドの値を指定する必要があります。特定のエラー・フィールドがない場合は、主キー・フィールド名を指定できます。(主キー・フィールドは、入力メタデータ内に存在している必要があります。) | 英数字 | salience_errors |
テキストしきい値(パーセント) | 処理するフィールドに対して、入力フィールドに含まれている必要がある英数字の最小パーセンテージ。しきい値が指定されていない場合、システム・デフォルトは80です。 | 正の整数 | 80 |
スレッド数 | コンポーネントで使用する必要があるスレッド数。スレッド数が指定されていない場合、コンポーネントは1つのスレッドを使用します。 | 正の整数 | 4 |
複数割当てデリミタ | ソース・レコードのプロパティ内の複数割当て値を区切る文字を設定します。このデリミタは、ソース・レコードのプロパティ・フィールドを区切るデリミタとは異なることに注意してください。
「複数割当てデリミタ」も参照してください。 |
複数割当てのデリミタである単一文字。デフォルトはUnicode DELETE文字(\U007F)です。データに複数割当てプロパティが含まれていない場合は、このフィールドを使用する必要はありません。 | |
Salience警告ログ・レベル | Integrator ETLログでレポートされる、Salienceエンジンからのメッセージのロギング・レベルを指定します。
デフォルトはWARNです。 このプロパティの値は、Integrator ETL全体のロギング・レベルを上書きするものではありません。Integrator ETLのロギング・レベルが、Salienceロギング・レベルよりも詳細でない場合、詳細なSalienceロギング出力はIntegrator ETLロギング出力には含まれません。 |
|