Text Tagger Whitelistコンポーネントはタグルール入力を使用して、受信レコードにある指定されたテキスト・フィールド内で一致させる語句と、ターゲット・フィールドに書き込む値を定義します。
Text Tagger Whitelistコンポーネントは検索語句/タグ値のペアのリストを受け取り、入力レコードのソース・フィールド名プロパティで指定されたフィールド内でその語句を検索します。レコード内で語句が一致した場合、(タグルール入力の)タグ値が、ターゲット・フィールド名プロパティで指定されたレコードのフィールドに追加されます。
Text Tagger Whitelistコンポーネントのメタデータ・スキーマは修正されません。
次の表は、Text Tagger Whitelistコンポーネントに使用可能な構成プロパティを示しています。
名前 | 説明 | 有効な値 | 例 |
---|---|---|---|
ソース・フィールド名 | 一致するかどうかの検索を行う入力レコード内のテキスト・フィールド名。 | 入力レコード内のプロパティ。 | |
ターゲット・フィールド名 | タグの書込み先となる出力レコード内のフィールド名。 | 有効なプロパティ名。 | |
上書きターゲット・フィールド | 指定されたターゲット・フィールド内の既存の入力値を、新しいタグ出力で上書きするかどうかを指定します。 | 選択(True)
選択解除(False) |
|
大/小文字を区別した一致 | 文字列の文字の大文字/小文字がタグルール・フィールドの値と一致する必要があるかどうかを指定します。 |
|
|
複数割当てデリミタ | ソース・レコードのプロパティ内の複数割当て値を区切る文字を設定します。このデリミタは、ソース・レコードのプロパティ・フィールドを区切るデリミタとは異なることに注意してください。
「複数割当てデリミタ」も参照してください。 |
複数割当てのデリミタである単一文字。デフォルトはUnicode DELETE文字(\U007F)です。データに複数割当てプロパティが含まれていない場合は、このフィールドを使用する必要はありません。 | |
検索条件の最大文字数 | タグルール入力の語句の最大文字数を指定します。 | 正の整数 | 51 |
スレッド数 | テキストの処理時にコンポーネントが使用する処理スレッドの数を指定します。
大量のホワイト・リスト(1000を超える検索語句)または大量のテキスト・フィールド、あるいはその両方を処理する場合、処理に時間がかかる場合があります。この状況では、ホワイト・リストのテキスト・タギング処理で使用されるスレッド数を増やすことで、パフォーマンスを向上できます。まず始めに、使用可能な処理コア数に一致するスレッド数を指定することをお薦めします。実際のパフォーマンスは、使用可能なコア数、マシン上で行われているその他の処理など、多数の要因に影響されるため、望ましい結果を得るには、スレッド数を調整する必要がある場合があります。 |
正の整数
デフォルトは1です。 |
1 |