このトピックでは、グラフにText Tagger Whitelistコンポーネントを追加するための要件を説明します。
Text Tagger Whitelistコンポーネントには次の2つの入力が必要です。
- タグに一致するものを検索するためのソース・データ
このデータは、適切なリーダー・コンポーネントによって読み込むことができます。また、Text Tagger Whitelistコンポーネントにデータを入力する前に適切な処理を含めることもできます。
- タグ・ルール入力
このデータは、適切なリーダー(たとえば、.csvファイルの場合はUniversal Data Reader、データベース入力の場合はDatabase Reader)によって読み込むことができます。通常、この入力では追加処理は実行されません。
Text Tagger Whitelistコンポーネントの構成
Text Tagger Whitelistコンポーネントをグラフに追加する場合は、次のフィールドを構成する必要があります。
- ソース・フィールド名フィールドで、SearchTerm値と一致するものを検索する入力レコードのプロパティの名前を指定します。
- ターゲット・フィールド名フィールドで、SearchTerm値の一致が見つかった場合にタグを書き込む出力フィールドの名前を指定します。
- ターゲット・フィールドを上書きで次を実行します。
- Text Tagger Whitelistコンポーネントによって書き込まれたタグを使用してターゲット・フィールドの既存の値を上書きする場合は、このボックスを選択します(このフィールドを「True」に設定します)。
- Text Tagger Whitelistコンポーネントによって書き込まれたタグをターゲット・フィールドの既存の値に追加する場合は、このボックスの選択を解除したままにします(このフィールドを「False」に構成します)。
詳細は、「ターゲット値の上書きと追加」を参照してください。
- SearchTermの値の大文字/小文字が一致した検索が必要な場合は、大/小文字を区別した一致ボックスを選択します(つまり、フィールドを「True」に設定します)。大文字/小文字に関係なく値を一致させる(大/小文字の区別なしの一致)場合は、このボックスの選択を解除したままにします(つまり、フィールドを「False」に設定します)。
- 複数割当てデリミタフィールドで、「ターゲット・フィールド」プロパティで指定した出力フィールドに複数のタグを書き込む場合にそれらのタグを区切るために使用する文字を指定します。「複数割当てデリミタ」も参照してください。
- 検索条件の最大文字長フィールドで、SearchTermの値の最大文字数を指定します。詳細は、「検索条件の長さ」を参照してください。
- 「スレッド数」はデフォルトで1に設定されています。
大量のホワイト・リスト(1000を超える検索語句)または大量のテキスト・フィールド、あるいはその両方を処理する場合、処理に時間がかかる場合があります。この状況では、ホワイト・リストのテキスト・タギング処理で使用されるスレッド数を増やすことで、パフォーマンスを向上できます。まず始めに、使用可能な処理コア数に一致するスレッド数を指定することをお薦めします。実際のパフォーマンスは、使用可能なコア数、マシン上で行われているその他の処理など、多数の要因に影響されるため、望ましい結果を得るには、スレッド数を調整する必要がある場合があります。