属性の抽出
「属性の抽出」プロセッサは、テキストを含む単一の文字列を入力として取得し、参照データ(正規表現またはリテラル文字列、あるいはその両方)を使用して文字列から同一の情報を出力して、文字列内の属性を識別できるようにします。たとえば、部品番号、数量、色などの特定のデータ項目を製品の説明テキスト・フィールドから抽出するために使用できます。
相互に関連付けられた配列のペア(属性ラベルを含むものと、その値を含むもの)として情報が出力されます。
また、一致が見つからず抽出されなかった残りのテキスト以外のすべての抽出値が削除された入力テキストである「残りの入力」も出力されます。
これは、値が抽出される方法を制御します。たとえば、会社名属性からビジネス接尾辞を抽出する場合は、リストの値で終了している場合にのみ値を抽出します。
構成 | 説明 |
---|---|
入力 |
属性の抽出元である文字列。 |
オプション |
次のオプションを指定します。
|
出力 |
抽出が実行されたレコードおよび抽出が実行されなかったレコードの数。 |
データ属性 |
次のデータ属性が出力されます。
|
フラグ |
次のフラグが出力されます。
|
この例では、文字列は入力であり、結果の属性とその値は出力です。
入力文字列 | 結果属性/結果値 |
---|---|
TEAO HP = 1/4 1725RPM 115V 48YZ YOKE MTR |
attributearray= {"Definition", "Brand"} valuearray= {"HP = 1/4", "TEAO"} remaininginput= 1725RPM 115V 48YZ YOKE MTR |
Pencils #2HB Nontoxic Lead 12 / Box Wood |
attributearray= {"Graphite Grade", "Grouping", "Stationary Type"} valuearray= {"#2HB", "12 / BOX", "Pencils"} remaininginput= Nontoxic Lead Wood |