属性の抽出

「属性の抽出」プロセッサは、テキストを含む単一の文字列を入力として取得し、参照データ(正規表現またはリテラル文字列、あるいはその両方)を使用して文字列から同一の情報を出力して、文字列内の属性を識別できるようにします。たとえば、部品番号、数量、色などの特定のデータ項目を製品の説明テキスト・フィールドから抽出するために使用できます。

相互に関連付けられた配列のペア(属性ラベルを含むものと、その値を含むもの)として情報が出力されます。

また、一致が見つからず抽出されなかった残りのテキスト以外のすべての抽出値が削除された入力テキストである「残りの入力」も出力されます。

これは、値が抽出される方法を制御します。たとえば、会社名属性からビジネス接尾辞を抽出する場合は、リストの値で終了している場合にのみ値を抽出します。

構成 説明

入力

属性の抽出元である文字列。

オプション

次のオプションを指定します。

  • 照合する正規表現: 照合する正規表現のリストであり、2つの列(最初の列が正規表現で、2番目の列がAttributeArrayに出力される対応ラベル)が含まれる参照データを通じて提供されます。参照データの定義は、「参照データの検索」ボタンをクリックして編集できます。デフォルトの選択は空です。

  • 照合するリテラル値。: 照合するリテラル値のリストであり、2つの列(最初の列がリテラル値で、2番目の列がAttributeArrayに出力される対応ラベル)が含まれる参照データを通じて提供されます。参照データの定義は、「参照データの検索」ボタンをクリックして編集できます。デフォルトの選択は空です。

  • 大文字/小文字を区別しない: 指定されたリストでリテラル値を照合するときに大/小文字を無視するかどうか。デフォルトは「はい」です。

出力

抽出が実行されたレコードおよび抽出が実行されなかったレコードの数。

データ属性

次のデータ属性が出力されます。

  • AttributeArray: 入力文字列から抽出される属性ラベルの配列。

  • ValueArray: ラベルの対応する索引の属性値を含む配列。

  • RemainingInput: すべての属性が抽出された後に入力文字列内に残っているテキスト、つまり、リテラルおよび正規表現に一致しなかったテキストです。

フラグ

次のフラグが出力されます。

  • AttributesExtractedFlag: 属性が抽出されている場合、Yです。そうではない場合、Nです。

この例では、文字列は入力であり、結果の属性とその値は出力です。

入力文字列 結果属性/結果値

TEAO HP = 1/4 1725RPM 115V 48YZ YOKE MTR

attributearray= {"Definition", "Brand"}

valuearray= {"HP = 1/4", "TEAO"}

remaininginput= 1725RPM 115V 48YZ YOKE MTR

Pencils #2HB Nontoxic Lead 12 / Box Wood

attributearray= {"Graphite Grade", "Grouping", "Stationary Type"}

valuearray= {"#2HB", "12 / BOX", "Pencils"}

remaininginput= Nontoxic Lead Wood