再分類

「解析」の「再分類」サブプロセッサは、オプションのステップで、分類済および未分類のトークンのシーケンス、または特定のコンテキストのトークンを認識し、特定の信頼レベル(「有効」または「可能性のあるもの」)を使用してそれらを新しいトークンに再分類することにより、データ内のトークンの各種パターンの合計数を減らすことができます。

「再分類」は、トークンのシーケンスを出力でまとめる場合、および属性内のトークンの類似する複数のパターンを同じとみなす場合に使用します。

たとえば、住所を解析するとき、最初の分類後のAddress1属性のデータは、次のような異なるパターンに分類されます。

<N>_<A>_<valid Road Hint> (例: 10 Harwood Street)

<N>_<A>_<A>_<valid Road Hint> (例: 15 Long End Road)

<A>_<valid Road Hint> (例: Nuttall Lane)

これらの異なるトークンのシーケンスはすべて「valid Thoroughfares」(有効な大通り)として再分類できます。

また、「分類」ステップではデータの特定の断片が検出される属性以外にコンテキストは考慮されないため、「再分類」ステップが役立ちます。再分類ルールを使用して、コンテキスト内で不正確に分類されたトークンを再分類できます。たとえば、データ「London Road」は、<valid Town> <valid Road Hint>に分類されます。このトークンのシーケンスを「valid Thoroughfare」として再分類するか、または、ルール内で<valid Town>部分をカッコで囲み、この部分を「ThoroughfareName」(大通り名)として再分類するかを選択できます。

構成

各再分類ルールでは、構成された式を使用して、分類後のトークンのパターンを照合し、一致した各パターンの一部を新しいトークンとして再分類します。

ルールは、ルールの再分類ダイアログにあるチェック・ボックスを使用して、簡単に有効または無効にできます。ルールは、「属性」タブで、必要な入力属性に関連付ける必要があります。

次の表では、再分類で使用される式の構文のガイドを示しています。

文字 使用

[ ]

シーケンスが発生する回数を指定するために、トークンのシーケンスをグループ化するために使用されます。必ず範囲(中カッコで囲む)か、*または+が続きます。

グループにピリオド(.)が含まれている場合、これはトークン(1つまたは複数)を表します。

[<A>]

トークン<A>と一致します

{ }

前のグループ(大カッコで囲む)のインスタンスがパターンつまりシーケンスで出現する回数を表す範囲を指定します。範囲は最小値と最大値で指定し、カンマで区切ります。

[<A>]{1,3}

シーケンス内でトークン<A>が1から3回出現する場合に一致します

[<A>]{2,2}

シーケンス内でトークン<A>が2回出現する場合に一致します

?

グループがオプションであることを示します。これは{0,1}と指定するのと同じ意味です。つまり、グループが出現しないか、1回のみ出現する場合に一致します。

[<title>]?

タイトル・トークンが出現しないか、1回出現する場合に一致します

+

中カッコ(前述)の中で数字のかわりに使用し、前のグループが1回以上出現する必要があり、何回出現してもよいことを示します。

[<A>]+

シーケンス内でトークン<A>が出現(任意の回数)する場合に一致します

*

中カッコの中で数字のかわりに使用し、前のグループが任意の回数出現するか、まったく出現しないことを示します。

[.]*

[.]

ワイルドカードを表し、任意のトークンに一致します。

これは、トークンの回数に関するルールと一緒に使用します。たとえば、[.]*とすると、任意の回数出現するトークンを表します。

[.]*(<N><valid RoadHint>)[.]*

シーケンス<N><valid RoadHint>が出現した場合にこのシーケンスを再分類し、パターン内の他のトークンは再分類しません

( )

パターンのうち、実際に再分類したい部分を囲みます。再分類自体ではなく、「再分類ルール」の照合でパターン・コンテキストを使用できます。

(<N><valid RoadHint>)<valid Town>

シーケンス<N><valid RoadHint>が「valid Town」トークンの前に出現した場合に、このシーケンスを再分類します。

" "

トークンのかわりにルールで使用される完全なデータを囲みます。

-

その他の注意点

次の再分類ルールに注意してください。

  • ワイルドカードを使用しないかぎり、各ルールでは属性内のトークン・パターン全体を照合します。

  • ルールを順序付ける必要はなく、すべてのルールがデータ・セットに適用されます。相互に依存するルールは自動的に順序付けされます。たとえば、<A>_<valid Road Hint>を<valid Thoroughfare>に再分類し、<N>_<valid Thoroughfare>を再分類する別のルールを追加すると、後者のルールは最初のルールの後に処理されます。循環するルールは許可されません。たとえば、あるルールで<A>を<B>に再分類し、別のルールで<B>を<A>に分類することはできません。

  • 区切り文字または空白文字を表す基本のトークン(「トークン化」ステップの構成から導出される)を、再分類ルールで指定するかどうかを選択できます。これを含めないと、ルールに対してパターンを照合するときに無視されます。これをルールに含める場合は、完全に一致する必要があります。たとえば、ルール<N><valid Road Hint>は<N>_<valid Road Hint>と<N>___<valid Road Hint>の両方と一致しますが、ルール<N>_<valid Road Hint>は前者のパターンとのみ一致します。

  • 照合するトークンの有効性レベルを指定するかどうかを選択できます。たとえば、ルール<N><Road Hint>は<N><valid Road Hint>と<N><possible Road Hint>の両方と一致します。

  • トークンの様々なシーケンスを同じターゲット・トークンに再分類する、複数の再分類ルールを使用できます。

この例では、2つの再分類ルールを使用し、Acacia AvenueやLondon Roadのような大通りを表すトークンのシーケンスを識別して、住所を解析するときに解決するパターンの合計数を少なくしています。

ルール名 検索 再分類基準 結果

大通り

[.]*([<A>]+<RoadHint>)[.]*

大通り

有効

町を道路名で再分類

[.]*([<Town>]+<RoadHint>)[.]*

大通り

有効

これら2つのルールは、どちらもAddress1属性に適用されます。ルールの結果は、プロセスの実行後に確認できます。

こうすると、影響されるレコードとパターンをドリルダウンし、各ルールが正しく動作することを確認できます。再分類ルールはそれぞれ、適用した属性内の多くのパターンに影響することがあり、それが分類パターン全体の多くに影響することがあります(複数の属性を解析する場合)。同じ入力レコードが複数の分類パターンを持つこともあるので(単一のトークンが複数の方法で分類されることがあるため)、同じレコードが、同じルールに影響される複数の分類パターンを持つ場合もあります。

前述の再分類ルールが適用された後は、「再分類」ビューで、いくつかのパターン内の<thoroughfare> トークンの外観を確認できます。

解析プロセッサを構成する次のステップとして、入力データの最適な説明を選択します。