Select

「Select」は、「Parse」のサブプロセッサの1つです。「Select」ステップでは、各レコードを説明する生成済の可能なトークン・パターンをすべて取得し、条件を組み合せて使用して、データを最もよく理解できるパターンが選択されます。

使用される条件は次のとおりです。

選択では、調整可能なアルゴリズムを使用して、データを最もよく説明するトークン・パターンが選択されます。場合によっては、1つのトークン・パターンを選択できないことがあります。たとえば、未分類トークンの数、データ・セット内での出現回数、および分類での信頼レベルがすべての同じ候補パターンが2つ以上ある場合です。このような場合、そのレコードは、パターン選択であいまいなパターンがあるとマークされます。レコードにパターン選択であいまいなパターンが1つ以上ある場合、(「Resolve」ステップであいまいなパターンのオプションに従って)そのレコードに結果を割り当てることはできますが、そのデータを出力フォーマットにマップすることはできません。

用途

「Parse」プロセッサでは、選択を実行して各入力レコードを最もよく理解できるトークンを取得し、それを「Resolve」ステップで使用して結果を割り当て、データを新しい出力フォーマットに解決します。

たとえば、単一の「NAME」フィールドをパースするとき、データ「ADAM SCOTT」は、「<valid Forename>_<valid Surname>」または「<valid Surname>_<valid Forename>」のいずれかの単純な分類ルールで説明できます。正しい答えは、データ・セット内のデータのフォーマットによって決まる場合があります。残りの氏名のほとんどが「<Forename> <Surname>」のフォーマットの場合、これが最も可能性の高いパターンとみなされ、この個人の氏名は「Adam Scott」である可能性が高くなります。これに対して、残りの氏名が「<Surname> <Forename>」のフォーマットであることが多い場合、この個人の氏名は「Scott Adam」である可能性が高くなります。

また、2つの異なるトークン・チェックによってトークンが2つの異なる信頼レベルに分類された場合(たとえば、トークン「ADAM」が<valid Forename>と<possible Surname>に指定された場合)、暗黙的に、<valid Forename>である可能性が高くなります。

構成

「Select」サブプロセッサの構成方法を理解するには、最適なパターンの選択に使用されるロジックを理解することが重要です。

デリミタの扱い

このオプションは、選択プロセスでのデリミタ・トークンの扱いを定義します。8.1以前のバージョンのEDQでは、デリミタは選択プロセスで未分類トークンとしてカウントされていました。これ以降のバージョンのEDQで作成された新しいプロセッサでは、デフォルトで、デリミタは未分類トークンのカウントに含まれません。

未分類トークンの数が最小のパターンのみ最終選択アルゴリズムに渡されるため、デリミタの分類によってプロセッサの動作が変わる可能性があります。

未分類トークンが多いパターンの無視

選択では、他より未分類トークンが多いパターンは自動的に無視されます。たとえば、住所をパースするとき、「Town」属性のデータ「Newcastle Upon Tyne」からは次のトークン・パターンが生成され(「Newcastle」と「Newcastle Upon Tyne」の両方が「valid Town」のリストに含まれていると仮定した場合)、<valid Town>トークンとして分類されます。

たとえば、住所をパースするとき、「Town」属性のデータ「Newcastle Upon Tyne」からは次のトークン・パターンが生成され(「Newcastle」と「Newcastle Upon Tyne」の両方が「valid Town」のリストに含まれていると仮定した場合)、<valid Town>トークンとして分類されます。

<valid Town>_<A>_<A>

<valid Town>

この場合、2番目のパターンの方が未分類トークンが少ないため、「Parse」では常に2番目のパターンが優先されます。

アルゴリズムによる選択

「Select」では、次のアルゴリズムを使用して、特定のレコードに対して最適なトークン・パターンを選択します。アルゴリズムは特定のポイント(後述)で調整可能で、選択の厳密度を調整できます。

調整可能なすべてのパラメータは、「Advanced」タブで調整できます。

ステップ

オプション

使用する条件

ロジック

調整可能なパラメータ

1

Yes(後述の説明を参照)

サンプル・データ内のトークン・パターンの出現頻度(結果から生成)

a)最も頻出するパターンの頻度が他の可能なパターンよりn%(構成可能)以上高い場合は、最も頻出するパターンを選択します。

可能なパターンが複数残っている場合は、bに進みます。

b)最も頻出するパターンより頻度がp%(構成可能)以上低いパターンは無視します。

可能なパターンが複数残っている場合は、ステップ2に進みます。

n(デフォルトは10%)

p(デフォルトは20%)

2

No

パターン内のトークン分類の信頼レベル(「valid」または「possible」)

次のように、可能なパターンごとにスコアを生成します。

100ポイントから開始します。

a)未分類トークン1つにつき、qポイントを引きます。

b)信頼レベルが「Possible」のトークン1つにつき、rポイントを引きます。

最高スコアのパターンが他よりsポイント高い場合は、最高スコアのパターンを選択します。

q(デフォルトは10)

r(デフォルトは5)

s(デフォルトは5)

頻度サンプルを使用したパターン選択(前述の表のステップ1)

これはオプションのステップですが、複雑なパース・ニーズがある場合は実行することをお薦めします。

「Parse」プロセッサの1回目の実行では、データ・セット内の頻度を分析して最適なトークン・パターンを選択することはできません。これは、「Parse」では最初に可能なすべてのパターンを生成する必要があるためです。

「Parse」プロセッサを1回以上実行した後に、次のことが可能です。

各実行で生成される事前選択パターン・データを自動的に使用するのではなく、静的なサンプルを使用することにより、入力データ・セットのサイズに関係なく、「Parse」プロセッサで予測可能な選択を行うことができます。これにより、サンプルが同じ場合は、特定のレコードに対して常に同じ説明が選択されます。

適切な説明のセットを生成する前に、パーサーを繰返し実行し、分類ルールや再分類ルールを変更する場合があるため、多くの場合、結果の更新が必要になります。

その他のオプション

前の項で説明したパターン選択アルゴリズムで使用されるパラメータは、オプションを使用して調整できます。これらのオプションは、オプションを変更するとパーサーのインテリジェンスに重大な影響を与える場合があることを理解している上級ユーザーのみが変更してください。

この例では、選択アルゴリズムの調整可能なすべてのパラメータでデフォルト値(前述)を使用することに注意してください。

単一の「NAME」属性の分析で、値「DR Adam FOTHERGILL ESQ」を含むレコードからは、次のパターンを始めとする可能なトークン・パターンが生成されます。

1. <valid Title>_<possible Surname>_<possible Surname>_<valid Honorific>

2. <valid Title>_<valid Forename>_<possible Surname>_<valid Honorific>

3. <valid Title>_<valid Forename>_<possible Surname>_<possible Surname>

4. <A>_<A>_<A>_<A>

Etc.

最初に、パターン4は、他のパターンより未分類トークンが多く含まれているため無視されます。

残りの3つのトークン・パターンが選択アルゴリズムに渡されます。

ステップ1aでは、サンプル・データ内でいずれかのパターンの頻度が他のパターンより10%以上高い場合、そのパターンが選択されます。該当しない場合、ロジックはステップ1bに進みます。

ステップ1bでは、サンプル・データ内で最も頻出するパターンより頻度が20%以上低いパターンがある場合、それらのパターンは無視されます。複数のパターンが残っている場合、ロジックはステップ2に進みます。

ステップ2では、残りのパターンがスコア付けされます。ここでは、パターン1、2および3がすべて残っていると仮定して、次のようにスコア付けされます。

パターン1: 100ポイント -10ポイント(2つの「Possible」トークン) = 90ポイント

パターン2: 100ポイント -5ポイント(1つの「Possible」トークン) = 95ポイント

パターン3: 100ポイント -10ポイント(2つの「Possible」トークン) = 90ポイント

この場合、しきい値差異のデフォルトの5ポイント(これより高い値ではない)を使用すると、パターン2が選択されます。

適切なトークン・パターンが選択された後、「Parse」プロセッサの最後の構成ステップはデータの解決です。

 

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.