選択
「選択」は、「解析」のサブプロセッサの1つです。「選択」ステップでは、各レコードを説明する生成済の可能なトークン・パターンをすべて取得し、条件を組み合せて使用して、データを最もよく理解できるパターンが選択されます。
使用される条件は次のとおりです。
-
未分類のトークンの数
-
データ・セット内での可能な各説明の出現頻度(オプション)
-
分類の信頼レベル(「有効」または「可能性のあるもの」)
「選択」では、調整可能なアルゴリズムを使用して、データを最もよく説明するトークン・パターンが選択されます。場合によっては、1つのトークン・パターンを選択できないことがあります。たとえば、未分類トークンの数、データ・セット内での出現回数、および分類での信頼レベルがすべての同じ候補パターンが2つ以上ある場合です。この場合、そのレコードは、パターン選択であいまいなパターンがあるとマークされます。レコードにパターン選択であいまいなパターンが1つ以上ある場合、(「解決」ステップであいまいなパターンのオプションに従って)そのレコードに結果を割り当てることはできますが、そのデータを出力形式にマップすることはできません。
「解析」プロセッサでは、選択を実行して各入力レコードを最もよく理解できるトークンを取得し、それを「解決」ステップで使用して結果を割り当て、データを新しい出力形式に解決します。
たとえば、単一の「NAME」フィールドを解析するとき、データ「ADAM SCOTT」は、「<valid Forename>_<valid Surname>」または「<valid Surname>_<valid Forename>」のいずれかの単純な分類ルールで認識できます。正しい答えは、データ・セット内のデータの形式によって決まる場合があります。残りの氏名のほとんどが「<Forename> <Surname>」の形式の場合、これが最も可能性の高いパターンとみなされ、この個人の氏名は「Adam Scott」である可能性が高くなります。ただし、残りの氏名が一般的に「<Surname> <Forename>」の形式の場合、この個人の氏名は「Scott Adam」である可能性が高くなります。
また、トークンが2つの異なるトークン・チェックによって2つの異なる信頼レベルに分類された場合(たとえば、トークン「ADAM」が<valid Forename>と<possible Surname>に指定された場合)、暗黙的に、<valid Forename>である可能性が高くなります。
「選択」サブプロセッサの構成方法を理解するには、最適なパターンの選択に使用されるロジックを理解することが重要です。
デリミタの扱い
このオプションは、選択プロセスでの区切り文字トークンの扱いを定義します。8.1より前のバージョンのEDQでは、区切り文字は選択プロセスで未分類トークンとしてカウントされていました。これ以降のバージョンのEDQで作成された新しいプロセッサでは、デフォルトで、区切り文字は未分類トークンのカウントに含まれていません。
未分類トークンの数が最小のパターンのみ最終選択アルゴリズムに渡されるため、区切り文字の分類によってプロセッサの動作が変わる可能性があります。
未分類トークンが多いパターンの無視
選択では、他より未分類トークンが多いパターンは自動的に無視されます。たとえば、住所を解析するとき、Town属性のデータ「Newcastle Upon Tyne」からは次のトークン・パターンが生成されるため(「Newcastle」と「Newcastle Upon Tyne」の両方が「valid Town」のリストに含まれていると仮定した場合)、<valid Town>トークンとして分類されます。
たとえば、住所を解析するとき、Town属性のデータ「Newcastle Upon Tyne」からは次のトークン・パターンが生成されるため(「Newcastle」と「Newcastle Upon Tyne」の両方が「valid Town」のリストに含まれていると仮定した場合)、<valid Town>トークンとして分類されます。
<valid Town>_<A>_<A>
<valid Town>
この場合、2番目のパターンの方が未分類トークンが少ないため、「解析」では常に2番目のパターンが優先されます。
アルゴリズムによる選択
「選択」では、次のアルゴリズムを使用して、特定のレコードに対して最適なトークン・パターンを選択します。アルゴリズムは特定のポイント(後述)で調整可能で、選択の厳密度を調整できます。
調整可能なすべてのパラメータは、「拡張」タブで調整できます。
ステップ | オプション | 使用する基準 | ロジック | 調整可能なパラメータ |
---|---|---|---|---|
1 |
はい(次を参照) |
サンプル・データにおけるトークン・パターンの出現頻度(結果から生成) |
a) 可能性のある他のパターンよりn % (変更可能)低い頻度で出現する場合に、最も頻度の高いパターンを選択します。 可能性のあるパターンが2つ以上残る場合は、bに進みます。 b) 最も頻度の高いパターンよりp % (変更可能)低い頻度のパターンがあれば、割り引きます 可能性のあるパターンが2つ以上残る場合は、ステップ2に進みます。 |
n (デフォルトは10%) p (デフォルトは20%) |
2 |
いいえ |
パターンにおけるトークン分類の信頼レベル(「有効」または「可能性のあるもの」) |
可能性のある各パターンに、次のようにスコアを付けます。 100ポイントから開始して、次のようにします。 a) 未分類のトークン1つごとにqポイントを引く b) 信頼レベルが「可能性のあるもの」のトークン1つごとにrポイントを引く。 次に、sポイント高い場合に、最も高いスコアのパターンを選択します。 |
q (デフォルトは10) r (デフォルトは5) s (デフォルトは5) |
頻度のサンプルを使用してパターンを選択(上の表のステップ1)
このステップはオプションですが、複雑な解析が必要な場合は推奨です。
「解析」プロセッサを初めて実行するときは、データ・セット全体での頻度を解析して最適なトークン・パターンを選択することはできません。「解析」では、可能性のあるすべてのパターンを最初に生成する必要があるためです。
「解析」プロセッサを少なくとも1回実行した後には、次のようになります。
-
「+」ボタンをクリックすると、最新の結果(「再分類」ビューのデータ)から、新しいパターン頻度サンプルを作成できます。
-
「^」ボタンをクリックすると、最新の結果から選択したパターン頻度サンプルを更新できます。
実行するたびに生成される事前選択パターン・データを自動的に使用するかわりに、統計サンプルを使用すると、入力データ・セットのサイズにかかわらず、「解析」プロセッサに予測可能な選択を保証できます。こうすると、サンプルが同じ場合に、特定のレコードに対しては常に同じ説明が選択されます。
満足のいく説明のセットが生成されるまでにはパーサーの実行と、分類および再分類ルールの変更を何度も繰り返す必要があるため、結果の更新が必要なことは少なくありません。
その他のオプション
上の項で説明したパターン選択アルゴリズムで使用されるパラメータは、オプションで調整できます。オプションを変更すると、パーサーの情報に大きく影響する場合があるので、これらのオプションの変更は必ず熟練したユーザーが行ってください。
この例では、選択したアルゴリズムで調整可能なすべてのパラメータはデフォルト値を使用しています(前述)。
単一のNAME属性を解析するとき、"DR Adam FOTHERGILL ESQ"という値を持つレコードからは次のトークン・パターンが生成される可能性があります(他の可能性もある)。
1. <valid Title>_<possible Surname>_<possible Surname>_<valid Honorific> 2. <valid Title>_<valid Forename>_<possible Surname>_<valid Honorific> 3. <valid Title>_<valid Forename>_<possible Surname>_<possible Surname> 4. <A>_<A>_<A>_<A>
その他
まず、他のパターンより未分類のトークンが多いため、パターン4が割引きされます。
次に、残り3つのトークン・パターンが選択アルゴリズムに渡されます。
ステップ1aでは、いずれかのパターンの頻度がサンプル・データの他のパターンより10%以上高い場合に、このパターンが選択されます。そうでない場合、ロジックはステップ1bに進みます。
ステップ1bでは、いずれかのパターンの頻度が、最も頻度の高いパターンより20%以上低い場合に、このパターンが割り引かれます。複数のパターンが残った場合、ロジックはステップ2に進みます。
ステップ2では、残ったパターンにスコアが付けられます。パターン1、2、3がすべて残ったと仮定すると、スコアは次のようになります。
Pattern 1: 100 points – 10 points for 2 Possible tokens = 90 points Pattern 2: 100 points – 5 points for 1 Possible token = 95 points Pattern 3: 100 points – 10 points for 2 Possible tokens = 90 points
そのため、この場合はデフォルトしきい値の差である5ポイントを使用するので(それ以上高い値は使用しない)、パターン2が選択されます。
トークン・パターンの選択方法が適切であることを確認した後、解析プロセッサを構成する最後のステップとして、データを解決します。