属性タグの使用方法
「解析」プロセッサの「マップ」サブプロセッサは、「解析」プロセッサのために内部属性を定義し、実際の入力属性を内部属性にマップします。「解析」プロセッサのその他の機能は、内部属性に対応して定義されるため、構成された「解析」プロセッサは、入力を再マップするだけで様々な入力データ・ソースに対して再利用できます。各内部属性は、「解析」プロセッサを構成するユーザーが定義する名前と、自動的に生成され編集できない属性タグによって識別されます。属性タグは、a1、a2、a3のような形式です。
属性タグを使用して、別の入力属性に基づく同じトークンのインスタンスを区別することができます。たとえば、名前データの分析に使用されている「解析」プロセッサは、Title、ForenameおよびSurnameという3つの内部属性を定義できます。属性タグを使用すると、Titleフィールドから抽出された有効な敬称の処理方法を、Forenameフィールドから抽出された有効な敬称の処理方法と別のものにすることができます。
この区別は「解決」サブプロセッサで行われます。次のトークン・パターンのみに可能性があるとします。
<valid Title> <valid Forename> <valid Surname>
この場合、入力ステージで各トークンが含まれていた属性に対する参照がないことがすぐにわかります。属性タグを使用しないと、次の4つの入力パターンはすべて同様に解決されます。
表1-130 入力パターンの解決
パターン | Title (a1) | Forename (a2) | Surname (a3) |
---|---|---|---|
1 |
<valid Title> |
<valid Forename> |
<valid Surname> |
2 |
<valid Title> <valid Forename> |
<valid Surname> |
|
3 |
<valid Title> <valid Forename> <valid Surname> |
||
4 |
<valid Title> |
<valid Forename> <valid Surname> |
通常、フィールドが適切に設定された正しいデータを含むレコードは、フィールド設定が適切でない正しいデータを含むレコードよりも品質が高いとみなされます。この基準に従って、検索基準に属性タグを含めて、最初のパターンをその他のパターンと区別する解決ルールを定義できます。パターン1に対応する検索条件は次のようになります。
<valid a1.Title> <valid a2.Forename> <valid a3.Surname>
次の解決ルールには具体的でない検索条件を含めることで、パターン2、3および4に対応します。これらには低いフォーマット品質に基づいて別の解決結果が割り当てられます。
注意:
解決ルールは順序どおりに適用されるため、具体的なルールを一般的なルールよりも先にテストする必要があります。そうしないと、一般的なルールがすべてのパターンに適用され、具体的な一致パターンが処理されなくなります。
詳細な例
次の表では、解決ルールの検索文字列の詳しい例を示し、前述のパターンのどれと一致するかを説明します。
表1-131 検索文字列の詳細な例
検索文字列 | 一致するパターン |
---|---|
<valid a1.Title> <valid a2.Forename> <valid a3.Surname> |
1 |
<valid Title> <valid a2.Forename> <valid a3.Surname> |
1, 2 |
<valid Title> <valid a2.Forename> <valid Surname> |
1, 2, 3 |
<valid Title> <valid Forename> <valid a3.Surname> |
1, 2, 4 |