分類

「解析」の「分類」サブプロセッサでは、ルールを使用してトークンを分類することにより、データに意味を加えます。

「分類」では、いくつかのトークン・チェックをデータに適用します。各トークン・チェックでは、特定の意味(たとえば、郵便番号)によって、基本のトークンまたは基本のトークンのシーケンスを分類します。

各トークン・チェック内で、複数のルールを使用できます。各ルールでは、リストに対してデータを照合するなどの方法でデータをチェックし、チェックに合格したデータを、トークン・チェックの名称および信頼レベル(「有効」または「可能性のあるもの」)に対応するタグを使用して分類します。

特定のトークンが複数のトークン・チェックと一致する場合は、可能な意味が複数になることに注意してください。たとえば、トークン「Scott」は、「valid Forename」(有効な名前)と「valid Surname」(有効な姓)の両方に分類できます。選択サブプロセッサでは、後で、データ内のトークンのコンテキストに基づき、可能性のあるすべての意味から最適なものを各トークンに割り当てることを試みます。

分類は、解析の中で不可欠な部分です。分類ルールを使用して、データ内のトークン(数値、単語、フレーズなど)に意味を与えます。後続のステップでは、トークン分類のパターンを使用して、データを検証し、新しい出力構造に解決できます(該当する場合)。

多くの場合、分類ルールでは、フレーズ・プロファイラおよび頻度プロファイラの結果を使用してデータ自体から作成された単語やフレーズのリストを使用します。

「分類」の「構成」ウィンドウには、「トークン・チェック」「属性」の2つのタブがあります。

「トークン・チェック」タブは、様々なトークンに対するいくつかのチェックを組み合せて分類ルールを構成するために使用します。

「属性」タブは、これらのトークン・チェックを入力属性に関連付けるために使用します。

トークン・チェック

トークン・チェックは、特定の意味を持つデータを識別するための1つ以上のルールで構成されます。

一般的に、トークン・チェックは、値のリストを使用してデータを識別する単一のルールで構成されます。たとえば、「Title」トークン・チェックの場合、1つのリスト・チェック・ルールが、有効な敬称(「さん」、「様」、「殿」など)の参照リストとともに使用されます。

ただし、さらに複雑なタイプのトークン・チェックを構成できます。これは、有効なトークン値のリストを維持できない場合(有効な値が多すぎる場合など)に、必要なことがあります。

たとえば、人名を解析するときに次のトークン・チェックが使用されます。

表1-124 トークン・チェック: Forename

順序 ルール・タイプ 条件 デシジョン

1

リスト・チェック

一般的なForenameのリストと一致

有効

2

基本のトークン・チェック

基本のトークン・タグと一致: A

可能性のあるもの

表1-125 トークン・チェック: Surname

順序 ルール・タイプ 条件 デシジョン

1

リスト・チェック

一般的なSurnameのリストと一致

有効

2

リスト・チェック

不正データ・トークンのリストと一致

無効

3

属性ワード長チェック

3語以上

無効

4

基本のトークン・チェック

基本のトークン・パターンと一致:

A (例: Davies)

A-A (例: Smith-Davies)

A_A (例: Taylor Smith)

可能性のあるもの

注意:

デフォルトではすべてのトークン・チェックが表示されます。適用対象の属性によってフィルタ処理するには、トークンのリストの上にあるドロップダウン選択フィールドで必要な属性を選択します。

各トークン・チェック内のルールは順序どおりに処理されることが重要です。つまり、チェックの上位のルールに該当する場合、下位のルールは処理されません。そのため、たとえば、トークンSmithが前述のSurnameトークン・チェックの上位ルールを使用して有効なSurnameとして分類された場合は、ルール4により可能性があるSurnameに分類されることはありません。同様に、トークンUnknownがルール2でSurnameとしての分類から除外された場合、ルール4によって可能性があるSurnameに分類されることはありません。

このように、トークン・チェックは肯定または否定のいずれでも使用できます。リストを照合して有効なトークンまたは可能性のあるトークンを識別する(肯定)か、無効なトークンを識別(否定)してから、それ以外のトークンを有効または可能性のあるものとして分類できます。

次のタイプの分類ルールを各トークン・チェックで使用できます。

表1-126 トークン・チェックでの分類ルール

ルール・タイプ 説明

リスト・チェック

属性についてリストまたはマップと一致するデータをチェックします。

マップが使用されるときは、一致したトークンの置換(標準化)をパーサー内で実行できます。「出力で置換を使用」オプションが選択されると、マップされた値(存在する場合)が、出力内の一致した値よりも優先して使用されます。

ノイズ文字(リストとの照合を試行する前に削除する文字)の参照データ・セットを指定できます。

正規表現チェック

属性について正規表現と一致するデータをチェックします。

属性完全性チェック

意味があるデータ(空白文字以外)が属性に含まれていることをチェックします。

パターン・チェック

属性について、文字パターンまたは文字パターン・リストと一致する基本のトークンをチェックします。このチェックでは大/小文字が区別されます。

属性文字長チェック

属性のデータの長さを文字数でチェックします。

属性ワード長チェック

属性のデータの長さを単語数でチェックします。

基本のトークン・チェック

属性について、所定の基本のトークン・タグ(Aなど)と一致するトークンまたは所定の基本のトークン・タグのパターン(A-Aなど)と一致するトークンのパターンをチェックします。

次の「特殊文字」の「注意」を参照してください。

特殊文字

ピリオドを含む基本のトークン・パターン(www.example.comなどの値に対してA.A.Aなど)をチェックしようとする場合、ピリオドは解析においては特殊文字であるため、参照データではピリオドの前に\を入力する必要があります。そのため、たとえば、基本のトークン・パターンA.A.Aをチェックする場合は、A\.A\.Aと入力する必要があります。

注意: ピリオドを、デフォルトの基本のトークン・タグPではなく文字(.)としてタグ付けするには、解析で使用されるデフォルトの基本のトークン化マップを編集する必要があります。

属性へのトークン・チェックの適用

トークン・チェックを属性に適用するには、「属性」タブで矢印ボタン(またはドラッグ・アンド・ドロップ)を使用して、「属性」に対する「トークン・チェック」を選択し、選択を解除します。同じトークン・チェックを多数の属性に適用したり、1つの属性に多数のトークン・チェックを適用したりするケースは一般的です。

どのトークン・チェックをどの属性に適用するかを決定するには、多くの場合、フレーズ・プロファイルの結果が役立ちます。どのタイプのトークンがどこにあるかがわかりやすいためです。

どの属性にも関連していないトークン・チェックを追加した場合(つまり効果がない場合)は、「分類」の「構成」ダイアログを終了する前に警告が表示されます。

この例では、TITLE属性とNAME属性がいくつものトークン・チェックを使用して解析されています。TITLE属性ではTitleトークンのみがチェックされます。NAME属性では、Forenames、Surnames、Initials、Name QualifiersおよびName Suffixesがチェックされます。

「トークン・チェック」ビュー

「トークン・チェック」ビューには、各属性内のそれぞれのトークン・チェックのサマリーが表示され、分類レベル(「有効」または「可能性のあるもの」)ごとに分類済トークンの個別値の数が示されます。

表1-127 「トークン・チェック」ビュー

属性 トークン・チェック 有効 可能性のあるもの

NAME

<Forename>

772

72

NAME

<Initial>

19

0

NAME

<Surname>

1623

70

NAME

<Qualifier>

7

0

NAME

<Suffix>

0

0

TITLE

<Title>

10

0

これをドリルダウンして、個別のトークンや各トークンを含むレコードの数を確認できます。たとえば、有効な名前として分類されたトークンをドリルダウンできます。

さらにドリルダウンすると、関連するトークンを含むレコードが表示されます。1つのレコードに同じトークンが2つ含まれる可能性もあることに注意してください(この場合1つとしてカウントされます)。

「分類」ビュー

「分類」ビューには、分類ステップの後で生成されたトークン・パターン(データの説明)がすべて表示されます。1つの入力レコードに対して複数のトークン・パターンが生成される可能性があります。同一のトークンが様々なチェックで分類されることがあるためです。つまり、同じレコードが複数のトークン・パターンの下に表示されることがあります。

最も一般的なトークン・パターン(<valid Title><valid Forename>_<valid Surname>など)が含まれている一部のレコードには、2番目に一般的なトークン・パターン(<valid Title><valid Surname>_<valid Surname>など)も含まれていることに注意してください。ただし、1つ目のパターンの方が多いため、選択サブプロセッサのパターン頻度選択を使用して、このパターンをこれらのレコードに最も可能性の高い説明として選択できます。または、状況依存の「再分類」ルール(「再分類」を参照)を使用して、状況に依存しないトークン・チェックを渡す場合でも、TitleとSurnameの間のトークンが別のsurnameである可能性が低いというインテリジェンスを追加することができます。

「未分類のトークン」ビュー

「未分類のトークン」ビューには、トークン・チェックで分類されなかった各属性内の(基本の)トークンの数が表示されます。これは、分類で使用されたリストに追加する必要がある値を探すために役立ちます。

前述の例では、次のような「未分類のトークン」ビューが表示されます。

表1-128 未分類のトークン

属性 未分類のトークン

NAME

55

TITLE

1

ドリルダウンすると、個別の各トークンと出現頻度が示されます。たとえば、前述のNAMEフィールドの55個の未分類トークンにドリルダウンできます。これにより、一般的でない文字、ダミー値およびスペルミスを確認できます。

表1-129 未分類のトークンへのドリルダウン

トークン 頻度 レコード数

#

13

13

-

12

12

TEST

4

4

テスト

3

3

Cluadia

1

1

DO

1

1

WHUR

1

1

ここでこのビューを使用して、分類リストに追加したり、新しいリストを作成したりできます(たとえば、ダミー値を認識するリストを作成します)。

解析プロセッサを構成する次のステップとして、オプションで、データを再分類します。