Classify

「Parse」「Classify」サブプロセッサでは、ルールを使用してトークンを分類することにより、データに意味を加えます。

「Classify」では、いくつかのトークン・チェックをデータに適用します。各トークン・チェックでは、特定の意味(たとえば、郵便番号)によって、ベース・トークンまたはベース・トークンの配列を分類します。

各トークン・チェック内で、複数のルールを使用できます。各ルールでは、リストに対してデータを照合するなどの方法でデータをチェックし、チェックに合格したデータを、トークン・チェックの名称および信頼レベル(「Valid」または「Possible」)に対応するタグを使用して分類します。

特定のトークンが複数のトークン・チェックとマッチする場合は、可能な意味が複数になることに注意してください。たとえば、トークン「Scott」は、「valid Forename」(有効な名)と「valid Surname」(有効な姓)の両方に分類できます。後続の「Select」サブプロセッサでは、データ内のトークンのコンテキストに基づき、可能なすべての意味の中から最適な意味を各トークンに割り当てます。

用途

分類は、パースの中で不可欠な部分です。分類ルールを使用して、データ内のトークン(数値、単語、フレーズなど)に意味を与えます。後続のステップでは、トークン分類のパターンを使用して、データを検証し、新しい出力構造に解決できます(該当する場合)。

多くの場合、分類ルールでは、「Phrase Profiling」および「Frequency Profiling」の結果を使用してデータ自体から作成された単語やフレーズのリストを使用します。

構成

「Classify」の「Configuration」ウィンドウには、「Token Checks」「Attributes」の2つのタブがあります。

「Token Checks」タブは、様々なトークンに対するいくつかのチェックを組み合せて分類ルールを構成するために使用します。

「Attributes」タブは、これらのトークン・チェックを入力属性に関連付けるために使用します。

トークン・チェック

トークン・チェックは、特定の意味を持つデータを識別するための1つ以上のルールで構成されます。

通常、トークン・チェックは、値リストを使用してデータを識別する1つのルールで構成されます。たとえば、「Title」トークン・チェックでは、有効な敬称(Mr、Mrs、Msなど)の参照リストを使用する1つのリスト・チェック・ルールが使用されます。

ただし、より複雑なタイプのトークン・チェックも構成できます。これは、有効なトークン値のリストを維持できない(たとえば、可能な値が多すぎるため)場合に必要になることが多いです。

たとえば、個人の氏名をパースするときは、次のトークン・チェックを使用できます。

トークン・チェック: Forename

順序

ルール・タイプ

条件

判定

1

リスト・チェック

一般的な名のリストとマッチ

Valid

2

ベース・トークン・チェック

ベース・トークン・タグ「A」とマッチ

Possible

トークン・チェック: Surname

順序

ルール・タイプ

条件

判定

1

リスト・チェック

一般的な姓のリストとマッチ

Valid

2

リスト・チェック

無効なデータ・トークンのリストとマッチ

Invalid

3

属性の単語長チェック

長さが2単語を超えている場合

Invalid

4

ベース・トークン・チェック

次のベース・トークン・パターンとマッチ

A(例: Davies)

A-A(例: Smith-Davies)

A_A(例: Taylor Smith)

Possible

重要なのは、各トークン・チェック内のルールが順番に処理されることです。つまり、チェック内の上位のルールを満たすと、下位のルールは処理されません。たとえば、トークン「Smith」は、前述の「Surname」トークン・チェックの1番目のルールで「Valid Surname」(有効な姓)に分類されると、4番目のルールで「Possible Surname」(可能な姓)に分類されることはありません。同様に、トークン「Unknown」は、2番目のルールで「Surname」の分類から除外されると、4番目のルールで「Possible Surname」(可能な姓)に分類されることはありません。

このように、トークン・チェックは肯定的または否定的に使用できます。リストと照合して「Valid」または「Possible」のトークンを肯定的に識別するか、または、無効なトークンを否定的に識別して、それ以外のトークンのみを「Valid」または「Possible」と分類できます。

各トークン・チェック内では、次のタイプの分類ルールを使用できます。

ルール・タイプ

説明

リスト・チェック

属性のデータがリストまたはマップにマッチするかどうかをチェックします。

マップを使用する場合は、パーサー内で、マッチしたトークンの置換(標準化)を実行できます。「Use replacements in output」オプションを選択すると、出力内では、マッチした値ではなく、マップされた値(ある場合)が使用されます。

また、ノイズ文字(リストと照合する前に削除する文字)の参照データ・セットを指定できます。

正規表現チェック

属性のデータが正規表現にマッチするかどうかをチェックします。

属性完全性チェック

属性に意味のあるデータ(空白文字以外)が含まれるかどうかをチェックします。

パターン・チェック

属性のベース・トークンが文字パターンまたは文字パターンのリストにマッチするかどうかをチェックします。

属性の文字長チェック

属性内のデータの長さ(文字数)をチェックします。

属性の単語長チェック

属性内のデータの長さ(単語数)をチェックします。

ベース・トークン・チェック

属性のトークンが特定のベース・トークン・タグ(「A」など)にマッチするか、または、トークンのパターンがベース・トークン・タグの特定パターン(「A-A」など)にマッチするかどうかをチェックします。

後述の特殊文字に関する注意を参照してください。

特殊文字

「www.example.com」などの値についてピリオドを含むベース・トークン・パターン(「A.A.A」など)をチェックする場合、パースではピリオドは特殊文字になるため、参照データに入力する際はピリオドの前に「\」を付ける必要があります。たとえば、ベース・トークン・パターン「A.A.A」をチェックするには、「A\.A\.A」と入力する必要があります。

注意: ピリオドをタグ付けする際に、デフォルトのベース・トークン・タグ「P」ではなく、ピリオド文字(.)をそのまま使用するには、パースで使用するデフォルトの「Base Tokenization Map」を編集する必要があります。

属性へのトークン・チェックの適用

トークン・チェックを属性に適用するには、「Attributes」タブで矢印ボタン(またはドラッグ・アンド・ドロップ)を使用して、属性に対してトークン・チェックを選択したり選択を解除します。通常は、同じトークン・チェックを複数の属性に適用したり、1つの属性に複数のトークン・チェックを適用します。

どのトークン・チェックをどの属性に適用するかを決定する際に、「Phrase Profiling」の結果が役立つことが多いです。これは、どのタイプのトークンがどこに出現しているかを簡単に確認できるためです。

属性に関連のないトークン・チェックを追加すると(つまり、何も影響がない)、「Classify」の「configuration」ダイアログを終了する前に警告メッセージが表示されます。

この例では、複数のトークン・チェックを使用して、「TITLE」および「NAME」属性をパースします。「TITLE」属性は、敬称トークンがチェックされます。「NAME」属性は、名、姓、イニシャル、名前修飾子および名前接尾辞がチェックされます。

「Token Checks」ビュー

「Token Checks」ビューには、属性ごとに各トークン・チェックのサマリーが表示され、分類された各トークン値の件数が分類レベル別(「Valid」および「Possible」)に表示されます。

ドリルダウンすると、各トークン、および各トークンが含まれるレコードの数を確認できます。たとえば、有効な名として分類されたトークンをドリルダウンすると、次のように表示されます。

再度ドリルダウンすると、関連するトークンを含むレコードが表示されます。1つのレコードに同じトークンが2回含まれる場合があることに注意してください(ただし、カウントされるのは1回のみです)。

「Classification」ビュー

「Classification」ビューには、分類ステップ後に生成されたトークン・パターン(データの説明)がすべて表示されます。同じトークンが複数の異なるチェックによって分類されることがあるため、特定の1つの入力レコードに対して複数のトークン・パターンが生成される場合があります。このため、同じレコードが複数のトークン・パターンでカウントされることがあります。

前述の例では、次のトークン・パターンが生成されます。

最も多いトークン・パターン「<valid Title><valid Forename>_<valid Surname>」が含まれるレコードの中には、2番目に多いトークン・パターン「<valid Title><valid Surname>_<valid Surname>」も含まれるレコードがあることに注意してください。ただし、前者のパターンの方が件数が多いため、「Select」サブプロセッサでパターン頻度選択を使用して、前者のパターンをこれらのレコードの最適な説明として選択できます。または、コンテキストに依存しないトークン・チェックに合格する場合でも、コンテキストに依存する再分類ルールを使用して、「Title」と「Surname」の間にあるトークンは「Surname」(姓)ではない、というインテリジェンスを追加できます。

「Unclassified Tokens」ビュー

「Unclassified Tokens」ビューには、属性ごとに、どのトークン・チェックでも分類されなかった(ベース)トークンの数が表示されます。これは、分類で使用されるリストに追加する必要がある値を検出するのに役立ちます。

前述の例の場合は、未分類トークンの次のビューが表示されます。

ドリルダウンすると、各トークンとその出現頻度が表示されます。たとえば、前述の「NAME」フィールドの未分類トークン「55」をドリルダウンできます。これにより、特異な文字、ダミー値およびスペルミスを検出できます。

このビューを使用して、分類リストに追加したり、新しいリストを作成(たとえば、ダミー値を認識するためのリストを作成)できます。

「Parse」プロセッサの次の構成ステップ(オプション)は、データの再分類です。

Oracle (R) Enterprise Data Qualityオンライン・ヘルプ バージョン8.1
Copyright (C) 2006,2011 Oracle and/or its affiliates.All rights reserved.