パースの概念ガイド

パースが必要な理由

データが目的に適合するための重要な側面は、そのデータが検出される構造です。構造自体がデータのニーズに対して不適切な場合があります。次に例を示します。

明確な用途に関する明確な情報フィールドがデータ・キャプチャ・システムに用意されていない場合は、複数の異なる情報を単一の自由形式テキスト・フィールドに入力したり、場所が不明な情報に不適切なフィールドを使用する（たとえば、個人の連絡先フィールドに会社情報を記載する）など、ユーザーが代替の方法を講じることになります。
データを新しいシステムに異なるデータ構造で移動する必要があります。
データから重複を削除する必要がありますが、データ構造のために重複を識別して削除することが困難です（たとえば、建物番号などの主要な住所識別子が残りの住所部分と分割されていないなど）。

あるいは、データの構造は正常であっても、その使用が十分に制御されていない場合や、エラーになりやすいことがあります。次に例を示します。

必要なすべての情報を収集するようにユーザーが訓練されていない場合は、名称フィールドに実名ではなく「不正データ」で連絡先を入力するなどのイシューが生じます。
アプリケーションに非論理的な順序でフィールドが表示されると、ユーザーが間違ったフィールドにデータを入力する原因となります。
同じエンティティを表す複数のレコードに不正確なデータを入力したり、正確なデータを入力したがフィールドが間違っていたなど、ユーザーは検出困難な方法で重複するレコードを入力します。

これらのイシューはすべてデータ品質の低下原因となり、多くの場合、ビジネス・コストに悪影響を与えます。したがって、これらの問題についてデータを分析し、必要に応じて解決することがビジネスにとって重要です。

EDQパーサー

EDQの「Parse」プロセッサは、データ品質プロセスの開発者が使用するように設計されており、名称データ、住所データ、製品摘要など、特定タイプのデータの理解および変換について、パッケージ化されたパーサーを作成します。ただし、このパーサーは、データのタイプに固有のデフォルトのルールがない汎用パーサーです。データ固有のルールは、データ自体を分析し、パースの構成を設定することで作成できます。

用語

パースは、データ品質の領域とコンピュータ全般の両方でよく使用される用語です。これは、単なるデータの細分化から、コンピュータが人間の言語を理解できるように高度な人工知能を使用する完全な自然言語処理（Natural Language Parsing: NLP）までのすべてを意味します。他の多くの用語も、パースに関係があり頻繁に使用されます。また、これらは異なる状況では意味が若干異なる可能性があります。したがって、EDQでのパースおよびその関連用語の意味を定義することは重要です。

次の用語と定義に注意してください。

用語	定義
パース	EDQにおけるパースは、あらゆるタイプのデータを全体的に理解して検証し、必要に応じてその構造を目的にあうように改善するために、ユーザー指定のビジネス・ルールのアプリケーションおよび人工知能として定義されます。
トークン	トークンは、「Parse」プロセッサがルールを使用し、1単位として認識するデータの断片です。所定のデータ値は、1つまたは複数のトークンで構成できます。トークンは、データの構文的または意味的な分析を使用して認識できます。
トークン化	ルールを使用してデータを最小単位（ベース・トークン）に分割するためのデータの初期構文的分析。各ベース・トークンには、<A>などのタグが指定され、英字の完全な配列を表現するために使用されます。
ベース・トークン	トークン化により認識される初期トークン。分類または再分類では、新しいトークンを形成するために、一連のベース・トークンが後で結合される可能性があります。
分類	ベース・トークンまたはベース・トークンの配列に意味を割り当てるための、データの意味的分析。各分類には、「Building」などと分類レベル（「Valid」または「Possible」）で構成されるタグがあり、あいまいなデータに対して最適な理解を選択するときに使用されます。
トークン・チェック	特定のタイプのトークンをチェックするために、属性に対して適用される一連の分類ルール。
再分類	オプションの追加分類ステップで、分類されたトークンと未分類（ベース）トークンの配列を新しい単一のトークンとして再分類できます。
トークン・パターン	単一の属性内または複数の属性全体でのトークン・タグのパターンを使用したデータの文字列の説明。データの文字列は、様々な異なるトークン・パターンを使用して表現されます。
選択	レコードに可能な説明（つまり、トークン・パターン）が複数ある場合に、「Parse」プロセッサが、調整可能なアルゴリズムを使用してデータに最適な説明を選択しようとするプロセス。
解決	選択した所定の説明（トークン・パターン）と、結果（「Pass」、「Review」または「Fail」）およびオプションのコメントが付いたレコードの分類。解決では、選択されたトークン・パターンに基づいてルールを使用し、レコードを新しい出力構造に解決することもできます。

EDQの「Parse」プロセッサの要約

次の図は、EDQの「Parse」プロセッサの動作を示しています。

構成方法は、EDQの「Parse」プロセッサのヘルプ・ページを参照してください。