解析

「解析」プロセッサは、データを理解して構造を改善するための強力なツールです。手動で構成したビジネス・ルールおよび人工知能の両方を適用して、1つまたは複数の属性内のデータの意味を分析して理解できます。さらに、ルール内でその意味を使用して、データを検証し、必要に応じてデータを再構築できます。たとえば、「解析」を使用すると、誤って住所属性に取得された名前データを認識でき、必要に応じて、そのデータを異なる構造の新しい属性にマップできます。

「解析」プロセッサは、任意のタイプのデータを認識して変換するように構成できます。EDQにおける解析の詳細は、「解析の概念ガイド」を参照してください。詳細

「解析」プロセッサには多様な用途があります。たとえば、「解析」を使用して次のことができます。

  • 特定のビジネス目的に応じて改善された構造をデータに適用します。たとえば、正確な照合処理を行うのに適した構造にデータを変換します。

  • 構造化されていない、または半構造化された形式のデータに構造を適用します。たとえば、1つのNotes属性に含まれるデータをすべて、複数の出力属性の固有項目に取得します。

  • 複数の属性内のデータが目的に対して意味的に適しているかどうか(バッチ・ベースまたはリアルタイム・ベースのいずれか)をチェックします。

  • 複数の入力属性からのデータの構造を変更します。たとえば、複数の異なるソース形式から単一のターゲット形式にデータを移行します。

解析の概要

パーサーは複数の段階で実行されます。各段階は、次の「構成」の項で詳細に説明しています。パーサーの処理の概要は、次のとおりです。

入力データ >

  1. トークン化: データの構文分析。データを最小の単位(基本のトークン)に分割します

  2. 分類: データの意味分析。意味をトークンに割り当てます

  3. 再分類: トークン・シーケンスで新しく分類されたトークンを調べます

  4. パターン選択: 可能な場合に、データの最適な説明を選択します

  5. 解決: データを必要な構造に解決し、結論を出します

> 出力データとフラグ

「解析」プロセッサの動作を全体的に理解するには、サンプル・レコードを確認するのが便利です。この例では「肩書き」、「名」、「姓」の3つの属性から個人名を解析しています。

入力レコードの例

次のレコードが入力です。

敬称

Mr

Bill Archibald

SCOTT

トークン化

トークン化によって、レコードは次のようにトークン化されます。トークン「Mr」、「Bill」、「Archibald」および「SCOTT」が認識され、トークン・タグ<A>が割り当てられます。また、「Bill」と「Archibald」の間のスペースもトークンとして認識され、トークン・タグ<_>が割り当てられます。トークン化では、常に、基本のトークンの単一パターンが出力されます。この場合、パターンは次に示すとおりとなります(「トークン化」ビューより)。

敬称

<A>

<A>_<A>

<A>

分類

次の「分類」では、名前と肩書きのリストに分類ルールを使用して、レコードのトークンを分類します。複数のリストに出現する名前もあるので、トークンによっては複数の形で分類されます。たとえば、トークン「Archibald」は<possible forename>と<possible surname>のどちらにも分類され、トークン「SCOTT」は<possible forename>と<valid surname>のどちらにも分類されます。そのため「分類」では、次の「分類」ビューに示すように複数の分類パターンが出力されます。

敬称

<valid title>

<valid forename>_<possible_surname>

<possible forename>

<valid title>

<valid forename>_<possible_forename>

<possible forename>

<valid title>

<valid forename>_<possible_surname>

<valid surname>

<valid title>

<valid forename>_<possible_forename>

<valid surname>

再分類

ここまでで、データについて複数の記述ができました。しかし、「名」属性には次の「再分類」ルールを適用する必要があるかもしれません。トークン'Archibald'は名としても有効なので、それが間違いなくミドル・ネームを表すことを示すためです。

名前 検索 再分類基準 結果

名の後にミドルネーム

<valid forename>(<possible forename>)

ミドルネーム

有効

このルールは「名」属性の「<valid forename>(<possible forename>)」というパターンに対して機能し、上の2番目と4番目の分類パターンに影響します。「再分類」では新しいパターンを追加しますが、既存のパターンを削除するわけではないので、次の表に示すように元の4つのパターンと新しい2つのパターンが並びます。

敬称

<valid title>

<valid forename>_<possible_surname>

<possible forename>

<valid title>

<valid forename>_<possible_forename>

<possible forename>

<valid title>

<valid forename>_<possible_surname>

<valid surname>

<valid title>

<valid forename>_<valid_middlename>

<valid surname>

<valid title>

<valid forename>_<valid_middlename>

<possible forename>

<valid title>

<valid forename>_<possible_forename>

<valid surname>

注意:

「再分類」ビューには、「選択」プロセスの入力として事前選択されていたパターンしか表示されません。事前選択は、選択プロセスの最初の段階では構成できず、未分類のトークンが多すぎるパターンは除外されます。事前選択プロセスは、まずこれまでに生成されたパターンをすべて調査し、いずれかのパターンに存在する未分類のトークンの最小数を決定します。次に、未分類のトークンがその数より多いパターンがあれば除外されます。上の例では、どのパターンにも未分類のトークンは含まれていないため、未分類トークンの最小数はゼロです。どのパターンにも1つ以上の未分類トークンは含まれていないので、どのパターンも事前選択プロセスで除外されることはありません。

選択

「選択」に進むと、6つの可能性から最適なパターンを選ぼうとします。上の例では、すべてのトークン分類で結果が「有効」になっているので、4番目のパターンが最も強力だとわかります。したがって、デフォルトの選択ルールを使用して各パターンにスコアを付けることによって最初のパターンが選択され、「選択」ビューに表示されます。

敬称

<valid title>

<valid forename>_<valid_middlename>

<valid surname>

解決

選択パターンがレコードの適切な説明であることを確認すると、パターンを出力属性に解決して結果を割り当てることができます。この場合は、上で選択したパターンを右クリックして「解決」を選択し、「完全」解決ルールを追加します。

ここではデフォルトの出力割当て(実行した分類に従う)を使用し、「既知の氏名書式」というコメントを付けて、このパターンに「成功」の結果を割り当てます。

このルールで「解析」を再実行すると、このルールで入力レコードが解決されていることがわかります。

ID ルール 結果 コメント カウント

1

完全ルール

成功

既知の氏名書式

1

最後に、レコードをドリルダウンすると、この解決ルールに従ってデータが正しく出力属性に割り当られたことが確認できます。

敬称 UnclassifiedData.Parse title.Parse forename.Parse surname.Parse

Mr

Bill Archibald

SCOTT

Mr

Bill

SCOTT

構成

「解析」は、複数のサブプロセッサを備えた拡張プロセッサです。各サブプロセッサは、解析の異なるステップを実行し、個別に構成する必要があります。次のサブプロセッサが「解析」プロセッサを構成しており、それぞれ、次に示すように固有の機能を実行します。

サブプロセッサ 説明

入力

解析する入力属性を選択し、ダッシュボード公開オプションを構成できます。有効な入力は文字列属性のみであることに注意してください。

マップ

入力属性を、パーサーで必要な入力属性にマップします。

トークン化

「トークン化」では、データを構文的に分析し、ルールを使用してデータを最小単位(ベース・トークン)に分割します。各ベース・トークンにはタグが指定されます。たとえば、<A>は英字の完全なシーケンスに対して使用されます。

分類

「分類」では、データを意味的に分析し、ベース・トークンまたはベース・トークンのシーケンスに意味を割り当てます。各分類には、「建物」などのタグと分類レベル(「有効」または「可能性のあるもの」)があり、あいまいなデータに対して最適な説明を選択するときに使用されます。

再分類

「再分類」はオプションのステップで、分類されたトークンと未分類(ベース)トークンのシーケンスを新しい単一のトークンとして再分類できます。

選択

「選択」では、レコードに可能な説明(つまり、トークン・パターン)が複数ある場合に、調整可能なアルゴリズムを使用してデータの最適な説明を選択します。

解決

「解決」では、ルールを使用して、データの選択された説明(トークン・パターン)を、結果(「成功」、「レビュー」または「失敗」)および「コメント」(オプション)に関連付けます。また、選択されたトークン・パターンに従って、データを新しい構造に出力するためのルールを構成できます。

拡張オプション

一部の結果ビューが不要な場合、最適なパフォーマンスを得るために、パーサーには2つの実行モードがあります。

次の2つのモードがあります。

  • 解析とプロファイル

  • 解析

「解析とプロファイル」(デフォルト・モード)は、最初にデータを解析するときに使用する必要があります。これは、パーサーによって出力される「トークン・チェック」および「未分類のトークン」結果ビューが、分類で使用されるリストを作成および追加して解析ルールを定義する過程で役立つためです。

「解析」モードは、パーサーの分類構成が完了し、パフォーマンスの最適化が必要な場合に使用します。このモードで実行すると、「トークン・チェック」および「未分類のトークン」ビューは作成されないことに注意してください。

オプション

すべてのオプションはサブプロセッサごとに構成可能です。

出力

データ属性

出力データ属性は解決サブプロセッサで構成します。

フラグ

フラグ属性 目的 使用可能な値

[属性名].SelectedPattern

レコードに選択されたトークン・パターンを示す

選択したトークン・パターン

[属性名].BasePattern

トークン化から出力されたレコードの基本のトークン・パターンを示す(パーサーを使用して純粋にこのパターンを生成する場合)

基本のトークン・パターン

ParseResult

レコードに対するパーサーの結果を示す。

「不明」/「成功」/「レビュー」/「失敗」

ParseComment

レコードの解決ルールのユーザー指定のコメントを追加します。

レコードを解決した解決ルールに対するコメント

ダッシュボードへの公開

「解析」プロセッサの結果は、ダッシュボードに公開できます。

デフォルトでは、結果について次の解釈が使用されます。

結果 ダッシュボードの解釈

成功

成功

レビュー

警告

失敗

アラート

実行

実行モード サポート

バッチ

あり

リアルタイム・モニタリング

あり

リアルタイム・レスポンス

あり

結果の表示

「解析」プロセッサでは、次に示す多数の結果ビューが作成されます。すべてのビューは、プロセス内の「解析」プロセッサをクリックして表示できます。「解析」プロセッサを展開してサブプロセッサを表示し、ビューを作成するサブプロセッサを選択して表示することもできます。

「基本のトークン化」ビュー(「トークン化」により作成)

このビューには、「トークン化」サブプロセッサの結果が表示され、すべての入力属性にわたって「基本のトークン」の個別パターンがすべて示されます。パターンは、頻度別に編成されます。

注意:

各レコードは、1つだけ基本のトークン・パターンを持ちます。多くのレコードには、同じ基本のトークン・パターンがあります。

統計 意味

入力属性ごと

入力属性のある基本のトークンのパターン

すべての属性にわたって個別の基本のトークン・パターンごとに、ビューの行が存在します

カウント

すべての属性にわたって個別の基本のトークン・パターンごとのレコード数

%

すべての属性にわたって個別の基本のトークン・パターンごとのレコードのパーセンテージ

「トークン・チェック」ビュー(「分類」により作成)

このビューには、「分類」サブプロセッサの結果が表示され、入力属性ごとのトークン・チェックの結果。

統計 意味

属性

トークン・チェックを適用した属性

分類子

トークンの分類に使用されるトークン・チェックの名前

有効

トークン・チェックによって「有効」と分類された個別のトークンの数

可能性のあるもの

トークン・チェックによって「可能性のあるもの」と分類された個別のトークンの数

「有効」または「可能性のあるもの」の統計をドリルダウンすると、分類した個別のトークンのサマリーと、それを含むレコードの数がわかります。再度ドリルダウンすると、これらのトークンを含むレコードが表示されます。

「未分類のトークン」ビュー(「分類」により作成)

統計 意味

属性

入力属性

未分類のトークン

その属性で未分類のトークンの合計数

「未分類のトークン」をドリルダウンすると、分類されたトークンとその頻度がすべてリスト表示されます。再度ドリルダウンすると、これらのトークンを含むレコードが表示されます。

「分類」ビュー(「分類」により作成)

このビューには、分類後(ただし再分類の前)に生成されたすべてのトークン・パターンのリストが表示されます。入力レコードごとに、可能性のあるパターンは多数ある可能性があります。

統計 意味

入力属性ごと

属性全体でのトークンのパターン。

すべての属性にわたって個別のトークン・パターンごとに、ビューの行が存在します。

カウント

トークン・パターンがデータの可能な説明であるレコードの数。同じレコードが可能性のある多くのトークン・パターンを持つ場合があり、各トークン・パターンが多くのレコードを説明する場合もあります。

%

データ・セットにわたって可能性のあるすべてのトークン・パターンのパーセンテージとして表されるカウント。

「再分類ルール」ビュー(「再分類」により作成)

このビューには、すべての再分類ルールのリストと、それがデータにどう影響するかが示されます。

統計 意味

ルールID

再分類ルールのID。IDは自動的に割り当てられます。ルール間に依存関係がある場合にはIDが便利です。後述する「前例」の統計を参照してください。

ルール名

再分類ルールの名前。

属性

再分類ルールが適用された属性。

検索

ルールの照合に使用されたトークン・パターン

再分類基準

再分類ルールのターゲット・トークン

結果

再分類ルールの分類レベル(有効または可能性がある)

影響を受ける結果

ルールによって影響されるレコードの数

影響を受けるパターン

ルールによって影響される分類パターンの数

前例

このルールに先行して適用されるその他の再分類ルールの数。たとえば、<A>を1つのルールで<B>として再分類し、<B>を別のルールで<C>として再分類する場合は、最初のルールが2番目のルールよりも優先されます。レコードに影響を与えなかった再分類ルールであっても、論理的に計算されるため、優先される場合があります。

「再分類」ビュー(「再分類」により作成)

このビューには、再分類後(ただし選択の前)に生成されたすべてのトークン・パターンのリストが表示されます。入力レコードごとに、可能性のあるパターンは多数ある可能性があります。このビューには、「選択」ステップで入力レコードごとに最適なパターンを選択しようとする前に、データ・セット全体にわたって可能性のあるすべてのパターンとその頻度が示されます。

注意:

このビュー自体のデータは、どのパターンを選択するかを制御するために使用されることがあります。つまり、データ・セット全体での共通度を表することによって、レコードのパターンを選択するように「選択」ステップを構成できるということです。選択サブプロセッサの構成を参照してください。

統計 意味

入力属性ごと

属性全体でのトークンのパターン。

すべての属性にわたって個別のトークン・パターンごとに、ビューの行が存在します。

カウント

トークン・パターンがデータの可能な説明であるレコードの数。同じレコードが可能性のある多くのトークン・パターンを持つ場合があり、各トークン・パターンが多くのレコードを説明する場合もあります。

%

データ・セットにわたって可能性のあるすべてのトークン・パターンのパーセンテージとして表されるカウント。

「選択」ビュー(「選択」により作成)

「選択」ステップの後で、各入力レコードは選択したトークン・パターンを持ちます。

このビューには、データ・セット全体で選択したパターンのビューと、その出現頻度が表示されます。

注意:

選択にあいまいさがあるために、レコードを説明する単一のトークン・パターンを選択できない場合、あいまいさがあるパターンが、同じあいまいさを持つレコードの数とともに表示されます。つまりこれは、選択されなかったが可能性のあるパターンの同じセットです。

統計 意味

入力属性ごと

属性にわたるトークンのパターン

すべての属性にわたって個別のトークン・パターンごとに、ビューの行が存在します。

完全ルール

トークン・パターンを解決した完全な解決ルール(ある場合)の数値識別子

あいまいルール

トークン・パターンを解決したあいまいな解決ルール(ある場合)の数値識別子

カウント

データの最適な説明としてトークン・パターンが選択されたレコードの数

%

トークン・パターンが選択されたレコードのパーセンテージ

「解決ルール」ビュー(「解決」により作成)

このビューには、各「解決ルール」によって実行された解決のサマリーが表示されます。これは、ルールが予定どおりに動作していることを確認するときに便利です。

統計 意味

ID

構成中に設定されたルールの数値識別子。

ルール

ルールのタイプ(「完全」ルールまたは「あいまい」ルール)

結果

ルールの「結果」(「成功」、「レビュー」、「失敗」)

コメント

ルールの「コメント」

カウント

このルールを使用して解決されたレコードの数。結果ブラウザで「追加情報」ボタンをクリックすると、これがパーセンテージとして表示されます。

「結果」ビュー(「解決」により作成)

統計 意味

成功

結果が「成功」のレコードの合計数

レビュー

結果が「レビュー」のレコードの合計数

失敗

結果が「失敗」のレコードの合計数

不明

「解析」で結果を割り当てられなかったレコードの数

出力フィルタ

「解析」プロセッサからは、次の出力フィルタが使用可能です。

  • 成功 - 「成功」の結果に割り当てられたレコード

  • レビュー - 「レビュー」の結果に割り当てられたレコード

  • 失敗 - 「失敗」の結果に割り当てられたレコード

  • 不明 - どの解決ルールにも一致せず、そのために個別の結果がないレコード

この例では、単一のNAME属性のデータを理解し、構造化された名前を出力するために完全な「解析」構成が使用されています。

「基本のトークン化」ビュー

「トークン・チェック」ビュー

「分類」ビュー

「未分類のトークン」ビュー

「再分類ルール」ビュー

「再分類」ビュー

「選択」ビュー

「解決ルール」ビュー

「結果」ビュー

「成功」結果のドリルダウン