解析

「解析」プロセッサは、データを理解して構造を改善するための強力なツールです。手動で構成したビジネス・ルールおよび人工知能の両方を適用して、1つまたは複数の属性内のデータの意味を分析して理解できます。さらに、ルール内でその意味を使用して、データを検証し、必要に応じてデータを再構築できます。たとえば、「解析」を使用すると、誤って住所属性に取得された名前データを認識でき、必要に応じて、そのデータを異なる構造の新しい属性にマップできます。

「解析」プロセッサは、任意のタイプのデータを認識して変換するように構成できます。EDQにおける解析の詳細は、「解析の概念ガイド」を参照してください。詳細

「解析」プロセッサには多様な用途があります。たとえば、「解析」を使用して次のことができます。

特定のビジネス目的に応じて改善された構造をデータに適用します。たとえば、正確な照合処理を行うのに適した構造にデータを変換します。
構造化されていない、または半構造化された形式のデータに構造を適用します。たとえば、1つのNotes属性に含まれるデータをすべて、複数の出力属性の固有項目に取得します。
複数の属性内のデータが目的に対して意味的に適しているかどうか(バッチ・ベースまたはリアルタイム・ベースのいずれか)をチェックします。
複数の入力属性からのデータの構造を変更します。たとえば、複数の異なるソース形式から単一のターゲット形式にデータを移行します。

解析の概要

パーサーは複数の段階で実行されます。各段階は、次の「構成」の項で詳細に説明しています。パーサーの処理の概要は、次のとおりです。

入力データ >

トークン化: データの構文分析。データを最小の単位(基本のトークン)に分割します
分類: データの意味分析。意味をトークンに割り当てます
再分類: トークン・シーケンスで新しく分類されたトークンを調べます
パターン選択: 可能な場合に、データの最適な説明を選択します
解決: データを必要な構造に解決し、結論を出します

> 出力データとフラグ

「解析」プロセッサの動作を全体的に理解するには、サンプル・レコードを確認するのが便利です。この例では「肩書き」、「名」、「姓」の3つの属性から個人名を解析しています。

入力レコードの例

次のレコードが入力です。

敬称	名	姓
Mr	Bill Archibald	SCOTT

トークン化

トークン化によって、レコードは次のようにトークン化されます。トークン「Mr」、「Bill」、「Archibald」および「SCOTT」が認識され、トークン・タグ<A>が割り当てられます。また、「Bill」と「Archibald」の間のスペースもトークンとして認識され、トークン・タグ<_>が割り当てられます。トークン化では、常に、基本のトークンの単一パターンが出力されます。この場合、パターンは次に示すとおりとなります(「トークン化」ビューより)。

敬称	名	姓
<A>	<A>_<A>	<A>

分類

次の「分類」では、名前と肩書きのリストに分類ルールを使用して、レコードのトークンを分類します。複数のリストに出現する名前もあるので、トークンによっては複数の形で分類されます。たとえば、トークン「Archibald」は<possible forename>と<possible surname>のどちらにも分類され、トークン「SCOTT」は<possible forename>と<valid surname>のどちらにも分類されます。そのため「分類」では、次の「分類」ビューに示すように複数の分類パターンが出力されます。

敬称	名	姓
<valid title>	<valid forename>_<possible_surname>	<possible forename>
<valid title>	<valid forename>_<possible_forename>	<possible forename>
<valid title>	<valid forename>_<possible_surname>	<valid surname>
<valid title>	<valid forename>_<possible_forename>	<valid surname>

再分類

ここまでで、データについて複数の記述ができました。しかし、「名」属性には次の「再分類」ルールを適用する必要があるかもしれません。トークン'Archibald'は名としても有効なので、それが間違いなくミドル・ネームを表すことを示すためです。

名前	検索	再分類基準	結果
名の後にミドルネーム	<valid forename>(<possible forename>)	ミドルネーム	有効

このルールは「名」属性の「<valid forename>(<possible forename>)」というパターンに対して機能し、上の2番目と4番目の分類パターンに影響します。「再分類」では新しいパターンを追加しますが、既存のパターンを削除するわけではないので、次の表に示すように元の4つのパターンと新しい2つのパターンが並びます。

敬称	名	姓
<valid title>	<valid forename>_<possible_surname>	<possible forename>
<valid title>	<valid forename>_<possible_forename>	<possible forename>
<valid title>	<valid forename>_<possible_surname>	<valid surname>
<valid title>	<valid forename>_<valid_middlename>	<valid surname>
<valid title>	<valid forename>_<valid_middlename>	<possible forename>
<valid title>	<valid forename>_<possible_forename>	<valid surname>

注意:

「再分類」ビューには、「選択」プロセスの入力として事前選択されていたパターンしか表示されません。事前選択は、選択プロセスの最初の段階では構成できず、未分類のトークンが多すぎるパターンは除外されます。事前選択プロセスは、まずこれまでに生成されたパターンをすべて調査し、いずれかのパターンに存在する未分類のトークンの最小数を決定します。次に、未分類のトークンがその数より多いパターンがあれば除外されます。上の例では、どのパターンにも未分類のトークンは含まれていないため、未分類トークンの最小数はゼロです。どのパターンにも1つ以上の未分類トークンは含まれていないので、どのパターンも事前選択プロセスで除外されることはありません。

選択

「選択」に進むと、6つの可能性から最適なパターンを選ぼうとします。上の例では、すべてのトークン分類で結果が「有効」になっているので、4番目のパターンが最も強力だとわかります。したがって、デフォルトの選択ルールを使用して各パターンにスコアを付けることによって最初のパターンが選択され、「選択」ビューに表示されます。

敬称	名	姓
<valid title>	<valid forename>_<valid_middlename>	<valid surname>

解決

選択パターンがレコードの適切な説明であることを確認すると、パターンを出力属性に解決して結果を割り当てることができます。この場合は、上で選択したパターンを右クリックして「解決」を選択し、「完全」解決ルールを追加します。

ここではデフォルトの出力割当て(実行した分類に従う)を使用し、「既知の氏名書式」というコメントを付けて、このパターンに「成功」の結果を割り当てます。

このルールで「解析」を再実行すると、このルールで入力レコードが解決されていることがわかります。

ID	ルール	結果	コメント	カウント
1	完全ルール	成功	既知の氏名書式	1

最後に、レコードをドリルダウンすると、この解決ルールに従ってデータが正しく出力属性に割り当られたことが確認できます。

敬称	名	姓	UnclassifiedData.Parse	title.Parse	forename.Parse	surname.Parse
Mr	Bill Archibald	SCOTT		Mr	Bill	SCOTT

構成

「解析」は、複数のサブプロセッサを備えた拡張プロセッサです。各サブプロセッサは、解析の異なるステップを実行し、個別に構成する必要があります。次のサブプロセッサが「解析」プロセッサを構成しており、それぞれ、次に示すように固有の機能を実行します。

サブプロセッサ	説明
入力	解析する入力属性を選択し、ダッシュボード公開オプションを構成できます。有効な入力は文字列属性のみであることに注意してください。
マップ	入力属性を、パーサーで必要な入力属性にマップします。
トークン化	「トークン化」では、データを構文的に分析し、ルールを使用してデータを最小単位(ベース・トークン)に分割します。各ベース・トークンにはタグが指定されます。たとえば、<A>は英字の完全なシーケンスに対して使用されます。
分類	「分類」では、データを意味的に分析し、ベース・トークンまたはベース・トークンのシーケンスに意味を割り当てます。各分類には、「建物」などのタグと分類レベル(「有効」または「可能性のあるもの」)があり、あいまいなデータに対して最適な説明を選択するときに使用されます。
再分類	「再分類」はオプションのステップで、分類されたトークンと未分類(ベース)トークンのシーケンスを新しい単一のトークンとして再分類できます。
選択	「選択」では、レコードに可能な説明(つまり、トークン・パターン)が複数ある場合に、調整可能なアルゴリズムを使用してデータの最適な説明を選択します。
解決	「解決」では、ルールを使用して、データの選択された説明(トークン・パターン)を、結果(「成功」、「レビュー」または「失敗」)および「コメント」(オプション)に関連付けます。また、選択されたトークン・パターンに従って、データを新しい構造に出力するためのルールを構成できます。

拡張オプション

一部の結果ビューが不要な場合、最適なパフォーマンスを得るために、パーサーには2つの実行モードがあります。

次の2つのモードがあります。

解析とプロファイル
解析

「解析とプロファイル」(デフォルト・モード)は、最初にデータを解析するときに使用する必要があります。これは、パーサーによって出力される「トークン・チェック」および「未分類のトークン」結果ビューが、分類で使用されるリストを作成および追加して解析ルールを定義する過程で役立つためです。

「解析」モードは、パーサーの分類構成が完了し、パフォーマンスの最適化が必要な場合に使用します。このモードで実行すると、「トークン・チェック」および「未分類のトークン」ビューは作成されないことに注意してください。

オプション

すべてのオプションはサブプロセッサごとに構成可能です。

出力

データ属性

出力データ属性は解決サブプロセッサで構成します。

フラグ

フラグ属性	目的	使用可能な値
[属性名].SelectedPattern	レコードに選択されたトークン・パターンを示す	選択したトークン・パターン
[属性名].BasePattern	トークン化から出力されたレコードの基本のトークン・パターンを示す(パーサーを使用して純粋にこのパターンを生成する場合)	基本のトークン・パターン
ParseResult	レコードに対するパーサーの結果を示す。	「不明」/「成功」/「レビュー」/「失敗」
ParseComment	レコードの解決ルールのユーザー指定のコメントを追加します。	レコードを解決した解決ルールに対するコメント

ダッシュボードへの公開

「解析」プロセッサの結果は、ダッシュボードに公開できます。

デフォルトでは、結果について次の解釈が使用されます。

結果	ダッシュボードの解釈
成功	成功
レビュー	警告
失敗	アラート

実行

実行モード	サポート
バッチ	あり
リアルタイム・モニタリング	あり
リアルタイム・レスポンス	あり

結果の表示

「解析」プロセッサでは、次に示す多数の結果ビューが作成されます。すべてのビューは、プロセス内の「解析」プロセッサをクリックして表示できます。「解析」プロセッサを展開してサブプロセッサを表示し、ビューを作成するサブプロセッサを選択して表示することもできます。

「基本のトークン化」ビュー(「トークン化」により作成)

このビューには、「トークン化」サブプロセッサの結果が表示され、すべての入力属性にわたって「基本のトークン」の個別パターンがすべて示されます。パターンは、頻度別に編成されます。

注意:

各レコードは、1つだけ基本のトークン・パターンを持ちます。多くのレコードには、同じ基本のトークン・パターンがあります。

統計	意味
入力属性ごと	入力属性のある基本のトークンのパターンすべての属性にわたって個別の基本のトークン・パターンごとに、ビューの行が存在します
カウント	すべての属性にわたって個別の基本のトークン・パターンごとのレコード数
%	すべての属性にわたって個別の基本のトークン・パターンごとのレコードのパーセンテージ

統計

意味

入力属性ごと

入力属性のある基本のトークンのパターン

すべての属性にわたって個別の基本のトークン・パターンごとに、ビューの行が存在します

カウント

すべての属性にわたって個別の基本のトークン・パターンごとのレコード数

すべての属性にわたって個別の基本のトークン・パターンごとのレコードのパーセンテージ

「トークン・チェック」ビュー(「分類」により作成)

このビューには、「分類」サブプロセッサの結果が表示され、入力属性ごとのトークン・チェックの結果。

統計	意味
属性	トークン・チェックを適用した属性
分類子	トークンの分類に使用されるトークン・チェックの名前
有効	トークン・チェックによって「有効」と分類された個別のトークンの数
可能性のあるもの	トークン・チェックによって「可能性のあるもの」と分類された個別のトークンの数

「有効」または「可能性のあるもの」の統計をドリルダウンすると、分類した個別のトークンのサマリーと、それを含むレコードの数がわかります。再度ドリルダウンすると、これらのトークンを含むレコードが表示されます。

「未分類のトークン」ビュー(「分類」により作成)

統計	意味
属性	入力属性
未分類のトークン	その属性で未分類のトークンの合計数

「未分類のトークン」をドリルダウンすると、分類されたトークンとその頻度がすべてリスト表示されます。再度ドリルダウンすると、これらのトークンを含むレコードが表示されます。

「分類」ビュー(「分類」により作成)

このビューには、分類後(ただし再分類の前)に生成されたすべてのトークン・パターンのリストが表示されます。入力レコードごとに、可能性のあるパターンは多数ある可能性があります。

統計	意味
入力属性ごと	属性全体でのトークンのパターン。すべての属性にわたって個別のトークン・パターンごとに、ビューの行が存在します。
カウント	トークン・パターンがデータの可能な説明であるレコードの数。同じレコードが可能性のある多くのトークン・パターンを持つ場合があり、各トークン・パターンが多くのレコードを説明する場合もあります。
%	データ・セットにわたって可能性のあるすべてのトークン・パターンのパーセンテージとして表されるカウント。

統計

意味

入力属性ごと

属性全体でのトークンのパターン。

すべての属性にわたって個別のトークン・パターンごとに、ビューの行が存在します。

カウント

トークン・パターンがデータの可能な説明であるレコードの数。同じレコードが可能性のある多くのトークン・パターンを持つ場合があり、各トークン・パターンが多くのレコードを説明する場合もあります。

データ・セットにわたって可能性のあるすべてのトークン・パターンのパーセンテージとして表されるカウント。

「再分類ルール」ビュー(「再分類」により作成)

このビューには、すべての再分類ルールのリストと、それがデータにどう影響するかが示されます。

統計	意味
ルールID	再分類ルールのID。IDは自動的に割り当てられます。ルール間に依存関係がある場合にはIDが便利です。後述する「前例」の統計を参照してください。
ルール名	再分類ルールの名前。
属性	再分類ルールが適用された属性。
検索	ルールの照合に使用されたトークン・パターン
再分類基準	再分類ルールのターゲット・トークン
結果	再分類ルールの分類レベル(有効または可能性がある)
影響を受ける結果	ルールによって影響されるレコードの数
影響を受けるパターン	ルールによって影響される分類パターンの数
前例	このルールに先行して適用されるその他の再分類ルールの数。たとえば、<A>を1つのルールで<B>として再分類し、<B>を別のルールで<C>として再分類する場合は、最初のルールが2番目のルールよりも優先されます。レコードに影響を与えなかった再分類ルールであっても、論理的に計算されるため、優先される場合があります。

「再分類」ビュー(「再分類」により作成)

このビューには、再分類後(ただし選択の前)に生成されたすべてのトークン・パターンのリストが表示されます。入力レコードごとに、可能性のあるパターンは多数ある可能性があります。このビューには、「選択」ステップで入力レコードごとに最適なパターンを選択しようとする前に、データ・セット全体にわたって可能性のあるすべてのパターンとその頻度が示されます。

注意:

このビュー自体のデータは、どのパターンを選択するかを制御するために使用されることがあります。つまり、データ・セット全体での共通度を表することによって、レコードのパターンを選択するように「選択」ステップを構成できるということです。選択サブプロセッサの構成を参照してください。

統計	意味
入力属性ごと	属性全体でのトークンのパターン。すべての属性にわたって個別のトークン・パターンごとに、ビューの行が存在します。
カウント	トークン・パターンがデータの可能な説明であるレコードの数。同じレコードが可能性のある多くのトークン・パターンを持つ場合があり、各トークン・パターンが多くのレコードを説明する場合もあります。
%	データ・セットにわたって可能性のあるすべてのトークン・パターンのパーセンテージとして表されるカウント。

統計

意味

入力属性ごと

属性全体でのトークンのパターン。

すべての属性にわたって個別のトークン・パターンごとに、ビューの行が存在します。

カウント

データ・セットにわたって可能性のあるすべてのトークン・パターンのパーセンテージとして表されるカウント。

「選択」ビュー(「選択」により作成)

「選択」ステップの後で、各入力レコードは選択したトークン・パターンを持ちます。

このビューには、データ・セット全体で選択したパターンのビューと、その出現頻度が表示されます。

注意:

選択にあいまいさがあるために、レコードを説明する単一のトークン・パターンを選択できない場合、あいまいさがあるパターンが、同じあいまいさを持つレコードの数とともに表示されます。つまりこれは、選択されなかったが可能性のあるパターンの同じセットです。

統計	意味
入力属性ごと	属性にわたるトークンのパターンすべての属性にわたって個別のトークン・パターンごとに、ビューの行が存在します。
完全ルール	トークン・パターンを解決した完全な解決ルール(ある場合)の数値識別子
あいまいルール	トークン・パターンを解決したあいまいな解決ルール(ある場合)の数値識別子
カウント	データの最適な説明としてトークン・パターンが選択されたレコードの数
%	トークン・パターンが選択されたレコードのパーセンテージ

「解決ルール」ビュー(「解決」により作成)

このビューには、各「解決ルール」によって実行された解決のサマリーが表示されます。これは、ルールが予定どおりに動作していることを確認するときに便利です。

統計	意味
ID	構成中に設定されたルールの数値識別子。
ルール	ルールのタイプ(「完全」ルールまたは「あいまい」ルール)
結果	ルールの「結果」(「成功」、「レビュー」、「失敗」)
コメント	ルールの「コメント」
カウント	このルールを使用して解決されたレコードの数。結果ブラウザで「追加情報」ボタンをクリックすると、これがパーセンテージとして表示されます。

「結果」ビュー(「解決」により作成)

統計	意味
成功	結果が「成功」のレコードの合計数
レビュー	結果が「レビュー」のレコードの合計数
失敗	結果が「失敗」のレコードの合計数
不明	「解析」で結果を割り当てられなかったレコードの数