解析
「解析」プロセッサは、データを理解して構造を改善するための強力なツールです。手動で構成したビジネス・ルールおよび人工知能の両方を適用して、1つまたは複数の属性内のデータの意味を分析して理解できます。さらに、ルール内でその意味を使用して、データを検証し、必要に応じてデータを再構築できます。たとえば、「解析」を使用すると、誤って住所属性に取得された名前データを認識でき、必要に応じて、そのデータを異なる構造の新しい属性にマップできます。
「解析」プロセッサは、任意のタイプのデータを認識して変換するように構成できます。EDQにおける解析の詳細は、「解析の概念ガイド」を参照してください。詳細
「解析」プロセッサには多様な用途があります。たとえば、「解析」を使用して次のことができます。
-
特定のビジネス目的に応じて改善された構造をデータに適用します。たとえば、正確な照合処理を行うのに適した構造にデータを変換します。
-
構造化されていない、または半構造化された形式のデータに構造を適用します。たとえば、1つのNotes属性に含まれるデータをすべて、複数の出力属性の固有項目に取得します。
-
複数の属性内のデータが目的に対して意味的に適しているかどうか(バッチ・ベースまたはリアルタイム・ベースのいずれか)をチェックします。
-
複数の入力属性からのデータの構造を変更します。たとえば、複数の異なるソース形式から単一のターゲット形式にデータを移行します。
解析の概要
パーサーは複数の段階で実行されます。各段階は、次の「構成」の項で詳細に説明しています。パーサーの処理の概要は、次のとおりです。
入力データ >
-
トークン化: データの構文分析。データを最小の単位(基本のトークン)に分割します
-
分類: データの意味分析。意味をトークンに割り当てます
-
再分類: トークン・シーケンスで新しく分類されたトークンを調べます
-
パターン選択: 可能な場合に、データの最適な説明を選択します
-
解決: データを必要な構造に解決し、結論を出します
> 出力データとフラグ
「解析」プロセッサの動作を全体的に理解するには、サンプル・レコードを確認するのが便利です。この例では「肩書き」、「名」、「姓」の3つの属性から個人名を解析しています。
入力レコードの例
次のレコードが入力です。
敬称 | 名 | 姓 |
---|---|---|
Mr |
Bill Archibald |
SCOTT |
トークン化
トークン化によって、レコードは次のようにトークン化されます。トークン「Mr」、「Bill」、「Archibald」および「SCOTT」が認識され、トークン・タグ<A>が割り当てられます。また、「Bill」と「Archibald」の間のスペースもトークンとして認識され、トークン・タグ<_>が割り当てられます。トークン化では、常に、基本のトークンの単一パターンが出力されます。この場合、パターンは次に示すとおりとなります(「トークン化」ビューより)。
敬称 | 名 | 姓 |
---|---|---|
<A> |
<A>_<A> |
<A> |
分類
次の「分類」では、名前と肩書きのリストに分類ルールを使用して、レコードのトークンを分類します。複数のリストに出現する名前もあるので、トークンによっては複数の形で分類されます。たとえば、トークン「Archibald」は<possible forename>と<possible surname>のどちらにも分類され、トークン「SCOTT」は<possible forename>と<valid surname>のどちらにも分類されます。そのため「分類」では、次の「分類」ビューに示すように複数の分類パターンが出力されます。
敬称 | 名 | 姓 |
---|---|---|
<valid title> |
<valid forename>_<possible_surname> |
<possible forename> |
<valid title> |
<valid forename>_<possible_forename> |
<possible forename> |
<valid title> |
<valid forename>_<possible_surname> |
<valid surname> |
<valid title> |
<valid forename>_<possible_forename> |
<valid surname> |
再分類
ここまでで、データについて複数の記述ができました。しかし、「名」属性には次の「再分類」ルールを適用する必要があるかもしれません。トークン'Archibald'は名としても有効なので、それが間違いなくミドル・ネームを表すことを示すためです。
名前 | 検索 | 再分類基準 | 結果 |
---|---|---|---|
名の後にミドルネーム |
<valid forename>(<possible forename>) |
ミドルネーム |
有効 |
このルールは「名」属性の「<valid forename>(<possible forename>)」というパターンに対して機能し、上の2番目と4番目の分類パターンに影響します。「再分類」では新しいパターンを追加しますが、既存のパターンを削除するわけではないので、次の表に示すように元の4つのパターンと新しい2つのパターンが並びます。
敬称 | 名 | 姓 |
---|---|---|
<valid title> |
<valid forename>_<possible_surname> |
<possible forename> |
<valid title> |
<valid forename>_<possible_forename> |
<possible forename> |
<valid title> |
<valid forename>_<possible_surname> |
<valid surname> |
<valid title> |
<valid forename>_<valid_middlename> |
<valid surname> |
<valid title> |
<valid forename>_<valid_middlename> |
<possible forename> |
<valid title> |
<valid forename>_<possible_forename> |
<valid surname> |
注意:
「再分類」ビューには、「選択」プロセスの入力として事前選択されていたパターンしか表示されません。事前選択は、選択プロセスの最初の段階では構成できず、未分類のトークンが多すぎるパターンは除外されます。事前選択プロセスは、まずこれまでに生成されたパターンをすべて調査し、いずれかのパターンに存在する未分類のトークンの最小数を決定します。次に、未分類のトークンがその数より多いパターンがあれば除外されます。上の例では、どのパターンにも未分類のトークンは含まれていないため、未分類トークンの最小数はゼロです。どのパターンにも1つ以上の未分類トークンは含まれていないので、どのパターンも事前選択プロセスで除外されることはありません。
選択
「選択」に進むと、6つの可能性から最適なパターンを選ぼうとします。上の例では、すべてのトークン分類で結果が「有効」になっているので、4番目のパターンが最も強力だとわかります。したがって、デフォルトの選択ルールを使用して各パターンにスコアを付けることによって最初のパターンが選択され、「選択」ビューに表示されます。
敬称 | 名 | 姓 |
---|---|---|
<valid title> |
<valid forename>_<valid_middlename> |
<valid surname> |
解決
選択パターンがレコードの適切な説明であることを確認すると、パターンを出力属性に解決して結果を割り当てることができます。この場合は、上で選択したパターンを右クリックして「解決」を選択し、「完全」解決ルールを追加します。
ここではデフォルトの出力割当て(実行した分類に従う)を使用し、「既知の氏名書式」というコメントを付けて、このパターンに「成功」の結果を割り当てます。
このルールで「解析」を再実行すると、このルールで入力レコードが解決されていることがわかります。
ID | ルール | 結果 | コメント | カウント |
---|---|---|---|---|
1 |
完全ルール |
成功 |
既知の氏名書式 |
1 |
最後に、レコードをドリルダウンすると、この解決ルールに従ってデータが正しく出力属性に割り当られたことが確認できます。
敬称 | 名 | 姓 | UnclassifiedData.Parse | title.Parse | forename.Parse | surname.Parse |
---|---|---|---|---|---|---|
Mr |
Bill Archibald |
SCOTT |
Mr |
Bill |
SCOTT |
構成
「解析」は、複数のサブプロセッサを備えた拡張プロセッサです。各サブプロセッサは、解析の異なるステップを実行し、個別に構成する必要があります。次のサブプロセッサが「解析」プロセッサを構成しており、それぞれ、次に示すように固有の機能を実行します。
サブプロセッサ | 説明 |
---|---|
解析する入力属性を選択し、ダッシュボード公開オプションを構成できます。有効な入力は文字列属性のみであることに注意してください。 |
|
入力属性を、パーサーで必要な入力属性にマップします。 |
|
「トークン化」では、データを構文的に分析し、ルールを使用してデータを最小単位(ベース・トークン)に分割します。各ベース・トークンにはタグが指定されます。たとえば、<A>は英字の完全なシーケンスに対して使用されます。 |
|
「分類」では、データを意味的に分析し、ベース・トークンまたはベース・トークンのシーケンスに意味を割り当てます。各分類には、「建物」などのタグと分類レベル(「有効」または「可能性のあるもの」)があり、あいまいなデータに対して最適な説明を選択するときに使用されます。 |
|
「再分類」はオプションのステップで、分類されたトークンと未分類(ベース)トークンのシーケンスを新しい単一のトークンとして再分類できます。 |
|
「選択」では、レコードに可能な説明(つまり、トークン・パターン)が複数ある場合に、調整可能なアルゴリズムを使用してデータの最適な説明を選択します。 |
|
「解決」では、ルールを使用して、データの選択された説明(トークン・パターン)を、結果(「成功」、「レビュー」または「失敗」)および「コメント」(オプション)に関連付けます。また、選択されたトークン・パターンに従って、データを新しい構造に出力するためのルールを構成できます。 |
拡張オプション
一部の結果ビューが不要な場合、最適なパフォーマンスを得るために、パーサーには2つの実行モードがあります。
次の2つのモードがあります。
-
解析とプロファイル
-
解析
「解析とプロファイル」(デフォルト・モード)は、最初にデータを解析するときに使用する必要があります。これは、パーサーによって出力される「トークン・チェック」および「未分類のトークン」結果ビューが、分類で使用されるリストを作成および追加して解析ルールを定義する過程で役立つためです。
「解析」モードは、パーサーの分類構成が完了し、パフォーマンスの最適化が必要な場合に使用します。このモードで実行すると、「トークン・チェック」および「未分類のトークン」ビューは作成されないことに注意してください。
オプション
すべてのオプションはサブプロセッサごとに構成可能です。
出力
データ属性
出力データ属性は解決サブプロセッサで構成します。
フラグ
フラグ属性 | 目的 | 使用可能な値 |
---|---|---|
[属性名].SelectedPattern |
レコードに選択されたトークン・パターンを示す |
選択したトークン・パターン |
[属性名].BasePattern |
トークン化から出力されたレコードの基本のトークン・パターンを示す(パーサーを使用して純粋にこのパターンを生成する場合) |
基本のトークン・パターン |
ParseResult |
レコードに対するパーサーの結果を示す。 |
「不明」/「成功」/「レビュー」/「失敗」 |
ParseComment |
レコードの解決ルールのユーザー指定のコメントを追加します。 |
レコードを解決した解決ルールに対するコメント |
ダッシュボードへの公開
「解析」プロセッサの結果は、ダッシュボードに公開できます。
デフォルトでは、結果について次の解釈が使用されます。
結果 | ダッシュボードの解釈 |
---|---|
成功 |
成功 |
レビュー |
警告 |
失敗 |
アラート |
実行
実行モード | サポート |
---|---|
バッチ |
あり |
リアルタイム・モニタリング |
あり |
リアルタイム・レスポンス |
あり |
結果の表示
「解析」プロセッサでは、次に示す多数の結果ビューが作成されます。すべてのビューは、プロセス内の「解析」プロセッサをクリックして表示できます。「解析」プロセッサを展開してサブプロセッサを表示し、ビューを作成するサブプロセッサを選択して表示することもできます。
「基本のトークン化」ビュー(「トークン化」により作成)
このビューには、「トークン化」サブプロセッサの結果が表示され、すべての入力属性にわたって「基本のトークン」の個別パターンがすべて示されます。パターンは、頻度別に編成されます。
注意:
各レコードは、1つだけ基本のトークン・パターンを持ちます。多くのレコードには、同じ基本のトークン・パターンがあります。
統計 | 意味 |
---|---|
入力属性ごと |
入力属性のある基本のトークンのパターン すべての属性にわたって個別の基本のトークン・パターンごとに、ビューの行が存在します |
カウント |
すべての属性にわたって個別の基本のトークン・パターンごとのレコード数 |
% |
すべての属性にわたって個別の基本のトークン・パターンごとのレコードのパーセンテージ |
「トークン・チェック」ビュー(「分類」により作成)
このビューには、「分類」サブプロセッサの結果が表示され、入力属性ごとのトークン・チェックの結果。
統計 | 意味 |
---|---|
属性 |
トークン・チェックを適用した属性 |
分類子 |
トークンの分類に使用されるトークン・チェックの名前 |
有効 |
トークン・チェックによって「有効」と分類された個別のトークンの数 |
可能性のあるもの |
トークン・チェックによって「可能性のあるもの」と分類された個別のトークンの数 |
「有効」または「可能性のあるもの」の統計をドリルダウンすると、分類した個別のトークンのサマリーと、それを含むレコードの数がわかります。再度ドリルダウンすると、これらのトークンを含むレコードが表示されます。
「未分類のトークン」ビュー(「分類」により作成)
統計 | 意味 |
---|---|
属性 |
入力属性 |
未分類のトークン |
その属性で未分類のトークンの合計数 |
「未分類のトークン」をドリルダウンすると、分類されたトークンとその頻度がすべてリスト表示されます。再度ドリルダウンすると、これらのトークンを含むレコードが表示されます。
「分類」ビュー(「分類」により作成)
このビューには、分類後(ただし再分類の前)に生成されたすべてのトークン・パターンのリストが表示されます。入力レコードごとに、可能性のあるパターンは多数ある可能性があります。
統計 | 意味 |
---|---|
入力属性ごと |
属性全体でのトークンのパターン。 すべての属性にわたって個別のトークン・パターンごとに、ビューの行が存在します。 |
カウント |
トークン・パターンがデータの可能な説明であるレコードの数。同じレコードが可能性のある多くのトークン・パターンを持つ場合があり、各トークン・パターンが多くのレコードを説明する場合もあります。 |
% |
データ・セットにわたって可能性のあるすべてのトークン・パターンのパーセンテージとして表されるカウント。 |
「再分類ルール」ビュー(「再分類」により作成)
このビューには、すべての再分類ルールのリストと、それがデータにどう影響するかが示されます。
統計 | 意味 |
---|---|
ルールID |
再分類ルールのID。IDは自動的に割り当てられます。ルール間に依存関係がある場合にはIDが便利です。後述する「前例」の統計を参照してください。 |
ルール名 |
再分類ルールの名前。 |
属性 |
再分類ルールが適用された属性。 |
検索 |
ルールの照合に使用されたトークン・パターン |
再分類基準 |
再分類ルールのターゲット・トークン |
結果 |
再分類ルールの分類レベル(有効または可能性がある) |
影響を受ける結果 |
ルールによって影響されるレコードの数 |
影響を受けるパターン |
ルールによって影響される分類パターンの数 |
前例 |
このルールに先行して適用されるその他の再分類ルールの数。たとえば、<A>を1つのルールで<B>として再分類し、<B>を別のルールで<C>として再分類する場合は、最初のルールが2番目のルールよりも優先されます。レコードに影響を与えなかった再分類ルールであっても、論理的に計算されるため、優先される場合があります。 |
「再分類」ビュー(「再分類」により作成)
このビューには、再分類後(ただし選択の前)に生成されたすべてのトークン・パターンのリストが表示されます。入力レコードごとに、可能性のあるパターンは多数ある可能性があります。このビューには、「選択」ステップで入力レコードごとに最適なパターンを選択しようとする前に、データ・セット全体にわたって可能性のあるすべてのパターンとその頻度が示されます。
注意:
このビュー自体のデータは、どのパターンを選択するかを制御するために使用されることがあります。つまり、データ・セット全体での共通度を表することによって、レコードのパターンを選択するように「選択」ステップを構成できるということです。選択サブプロセッサの構成を参照してください。
統計 | 意味 |
---|---|
入力属性ごと |
属性全体でのトークンのパターン。 すべての属性にわたって個別のトークン・パターンごとに、ビューの行が存在します。 |
カウント |
トークン・パターンがデータの可能な説明であるレコードの数。同じレコードが可能性のある多くのトークン・パターンを持つ場合があり、各トークン・パターンが多くのレコードを説明する場合もあります。 |
% |
データ・セットにわたって可能性のあるすべてのトークン・パターンのパーセンテージとして表されるカウント。 |
「選択」ビュー(「選択」により作成)
「選択」ステップの後で、各入力レコードは選択したトークン・パターンを持ちます。
このビューには、データ・セット全体で選択したパターンのビューと、その出現頻度が表示されます。
注意:
選択にあいまいさがあるために、レコードを説明する単一のトークン・パターンを選択できない場合、あいまいさがあるパターンが、同じあいまいさを持つレコードの数とともに表示されます。つまりこれは、選択されなかったが可能性のあるパターンの同じセットです。
統計 | 意味 |
---|---|
入力属性ごと |
属性にわたるトークンのパターン すべての属性にわたって個別のトークン・パターンごとに、ビューの行が存在します。 |
完全ルール |
トークン・パターンを解決した完全な解決ルール(ある場合)の数値識別子 |
あいまいルール |
トークン・パターンを解決したあいまいな解決ルール(ある場合)の数値識別子 |
カウント |
データの最適な説明としてトークン・パターンが選択されたレコードの数 |
% |
トークン・パターンが選択されたレコードのパーセンテージ |
「解決ルール」ビュー(「解決」により作成)
このビューには、各「解決ルール」によって実行された解決のサマリーが表示されます。これは、ルールが予定どおりに動作していることを確認するときに便利です。
統計 | 意味 |
---|---|
ID |
構成中に設定されたルールの数値識別子。 |
ルール |
ルールのタイプ(「完全」ルールまたは「あいまい」ルール) |
結果 |
ルールの「結果」(「成功」、「レビュー」、「失敗」) |
コメント |
ルールの「コメント」 |
カウント |
このルールを使用して解決されたレコードの数。結果ブラウザで「追加情報」ボタンをクリックすると、これがパーセンテージとして表示されます。 |
「結果」ビュー(「解決」により作成)
統計 | 意味 |
---|---|
成功 |
結果が「成功」のレコードの合計数 |
レビュー |
結果が「レビュー」のレコードの合計数 |
失敗 |
結果が「失敗」のレコードの合計数 |
不明 |
「解析」で結果を割り当てられなかったレコードの数 |
出力フィルタ
「解析」プロセッサからは、次の出力フィルタが使用可能です。
-
成功 - 「成功」の結果に割り当てられたレコード
-
レビュー - 「レビュー」の結果に割り当てられたレコード
-
失敗 - 「失敗」の結果に割り当てられたレコード
-
不明 - どの解決ルールにも一致せず、そのために個別の結果がないレコード
例
この例では、単一のNAME属性のデータを理解し、構造化された名前を出力するために完全な「解析」構成が使用されています。
「基本のトークン化」ビュー
「トークン・チェック」ビュー
「分類」ビュー
「未分類のトークン」ビュー
「再分類ルール」ビュー
「再分類」ビュー
「選択」ビュー
「解決ルール」ビュー
「結果」ビュー
「成功」結果のドリルダウン