フレーズ・プロファイラ
「フレーズ・プロファイラ」では、複数の属性を分析し、共通する単語やフレーズを検索します。
すべての入力属性内で出現する単語やフレーズが頻度順に返されます。
「フレーズ・プロファイラ」を使用すると、データ内で最も頻出する重要な単語やフレーズ、およびその出現場所を簡単に検出できます。さらに、フレーズ・プロファイリングの結果を使用して、「解析」プロセッサの構成を決定できます。たとえば、検出された単語やフレーズを、データの分類に使用する参照データ・リストに追加したり、属性内で出現する単語やフレーズを調べることにより、どのトークン・チェックをどの属性に適用するかを決定できます。
したがって、「フレーズ・プロファイラ」は、テキスト・フィールドの内容を理解するとき、特にデータの構造を改善したり変更する場合(たとえば、データを移行するため)に使用する重要なツールです。
次の表に、構成オプションを示します。
構成 | 説明 |
---|---|
入力 |
共通する単語またはフレーズについて分析する文字列属性を指定します。 |
オプション |
次のオプションを指定します。
|
出力 |
データ属性またはフラグ属性の出力を記述します。 |
データ属性 |
なし。 |
フラグ |
なし。 |
実行
実行モード | サポート |
---|---|
バッチ |
はい |
リアルタイム・モニタリング |
はい |
リアルタイム・レスポンス |
なし |
通常、フリー・テキストを含む大きなデータセットには異なるフレーズが多数含まれており、データセットの内容を理解するために重要なものはごくわずかです。
「フレーズ・プロファイラ」には、重要でない結果を消去するために、切捨て頻度と許容変動という2つの設定が用意されています。
切捨て頻度
通常、「フレーズ・プロファイラ」では、多数のレコードに出現する比較的少数のフレーズ(潜在的に重要)と、少数のレコードに出現する非常に多数のフレーズ(重要性は低い)が一緒に生成されます。頻度が少ないフレーズをこの結果に含めたくない場合があります。絶対的な切捨て頻度はデータセットのサイズに応じて変わるため、切捨て頻度設定を入力レコード100万件当たりの頻度として指定すると便利です。
許容変動
1フレーズが多くの単語で構成される場合(または1つの部分文字列が多くの文字で構成される場合)、長いフレーズには短いフレーズが含まれるため、フレーズNewcastle Upon Tyneを含むデータには、部分フレーズNewcastle UponとUpon Tyneも同じ数だけ含まれます。
この2つの部分フレーズがフレーズ全体とまったく同じ頻度出現し、その頻度に変動がない場合、フレーズ全体は重要(最上位フレーズ)ですが、部分フレーズは重要ではありません。この場合、部分フレーズは結果から除外されます。
ただし、部分フレーズの出現頻度がフレーズ全体よりも多い場合は、部分フレーズの重要性が高くなります。フレーズと部分フレーズの頻度の変動(差)が部分フレーズの独立した重要性を表します。つまり、許容変動を指定すると、頻度の変動(差)がその値を下回る部分フレーズを除くことができます。やはり、絶対的な変動(差)はデータセットのサイズに応じて変わるため、許容変動設定を入力レコード100万件当たりの変動(差)として指定すると便利です。
例
次のパラメータを検討してみてください。
-
100万件のレコードが「フレーズ・プロファイラ」で分析されます
-
切捨て頻度は100 ppm (100万分の1)に設定されます
-
許容変動は50 ppmに設定されます
-
フレーズNewcastle Upon Tyneは400回出現します
-
フレーズNewcastel Upon Tyneは50回出現します
フレーズNewcastle Upon Tyneは結果に表示されますが、Newcastel Upon Tyneは切り捨てられるため表示されません。部分フレーズUpon Tyneの頻度は450であり切捨ての影響を受けませんが、フレーズ全体との頻度の変動(差) 50は許容制限にちょうど該当するため、結果に表示されません。データ内にUpon Tyneが含まれるレコードがもう1件あれば、これは潜在的に重要であるとして結果に表示されます。通常は、切捨て頻度と許容変動を同じ値に設定することが適当です。
最上位フレーズとしてマーク
フレーズが、他のフレーズの部分フレーズか最上位フレーズかがわかると役立つ場合があります。前述の例では、Newcastle Upon Tyneが最上位フレーズになり、おそらく市を表すと考えることができます。ただし、フレーズNewcastle Upon Tyne Borough Councilが1回のみ出現して、この出現が結果に含まれる場合(切捨てまたは許容変動オプションで除外されなかった場合)、Newcastle Upon Tyneは最上位フレーズではなくなり、市以外を表す可能性が出てきます。「フレーズ・プロファイラ」によって、結果内の最上位フレーズにフラグが立てられます。
次の表に、このプロファイラによって生成される統計情報を示します。「フレーズ・プロファイラ」では結果のサマリー・ビューが生成され、入力属性で検出された単語とフレーズが出現頻度の順に表示されます。
統計 | 説明 |
---|---|
サイズ |
フレーズのサイズ(単語数)。 |
最上位フレーズ |
フレーズが最上位フレーズかどうかを示します。許容変動の設定について説明している前述の「注意」を参照してください。 |
フレーズ |
データで検出された単語またはフレーズ。 |
頻度 |
フレーズまたは単語の出現回数。データにドリルダウンすると、表示されるレコードがこの頻度より少ない場合があります。同じフレーズまたは単語が同じレコードに複数回出現することがあるためです。 |
[Attribute].freq |
入力属性ごとのフレーズまたは単語の出現回数。 |
例
この例では、顧客の名前と住所のデータをビューで分析し、構造上の問題を解決するために解析します。「フレーズ・プロファイラ」を実行して、名前と住所の属性で最も多い単語とフレーズを検出します。構成されるオプションは次のとおりです。
-
切捨て頻度: 5000
-
許容変動: 5000
-
フレーズ内の最大語数: 10
-
追加の単語デリミタ: カンマ(,)
-
単語デリミタの正規表現: 未使用
-
大文字/小文字を区別しない: いいえ
たとえば、Mr、Ms、MrsおよびMissの各単語が頻繁に出現する有効なTitleである場合は、解析でそれらを分類するための参照データ・リストを作成することをお薦めします。その後、Title属性で結果をソートして、出現する他の値を見つけることができます。