フレーズ・プロファイラ

「フレーズ・プロファイラ」では、複数の属性を分析し、共通する単語やフレーズを検索します。

すべての入力属性内で出現する単語やフレーズが頻度順に返されます。

「フレーズ・プロファイラ」を使用すると、データ内で最も頻出する重要な単語やフレーズ、およびその出現場所を簡単に検出できます。さらに、フレーズ・プロファイリングの結果を使用して、「解析」プロセッサの構成を決定できます。たとえば、検出された単語やフレーズを、データの分類に使用する参照データ・リストに追加したり、属性内で出現する単語やフレーズを調べることにより、どのトークン・チェックをどの属性に適用するかを決定できます。

したがって、「フレーズ・プロファイラ」は、テキスト・フィールドの内容を理解するとき、特にデータの構造を改善したり変更する場合(たとえば、データを移行するため)に使用する重要なツールです。

次の表に、構成オプションを示します。

構成 説明

入力

共通する単語またはフレーズについて分析する文字列属性を指定します。

オプション

次のオプションを指定します。

  • 切捨て頻度(100万当たりの部分数): データ・セットにわずかしか出現しない単語またはフレーズを返す必要がありません。分析対象レコードのごく一部を示すために100万分の1で表します。たとえば、100万レコードごとに100回未満しか出現しないような値(レコードの0.0001%)です。タイプ: 数値。デフォルト値: 5000

  • 許容変動(100万当たりの部分数): 重要性の低いフレーズ(他にも含まれているフレーズ)を切り捨て、最上位フレーズに高い重要性をマークすることができます。このために、互いに包含する2つのフレーズ間の頻度の許容変動を指定します。タイプ: 数値。デフォルト値: 5000

  • フレーズ内の最大語数: 返すフレーズの最大長を単語数で設定します。タイプ: 一般的な区切り文字を選択します。デフォルト値: 10。パフォーマンス上の理由で、このオプションの最大値は20です。

  • 追加の単語デリミタ: 単語やフレーズを区切るために使用する追加のセパレータ文字(および通常のスペース文字)を定義できます。タイプ: 一般的な区切り文字を選択します。デフォルト値: なし。

  • 単語デリミタの正規表現: 単語やフレーズを区切るために使用する正規表現を定義できます。タイプ: 正規表現。デフォルト値: なし。

  • 大文字/小文字を区別しない: 大/小文字のみが違う単語やフレーズを区別するかどうかを設定します。「大文字/小文字を区別しない」オプションを「はい」に設定すると、単語やフレーズが小文字で結果に表示されます。ドリルダウンすると、データそのものは変換されていないため、そのデータの本来の文字(大文字または小文字)が表示されます。タイプ: はい/いいえ。デフォルト値: いいえ

出力

データ属性またはフラグ属性の出力を記述します。

データ属性

なし。

フラグ

なし。

実行

実行モード サポート

バッチ

はい

リアルタイム・モニタリング

はい

リアルタイム・レスポンス

なし

通常、フリー・テキストを含む大きなデータセットには異なるフレーズが多数含まれており、データセットの内容を理解するために重要なものはごくわずかです。

「フレーズ・プロファイラ」には、重要でない結果を消去するために、切捨て頻度と許容変動という2つの設定が用意されています。

切捨て頻度

通常、「フレーズ・プロファイラ」では、多数のレコードに出現する比較的少数のフレーズ(潜在的に重要)と、少数のレコードに出現する非常に多数のフレーズ(重要性は低い)が一緒に生成されます。頻度が少ないフレーズをこの結果に含めたくない場合があります。絶対的な切捨て頻度はデータセットのサイズに応じて変わるため、切捨て頻度設定を入力レコード100万件当たりの頻度として指定すると便利です。

許容変動

1フレーズが多くの単語で構成される場合(または1つの部分文字列が多くの文字で構成される場合)、長いフレーズには短いフレーズが含まれるため、フレーズNewcastle Upon Tyneを含むデータには、部分フレーズNewcastle UponとUpon Tyneも同じ数だけ含まれます。

この2つの部分フレーズがフレーズ全体とまったく同じ頻度出現し、その頻度に変動がない場合、フレーズ全体は重要(最上位フレーズ)ですが、部分フレーズは重要ではありません。この場合、部分フレーズは結果から除外されます。

ただし、部分フレーズの出現頻度がフレーズ全体よりも多い場合は、部分フレーズの重要性が高くなります。フレーズと部分フレーズの頻度の変動(差)が部分フレーズの独立した重要性を表します。つまり、許容変動を指定すると、頻度の変動(差)がその値を下回る部分フレーズを除くことができます。やはり、絶対的な変動(差)はデータセットのサイズに応じて変わるため、許容変動設定を入力レコード100万件当たりの変動(差)として指定すると便利です。

次のパラメータを検討してみてください。

  • 100万件のレコードが「フレーズ・プロファイラ」で分析されます

  • 切捨て頻度は100 ppm (100万分の1)に設定されます

  • 許容変動は50 ppmに設定されます

  • フレーズNewcastle Upon Tyneは400回出現します

  • フレーズNewcastel Upon Tyneは50回出現します

フレーズNewcastle Upon Tyneは結果に表示されますが、Newcastel Upon Tyneは切り捨てられるため表示されません。部分フレーズUpon Tyneの頻度は450であり切捨ての影響を受けませんが、フレーズ全体との頻度の変動(差) 50は許容制限にちょうど該当するため、結果に表示されません。データ内にUpon Tyneが含まれるレコードがもう1件あれば、これは潜在的に重要であるとして結果に表示されます。通常は、切捨て頻度と許容変動を同じ値に設定することが適当です。

最上位フレーズとしてマーク

フレーズが、他のフレーズの部分フレーズか最上位フレーズかがわかると役立つ場合があります。前述の例では、Newcastle Upon Tyneが最上位フレーズになり、おそらく市を表すと考えることができます。ただし、フレーズNewcastle Upon Tyne Borough Councilが1回のみ出現して、この出現が結果に含まれる場合(切捨てまたは許容変動オプションで除外されなかった場合)、Newcastle Upon Tyneは最上位フレーズではなくなり、市以外を表す可能性が出てきます。「フレーズ・プロファイラ」によって、結果内の最上位フレーズにフラグが立てられます。

次の表に、このプロファイラによって生成される統計情報を示します。「フレーズ・プロファイラ」では結果のサマリー・ビューが生成され、入力属性で検出された単語とフレーズが出現頻度の順に表示されます。

統計 説明

サイズ

フレーズのサイズ(単語数)。

最上位フレーズ

フレーズが最上位フレーズかどうかを示します。許容変動の設定について説明している前述の「注意」を参照してください。

フレーズ

データで検出された単語またはフレーズ。

頻度

フレーズまたは単語の出現回数。データにドリルダウンすると、表示されるレコードがこの頻度より少ない場合があります。同じフレーズまたは単語が同じレコードに複数回出現することがあるためです。

[Attribute].freq

入力属性ごとのフレーズまたは単語の出現回数。

この例では、顧客の名前と住所のデータをビューで分析し、構造上の問題を解決するために解析します。「フレーズ・プロファイラ」を実行して、名前と住所の属性で最も多い単語とフレーズを検出します。構成されるオプションは次のとおりです。

  • 切捨て頻度: 5000

  • 許容変動: 5000

  • フレーズ内の最大語数: 10

  • 追加の単語デリミタ: カンマ(,)

  • 単語デリミタの正規表現: 未使用

  • 大文字/小文字を区別しない: いいえ

たとえば、Mr、Ms、MrsおよびMissの各単語が頻繁に出現する有効なTitleである場合は、解析でそれらを分類するための参照データ・リストを作成することをお薦めします。その後、Title属性で結果をソートして、出現する他の値を見つけることができます。