パターン
トランザクション・モデルのパターン・フィルタを作成するときには、次のパターンから選択できます。
-
平均: このパターンでは、属性の値の平均が計算されます。また、それらの属性値のサブセットについても平均が計算され、全体の平均をはるかに上回る、または下回るものが識別されます。たとえば、このパターンでは、「経費精算書詳細」ビジネス・オブジェクトの「総計」属性の平均を計算できます。その後、経費精算書を発行した個人ごとに平均金額を計算し、全体の平均から外れている各個人の金額を識別できます。パラメータには次のものがあります。
-
「次より大きい」および「次より小さい」: 値が外れ値とみなされる基準となる、全体の平均を上回る、または下回る割合を設定します。
-
差異: レコードをサブセットにグループ化する方法を決定する属性を選択します。現在の例では、これは「経費精算書詳細」ビジネス・オブジェクトの「個人識別子」属性です。
-
-
ベンフォード: ベンフォードの法則は、数値データの多様なセットにおいても先頭の数字の度数分布は予測可能であるというものです。たとえば、約30パーセントの値は数字1で始まります(値が10進法で表されている場合)。
このパターンでは、数値のセット内における先頭の数字の分布がベンフォードの法則によって予測される分布と比較され、相違が識別されます。データ・セットを定義するには、数値を返す1つ以上の属性を指定します。相違は、ベンフォード値を上回る、または下回る割合である値です。「次より大きい」パラメータと「次より小さい」パラメータを設定して、これらの割合を定義します。
-
クラスタリング: このパターンでは、データ・レコードがクラスタに分散されます。K平均分析が属性値に適用され、最も近い平均を持つクラスタに各値が属するように、値がいくつかのクラスタ(その数は変数kで表される)に分散されます。最良の結果を得るには、大きいデータ・セットを返す属性を選択します。
このパターンでは、作成されるクラスタの数が、評価されるレコードの数に基づいて決まります。ただし、「解決」パラメータ(値は「非常に高い」、「高」、「中」、「低」および「非常に低い」)を設定することで、この数を制御できます。値を「非常に高い」に設定するとクラスタの数が最も多くなり、値を「非常に低い」に設定するとクラスタの数が最も少なくなります。
-
異常検出: このパターンでは、指定した属性について値の正規分布が計算され、それが実際の値の分布と比較されます。パターンの結果はグラフに表示されます。そこで、異常(予測される(正規分布)値から著しく外れている実際の値)を識別できます。最良の結果を得るには、大きいデータ・セットを返す属性を指定します。
-
絶対偏差: このパターンでは、属性の値の絶対偏差が計算されます。絶対偏差とは、値のセット内の各値と、そのセット内のすべての値の平均の間の差異(正の数値として表される)です。
このパターンでは、実際には複数のセットを定義することにより、各セットについて偏差が返されます。セットを定義するには、「集計ピボット」パラメータについて属性を選択し、「分類」パラメータについて別の属性を選択します。これにより、各「集計ピボット」値内の「分類」値ごとに絶対偏差が計算されます。
たとえば、会社の各ビジネス・ユニット内の従業員が支出した経費にパターンを適用するとします。まず、「経費精算書詳細」ビジネス・オブジェクトの「総計」属性を選択します。「分類」パラメータについて「個人識別子」を、「集計ピボット」パラメータについて「ビジネス・ユニット」を選択します。
結果は散布図で示されます。x軸が「集計ピボット」値(この例ではビジネス・ユニット)を表し、y軸が絶対偏差値を表します。グラフ上の各点は、集計ピボット/絶対偏差値ごとのレコードの数です。
このパターンのその他のパラメータには、「スケール」と「感度」があります。通常、「スケール」パラメータについては「線形」を選択します。ただし、値が広く分散している場合は、対数オプションのいずれかを選択すると、より効果的なグラフを作成できる可能性があります。「感度」パラメータを使用すると、すべての結果をプロットするか、通常から非常に異常までの範囲のサブセットをプロットするかを選択できます。
-
パレート: パレートの原理は、多くの事象について、結果の約80パーセントは原因の20パーセントから生じるというものです。このパターンでは、パレートの原理を使用して、一連のレコードが、より小さいグループに分割されます。
最初に、一連のレコードは、選択した属性の値(またはそれらの値の派生物)が降順になるようにソートされます。それらのレコードの上位20パーセントが選択されます。繰返し反復が実行され、各反復において、前の反復から残っているレコードの20パーセントが選択されます。たとえば、2回目の反復では、元のセットの4パーセント(最初の20パーセントの20パーセント)で構成されるグループが作成されます。したがって、最初の反復で作成されたグループは、元のデータ・セットの16パーセントを保持します。
このパターンでは、評価するレコードの数に基づいて実行する反復の回数が決まります。ただし、「解決」パラメータ(値は「非常に高い」、「高」、「中」、「低」および「非常に低い」)を設定することで、この数を制御できます。値を「非常に高い」に設定すると反復の回数が最も多くなり、値を「非常に低い」に設定すると反復の回数が最も少なくなります。
また、「派生物」パラメータを設定することもできます。これにより、パターンが属性値を処理するか、それらの値の派生物を処理するかが決まります。「派生物」のオプションには次のものがあります。
-
なし: 高いものから低いものへと属性値がソートされた後、グループのレコードを選択するプロセスが開始されます。
-
最初の派生物: 高いものから低いものへと属性値がソートされ、各値がそのすぐ上の値から減算されて、結果の値がソートされた後、グループのレコードを選択するプロセスが開始されます。
-
2番目の派生物: 最初の派生物の値を使用して2番目の派生物の計算が実行された後、グループのレコードが選択されます。
-
-
正規化: このパターンでは、異なるスケールで最初に測定された値について共通のスケールが設定されます。入力属性値が昇順でソートされた後、各値に正規化スコア(最大ランクに対する個々のランクの比率)が割り当てられます。次に、各正規化スコアにユーザー指定の乗数が乗算されます。このパターンを使用するには、long、int、floatまたはdoubleのデータ型を提供する属性を1つ以上選択し、乗数値を指定します。
-
字句トークン化: このパターンでは、指定された属性の値が部分に区切られます。パターンを指定するフィルタによって返された値に列が追加されます。それぞれに、属性値が区切られた部分のいずれかがレポートされます。通常、このパターンを1つのフィルタで使用するモデルには、「字句トークン化」パターンで作成される列のいずれかの値を指定するフィルタが、もう1つ以上含まれます。
たとえば、「サプライヤ・サイト事業所」ビジネス・オブジェクトの「住所: 郵便番号」属性に9桁の郵便番号が含まれており、最初の5桁が最後の4桁とハイフンで区切られているとします。作業には最初の5桁のみが必要です。「字句トークン化」パターンでハイフンをデリミタとして指定できます。結果には、各郵便番号の最初の5桁のみをレポートする1つの列と、最後の4桁のみをレポートする別の列が含まれます。
パラメータは次のとおりです。
-
「デリミタ」では、属性値を区切るポイントを指定します。これは、文字(郵便番号の例のハイフンなど)または正規表現(使用するには、ソフトウェア・コーディング言語および表記規則についての知識がある程度必要)です。
-
「最大限度」では、属性値を区切る列の数を設定します。
-
「プリフィクス」では、パターンによって作成される各戻り列のヘッダーに表示するテキスト値を設定します。(各列について、他の戻り列と区別するために、このプリフィクスの後に連番が続きます。)
-
「型」では、戻り値をテキスト、数値または日付のいずれとして書式設定するかを指定します。
-