ヘッダーをスキップ
Oracle® Fusion Middleware Oracle Real-Time Decisionsプラットフォーム開発者ガイド
11g リリース1 (11.1.1)
B72429-01
  目次へ移動
目次

前
 
次
 

A Oracle RTDモデルの機能と戦略

この付録では、Oracle RTD自己学習予測モデルの一部の主要機能の概要を説明するほか、ビジネス分析の例を示します。これにより、 個別の予測モデル設定がOracle RTDのデシジョン・ロジックに及ぼす影響を理解できます。このドキュメントでは、これらの機能をどのように使用すれば、モデルの初期から成熟期までのライフサイクル全体を通して、データ利用(Oracle RTD自己学習モデルで得た既知の知識の最大限の活用)とデータ探索(さらなる知識の獲得によるデシジョンの精度向上)との間の適度なバランスを確立できるかという点を中心に説明します。

この付録では、読者がOracle RTDの予測モデルおよびデシジョン・ロジックの概念や用語をすでに理解していることを前提としています。詳細は、「Oracle RTDの意思決定プロセス」「モデルについて」を参照してください。

この付録では、Oracle RTDの予測モデリング機能の数学的な詳細説明は省略しています。

免責事項

この付録には次のトピックが含まれます:

A.1 モデルの概念

予測モデルとは、観測されたデータ・サンプルから作成される関数のことであり、デシジョンの時点で未知である結果を推定するために使用されます。例:

予測結果は決して完全に正確ではありません。モデル化されたプロセスはランダム性を内在しており、モデルには入手できないデータによる影響を受けるからです。

Oracle RTDでモデルを定義するときには、次の3種類のモデルから選択できます。

この3種類のモデルは、その特性のほとんどを共有していますが、それぞれ固有の使用パターンに対応しており、各ユースケースをサポートするための自動化度がそれぞれ異なります。詳細は、第13.14.1項「モデルの種類」を参照してください。

以降では、選択肢イベント・モデルを中心に説明します。選択肢イベント・モデルは自動化度が最も高いため、インライン・サービスで最もよく使用されます。選択肢イベント・モデルは、ベース・イベントが発生したときに、ある選択肢に固有のイベントが発生する条件付き確率を予測および分析する目的で使用します。

A.2 モデルからデシジョンへ

Oracle RTDがどのように予測モデルを使用してデシジョンを行うかを理解するには、モデル確率デシジョン・スコアという2つの概念を区別することが重要です。

モデル確率は、予測モデルが返す0から1までの数値です。選択肢イベント・モデルのコンテキストでは、モデル確率とは、特定のイベントが特定の状況(ベース・イベントの発生)、顧客データおよびコンテキストにおいて発生する予測確率を意味します。この確率は、インライン・サービスで様々な目的に使用できます。たとえば、適格性ルールのしきい値や、ランキング選択肢のスコアリング方法として使用できます。

デシジョン・スコアは、 デシジョンを行う際に使用される数値です。Oracle RTDでは、複数のスコアを選択肢に関連付け、複数のパフォーマンス目標(KPIともいいます)に基づいて最適な選択肢を選択できます。Oracle RTDデシジョン・フレームワークでは、多数のパフォーマンス目標を作成して、それらにスコアリング方法を関連付けることができます。

例を簡単にするために、以降では、単一パフォーマンス目標デシジョン・スキームのユースケースを使用します。このデシジョン・スキームでは、最適な選択肢の選択に使用するスコアリング方法が選択肢イベント予測モデルに直接マッピングされます。

A.3 モデルの成熟

Oracle RTDモデルは徐々に学習していきます。つまり、知識がゼロの状態から開始して、学習したケースが増えるにつれて予測精度が向上していきます。

モデルは知識の離散的段階(通常のデータ・マイニング用語では「モデルの収束」ともいいます)に達すると考えがちですが、Oracle RTDの場合、モデルの知識は継続的に発達していくため、この定義は直接には当てはまりません。

Oracle RTDモデルがいつ知識の安定レベルに達するかを厳密に定義するのは困難ですが、2つの成熟初期段階は、それ以降の段階と明らかに異なっており、「重要度しきい値」パラメータがその境界となっています。

A.3.1 重要度しきい値

重要度しきい値は、Oracle RTDインライン・サービス・レベルでグローバルに定義する数値であり、このインライン・サービスで定義したすべてのモデル、選択肢およびその関連イベントに適用されます。

モデル成熟サイクルをごく短くするために、デフォルト値は25と定義されています。短い成熟サイクルを実現するには、確率計算を信頼し始められる十分なケースがモデルによって学習されたことを早期に判断する必要があります。確率計算を検証する機会を早くモデルに与えれば、モデルが正確な予測をするまでにかかる時間が短縮されます。重要度しきい値を大きくすると、モデルが有効な予測を行うために必要なユースケースが増えるため、より保守的なアプローチになります。

モデルは、ライフサイクルの初期には、すべての予測リクエストに対してNaN (Not a Number)を返します。これは、予測の概算にさえ十分な情報がモデルにないことを示します。スコアリング・プロセスにおいてNaNがデフォルトでどのように処理されるかについては後述しますが、このデフォルトの動作が要件に合致しない場合は、ユーザー独自の処理を定義できます。ただし、この初期段階はそもそも過渡的なものであることを念頭においてください。

  • たとえば、選択肢の適格性を、選択肢の確度値がNaNでないケースのみに限定できます。

  • また、別の戦略として、確度がNaNであるか5%を上回る選択肢を適格にすることもできます。この戦略では、選択肢の不確実性が高いことを示せると同時に、選択肢の確度が十分に高い(> 5%)とみなされるケースのみに考慮対象を限定できます。

  • デシジョンのコンテキストでは、モデルがNaNを返す期間のスコアリング・ルールも使用できます。

この成熟の第1段階は、最小限の数のベース・イベントがモデルに記録されるまで続きます。この数は、重要度しきい値の2倍と定義されています(デフォルトでは2 * 25)。

ベース・イベントの数が重要度しきい値の2倍に達すると、第2段階が開始します。この時点からモデルは確率を返し始めます。肯定的イベントの数がまだ少ない間は、平均値に基づく単純な確率計算方法をモデルは使用します。つまり、この時期のモデルは、任意の時点ですべての顧客に対して同じ確率(平均確率)を返します。この平均確率は新しい学習によって変化していきます。

発生した肯定的イベントの数が重要度しきい値の2倍を超えると、第3段階が開始します。この時点からモデルはケースごとに異なる確率を返すようになります。選択肢イベント・モデルは複数の肯定的イベントを持つ場合があります。この場合、前述の成熟段階はイベントごとに別々に適用されます。

次の表は、これまでの説明をまとめたもので、アクティブな時間枠内の各成熟段階で特定の肯定的イベントの確率計算に使用される方法の特徴を説明しています。Oracle RTDで複数の肯定的イベントの確率を組み合せて最終的な確率を求める方法については、第A.5項「複数イベントに対するモデル確率計算」で別途説明しています。 説明を単純にするために、重要度しきい値は25に固定されているものと仮定します。

期間

ケース(ベース・イベント)数

肯定的ケース(肯定的イベント)数

確率

(確率計算の対象である肯定的イベントの確率)

説明

第1段階

50未満

任意の数

NaN

基礎的な予測にさえ十分なデータがないため、モデルはNaNを返します。

第2段階

50以上

1以上50未満

平均確率 = 肯定的イベント数 / ベース・イベント数

信頼性の高い予測を行うために必要な大量のデータがないときは、平均が妥当な初期推量となります。

第3段階

50以上

50以上

ケース別の予測

モデルは予測に十分なデータを学習しており、データの増加に伴いさらに成熟していきます。


たとえば、提示されたオファーを顧客がクリックする確率を予測する選択肢イベント・モデルが定義されているとします。この場合、オファーの提示がベース・イベントに当たり、オファーのクリックが肯定的イベントに当たります。モデルが返す値の変化を次の表に示します。

オファーの提示回数

オファーのクリック回数

予測

注意

0

0

NaN

知識がありません。

23

1

NaN

知識が過少です。

60

0

NaN

肯定的イベントに関する知識が過少です。

60

2

3.3%

平均(2/60)が初期推量です。

922

35

3.8%

まだ平均(35/922)が妥当な推量です。

1442

57

顧客別の値

-

25436

2011

より精度の高い顧客別の値

-


A.4 モデルのランダム化された確率計算

Oracle RTDモデルの組込み機能の1つとして、予測計算にある程度の変動性を導入する機能があります。「可能性のランダム化」を選択すると、算出された確率に正規分布ノイズ係数が加算されます。このノイズ係数は、平均が0で、肯定的イベントの総数と重要度しきい値に基づく標準偏差の正規分布に従います。このランダム化係数は、モデルが確率を計算可能になると同時に導入されます。つまり、成熟の第2段階から開始します。

このランダム化係数(統計用語では「ノイズ」ともいいます)によってある程度の変動性をデシジョン・プロセスに導入することは、クローズド・ループ・システムにおいて重要です。これにより、すべてのオファーに公平な可能性を与えることができるようになるからです。この変動性の導入により、クローズド・ループ・システムでは既成の知識を再評価し(統計用語では「システムの局所最適からの脱出」ともいいます)、学習を発展させ、より公平な可能性を他の選択肢に与えることが可能になります。Oracle RTDでは、導入する変動性の振幅を選択肢イベントの確率計算ごとに経時的に制御することで(詳細はこの項で後述します)、反応を正確に予測する能力に悪影響を及ぼすことなく既成の知識を再評価する適度なバランスを追求します。

次の表に、特定の選択肢イベント(「クリック」)の確率計算の例をいくつか示します。

選択肢の提示回数

選択肢のクリック回数

予測クリック確率

平均クリック確率

ノイズの標準偏差

ランダム・ノイズ

(例)

使用される最終確率値

(例)

37

5

NaN

13.5%

6.04%

-

NaN

1250

17

1.4%

1.4%

0.33%

0.32%

1.72%

1250

17

1.4%

1.4%

0.33%

-0.11%

1.29%

3506

44

1.3%

1.3%

0.19%

-0.44%

0.86%

5577

71

5.8%

1.3%

0.18%

0.12%

5.92%


この表からわかるように、ランダム・ノイズのレベルは、入力値が同じ場合でも、使用される最終確率値に影響します。

この表を見ると、ランダムに抽出される変数の性質により、ノイズの標準偏差は時間とともに減少していますが、個別の計算で使用されるランダム・ノイズは大きくなる場合があります。

重要な点として、この「可能性のランダム化」オプションによって導入されるノイズの振幅は、ノイズの標準偏差が肯定的イベントの回数ごとに減少するにつれて、時間とともに急速に減少していきます。次のグラフは、特定のイベントの確率計算における、ノイズの標準偏差と肯定的イベントの回数の関係を示しています。平均応答率を5%と仮定しています。

image002.gifの説明が続きます
画像image002.gifの説明

A.5 複数イベントに対するモデル確率計算

Oracle RTDの選択肢イベント・モデルは、イベントの順序付きリストを使用して定義されます。たとえば、提示→クリック→購入という一連のイベントが選択肢ごとに異なる早さ、異なるタイミングで発生する可能性がある場合、Oracle RTDでは、この一連のイベントを単一のモデルで定義できます。個々のイベントごとに別々のモデルを作成して管理する必要はありません。

Oracle RTDは最も重要度が高い結果を計算に使用しようと試みるため、イベントの順序が選択肢の確率計算に影響します(たとえば、購入とクリックとでは、購入の方が定義された一連のイベントの中で高くランク付けされます)。この戦略により、Oracle RTDは一連の肯定的イベントの中の分岐点をできるかぎり早期に特定し、クリックした顧客のうち、購入意志のない人ではなく、購入意志のある人のみをデシジョン・プロセスの対象にできます。また、この定義から、順序が遅いイベントほど順序が早いイベントよりも発生確率が低いことがわかります。

順序が遅いイベントの確率を計算できない場合(つまり、モデルの第1段階にあり、前述のロジックによる確率がNaNの場合)、Oracle RTDは次の方法で確率を概算します。その方法とは、確率を計算できる最も順序が遅いイベントを探し、その確率に、本来リクエストされたイベントに対する相対比率を掛けるという方法です。

A.5.1 個別のモデル確率のリクエスト

モデル・レベルで一連のイベントが定義されている場合でも、Oracle RTDでは、特定のイベントに対する確率スコアをリクエストするインライン・サービスを実装できます。

選択肢にAというベース・イベントとB、C、Dという3つの肯定的イベントがある場合、イベントDの確率を問い合せると、次のようになります。

  • Dの確率が計算可能な場合は、その確率が返されます。

  • Dの確率が計算できない場合で、BまたはCの確率が計算可能なときは、前述のとおり、順序が早いイベント(BまたはC)の確率に相対比率を掛けた値が返されます。

  • BまたはCの確率が計算できない場合は、NaNが返されます。

通常、個別の選択肢についてイベントDのモデルが収束しておらず、Cのモデルが収束している場合、Dの予測を問い合せた結果は、Cを問い合せた場合とは異なります。

A.6 デシジョンのための選択肢のスコアリング

Oracle RTDのデシジョン・プロセスでは、加重と、最適化の対象であるパフォーマンス目標に基づいて、適格なすべての選択肢がソートされます。この選択肢のソートは、選択肢の「合計スコア」を基準に行われます。合計スコアを計算するとき、Oracle RTDは、選択肢のスコアをパフォーマンス目標ごとに計算し、各スコアに重みを加えて合計します。これが最終的な合計スコアになります。

この付録では、単一パフォーマンス目標デシジョン・スキームのみを取り上げます。このスキームでは、最適な選択肢の選択に使用されるスコアリング方法が選択肢イベント予測モデルに直接マッピングされます。この場合、各選択肢に関連付けられる合計スコアは、選択肢イベント・モデルで算出された確率が基になります。

また、ここでは「パフォーマンス目標」設定の「必須」オプションが選択されているものと仮定します。このオプションは、合計スコアを計算するには、各選択肢にこのパフォーマンス目標のスコア値が必須であること示します。選択肢のソートには各選択肢の合計スコアが必要なため、Oracle RTDでは、定義されたスコアリング方法が値を返さないときに使用するデフォルト戦略を定義しておく必要があります。通常、この状況が発生するのはモデル成熟度の初期段階です。選択肢のソート・アルゴリズムを詳しくみる前に、一部のスコアを計算できないときの一般的なシナリオについて、次の各項でいくつか説明します。

A.6.1 新しい選択肢の導入

予測ベースのデシジョン・スキームが持つ重要な課題の1つは、新しく導入された選択肢(モデルがまだ収束していない)を既存の選択肢(既成の予測モデルに関連付けられている)と競合させる必要がある場合の処理です。

新しい選択肢に対しては、Oracle RTDがモデルを信頼して肯定的イベントの確率を予測し始まるまでの間、自らの価値を示す公平な可能性を与える必要があります。

Oracle RTDには、新しい選択肢を公平に表現できる簡単な方法が用意されています。「公平」とは相対的に平等という意味です。たとえば、適格な選択肢が15個ある場合、ある選択肢が最初に選択される可能性として6.6%を与えれば、公平な表現になります。

新しい適格な選択肢に可能性を与えると同時に、優れたモデルがある適格な選択肢に関する知識を活用する必要があります。したがって、新しい選択肢も既成の選択肢も少数であれば、新しい選択肢にはその数に応じた公平な表現を与え、既成の選択肢には最適化された表現を与えるのが理想です。

次の例で、この要件にOracle RTDがどのように対応するかを説明します。

適格な選択肢が15個あり、うち10個は既成の選択肢で、そのための優れたモデルがあり、残りの5個は新しい選択肢であると仮定します。

この場合、33%の確率で5個ある新しい選択肢の1つがランダムに選択され、66%の確率で10個ある既成の選択肢の1つが合計スコアに基づいて選択されるのが理想的です。

Oracle RTDでは、次のようなプロセスによってこの公平性を実現します。

  1. 各選択肢にランダムな数値を割り振ります。選択肢のスコアが計算可能かどうかは関係ありません。

  2. 選択肢同士を比較して選択肢をソートします(適格な選択肢の全リストで繰り返し対比較を行います)。

  • 比較する2つの選択肢それぞれの合計スコアを計算できるときは、合計スコアを使用して比較します。

  • 比較する2つの選択肢の片方または両方の合計スコアが計算できないときは、割り振ったランダムな数値を使用して比較します。

この単純なプロセスによって、前述した公平性の目標を達成できます。言い換えると、既成の選択肢同士は合計スコアで比較され、新しい選択肢と比較する選択肢はランダムにソートされます(ソート・プロセスの最初にランダムな数値が割り振られているので、矛盾なくソートされます)。なお、デシジョン・プロセスで選択肢の比較に使用されるランダムな数値は、この付録で前述したモデルの確率計算のために行われるランダム化とはまったく異なります。注意してください。

「必須」チェック・ボックスを選択していない場合、スコアリング方法が値を返さないと、他のパフォーマンス目標に基づいて他の選択肢との1対1の比較が行われます。スコアを計算できるパフォーマンス目標がない場合は、ランダム対比較が使用されます。

原則として、ランダムな数値を使用してスコアリングされる選択肢とランダムな数値を使用しない選択肢の割合によってシステム全体のパフォーマンスが低下しないように、既成のシステムへ一度に導入する新しい選択肢の数を監視する必要があります。このランダム比較が発生するのは、学習の初期と過渡期のみです。

A.7 モデル品質

ほとんどのデータやデータ間結合が持つ性質そのものが原因で、予測モデリングによる将来の事象の予測には誤差が伴います。Oracle RTDモデルには、こうした誤差の性質を理解し、潜在的な誤差の認識に基づいて最適なデシジョン・スキームを設計するために役立つ機能がいくつか用意されています。

Oracle RTDデシジョン・センターの品質レポートには、次に示すメトリックが選択肢レベルと選択肢グループ・レベルの両方で表示されます。これらは、予測モデルの品質の特性を表します。

モデル品質は0から100の範囲の数値です。ある結果を予測するときに、そのモデルがどれだけ信頼できるかを示します。

モデル品質は、モデルのリスト曲線の下の領域を理論上の理想モデルと比較して計算されます。

Oracle RTDでは、モデル品質の計算はレコードが増えるに従って増分的に行われます。最初のうちは、モデル内のデータが少なすぎるためにモデルを信頼できない時期もあります。この期間中は、デシジョン・センターのレポートにモデル品質のメトリックは表示されません。モデルが信頼できる状態になった後は、モデル品質がレポートに表示されます。

モデル品質のメトリックによってモデルを評価すると、最終的には1つの数値が得られますが、これは絶対値ではなく相対値として扱う必要があります。

経験則:

A.7 モデル品質のしきい値とモデルの使用

予測モデルに関連付けてその動作の特徴を示すことができるメトリクスは多数ありますが、モデル品質は複数のメトリクスを1つに集約するため、モデルのすべての側面を正確に表すことはできません。それでも、モデル品質はモデルを使用および信頼するタイミングを示す優れた指標であり、他のスコアリング戦略との比較検討に役立ちます。

例:

  • スコアリングに使用できる既存のオフライン・モデルのスコアがある場合で、Oracle RTDモデルが学習中のときは、Oracle RTDモデルの品質が30から40に達するまで、既存モデルを使用することが考えられます。

  • また、このような既存モデルがない場合は、最初からOracle RTDモデルを使用する必要があります。

  • 別の方法として、Oracle RTDモデルが十分に学習して所期の品質に達するまでの間、不明の確率(NaN)を選択肢に割り当てておくこともできます。関連付けられたパフォーマンス目標が必須としてマークされている場合、この戦略ではオファーが比例的にランダムに提示されます。

他のスコアリング戦略と比較検討し、モデルを使用および信頼するタイミングを決定するための別の指標として、モデル・リフトがあります。Oracle RTDには、リフト・チャート内の特定のポイントにおけるモデルの相対的な強みを識別するためのランタイムAPIが用意されています。

モデル「lift at 20%」もモデル品質の優れた指標です。このAPIは、リスト曲線の20%のポイントでモデルが提供するリフトを返します。 これは、デシジョン・センターのレポートに表示されます。繰り返しますが、正確に何をしきい値とするかは、意思決定戦略によっても、代替のスコアリング戦略の有無によっても異なります。

最後に、より入念な戦略としては、様々な確率予測戦略を使用した複数の予測モデルを構築し、それらのモデルをどのように組み合せるべきかを集計モデルによってリアルタイムに判断します。

A.8 よくある質問

モデル品質は、選択肢の確率計算でどのような役割を果たしますか。

モデル品質は、確率計算では何の役割も果たしません。

重要度しきい値は、どのような役割を果たしますか。

重要度しきい値(アプリケーションの「モデルのデフォルト」で設定)は、モデルからの予測の計算時、予測モデルの構築時、および予測に最も役立つ属性や値の特定時に様々な箇所で使用されます。

このしきい値には様々な用途があるため、通常は値を変更しないことをお薦めします。

このしきい値は、統計的に有効な結果が出始めるまでに学習する必要があるケース数と解釈するのが最良です。

ボリュームが非常に少ない環境では、このしきい値をデフォルトの25未満に下げることを検討してもかまいません。

代替の確率予測方法があり、Oracle RTDモデルは精度が非常に高まってから使用するような環境では、このしきい値をおそらく50まで上げてもよいでしょう。

予測に役立たない属性の削除についてのベスト・プラクティスを教えてください。

デフォルトでは、入力属性の数はスコアリング・スループットにほとんど影響を与えないため、Oracle RTD全体のベスト・プラクティスは、選択肢の予測有効性に寄与する可能性のある属性はすべて含めておくというものです。

モデルが収束したら、個々の属性を含めるかどうかを、それぞれの予測有用性に基づいて調整できます。モデルのすべての選択肢に対して予測有用性がゼロの属性(デシジョン・センターのドライバ・レポートに示されます)については、除外を検討してもかまいません。ただし、このような属性も、後から、または新しく導入する選択肢の予測に役立つ可能性がある場合は、モデルから除外しないでください。

Oracle RTDは、ノイズと思われる属性を識別しますか。

極端に高い(90-100)予測有効性を示す属性は、予測対象の属性と共線的であると判断されれば、除外する必要があります。こうした属性をデシジョン・スタジオで排除するには、モデル構成時に「除外された属性」セクションを使用するか、属性のプロパティで「分析に使用」の選択を解除します(この場合、すべてのモデルから除外されます)。

Oracle RTDモデルは、モデルの定義にある「前提ノイズの削減」オプションを有効にすることで、属性の予測有効性が疑わしいほど高いケースを自動的に認識するように設定できます。このようなケースに該当する場合、デシジョン・センターのレポートでは、疑わしい非常に高い予測有効性の値および相関性の値が灰色の棒グラフで強調されます。詳細は、第13.14.2項「共通のモデル・パラメータ」のトピック「前提ノイズの削減」を参照してください。

選択肢の適格性ルールで使用されている属性を手動で除外する必要はありません。このような属性はベース・イベントと肯定的イベントの両方でカウントされるため、除外しなくても予測計算には影響しないからです。

モデル出力との相関関係がないとわかっている属性(たとえば、データベースの一意識別子や参照キーなど)はすべて、モデルから除外できます。除外しなかったとしても、Oracle RTDは自動化に対応して設計されており、予測に役立たない可能性がある属性を含むことで生じるノイズは無視できる程度のものです。

モデルの再構築は、いつ必要でしょうか。

従来のデータ・マイニング手法では、モデル品質の低下に伴い、定期的に予測モデルを再構築する必要があります。Oracle RTDには、モデルの再構築を自動化してモデルの利用を最適化するための機能が複数用意されています。

その1つはモデルの時間枠です。この機能は、設定されたタイミングに基づくモデルの再構築を自動化します。これにより、古いデータやその過去における作用が新しい時間枠のモデルに影響を及ぼさないようにできます。

もう1つは、モデルを定期的に再評価する機能です。インライン・サービスの「アプリケーション」の「モデルのデフォルト」タブにある「データの変更時にビルド」パラメータを使用すると、新しい予測モデルを構築する前に何件のレコードが記録される必要があるかをパーセンテージで設定できます。デフォルト値は「20%」です。

Oracle RTDでは、スコアの計算時に属性の母集団全体の中から何個の属性が選択されますか。すべて、上位20個、上位30個、または統計的計算に基づく可変数ですか。その場合、どのような計算方法ですか。

Oracle RTDでは、属性のプロパティ・ボックス内にある「分析に使用」チェック・ボックスの選択を解除している場合を除き、すべてのエンティティ属性がモデル学習の一部として組み込まれます。

モデルを圧縮すると、属性の数だけでなく数値用の事前計算バイナリの数も減り、サイズが約1/10になります。ただし、どの値が使用されるかを示すレポートは現在ありません。

インライン・サービス・アプリケーション・レベルで定義する相関しきい値によってモデルの圧縮率を制御できます。デフォルトでは0に設定されています。したがって、肯定的イベントとの相関関係がゼロの属性-値のみが削除され、情報の欠落がまったくない圧縮モデルができます。このしきい値を大きくすれば、モデルの圧縮率を上げられますが、その代償として、相関関係のレベルが定義したしきい値を下回る属性-値が削除されます。