用語集

能動学習

サポート・ベクター・マシン・アルゴリズムの機能で、大量のトレーニング・データセットを処理する方法を提供する。

ADP

集約

複数のデータ値をより少ない数の値に集約するプロセス。たとえば、売上データを毎日収集して、これを週レベルに総計できる。

アルゴリズム

問題を解決するための一連の手順。「データ・マイニング・アルゴリズム」を参照。Oracle Data Mining APIでは、MDL、Apriori、ディシジョン・ツリー、k-Means、Naive Bayes、GLM、O-Cluster、サポート・ベクター・マシン、期待値最大化および特異値分解の各アルゴリズムがサポートされます。

アルゴリズム設定

モデル作成用のアルゴリズム固有の動作を指定する設定。

異常検出

外れ値または特殊なケースの検出。Oracle Data Miningには、異常検出が1クラスSVMとして実装されています。

適用

データのスコアリングを行うデータ・マイニング操作。スコアリングとは、結果を予測するために新しいデータに対してモデルを適用するプロセスです。

Apriori

相関の計算に高頻度項目セットを使用するアルゴリズムです。

相関

項目間の関係を識別する機械学習手法。

相関ルール

トランザクション間の各項目の同時発生性を見つけ出すマイニング機能。典型的なルールは、項目セットAの存在が、一定の支持度および信頼度で項目セットBの存在を示すA -> B形式の関連付け。ルールの支持度とは、総トランザクション数に対する、項目セットAおよびBが存在するトランザクションの数の割合である。ルールの信頼度とは、項目セットAが存在するトランザクションの数に対する、項目セットAおよびBが存在するトランザクションの数の割合である。Oracle Data Miningでは、相関モデルにAprioriアルゴリズムが使用される。

属性

属性は、予測モデルの予測子、または記述モデルの記述情報の項目を指す。データ属性は、モデルの作成に使用されるデータの列を指します。データ属性は、変換により、モデルで質的属性または量的属性として使用できるようになる。質的属性および量的属性はモデル属性である。「ターゲット」も参照。

属性評価

属性の重要度の測度を提供し、特定のターゲットを予測するマイニング機能。トレーニング・データ表の様々な属性の測度によって、ユーザーは、マイニング・モデルに対して最も適切であると判明した属性を選択できる。属性セットが小さいほど短時間でモデルが作成され、結果として生成されるモデルの精度が高くなる場合がある。Oracle Data Miningでは、重要な属性の検出に最小記述長アルゴリズムを使用する。「特徴選択」または「キー・フィールド」と呼ばれる場合もある。

自動データ準備

マイニング・モデルは、自動データ準備(ADP)で作成でき、ADPでは、アルゴリズムの要件に従って作成データが変換され、モデルに変換の指示が組み込まれます。組み込まれた変換は、新しいデータにモデルを適用するたびに実行されます。

ビニング

「離散化」を参照。

作成データ

モデルを作成(トレーニング)するためのデータ。「トレーニング・データ」とも呼ばれる。

ケース

特定のトランザクションまたは関連する値のセットに関して収集されたすべてのデータ。データセットはケースの集合である。ケースは、「レコード」または「サンプル」とも呼ばれる。最も単純な状況では、ケースは表内の1行に相当する。

ケース表

単一レコード・ケース形式の表またはビュー。各ケースのすべてのデータは、1つの行に格納される。ケース表には、各行の一意の識別子を格納するケースID列が含まれる場合がある。マイニング・データはケース表として与える必要がある。

質的属性

値が個別カテゴリに対応している属性。たとえば、州は、個別の値(CA、NY、MAなど)を持つ質的属性である。質的属性は、州、性別などのように順序付けられないもの(名称的)か、温度の高、中、低などのように順序付けられるもの(序数的)かのいずれかである。

重心

「クラスタの重心」を参照。

分類

既知のターゲット値を持つレコードから作成したモデルを使用して、新しいレコードの質的ターゲット値を予測するマイニング機能。Oracle Data Miningでは、分類に関して、Naive Bayes、ディシジョン・ツリー、一般化線形モデルおよびサポート・ベクター・マシンの各アルゴリズムをサポートしている。

クリップ

「トリミング」を参照。

クラスタの重心

各属性について、クラスタに割り当てられたトレーニング・データにおけるケースの平均値(量的属性の場合)または最頻値(質的属性の場合)のエンコードを行うベクター。クラスタの重心は単に「重心」とも呼ばれる。

クラスタリング

データ内での自然発生的なグループを見つけるためのマイニング機能。より正確には、それぞれが属性セットを持つデータ・ポイントのセット、およびそのデータ・ポイント間の類似性測度があるものとすると、クラスタリングとは、相互に類似するデータ・ポイントを同じクラスタ内に、あまり類似しないデータ・ポイントを異なるクラスタ内にグループ化するための処理である。Oracle Data Miningでは、クラスタリングに関して、k-Means、直交パーティショニング・クラスタリングおよび期待値最大化の3つのアルゴリズムがサポートされています。

混同マトリックス

これによって、テスト・タスクからのモデルによる予測の精度が測定される。混同マトリックスの行インデックスは、テスト・データで提供され、観測された「実測値」に対応する。列インデックスは、モデルをテスト・データに適用して生成された「予測値」に対応する。実測/予測インデックスの各組合せの値は、その組合せに分類されるレコードの数を表す。

予測値が実測値に等しい場合、モデルによって正確な予測が生成される。その他のすべてのエントリはエラーを示す。

コスト・マトリックス

予測値と実測値に関連するコストを定義するn×nの表です。コスト・マトリックスは通常、分類モデルで使用され、nはターゲット内の個別値の数で、列および行はターゲット値でラベル付けされます。行が実測値、列が予測値となります。

反例

ターゲットのネガティブ・インスタンス。反例は、1クラス・サポート・ベクター・マシン以外の分類モデルで必要となります。

データ・マイニング

データ・マイニングとは、大量に保管されているデータを自動的に検索して、単純な分析では得られないパターンや傾向を見つけることです。データ・マイニングでは高度な数学的アルゴリズムを使用して、データを分割し、将来のイベントの発生確率を判断します。データ・マイニングは、「データからの知識発見(KDD)」としても知られています。

データ・マイニング・モデルは、特定のデータセットの特定のタイプの問題を解決するためにデータ・マイニング・アルゴリズムを実装しています。

データ・マイニング・アルゴリズム

データ・マイニング・モデルを生成する特殊な技法または手順。1つのアルゴリズムでは特定のデータ表現および特定のマイニング機能が使用されます。

Oracle Data Miningがサポートするアルゴリズムは、Naive Bayes、サポート・ベクター・マシン、一般化線形モデルおよびディシジョン・ツリー(分類用)、サポート・ベクター・マシンおよび一般化線形モデル(回帰用)、k-Means、O-Clusterおよび期待値最大化(クラスタリング用)、最小記述長(属性評価用)、Non-Negative Matrix Factorizationおよび特異値分解(特徴抽出用)、Apriori(相関用)および1クラスサポート・ベクター・マシン(異常検出用)です。

Data Mining Server

データ・マイニング・エンジンおよび永続メタデータ・リポジトリを実装する、Oracle Databaseのコンポーネントです。データ・マイニング・タスクを実行する前にData Mining Serverに接続する必要がある。

データセット

一般的には、データの集合。データセットはケースの集合である。

記述モデル

記述モデルは、基底のプロセスや行動の理解に役立つ。たとえば、相関モデルによって、消費者の購入パターンを記述できます。「マイニング・モデル」も参照。

離散化

離散化(ビニング)によって、単一値(またはビン)に基づいて、関連値が一緒にグループ化されます。これによって、列内の個別値の数が減少する。ビンの数が少なくなると、モデルが短時間で作成される。モデルの作成、テスト、リフトの計算、適用(スコアリング)の前に入力データを離散化することによって、Oracle Data Miningの多くのアルゴリズム(NBなど)にプラスとなる場合がある。アルゴリズムごとに異なるビニング・タイプが必要になる場合がある。Oracle Data Miningでは、監視ありビニング、質的属性に対する上位N個の頻度ビニング、量的属性に対する等幅ビニングおよび分位ビニングがサポートされています。

距離ベース(クラスタリング・アルゴリズム)

距離ベースのアルゴリズムは、距離メトリック(関数)を使用して、データ・ポイント間の類似度を計測する。各データ・ポイントは、使用される距離メトリックに従って、最も近いクラスタに割り当てられる。

ディシジョン・ツリー

ディシジョン・ツリーは、分類システムまたは監視ありモデルを表します。ツリーは一連の問題として構築され、問題への答えはツリーをリーフまでさかのぼり、そのリーフで予測が生成されます。

ディシジョン・ツリーは、クラスまたは値をもたらす一連の問題を表す方法である。ディシジョン・ツリーの最上位ノードはルート・ノードと呼ばれ、終端ノードはリーフ・ノードと呼ばれる。ディシジョン・ツリーは、各分割においてグループ間の距離が最大になるような、個々のグループへのデータの反復的な分割によって構築される。

ディシジョン・ツリー・モデルの重要な特性は、透過的であるという点にある。すなわち、その分類を説明するルールが存在する。

「ルール」も参照。

等幅ビニング

等幅ビニングは、指定した同じサイズのビン数に値の範囲を分割することによって、量的属性のビンを決定する。

期待値最大化

期待値最大化は、データの密度モデルを作成する確率的クラスタリング・アルゴリズムです。密度モデルによって、異なるドメインに由来するデータ(たとえば、販売トランザクションと顧客購買層、または構造化データとテキストなどの非構造化データ)を結合するアプローチを改善できます。

展開

質的属性に関して、複数値の質的列をいくつかの2項質的列で置き換える。属性を展開するには、属性がとる各個別値に新しい2項列を作成する必要がある。新しい列では、1は属性の値がその列の値をとることを示し、0はとらないことを示す。たとえば、質的属性が値{1, 2, 3}をとるとする。この属性を展開するために、col_1、col_2およびcol_3という新しい列を3つ作成する。属性が値1をとる場合、col_1の値は1であり、他の2つの列の値は0となる。

特徴

特に重要度が高くデータの重要な特性をとらえた、データ内の属性の組合せ。「特徴抽出」を参照。

「テキストの特徴」も参照。

特徴抽出

元のデータを分解して、特徴の新しいセットを作成すること。特徴抽出を使用すると、通常、元の属性の数よりもはるかに少ない数の特徴でデータを記述できる。「Non-Negative Matrix Factorization」および「特異値分解」も参照してください。

一般化線形モデル

線形モデリング用の統計的手法。一般化線形モデル(GLM)は、単純な線形モデルのクラスを含み、このクラスを拡張したものである。Oracle Data Miningでは、GLM分類に対してロジスティック回帰が、GLM回帰に対して線形回帰がサポートされている。

GLM

「一般化線形モデル」を参照。

k-Means

十分な数の個別ケースがある場合に、事前に決められた数のクラスタにデータをパーティション化する、距離ベースのクラスタリング・アルゴリズム。距離ベースのアルゴリズムは、距離メトリック(関数)を使用して、データ・ポイント間の類似度を計測する。各データ・ポイントは、使用される距離メトリックに従って、最も近いクラスタに割り当てられる。Oracle Data Miningには、k-Meansの拡張バージョンが用意されている。

リフト

偶然取得される予測結果より、モデルを使用している予測結果がどのくらい優れているかの測度。たとえば、カタログを請求した顧客の2%が購入を行っていると仮定し、あるモデルを使用してカタログの請求者を絞ると請求者の10%が購入を行っていると仮定する。この場合、そのモデルのリフトは10/2、つまり5となる。リフトは、異なるデータ・マイニング・モデルを比較するための測度としても使用できる場合がある。リフトは実際の結果を持つデータ表を使用して計算されるので、予測結果の当該データに関して、あるモデルがどの程度機能しているのかが比較される。リフトによって、実際の結果からランダムに選択した予測に対して、モデルがどの程度予測を向上させているかが示される。リフトを使用すると、新しいデータに対してモデルがどの程度機能するかを推測できる。

系統

モデル作成プロセスのデータ準備フェーズで、データセットに対して実行される変換順序。

線形回帰

Oracle Data MiningでサポートされているGLM回帰アルゴリズムです。

ロジスティック回帰

Oracle Data MiningでサポートされているGLM分類アルゴリズムです。

MDL

「最小記述長」を参照。

min-max正規化

次の変換を使用して量的属性を正規化することです。

 x_new = (x_old-min) / (max-min)

最小記述長

データのサンプルがあり、そのデータを説明するための適切な代替理論が効率的に列挙されている場合、最良の理論は次の合計を最小化するものである。

理論の記述のビット長
理論によってエンコードされる際のデータのビット長

最小記述長の原理は、属性評価におけるターゲット値の区別に最も影響のある属性の選択に使用されます。

マイニング機能

共通の高水準の特性を共有するデータ・マイニングの主なサブドメイン。Oracle Data Mining APIでは、分類、回帰、属性評価、特徴抽出、クラスタリングおよび異常検出の各マイニング機能がサポートされています。

マイニング・モデル

Oracle Databaseでデータ・マイニング・モデルを指定するファースト・クラスのスキーマ・オブジェクトです。

欠損値

ランダムに欠損したデータ値です。値は、使用できない、既知ではない、または喪失したため、欠損しています。Oracle Data Miningは、単純な(ネストしていない)データ型の列に欠損値がある場合、それらをランダムに欠損した値として解釈します。Oracle Data Miningは、ネストした列に欠損値がある場合、それらをスパースとして解釈します。

データ・マイニング・アルゴリズムには、様々な欠損値の処理方法がある。一般的な処理方法として、欠損値を無視する、欠損値を含んでいるレコードを省く、欠損値を最頻値または平均値で置き換える、または既存値から欠損値を推測するなどがあげられる。「スパース・データ」も参照。

モデル

モデルは、アルゴリズムを使用して特定のマイニング機能を実装します。モデルは、監視ありモデルまたは監視なしモデルのいずれかである。モデルは、相関モデルから生成されたルールの検査や、データのスコアリング(結果の予測)など、直接検査のために使用できます。Oracle Databaseでは、データ・マイニング・モデルは、マイニング・モデルのスキーマ・オブジェクトとして実装されます。

複数レコード・ケース

データ表の各ケースは、複数の行に格納されます。「トランザクショナル・データ」としても知られています。「単一レコード・ケース」も参照。

Naive Bayes

Bayesの定理に基づく分類用のアルゴリズムです。Naive Bayesでは、各属性は条件的に他の属性に従属しないものとみなされるため、あるターゲット値を考える際、各予測子の分布は他の予測子に依存しません。

ネストしたデータ

Oracle Data Miningでは、名前と値のペアのネストした列でのトランザクショナル・データがサポートされています。1対多の関係を表す多次元データはネストした列にロードして、ケース表内の単一レコード・ケース・データとともにマイニングできます。

NMF

「Non-Negative Matrix Factorization」を参照。

Non-Negative Matrix Factorization

ユーザーが定義した数の特徴を作成して多変量データを分解することにより、元のデータの縮小表現を生成する特徴抽出アルゴリズム。

正規化

正規化では、[–1.0,1.0]や[0.0,1.0]などの量的な値を、x_new = (x_old-shift)/scaleなどのように特定の範囲に変換します。正規化は、量的属性に対してのみ適用されます。Oracle Data Miningには、min-max正規化、スケール正規化およびz-スコア正規化を実行する変換が用意されています。

量的属性

値が数である属性。数値は整数または実数のいずれかである。量的属性の値は、連続する値として操作できる。「質的属性」も参照。

O-Cluster

「直行パーティショニング・クラスタリング」を参照。

1クラス・サポート・ベクター・マシン

異常検出に関する問題の解決に使用されるサポート・ベクター・マシン・モデルのバージョン。アルゴリズムでは、ターゲットなしの分類が実行されます。

直交パーティショニング・クラスタリング

グリッドベースの階層クラスタリング・モデルを作成するOracle独自のクラスタリング・アルゴリズムであり、軸並行な(直行の)パーティションを入力属性空間に作成します。このアルゴリズムは再帰的に作用します。生成される階層構造は、属性空間をクラスタに分割する不規則なグリッドになります。

外れ値

通常のデータの個体群から離れているデータ値(極値)。正規分布では、外れ値は通常、平均値からの標準偏差が3以上です。

ポジティブ・ターゲット値

2項分類の問題では、2つのクラス(ターゲット値)のうち1つをポジティブとし、もう1つをネガティブと指定できる。Oracle Data Miningによってモデルのリフトが計算される際、モデルが一定の信頼度でポジティブ値を予測する、テスト・インスタンス・セット中のポジティブ・ターゲット値の密度が計算される。

予測モデル

予測モデルは、他の既知の値(独立変数または入力)からは目に見えないか、測定されない値(従属変数または出力)を予測できるようにする式またはルールのセットである。式またはルールの形式は、調査プロセスから収集されたマイニング・データによって示される。トレーニングまたは評価手法の中には、式やルールのパラメータの評価に使用されるものがある。予測モデルは、監視ありモデルである。

予測子

モデルを作成する監視ありアルゴリズムへの入力として使用される属性です。

既存データ

特定のアルゴリズムを使用したモデルの作成に適したデータ。データ・マイニング・プロジェクトで費やされるほとんどの時間を、データの準備が占める場合がある。自動データ準備では、アルゴリズム用のデータを自動的に準備することで、モデルの開発およびデプロイメントが大幅に簡略化されます。

主成分分析

主成分分析は、特異値分解アルゴリズムの特別なスコアリング方法として実装されます。

事前確率

事前確率のセットによって、元のソース・データにおける様々なクラスのサンプルの分布が指定される。単に「事前」とも呼ばれ、モデルの作成に提供されるデータセットで観測される分布とは異なる場合がある。

事前

「事前確率」を参照。

分位ビニング

量的属性はビンに分割され、各ビンにほぼ同じ数のケースが格納されるようにする。

ランダム・サンプル

データセットの各要素が選択される機会を等しく持つ場合のサンプル。

再コーディング

文字どおり、コードを変更または再配置すること。再コーディングは、次に示すような特定のビジネス上の課題の要件に従ってデータを準備する際に有効になる場合があります。

欠損値の処理: 欠損値は、「0000」、「9999」、「NA」またはその他の文字列など、NULL以外のもので示される場合がある。欠損値を処理するには、「0000」からNULLに再コーディングするなどの方法がある。これにより、Oracle Data Miningのアルゴリズムおよびデータベースによって、その値は欠損値として認識される。
変数のデータ型の変更: 「Y」または「Yes」を1に、「N」または「No」を0に変更するなど。
カットオフ値の確立: $20,000より少ないすべての収入を同じ値に再コーディングするなど。
項目のグループ化: USの個々の州を地域にグループ化するなど。「New England region」の構成要素としてME、VT、NH、MA、CTおよびRIがある場合、この5つの州を、NE (for New England)などと再コーディングする。

レコード

「ケース」を参照。

回帰

既知のターゲット値を持つレコードから作成したモデルを使用して、新しいレコードの連続的なターゲット値を予測するデータ・マイニング機能。Oracle Data Miningでは、線形回帰(GLM)およびサポート・ベクター・マシンのアルゴリズムが回帰用にサポートされています。

ルール

「Xの場合Y」という一般形式の式。クラスタリング、相関、ディシジョン・ツリーなどの特定のアルゴリズムの出力である。述語Xは、コンパウンド述語の場合がある。

サンプル

「ランダム・サンプル」を参照。

スケール正規化

次の変換を使用して量的属性を正規化することです。

 x_new = (x_old - 0) / (max(abs(max),abs(min)))

スキーマ

表、ビュー、順序、ストアド・プロシージャ、シノニム、索引、クラスタ、データベース・リンクなどの論理構造を含むOracle Databaseのオブジェクトの集合です。スキーマは、特定のデータベース・ユーザーに関連付けられます。

スコア

データのスコアリングとは、予測を生成するために、データ・マイニング・モデルをデータに適用することを意味する。

設定

「アルゴリズム設定」を参照。

単一レコード・ケース

データ表の各ケースは、1つの行に格納されます。「複数レコード・ケース」と対比。

特異値分解

直交線形投影を使用して基礎となるデータ分散を取得する特徴抽出アルゴリズムです。特異値分解は、非常に大規模なデータ・サイズ(行と属性の両方)に適切にスケーリングされ、優れたデータ圧縮機能を持ちます。

「特異値分解」を参照。

スパースなデータ

ある特定のケースにおいて、非ゼロまたは非NULLである属性の割合が小さいデータ。マーケット・バスケットや非構造化テキストのデータは通常スパース・データです。Oracle Data Miningは、ネストしたデータをスパースとして解釈します。「欠損値」も参照。

分割

あるデータセットをいくつかの非結合サブセットに分割すること。たとえば、分類に関する問題では多くの場合、データセットがトレーニング・データセットとテスト・データセットに分割される。

層別サンプル

データセットを非結合サブセット(層)に分割し、各サブセットからランダム・サンプルを取得すること。この手法は、ターゲット値の分布が大幅に偏っている場合に使用される。たとえば、マーケティング・キャンペーンに対する反応のポジティブ・ターゲット値が、そのキャンペーン期間の1%以下の場合などで使用される。層別サンプルにより、ポジティブ・ターゲット値とネガティブ・ターゲット値を区別する要因を学習するために十分な数のポジティブ・サンプルが、データ・マイニング・アルゴリズムに提供される。「ランダム・サンプル」も参照。

監視ありビニング

高い知能を備える形式のビニングであり、ビンの境界はデータの重要な特性から導かれます。監視ありビニングでは、単一予測子のディシジョン・ツリーが作成され、ターゲットに関して特徴的なビンの境界が検出される。監視ありビニングは、量的属性または質的属性に使用できます。

監視あり学習

「監視ありモデル」を参照。

監視ありモデル

既知の従属変数を使用して作成したデータ・マイニング・モデルで、ターゲットとも呼ばれます。監視ありマイニングの例として、分類および回帰手法があります。「監視なしモデル」を参照。「予測モデル」とも呼ばれます。

サポート・ベクター・マシン

機械学習理論を使用して、データへのオーバーフィットを自動的に回避しつつ予測の精度を最大化するアルゴリズム。サポート・ベクター・マシンは、バイオインフォマティクスで扱われるデータのように、予測子の列が多い一方で行が比較的少ない分野などに見られるスパース・データについても予測を行うことができる。サポート・ベクター・マシンは、分類、回帰および異常検出に使用できる。

SVM

「サポート・ベクター・マシン」を参照。

ターゲット

監視あり学習における、識別された予測対象の属性。「ターゲット値」または「ターゲット属性」と呼ばれる場合もある。「属性」も参照。

テキストの特徴

ドキュメントまたはドキュメントのクラスの重要な属性を捕捉する用語の組合せ。テキストの特徴とは通常、キーワード、用語の頻出度など、ドキュメント派生の特徴である。ドキュメントには通常、多くの用語が含まれるが、特徴の数は比較的少ない。

テキスト・マイニング

テキストの特徴を使用して行われる従来型のデータ・マイニング。テキストの特徴とは通常、キーワード、用語の頻出度など、ドキュメント派生の特徴である。テキストの特徴を抽出して、その他のデータと同様にマイニングを行う。テキスト・マイニングは、Oracle Data MiningおよびOracle Textの両方でサポートされる。

上位N個の頻度ビニング

このタイプのビニングは、質的属性をビニングします。各属性のビンの定義は、データから計算される値の発生頻度に基づいて計算されます。ビンの数は、ユーザーが特定の数(N)を指定します。bin_1、...、bin_Nの各ビンが、頻度が上位にある値に対応します。ビンbin_N+1が、それ以外のすべての値に対応します。

トレーニング・データ

「作成データ」を参照。

トランザクション・データ

1つのケースのデータは、複数の行に格納されます。例としては、マーケット・バスケット・データ(ケースが複数の項目を含んでいる1つのバスケットを表す)があります。Oracle Data Miningでは、属性名と値のペアのネストした列でのトランザクショナル・データがサポートされています。「ネストしたデータ」、「複数レコード・ケース」および「単一レコード・ケース」も参照。

変換

データに適用される機能で、適用後は新しい表現のデータとなります。たとえば、離散化および正規化はデータに対する変換です。

トリミング

外れ値の影響を最小限に抑える手法です。トリミングでは分布の両端の値が取り除かれ、以降の計算では取り除かれた値が無視される。トリミングでは、末端値をNULLに設定します。

非構造化データ

画像、音声、映像、地理空間マッピング・データ、ドキュメントまたはテキストのデータは、まとめて非構造化データと呼ばれる。Oracle Data Miningでマイニングできる非構造化データはテキスト・データである。

監視なし学習

「監視なしモデル」を参照。

監視なしモデル

既知の正確な結果のガイダンス(監視)なしで作成されたデータ・マイニング・モデル。監視あり学習では、この正確な結果がターゲット属性で提供される。監視なし学習には、そのようなターゲット属性がない。監視なしマイニング機能の例として、クラスタリングおよび相関がある。「監視ありモデル」を参照。

ウィンザライズ

外れ値の影響を最小限に抑える手法です。ウィンザライズでは、特定の属性の末端値を一定の指定値に設定する処理が伴う。たとえば、ウィンザライズを90%とする場合、下位5%の値は6パーセンタイルの最小値と同じ値に設定され、上位5%の値は95パーセンタイルの最大値と同じ値に設定される。

z-スコア正規化

次の変換を使用して量的属性を正規化することです。

x_new = (x_old-mean) / standard_deviation