ヘッダーをスキップ
Oracle Data Mining概要
11g リリース1(11.1)
E05704-02
  目次へ
目次
索引へ
索引

戻る
戻る
 
次へ
次へ
 

用語集

1クラス・サポート・ベクター・マシン(one-class support vector machine)

異常検出に関する問題の解決に使用されるサポート・ベクター・マシン・モデルのバージョン。Oracle Data Miningのプログラム・インタフェースでは、分類機能として1クラス・アルゴリズムが実装される。

ADP

自動データ変換」を参照。

Apriori

相関の計算に高頻度項目セットが使用される。

Data Mining Server

データ・マイニング・エンジンおよび永続メタデータ・リポジトリを実装する、Oracleデータベースのコンポーネント。データ・マイニング・タスクを実行する前にData Mining Serverに接続する必要がある。Data Mining Serverは、Java APIのData Mining Engine(DME)のOracle Data Miningの実装である。

DMS

Data Mining Server」を参照。

GLM

一般化線形モデル」を参照。

Java Data Mining

データ・マイニング可能なアプリケーションの開発を促進するPure Java API。Java Data Mining(JDM)は、一般的なデータ・マイニング操作に加え、マイニング・アクティビティをサポートするメタデータの作成、維持、アクセスおよびメンテナンスもサポートする。JDMは、Java Community Processの仕様JSR-73に記載されている。Oracle Data MiningのJavaインタフェースは、JDMの拡張である。

JDM

Java Data Mining」を参照。

k-Means

十分な数の個別ケースがある場合に、事前に決められた数のクラスタにデータをパーティション化する、距離ベースのクラスタリング・アルゴリズム。距離ベースのアルゴリズムは、距離メトリック(関数)を使用して、データ・ポイント間の類似度を計測する。各データ・ポイントは、使用される距離メトリックに従って、最も近いクラスタに割り当てられる。Oracle Data Miningには、k-meansの拡張バージョンが用意されている。

MDL

最小記述長」を参照。

min-max正規化(min-max normalization)

変換「x_new = (x_old-min)/ (max-min)」を使用して各属性を正規化すること。

Naive Bayes

Bayes定理に基づく分類用のアルゴリズム。Naive Bayesでは、各属性は条件的に他の属性に従属しないものとみなされる。つまり、あるターゲット値を考える際、各予測子の分布は他の予測子に依存しない。

NMF

Non-Negative Matrix Factorization」を参照。

Non-negative Matrix Factorization

ユーザーが定義した数の特徴を作成して多変量データを分解することにより、元のデータの縮小表現を生成する特徴抽出アルゴリズム。

O-Cluster

直行パーティショニング・クラスタリング」を参照。

SVM

サポート・ベクター・マシン」を参照。

z-スコア正規化(z-score normalization)

データから計算される平均および標準偏差を使用して、量的属性を正規化すること。変換「x_new = (x-平均)/標準偏差」による各属性の正規化。

アルゴリズム(algorithm)

問題を解決するための一連の手順。「データ・マイニング・アルゴリズム」を参照。Oracle Data Miningのプログラム・インタフェースでは、MDLAprioriディシジョン・ツリーk-MeansNaive BayesGLMO-clusterおよびサポート・ベクター・マシンの各アルゴリズムがサポートされる。

アルゴリズム設定(algorithm settings)

モデル作成用のアルゴリズム固有の動作を指定する設定。

異常検出(anomaly detection)

外れ値または特殊なケースの検出。Oracle Data Miningのプログラム・インタフェースを使用して異常検出モデルを作成するには、マイニング機能として分類を、アルゴリズムとしてSVMを指定し、ターゲット列名としてNULLまたは空の文字列を渡す。

一般化線形モデル(generalized linear model)

線形モデリング用の統計的手法。一般化線形モデル(GLM)は、単純な線形モデルのクラスを含み、このクラスを拡張したものである。Oracle Data Miningでは、GLM分類に対してロジスティック回帰が、GLM回帰に対して線形回帰がサポートされている。

ウィンザライズ(winsorizing)

外れ値を処理する方法。ウィンザライズでは、特定の属性の末端値を一定の指定値に設定する処理が伴う。たとえば、ウィンザライズを90%とする場合、下位5%の値は6パーセンタイルの最小値と同じ値に設定され、上位5%の値は95パーセンタイルの最大値と同じ値に設定される。

回帰(regression)

既知のターゲット値を持つレコードから作成したモデルを使用して、新しいレコードの連続的なターゲット値を予測するデータ・マイニング機能。Oracle Data Miningでは、回帰用にサポート・ベクター・マシン・アルゴリズムが用意されている。

カテゴリ(category)

Javaインタフェースでは、質的属性の個別値に対応する。カテゴリには文字または数値を格納できる。

監視あり学習(supervised learning)

監視ありモデル」を参照。

監視ありモデル(supervised model)

既知の従属変数を使用して作成したデータ・マイニング・モデル。ターゲットとも呼ばれる。監視ありマイニングの例として、分類および回帰手法がある。「監視なしモデル」を参照。「予測モデル」とも呼ばれる。

監視なし学習(unsupervised learning)

監視なしモデル」を参照。

監視なしモデル(unsupervised model)

既知の正確な結果のガイダンス(監視)なしで作成されたデータ・マイニング・モデル。監視あり学習では、この正確な結果がターゲット属性で提供される。監視なし学習には、そのようなターゲット属性がない。監視なしマイニング機能の例として、クラスタリングおよび相関がある。「監視ありモデル」を参照。

記述モデル(descriptive model)

記述モデルは、基底のプロセスや行動の理解に役立つ。たとえば、相関モデルによって消費者行動が記述される。「マイニング・モデル」も参照。

既存データ(prepared data)

特定のアルゴリズムを使用したモデルの作成に適したデータ。データ・マイニング・プロジェクトで費やされるほとんどの時間を、データの準備が占める場合がある。Oracle Data Miningには、一般的なデータ準備機能(ビニング、正規化など)を実行する変換が用意されている。

距離ベース(クラスタリング・アルゴリズム)(distance-based (clustering algorithm))

距離ベースのアルゴリズムは、距離メトリック(関数)を使用して、データ・ポイント間の類似度を計測する。各データ・ポイントは、使用される距離メトリックに従って、最も近いクラスタに割り当てられる。

クラスタの重心(cluster centroid)

各属性について、クラスタに割り当てられたトレーニング・データにおけるケースの平均値(量的属性の場合)または最頻値(質的属性の場合)のエンコードを行うベクター。クラスタの重心は単に「重心」とも呼ばれる。

クラスタリング(clustering)

データ内での自然発生的なグループを見つけるためのマイニング機能。より正確には、それぞれが属性セットを持つデータ・ポイントのセット、およびそのデータ・ポイント間の類似性測度があるものとすると、クラスタリングとは、相互に類似するデータ・ポイントを同じクラスタ内に、あまり類似しないデータ・ポイントを異なるクラスタ内にグループ化するための処理である。Oracle Data Miningでは、クラスタリングに関して、k-meansおよび直行パーティショニング・クラスタリングの2つのアルゴリズムをサポートしている。

クリッピング(clipping)

トリミング」を参照。

系統(lineage)

モデル作成プロセスのデータ準備フェーズで、データセットに対して実行される変換順序。

ケース(case)

特定のトランザクションまたは関連する値のセットに関して収集されたすべてのデータ。データセットはケースの集合である。ケースは、「レコード」または「サンプル」とも呼ばれる。最も単純な状況では、ケースは表内の1行に相当する。

ケース表(case table)

単一レコード・ケース形式の表またはビュー。各ケースのすべてのデータは、1つの行に格納される。ケース表には、各行の一意の識別子を格納するケースID列が含まれる場合がある。マイニング・データはケース表として与える必要がある。

欠損値(missing value)

測定されなかった(つまりNULL値)、回答されなかった、既知ではない、または喪失したため、欠損しているデータ値。データ・マイニング・アルゴリズムは、欠損値の処理方法において様々である。欠損値を無視する、欠損値を含んでいるレコードを省く、欠損値を最頻値または平均値で置き換える、または既存値から欠損値を推測するなど、いくつかの一般的な処理方法がある。

構築設定(Build Settings)

Java APIにおいて、モデルの作成に使用される高水準の指定を記録するオブジェクト。構築設定には、マイニング機能を指定する必要があり、アルゴリズムを指定する場合もある。Oracle Data Miningでは、分類、回帰、相関、属性評価およびクラスタリングの各マイニング機能をサポートしている。異常検出は、分類マイニング機能でサポートされる。

コスト・マトリックス(cost matrix)

実測値と予測値に関連するコストを定義するn×nの表。コスト・マトリックスは通常、分類モデルで使用される。nは、ターゲット内の個別値の数で、列および行はターゲット値でラベル付けされる。行が実測値、列が予測値となる。

混同マトリックス(confusion matrix)

これによって、テスト・タスクからのモデルによる予測の精度が測定される。混同マトリックスの行インデックスは、テスト・データで提供され、観測された「実測値」に対応する。列インデックスは、モデルをテスト・データに適用して生成された「予測値」に対応する。実測/予測インデックスの各組合せの値は、その組合せに分類されるレコードの数を表す。

予測値が実測値に等しい場合、モデルによって正確な予測が生成される。その他のすべてのエントリはエラーを示す。

再コーディング(recode)

文字どおり、コードを変更または再配置すること。再コーディングは、データ・マイニングの多くの場合で有効となることがある。次にその例を示す。

最小記述長(minimum description length)

データのサンプルがあり、そのデータを説明するための適切な代替理論が効率的に列挙されている場合、最良の理論は次の合計を最小化するものである。

この原理は、属性評価におけるターゲット値の区別に最も影響のある属性の選択に使用される。

作成データ(build data)

モデルを作成(トレーニング)するためのデータ。「トレーニング・データ」とも呼ばれる。

サポート・ベクター・マシン(support vector machine)

機械学習理論を使用して、データへのオーバーフィットを自動的に回避しつつ予測の精度を最大化するアルゴリズム。サポート・ベクター・マシンは、バイオインフォマティクスで扱われるデータのように、予測子の列が多い一方で行が比較的少ない分野などに見られるスパース・データについても予測を行うことができる。サポート・ベクター・マシンは、分類、回帰および異常検出に使用できる。

サンプル(sample)

ランダム・サンプル」を参照。

質的属性(categorical attribute)

値が個別カテゴリに対応している属性。たとえば、州は、個別の値(CA、NY、MAなど)を持つ質的属性である。質的属性は、州、性別などのように順序付けられない(名称的)か、温度の高、中、低などのように順序付けられる(序数的)かのいずれかである。

集計(aggregation)

複数のデータ値をより少ない数の値に集約するプロセス。たとえば、売上データを毎日収集して、これを週レベルに総計できる。

事前(priors)

事前確率」を参照。

事前確率(prior probabilities)

事前確率のセットによって、元のソース・データにおける様々なクラスのサンプルの分布が指定される。単に「事前」とも呼ばれ、モデルの作成に提供されるデータセットで観測される分布とは異なる場合がある。

自動データ変換(automatic data transformation)

マイニング・モデルは、自動データ準備(ADP)モードで作成できる。ADPでは、アルゴリズムの要件に従って作成データが変換され、モデルに変換の指示が組み込まれて、モデルの適用時にテスト・データまたはスコアリング・データを変換する際にその指示が使用される。

重心(centroid)

クラスタの重心」を参照。

上位N個の頻度ビニング(top N frequency binning)

質的属性をビニングするビニングの一種。各属性のビンの定義は、データから計算される値の発生頻度に基づいて計算される。ビンの数は、ユーザーが特定の数(N)を指定する。bin_1、...、bin_Nの各ビンが、頻度が上位にある値に対応し、ビンbin_N+1が、それ以外のすべての値に対応する。

スキーマ(schema)

データベース・スキーマ、つまり、データベース・オブジェクトの集合。これには、表、ビュー、順序、ストアド・プロシージャ、シノニム、索引、クラスタおよびデータベース・リンクなどの論理構造が含まれる。

スケール正規化(scale normalization)

変換「x_new = (x-0)/ max(abs(max), abs(min))」を使用して各属性を正規化すること。

スコア(score)

データのスコアリングとは、予測を生成するために、データ・マイニング・モデルをデータに適用することを意味する。「適用」を参照。

スパース・データ(sparse data)

ある特定のケースにおいて、非ゼロまたは非NULLである属性の割合が小さいデータ。スパース・データの例として、マーケット・バスケットやテキスト・マイニングのデータがある。

スーパーモデル(supermodel)

自身のデータを準備するための指示を格納しているマイニング・モデル。Oracle Data Miningでは、自動データ変換(ADP)および組込みのデータ変換が提供され、ともにスーパーモデルをサポートする。

正規化(normalization)

正規化では、[–1.0,1.0]や[0.0,1.0]などの量的な値を、x_new = (x_old-shift)/scaleなどのように特定の範囲に変換する。正規化は、量的属性に対してのみ適用される。Oracle Data Miningには、min-max正規化スケール正規化およびz-スコア正規化を実行する変換が用意されている。

設定(settings)

アルゴリズム設定」および「構築設定」を参照。

接続(connection)

Java APIにおいて、データ・マイニング・タスクを実行するためにOracleデータベースのData Mining Serverへの接続に使用されるオブジェクト。

相関(association)

項目間の関係を識別する機械学習手法。

相関ルール(association rules)

トランザクション間の各項目の同時発生性を見つけ出すマイニング機能。典型的なルールは、項目セットAの存在が、一定の支持度および信頼度で項目セットBの存在を示すA -> B形式の関連付け。ルールの支持度とは、総トランザクション数に対する、項目セットAおよびBが存在するトランザクションの数の割合である。ルールの信頼度とは、項目セットAが存在するトランザクションの数に対する、項目セットAおよびBが存在するトランザクションの数の割合である。Oracle Data Miningでは、相関モデルにAprioriアルゴリズムが使用される。

層別サンプル(stratified sample)

データセットを非結合サブセット(層)に分割し、各サブセットからランダム・サンプルを取得すること。この手法は、ターゲット値の分布が大幅に偏っている場合に使用される。たとえば、マーケティング・キャンペーンに対する反応のポジティブ・ターゲット値が、そのキャンペーン期間の1%以下の場合などで使用される。層別サンプルにより、ポジティブ・ターゲット値とネガティブ・ターゲット値を区別する要因を学習するために十分な数のポジティブ・サンプルが、データ・マイニング・アルゴリズムに提供される。「ランダム・サンプル」も参照。

属性(attribute)

属性は、予測モデルの予測子、または記述モデルの記述情報の項目を指す。データ属性はモデルの作成に使用される列を指す。データ属性は、変換により、モデルで質的属性または量的属性として使用できるようになる。質的属性および量的属性はモデル属性である。「ターゲット」も参照。

属性評価(attribute importance)

特定のターゲットを予測する際の、属性の重要度の測度を提供するマイニング機能。トレーニング・データ表の様々な属性の測度によって、ユーザーは、マイニング・モデルに対して最も適切であると判明した属性を選択できる。属性セットが小さいほど短時間でモデルが作成され、結果として生成されるモデルの精度が高くなる場合がある。Oracle Data Miningでは、重要な属性の検出に最小記述長アルゴリズムを使用する。「特徴選択」または「キー・フィールド」と呼ばれる場合もある。

ターゲット(target)

監視あり学習における、識別された予測対象の属性。「ターゲット値」または「ターゲット属性」と呼ばれる場合もある。「属性」も参照。

タスク(task)

Java APIにおいて、作成、テスト、適用、インポートおよびエクスポートなどのマイニング操作の実行に必要なすべての情報を表すオブジェクト。タスクは、接続オブジェクトの実行メソッドを使用して実行される。

単一レコード・ケース(single-record case)

データの各ケースは、表内の1つのレコード(行)として格納される。「複数レコード・ケース」と対比。

直交パーティショニング・クラスタリング(orthogonal partitioning clustering)

グリッドベースの階層クラスタリング・モデルを作成するOracle独自のクラスタリング・アルゴリズム。つまり、軸並行な(直行の)パーティションを入力属性空間に作成する。このアルゴリズムは再帰的に作用する。生成される階層構造は、属性空間をクラスタに分割する不規則なグリッドになる。

テキストの特徴(text feature)

ドキュメントまたはドキュメントのクラスの重要な属性を捕捉する用語の組合せ。テキストの特徴とは、通常、キーワード、用語の頻出度、またはその他のドキュメント派生の特徴である。ドキュメントには通常、多くの用語が含まれるが、特徴の数は比較的少ない。

テキスト・マイニング(text mining)

テキストの特徴を使用して行われる従来型のデータ・マイニング。テキストの特徴とは、通常、キーワード、用語の頻出度、またはその他のドキュメント派生の特徴である。テキストの特徴を抽出して、その他のデータと同様にマイニングを行う。テキスト・マイニングは、Oracle Data MiningおよびOracle Textの両方でサポートされる。

適用(apply)

データのスコアリングを行うデータ・マイニング操作。すなわち、モデルを新しいデータに使用して結果を予測する。

適用設定(ApplySettings)

Java APIにおいて、データへのモデルの適用で必要とされる出力の種類を指定するために使用されるオブジェクト。この出力には、予測値、関連する確率、キー値などのデータを含める場合がある。

テスト・メトリック(test metrics)

Java APIにおいて、テスト・データを使用した監視ありモデルのテストによって生成されるオブジェクト。計算されるテスト・メトリックは、マイニング機能によって異なる。分類では、精度、混同マトリックス、リフトおよび受信者操作特性が計算されてモデルへアクセスする場合がある。同様に回帰では、R-2乗およびRMSエラーが計算される場合がある。PL/SQLインタフェースを使用してテスト・メトリックを計算することもできる。

展開(explode)

質的属性に関して、複数値の質的列をいくつかの2項質的列で置き換える。属性を展開するには、属性がとる各個別値に新しい2項列を作成する必要がある。新しい列では、1は属性の値がその列の値をとることを示し、0はとらないことを示す。たとえば、質的属性が値{1, 2, 3}をとるとする。この属性を展開するために、col_1col_2およびcol_3という新しい列を3つ作成する。属性が値1をとる場合、col_1の値は1であり、他の2つの列の値は0となる。

ディシジョン・ツリー(decision tree)

ディシジョン・ツリーは、監視ありモデルまたは分類システムの表現。ツリーは一連の問題として構築される。問題への答えはツリーをリーフまでさかのぼり、そのリーフで予測が生成される。

ディシジョン・ツリーは、クラスまたは値をもたらす一連の問題を表す方法である。ディシジョン・ツリーの最上位ノードはルート・ノードと呼ばれ、終端ノードはリーフ・ノードと呼ばれる。ディシジョン・ツリーは、各分割においてグループ間の距離が最大になるような、個々のグループへのデータの反復的な分割によって構築される。

ディシジョン・ツリー・モデルの重要な特性は、透過的であるという点にある。すなわち、その分類を説明するルールが存在する。

ルール」も参照。

データセット(data set)

一般的には、データの集合。データセットはケースの集合である。

データ・マイニング(data mining)

利用価値のある未知の隠れた情報を、大量のデータから見つけるプロセス。この情報は、「モデル」と通常呼ばれるコンパクトな形式で表される。

データ・マイニング・アルゴリズム(data mining algorithm)

データ・マイニング・モデルを生成する特殊な技法または手順。1つのアルゴリズムでは特定のモデル表現が使用されるが、1つ以上のマイニング機能がサポートされる場合がある。

Oracle Data Miningのプログラム・インタフェースのアルゴリズムには、分類用にNaive Bayesサポート・ベクター・マシン一般化線形モデルおよびディシジョン・ツリー、回帰用にサポート・ベクター・マシンおよび一般化線形モデル、クラスタリング用にk-MeansおよびO-cluster、属性評価用に最小記述長、特徴抽出用にNon-Negative Matrix Factorization、相関用にApriori、異常検出用に1クラス・サポート・ベクター・マシンがある。

等幅ビニング(equi-width binning)

等幅ビニングは、指定した同じサイズのビン数に値の範囲を分割することによって、量的属性のビンを決定する。

特徴(feature)

特に重要度が高くデータの重要な特性をとらえた、データ内の属性の組合せ。「特徴抽出」を参照。

テキストの特徴」も参照。

特徴抽出(feature extraction)

元のデータを分解して、特徴の新しいセットを作成すること。特徴抽出を使用すると、通常、元の属性の数よりもはるかに少ない数の特徴でデータを記述できる。「Non-Negative Matrix Factorization」も参照。

トランザクショナル形式(transactional format)

データの各ケースは、順序番号属性名およびの各列を持つ表に複数レコードとして格納される。「複数レコード・ケース」とも呼ばれる。「単一レコード・ケース」と対比。

トリミング(trimming)

外れ値の処理に使用する手法。トリミングでは分布の両端の値が取り除かれ、以降の計算では取り除かれた値が無視される。トリミングでは、末端値をNULLに設定する。

トレーニング・データ(training data)

作成データ」を参照。

ネストした表(nested table)

すべて同じデータ型の、データ要素の順不同のセット。単一列を持ち、その列の型は組込み型かオブジェクト型である。オブジェクト型の場合、この表は、オブジェクト型の各属性用に1つの列を持つ複数列の表となる場合がある。ネストした表には、別のネストした表を複数格納できる。

能動学習(active learning)

サポート・ベクター・マシン・アルゴリズムの機能で、大量のトレーニング・データセットを処理する方法を提供する。

外れ値(outlier)

通常のデータの個体群から離れているデータ値(極値)。正規分布では、外れ値は通常、平均値からの標準偏差が少なくとも3である。

反例(counterexample)

ターゲットのネガティブ・インスタンス。反例は、1クラス・サポート・ベクター・マシン以外の分類モデルで必要となる。

非構造化データ(unstructured data)

画像、音声、映像、地理空間マッピング・データ、ドキュメントまたはテキストのデータは、まとめて非構造化データと呼ばれる。Oracle Data Miningでマイニングできる非構造化データはテキスト・データである。

表(table)

Oracleデータベースにおけるデータ記憶域の基本単位。表のデータは、行と列に格納される。

ビニング(binning)

離散化」を参照。

ビュー(view)

ビューは、問合せの出力を取得し、表として処理する。したがって、ビューはストアド・クエリーまたは仮想表とみなすことができる。ビューは、表が使用可能なほとんどの状況で使用できる。

複数レコード・ケース(multi-record case)

データの各ケースは、順序番号属性名およびの各列を持つ表に複数レコードとして格納される。トランザクショナル形式としても知られる。「単一レコード・ケース」も参照。

物理データセット(physical data set)

Java APIにおいて、データ・マイニングへの入力として使用されるデータを識別するオブジェクト。物理データセット・オブジェクトによって参照されるデータは、モデルの作成、モデルの適用(スコアリング)、リフトの計算、統計的分析などの操作に使用できる。物理データ仕様には、データの形式およびデータ列の役割に関する情報が含まれる。物理データセットは、Oracle Data MiningのJavaインタフェースにおいて、接続オブジェクトで指定されたデータベース・インスタンス内の表またはビューである必要がある。

分位ビニング(quantile binning)

量的属性はビンに分割され、各ビンにほぼ同じ数のケースが格納されるようにする。

分割(split)

あるデータセットをいくつかの非結合サブセットに分割すること。たとえば、分類に関する問題では多くの場合、データセットがトレーニング・データセットとテスト・データセットに分割される。

分類(classification)

既知のターゲット値を持つレコードから作成したモデルを使用して、新しいレコードの質的ターゲット値を予測するマイニング機能。Oracle Data Miningでは、分類に関して、Naive Bayes、ディシジョン・ツリーおよびサポート・ベクター・マシンの各アルゴリズムをサポートしている。

変換(transformation)

データに適用される機能。適用後は新しい表現のデータとなる。たとえば、離散化および正規化はデータに対する変換である。

ポジティブ・ターゲット値(positive target value)

2項分類の問題では、2つのクラス(ターゲット値)のうち1つをポジティブとし、もう1つをネガティブと指定できる。Oracle Data Miningによってモデルのリフトが計算される際、モデルが一定の信頼度でポジティブ値を予測する、テスト・インスタンス・セット中のポジティブ・ターゲット値の密度が計算される。

マイニング・オブジェクト(mining object)

マイニングのタスク、モデル、設定およびそれらの構成要素。

マイニング機能(mining function)

共通の高水準の特性を共有するデータ・マイニングの主なサブドメイン。Oracle Data Miningのプログラム・インタフェースは、分類回帰属性評価特徴抽出およびクラスタリングの各マイニング機能をサポートしている。異常検出は分類の機能として、どちらのプログラム・インタフェースでもサポートされている。

マイニング結果(mining result)

マイニング・タスクの最終生成物。たとえば、作成タスクではマイニング・モデルが、テスト・タスクではテスト結果が生成される。

マイニング・タスク(mining task)

タスク」を参照。

マイニング・モデル(mining model)

データ・マイニングの重要な目的の1つはモデルの生成にある。モデルは、監視ありモデルまたは監視なしモデルのいずれかである。理論的には、マイニング・モデルは、マイニング設定からモデルを作成した結果である。モデルの表現は、ユーザーが指定したか、DMSによって選択されたアルゴリズムに固有となる。モデルは、相関モデルから生成されたルールの検査や、データのスコアリングなど、直接検査のために使用できる。

モデル(model)

Java APIにおいて、構築設定オブジェクトの指定に従い、データへのアルゴリズムの適用によって生成されるオブジェクト。「マイニング・モデル」も参照。

予測子(predictor)

監視ありモデルまたはモデルを作成するアルゴリズムへの入力として使用される属性。

予測モデル(predictive model)

予測モデルは、他の既知の値(独立変数または入力)からは目に見えないか、測定されない値(従属変数または出力)を予測できるようにする式またはルールのセットである。式またはルールの形式は、調査プロセスから収集されたマイニング・データによって示される。トレーニングまたは評価手法の中には、式やルールのパラメータの評価に使用されるものがある。予測モデルは、監視ありモデルである。

ランダム・サンプル(random sample)

データセットの各要素が選択される機会を等しく持つ場合のサンプル。

離散化(discretization)

離散化によって、単一値(またはビン)に基づいて、関連値が一緒にグループ化される。これによって、列内の個別値の数が減少する。ビンの数が少なくなると、モデルが短時間で作成される。モデルの作成、テスト、リフトの計算、適用(スコアリング)の前に入力データを離散化することによって、Oracle Data Miningの多くのアルゴリズム(NBなど)にプラスとなる場合がある。アルゴリズムごとに異なるビニング・タイプが必要になる場合がある。Oracle Data Miningには、質的属性に対して上位N個の頻度ビニングを、量的属性に対して等幅ビニングおよび分位ビニングを実行する変換がある。

リフト(lift)

偶然取得される予測結果より、モデルを使用している予測結果がどのくらい優れているかの測度。たとえば、カタログを請求した顧客の2%が購入を行っていると仮定し、あるモデルを使用してカタログの請求者を絞ると請求者の10%が購入を行っていると仮定する。この場合、そのモデルのリフトは10/2、つまり5となる。リフトは、異なるデータ・マイニング・モデルを比較するための測度としても使用できる場合がある。リフトは実際の結果を持つデータ表を使用して計算されるので、予測結果の当該データに関して、あるモデルがどの程度機能しているのかが比較される。リフトによって、実際の結果からランダムに選択した予測に対して、モデルがどの程度予測を向上させているかが示される。リフトを使用すると、新しいデータに対してモデルがどの程度機能するかを推測できる。

量的属性(numerical attribute)

値が数である属性。数値は整数または実数のいずれかである。量的属性の値は、連続する値として操作できる。「質的属性」も参照。

ルール(rule)

「Xの場合Y」という一般形式の式。クラスタリング、相関、ディシジョン・ツリーなどの特定のアルゴリズムの出力である。述語Xは、コンパウンド述語の場合がある。

レコード(record)

ケース」を参照。