1クラス・サポート・ベクター・マシン(one-class support vector machine)
異常検出に関する問題の解決に使用されるサポート・ベクター・マシン・モデルのバージョン。Oracle Data Miningのプログラム・インタフェースでは、分類機能として1クラス・アルゴリズムが実装される。
Data Mining Server
データ・マイニング・エンジンおよび永続メタデータ・リポジトリを実装する、Oracleデータベースのコンポーネント。データ・マイニング・タスクを実行する前にData Mining Serverに接続する必要がある。Data Mining Serverは、Java APIのData Mining Engine(DME)のOracle Data Miningの実装である。
Java Data Mining
データ・マイニング可能なアプリケーションの開発を促進するPure Java API。Java Data Mining(JDM)は、一般的なデータ・マイニング操作に加え、マイニング・アクティビティをサポートするメタデータの作成、維持、アクセスおよびメンテナンスもサポートする。JDMは、Java Community Processの仕様JSR-73に記載されている。Oracle Data MiningのJavaインタフェースは、JDMの拡張である。
k-Means
十分な数の個別ケースがある場合に、事前に決められた数のクラスタにデータをパーティション化する、距離ベースのクラスタリング・アルゴリズム。距離ベースのアルゴリズムは、距離メトリック(関数)を使用して、データ・ポイント間の類似度を計測する。各データ・ポイントは、使用される距離メトリックに従って、最も近いクラスタに割り当てられる。Oracle Data Miningには、k-meansの拡張バージョンが用意されている。
Naive Bayes
Bayes定理に基づく分類用のアルゴリズム。Naive Bayesでは、各属性は条件的に他の属性に従属しないものとみなされる。つまり、あるターゲット値を考える際、各予測子の分布は他の予測子に依存しない。
z-スコア正規化(z-score normalization)
データから計算される平均および標準偏差を使用して、量的属性を正規化すること。変換「x_new = (x-平均)/標準偏差」による各属性の正規化。
アルゴリズム(algorithm)
問題を解決するための一連の手順。「データ・マイニング・アルゴリズム」を参照。Oracle Data Miningのプログラム・インタフェースでは、MDL、Apriori、ディシジョン・ツリー、k-Means、Naive Bayes、GLM、O-clusterおよびサポート・ベクター・マシンの各アルゴリズムがサポートされる。
異常検出(anomaly detection)
外れ値または特殊なケースの検出。Oracle Data Miningのプログラム・インタフェースを使用して異常検出モデルを作成するには、マイニング機能として分類を、アルゴリズムとしてSVMを指定し、ターゲット列名としてNULL
または空の文字列を渡す。
一般化線形モデル(generalized linear model)
線形モデリング用の統計的手法。一般化線形モデル(GLM)は、単純な線形モデルのクラスを含み、このクラスを拡張したものである。Oracle Data Miningでは、GLM分類に対してロジスティック回帰が、GLM回帰に対して線形回帰がサポートされている。
ウィンザライズ(winsorizing)
外れ値を処理する方法。ウィンザライズでは、特定の属性の末端値を一定の指定値に設定する処理が伴う。たとえば、ウィンザライズを90%とする場合、下位5%の値は6パーセンタイルの最小値と同じ値に設定され、上位5%の値は95パーセンタイルの最大値と同じ値に設定される。
回帰(regression)
既知のターゲット値を持つレコードから作成したモデルを使用して、新しいレコードの連続的なターゲット値を予測するデータ・マイニング機能。Oracle Data Miningでは、回帰用にサポート・ベクター・マシン・アルゴリズムが用意されている。
監視ありモデル(supervised model)
既知の従属変数を使用して作成したデータ・マイニング・モデル。ターゲットとも呼ばれる。監視ありマイニングの例として、分類および回帰手法がある。「監視なしモデル」を参照。「予測モデル」とも呼ばれる。
監視なしモデル(unsupervised model)
既知の正確な結果のガイダンス(監視)なしで作成されたデータ・マイニング・モデル。監視あり学習では、この正確な結果がターゲット属性で提供される。監視なし学習には、そのようなターゲット属性がない。監視なしマイニング機能の例として、クラスタリングおよび相関がある。「監視ありモデル」を参照。
既存データ(prepared data)
特定のアルゴリズムを使用したモデルの作成に適したデータ。データ・マイニング・プロジェクトで費やされるほとんどの時間を、データの準備が占める場合がある。Oracle Data Miningには、一般的なデータ準備機能(ビニング、正規化など)を実行する変換が用意されている。
距離ベース(クラスタリング・アルゴリズム)(distance-based (clustering algorithm))
距離ベースのアルゴリズムは、距離メトリック(関数)を使用して、データ・ポイント間の類似度を計測する。各データ・ポイントは、使用される距離メトリックに従って、最も近いクラスタに割り当てられる。
クラスタの重心(cluster centroid)
各属性について、クラスタに割り当てられたトレーニング・データにおけるケースの平均値(量的属性の場合)または最頻値(質的属性の場合)のエンコードを行うベクター。クラスタの重心は単に「重心」とも呼ばれる。
クラスタリング(clustering)
データ内での自然発生的なグループを見つけるためのマイニング機能。より正確には、それぞれが属性セットを持つデータ・ポイントのセット、およびそのデータ・ポイント間の類似性測度があるものとすると、クラスタリングとは、相互に類似するデータ・ポイントを同じクラスタ内に、あまり類似しないデータ・ポイントを異なるクラスタ内にグループ化するための処理である。Oracle Data Miningでは、クラスタリングに関して、k-meansおよび直行パーティショニング・クラスタリングの2つのアルゴリズムをサポートしている。
ケース(case)
特定のトランザクションまたは関連する値のセットに関して収集されたすべてのデータ。データセットはケースの集合である。ケースは、「レコード」または「サンプル」とも呼ばれる。最も単純な状況では、ケースは表内の1行に相当する。
ケース表(case table)
単一レコード・ケース形式の表またはビュー。各ケースのすべてのデータは、1つの行に格納される。ケース表には、各行の一意の識別子を格納するケースID列が含まれる場合がある。マイニング・データはケース表として与える必要がある。
欠損値(missing value)
測定されなかった(つまりNULL値)、回答されなかった、既知ではない、または喪失したため、欠損しているデータ値。データ・マイニング・アルゴリズムは、欠損値の処理方法において様々である。欠損値を無視する、欠損値を含んでいるレコードを省く、欠損値を最頻値または平均値で置き換える、または既存値から欠損値を推測するなど、いくつかの一般的な処理方法がある。
構築設定(Build Settings)
Java APIにおいて、モデルの作成に使用される高水準の指定を記録するオブジェクト。構築設定には、マイニング機能を指定する必要があり、アルゴリズムを指定する場合もある。Oracle Data Miningでは、分類、回帰、相関、属性評価およびクラスタリングの各マイニング機能をサポートしている。異常検出は、分類マイニング機能でサポートされる。
コスト・マトリックス(cost matrix)
実測値と予測値に関連するコストを定義するn×nの表。コスト・マトリックスは通常、分類モデルで使用される。nは、ターゲット内の個別値の数で、列および行はターゲット値でラベル付けされる。行が実測値、列が予測値となる。
混同マトリックス(confusion matrix)
これによって、テスト・タスクからのモデルによる予測の精度が測定される。混同マトリックスの行インデックスは、テスト・データで提供され、観測された「実測値」に対応する。列インデックスは、モデルをテスト・データに適用して生成された「予測値」に対応する。実測/予測インデックスの各組合せの値は、その組合せに分類されるレコードの数を表す。
予測値が実測値に等しい場合、モデルによって正確な予測が生成される。その他のすべてのエントリはエラーを示す。
再コーディング(recode)
文字どおり、コードを変更または再配置すること。再コーディングは、データ・マイニングの多くの場合で有効となることがある。次にその例を示す。
欠損値の処理: 欠損値は、「0000」、「9999」、「NA」またはその他の文字列など、NULL
以外のもので示される場合がある。欠損値を処理するには、「0000」からNULL
に再コーディングするなどの方法がある。これにより、Oracle Data Miningのアルゴリズムおよびデータベースによって、その値は欠損値として認識される。
変数のデータ型の変更: 「Y」または「Yes」を1に、「N」または「No」を0に変更するなど。
カットオフ値の確立: $20,000より少ないすべての収入を同じ値に再コーディングするなど。
項目のグループ化: USの個々の州を地域にグループ化するなど。「New England region」の構成要素としてME、VT、NH、MA、CTおよびRIがある場合、この5つの州を、NE (for New England)などと再コーディングする。
最小記述長(minimum description length)
データのサンプルがあり、そのデータを説明するための適切な代替理論が効率的に列挙されている場合、最良の理論は次の合計を最小化するものである。
理論の記述のビット長
理論によってエンコードされる際のデータのビット長
この原理は、属性評価におけるターゲット値の区別に最も影響のある属性の選択に使用される。
サポート・ベクター・マシン(support vector machine)
機械学習理論を使用して、データへのオーバーフィットを自動的に回避しつつ予測の精度を最大化するアルゴリズム。サポート・ベクター・マシンは、バイオインフォマティクスで扱われるデータのように、予測子の列が多い一方で行が比較的少ない分野などに見られるスパース・データについても予測を行うことができる。サポート・ベクター・マシンは、分類、回帰および異常検出に使用できる。
質的属性(categorical attribute)
値が個別カテゴリに対応している属性。たとえば、州は、個別の値(CA、NY、MAなど)を持つ質的属性である。質的属性は、州、性別などのように順序付けられない(名称的)か、温度の高、中、低などのように順序付けられる(序数的)かのいずれかである。
事前確率(prior probabilities)
事前確率のセットによって、元のソース・データにおける様々なクラスのサンプルの分布が指定される。単に「事前」とも呼ばれ、モデルの作成に提供されるデータセットで観測される分布とは異なる場合がある。
自動データ変換(automatic data transformation)
マイニング・モデルは、自動データ準備(ADP)モードで作成できる。ADPでは、アルゴリズムの要件に従って作成データが変換され、モデルに変換の指示が組み込まれて、モデルの適用時にテスト・データまたはスコアリング・データを変換する際にその指示が使用される。
上位N個の頻度ビニング(top N frequency binning)
質的属性をビニングするビニングの一種。各属性のビンの定義は、データから計算される値の発生頻度に基づいて計算される。ビンの数は、ユーザーが特定の数(N)を指定する。bin_1、...、bin_Nの各ビンが、頻度が上位にある値に対応し、ビンbin_N+1が、それ以外のすべての値に対応する。
スキーマ(schema)
データベース・スキーマ、つまり、データベース・オブジェクトの集合。これには、表、ビュー、順序、ストアド・プロシージャ、シノニム、索引、クラスタおよびデータベース・リンクなどの論理構造が含まれる。
スパース・データ(sparse data)
ある特定のケースにおいて、非ゼロまたは非NULLである属性の割合が小さいデータ。スパース・データの例として、マーケット・バスケットやテキスト・マイニングのデータがある。
スーパーモデル(supermodel)
自身のデータを準備するための指示を格納しているマイニング・モデル。Oracle Data Miningでは、自動データ変換(ADP)および組込みのデータ変換が提供され、ともにスーパーモデルをサポートする。
正規化(normalization)
正規化では、[–1.0,1.0]や[0.0,1.0]などの量的な値を、x_new = (x_old-shift)/scale
などのように特定の範囲に変換する。正規化は、量的属性に対してのみ適用される。Oracle Data Miningには、min-max正規化、スケール正規化およびz-スコア正規化を実行する変換が用意されている。
相関ルール(association rules)
トランザクション間の各項目の同時発生性を見つけ出すマイニング機能。典型的なルールは、項目セットAの存在が、一定の支持度および信頼度で項目セットBの存在を示すA -> B形式の関連付け。ルールの支持度とは、総トランザクション数に対する、項目セットAおよびBが存在するトランザクションの数の割合である。ルールの信頼度とは、項目セットAが存在するトランザクションの数に対する、項目セットAおよびBが存在するトランザクションの数の割合である。Oracle Data Miningでは、相関モデルにAprioriアルゴリズムが使用される。
層別サンプル(stratified sample)
データセットを非結合サブセット(層)に分割し、各サブセットからランダム・サンプルを取得すること。この手法は、ターゲット値の分布が大幅に偏っている場合に使用される。たとえば、マーケティング・キャンペーンに対する反応のポジティブ・ターゲット値が、そのキャンペーン期間の1%以下の場合などで使用される。層別サンプルにより、ポジティブ・ターゲット値とネガティブ・ターゲット値を区別する要因を学習するために十分な数のポジティブ・サンプルが、データ・マイニング・アルゴリズムに提供される。「ランダム・サンプル」も参照。
属性(attribute)
属性は、予測モデルの予測子、または記述モデルの記述情報の項目を指す。データ属性はモデルの作成に使用される列を指す。データ属性は、変換により、モデルで質的属性または量的属性として使用できるようになる。質的属性および量的属性はモデル属性である。「ターゲット」も参照。
属性評価(attribute importance)
特定のターゲットを予測する際の、属性の重要度の測度を提供するマイニング機能。トレーニング・データ表の様々な属性の測度によって、ユーザーは、マイニング・モデルに対して最も適切であると判明した属性を選択できる。属性セットが小さいほど短時間でモデルが作成され、結果として生成されるモデルの精度が高くなる場合がある。Oracle Data Miningでは、重要な属性の検出に最小記述長アルゴリズムを使用する。「特徴選択」または「キー・フィールド」と呼ばれる場合もある。
タスク(task)
Java APIにおいて、作成、テスト、適用、インポートおよびエクスポートなどのマイニング操作の実行に必要なすべての情報を表すオブジェクト。タスクは、接続オブジェクトの実行メソッドを使用して実行される。
直交パーティショニング・クラスタリング(orthogonal partitioning clustering)
グリッドベースの階層クラスタリング・モデルを作成するOracle独自のクラスタリング・アルゴリズム。つまり、軸並行な(直行の)パーティションを入力属性空間に作成する。このアルゴリズムは再帰的に作用する。生成される階層構造は、属性空間をクラスタに分割する不規則なグリッドになる。
テキストの特徴(text feature)
ドキュメントまたはドキュメントのクラスの重要な属性を捕捉する用語の組合せ。テキストの特徴とは、通常、キーワード、用語の頻出度、またはその他のドキュメント派生の特徴である。ドキュメントには通常、多くの用語が含まれるが、特徴の数は比較的少ない。
テキスト・マイニング(text mining)
テキストの特徴を使用して行われる従来型のデータ・マイニング。テキストの特徴とは、通常、キーワード、用語の頻出度、またはその他のドキュメント派生の特徴である。テキストの特徴を抽出して、その他のデータと同様にマイニングを行う。テキスト・マイニングは、Oracle Data MiningおよびOracle Textの両方でサポートされる。
適用設定(ApplySettings)
Java APIにおいて、データへのモデルの適用で必要とされる出力の種類を指定するために使用されるオブジェクト。この出力には、予測値、関連する確率、キー値などのデータを含める場合がある。
テスト・メトリック(test metrics)
Java APIにおいて、テスト・データを使用した監視ありモデルのテストによって生成されるオブジェクト。計算されるテスト・メトリックは、マイニング機能によって異なる。分類では、精度、混同マトリックス、リフトおよび受信者操作特性が計算されてモデルへアクセスする場合がある。同様に回帰では、R-2乗およびRMSエラーが計算される場合がある。PL/SQLインタフェースを使用してテスト・メトリックを計算することもできる。
展開(explode)
質的属性に関して、複数値の質的列をいくつかの2項質的列で置き換える。属性を展開するには、属性がとる各個別値に新しい2項列を作成する必要がある。新しい列では、1は属性の値がその列の値をとることを示し、0はとらないことを示す。たとえば、質的属性が値{1, 2, 3}をとるとする。この属性を展開するために、col_1
、col_2
およびcol_3
という新しい列を3つ作成する。属性が値1をとる場合、col_1
の値は1であり、他の2つの列の値は0となる。
ディシジョン・ツリー(decision tree)
ディシジョン・ツリーは、監視ありモデルまたは分類システムの表現。ツリーは一連の問題として構築される。問題への答えはツリーをリーフまでさかのぼり、そのリーフで予測が生成される。
ディシジョン・ツリーは、クラスまたは値をもたらす一連の問題を表す方法である。ディシジョン・ツリーの最上位ノードはルート・ノードと呼ばれ、終端ノードはリーフ・ノードと呼ばれる。ディシジョン・ツリーは、各分割においてグループ間の距離が最大になるような、個々のグループへのデータの反復的な分割によって構築される。
ディシジョン・ツリー・モデルの重要な特性は、透過的であるという点にある。すなわち、その分類を説明するルールが存在する。
「ルール」も参照。
データ・マイニング・アルゴリズム(data mining algorithm)
データ・マイニング・モデルを生成する特殊な技法または手順。1つのアルゴリズムでは特定のモデル表現が使用されるが、1つ以上のマイニング機能がサポートされる場合がある。
Oracle Data Miningのプログラム・インタフェースのアルゴリズムには、分類用にNaive Bayes、サポート・ベクター・マシン、一般化線形モデルおよびディシジョン・ツリー、回帰用にサポート・ベクター・マシンおよび一般化線形モデル、クラスタリング用にk-MeansおよびO-cluster、属性評価用に最小記述長、特徴抽出用にNon-Negative Matrix Factorization、相関用にApriori、異常検出用に1クラス・サポート・ベクター・マシンがある。
特徴抽出(feature extraction)
元のデータを分解して、特徴の新しいセットを作成すること。特徴抽出を使用すると、通常、元の属性の数よりもはるかに少ない数の特徴でデータを記述できる。「Non-Negative Matrix Factorization」も参照。
トランザクショナル形式(transactional format)
データの各ケースは、順序番号
、属性名
および値
の各列を持つ表に複数レコードとして格納される。「複数レコード・ケース」とも呼ばれる。「単一レコード・ケース」と対比。
ネストした表(nested table)
すべて同じデータ型の、データ要素の順不同のセット。単一列を持ち、その列の型は組込み型かオブジェクト型である。オブジェクト型の場合、この表は、オブジェクト型の各属性用に1つの列を持つ複数列の表となる場合がある。ネストした表には、別のネストした表を複数格納できる。
非構造化データ(unstructured data)
画像、音声、映像、地理空間マッピング・データ、ドキュメントまたはテキストのデータは、まとめて非構造化データと呼ばれる。Oracle Data Miningでマイニングできる非構造化データはテキスト・データである。
複数レコード・ケース(multi-record case)
データの各ケースは、順序番号
、属性名
および値
の各列を持つ表に複数レコードとして格納される。トランザクショナル形式としても知られる。「単一レコード・ケース」も参照。
物理データセット(physical data set)
Java APIにおいて、データ・マイニングへの入力として使用されるデータを識別するオブジェクト。物理データセット・オブジェクトによって参照されるデータは、モデルの作成、モデルの適用(スコアリング)、リフトの計算、統計的分析などの操作に使用できる。物理データ仕様には、データの形式およびデータ列の役割に関する情報が含まれる。物理データセットは、Oracle Data MiningのJavaインタフェースにおいて、接続オブジェクトで指定されたデータベース・インスタンス内の表またはビューである必要がある。
分類(classification)
既知のターゲット値を持つレコードから作成したモデルを使用して、新しいレコードの質的ターゲット値を予測するマイニング機能。Oracle Data Miningでは、分類に関して、Naive Bayes、ディシジョン・ツリーおよびサポート・ベクター・マシンの各アルゴリズムをサポートしている。
ポジティブ・ターゲット値(positive target value)
2項分類の問題では、2つのクラス(ターゲット値)のうち1つをポジティブとし、もう1つをネガティブと指定できる。Oracle Data Miningによってモデルのリフトが計算される際、モデルが一定の信頼度でポジティブ値を予測する、テスト・インスタンス・セット中のポジティブ・ターゲット値の密度が計算される。
マイニング機能(mining function)
共通の高水準の特性を共有するデータ・マイニングの主なサブドメイン。Oracle Data Miningのプログラム・インタフェースは、分類、回帰、属性評価、特徴抽出およびクラスタリングの各マイニング機能をサポートしている。異常検出は分類の機能として、どちらのプログラム・インタフェースでもサポートされている。
マイニング・モデル(mining model)
データ・マイニングの重要な目的の1つはモデルの生成にある。モデルは、監視ありモデルまたは監視なしモデルのいずれかである。理論的には、マイニング・モデルは、マイニング設定からモデルを作成した結果である。モデルの表現は、ユーザーが指定したか、DMSによって選択されたアルゴリズムに固有となる。モデルは、相関モデルから生成されたルールの検査や、データのスコアリングなど、直接検査のために使用できる。
予測モデル(predictive model)
予測モデルは、他の既知の値(独立変数または入力)からは目に見えないか、測定されない値(従属変数または出力)を予測できるようにする式またはルールのセットである。式またはルールの形式は、調査プロセスから収集されたマイニング・データによって示される。トレーニングまたは評価手法の中には、式やルールのパラメータの評価に使用されるものがある。予測モデルは、監視ありモデルである。
離散化(discretization)
離散化によって、単一値(またはビン)に基づいて、関連値が一緒にグループ化される。これによって、列内の個別値の数が減少する。ビンの数が少なくなると、モデルが短時間で作成される。モデルの作成、テスト、リフトの計算、適用(スコアリング)の前に入力データを離散化することによって、Oracle Data Miningの多くのアルゴリズム(NBなど)にプラスとなる場合がある。アルゴリズムごとに異なるビニング・タイプが必要になる場合がある。Oracle Data Miningには、質的属性に対して上位N個の頻度ビニングを、量的属性に対して等幅ビニングおよび分位ビニングを実行する変換がある。
リフト(lift)
偶然取得される予測結果より、モデルを使用している予測結果がどのくらい優れているかの測度。たとえば、カタログを請求した顧客の2%が購入を行っていると仮定し、あるモデルを使用してカタログの請求者を絞ると請求者の10%が購入を行っていると仮定する。この場合、そのモデルのリフトは10/2、つまり5となる。リフトは、異なるデータ・マイニング・モデルを比較するための測度としても使用できる場合がある。リフトは実際の結果を持つデータ表を使用して計算されるので、予測結果の当該データに関して、あるモデルがどの程度機能しているのかが比較される。リフトによって、実際の結果からランダムに選択した予測に対して、モデルがどの程度予測を向上させているかが示される。リフトを使用すると、新しいデータに対してモデルがどの程度機能するかを推測できる。