アルゴリズム
問題を解決するための一連の手順。「データ・マイニング・アルゴリズム」を参照。Oracle Data Miningのプログラム・インタフェースでは、MDL、Apriori、ディシジョン・ツリー、k-Means、Naive Bayes、GLM、O-Cluster、およびサポート・ベクター・マシンの各アルゴリズムがサポートされます。
異常検出
外れ値または特殊なケースの検出。Oracle Data Miningのプログラム・インタフェースを使用して異常検出モデルを作成するには、マイニング機能として分類を、アルゴリズムとしてSVMを指定し、ターゲット列名としてNULL
または空の文字列を渡す。
相関ルール
トランザクション間の各項目の同時発生性を見つけ出すマイニング機能。典型的なルールは、項目セットAの存在が、一定の支持度および信頼度で項目セットBの存在を示すA -> B形式の関連付け。ルールの支持度とは、総トランザクション数に対する、項目セットAおよびBが存在するトランザクションの数の割合である。ルールの信頼度とは、項目セットAが存在するトランザクションの数に対する、項目セットAおよびBが存在するトランザクションの数の割合である。Oracle Data Miningでは、相関モデルにAprioriアルゴリズムが使用される。
属性
属性は、予測モデルの予測子、または記述モデルの記述情報の項目を指す。データ属性はモデルの作成に使用される列を指す。データ属性は、変換により、モデルで質的属性または量的属性として使用できるようになる。質的属性および量的属性はモデル属性である。「ターゲット」も参照。
属性評価
特定のターゲットを予測する際の、属性の重要度の測度を提供するマイニング機能。トレーニング・データ表の様々な属性の測度によって、ユーザーは、マイニング・モデルに対して最も適切であると判明した属性を選択できる。属性セットが小さいほど短時間でモデルが作成され、結果として生成されるモデルの精度が高くなる場合がある。Oracle Data Miningでは、重要な属性の検出に最小記述長アルゴリズムを使用する。「特徴選択」または「キー・フィールド」と呼ばれる場合もある。
自動データ変換
マイニング・モデルは、自動データ準備(ADP)モードで作成できる。ADPでは、アルゴリズムの要件に従って作成データが変換され、モデルに変換の指示が組み込まれて、モデルの適用時にテスト・データまたはスコアリング・データを変換する際にその指示が使用される。
ケース
特定のトランザクションまたは関連する値のセットに関して収集されたすべてのデータ。データセットはケースの集合である。ケースは、「レコード」または「サンプル」とも呼ばれる。最も単純な状況では、ケースは表内の1行に相当する。
ケース表
単一レコード・ケース形式の表またはビュー。各ケースのすべてのデータは、1つの行に格納される。ケース表には、各行の一意の識別子を格納するケースID列が含まれる場合がある。マイニング・データはケース表として与える必要がある。
質的属性
値が個別カテゴリに対応している属性。たとえば、州は、個別の値(CA、NY、MAなど)を持つ質的属性である。質的属性は、州、性別などのように順序付けられないもの(名称的)か、温度の高、中、低などのように順序付けられるもの(序数的)かのいずれかである。
分類
既知のターゲット値を持つレコードから作成したモデルを使用して、新しいレコードの質的ターゲット値を予測するマイニング機能。Oracle Data Miningでは、分類に関して、Naive Bayes、ディシジョン・ツリーおよびサポート・ベクター・マシンの各アルゴリズムをサポートしています。
クラスタの重心
各属性について、クラスタに割り当てられたトレーニング・データにおけるケースの平均値(量的属性の場合)または最頻値(質的属性の場合)のエンコードを行うベクター。クラスタの重心は単に「重心」とも呼ばれる。
クラスタリング
データ内での自然発生的なグループを見つけるためのマイニング機能。より正確には、それぞれが属性セットを持つデータ・ポイントのセット、およびそのデータ・ポイント間の類似性測度があるものとすると、クラスタリングとは、相互に類似するデータ・ポイントを同じクラスタ内に、あまり類似しないデータ・ポイントを異なるクラスタ内にグループ化するための処理である。Oracle Data Miningでは、クラスタリングに関して、k-meansおよび直行パーティショニング・クラスタリングの2つのアルゴリズムをサポートしている。
混同マトリックス
これによって、テスト・タスクからのモデルによる予測の精度が測定される。混同マトリックスの行インデックスは、テスト・データで提供され、観測された「実測値」に対応する。列インデックスは、モデルをテスト・データに適用して生成された「予測値」に対応する。実測/予測インデックスの各組合せの値は、その組合せに分類されるレコードの数を表す。
予測値が実測値に等しい場合、モデルによって正確な予測が生成される。その他のすべてのエントリはエラーを示す。
コスト・マトリックス
実測値と予測値に関連するコストを定義するnxnの表。コスト・マトリックスは、通常分類モデルで使用され、nはターゲット内の個別値の数で、列および行はターゲット値でラベル付けされる。行が実測値、列が予測値が列となる。
データ・マイニング
データ・マイニングとは、大量に保管されているデータを自動的に検索して、単純な分析では得られないパターンや傾向を見つけることである。データ・マイニングでは高度な数学的アルゴリズムを使用して、データを分割し、将来のイベントの発生確率を判断します。データ・マイニングは、「データからの知識発見(KDD)」としても知られている。
データ・マイニング・モデルは、特定のデータセットの特定のタイプの問題を解決するためにデータ・マイニング・アルゴリズムを実装しています。
データ・マイニング・アルゴリズム
データ・マイニング・モデルを生成する特殊な技法または手順。1つのアルゴリズムでは特定のデータ表現および特定のマイニング機能が使用されます。
Oracle Data Miningのプログラム・インタフェースのアルゴリズムには、分類用にNaive Bayes、サポート・ベクター・マシン、一般化線形モデルおよびディシジョン・ツリー、回帰用にサポート・ベクター・マシンおよび一般化線形モデル、クラスタリング用にk-MeansおよびO-cluster、属性評価用に最小記述長、特徴抽出用にNon-Negative Matrix Factorization、相関用にApriori、異常検出用に1クラス・サポート・ベクター・マシンがある。
Data Mining Server
データ・マイニング・エンジンおよび永続メタデータ・リポジトリを実装する、Oracle Databaseのコンポーネント。データ・マイニング・タスクを実行する前にData Mining Serverに接続する必要がある。
離散化
離散化によって、単一値(またはビン)に基づいて、関連値が一緒にグループ化される。これによって、列内の個別値の数が減少する。ビンの数が少なくなると、モデルが短時間で作成される。モデルの作成、テスト、リフトの計算、適用(スコアリング)の前に入力データを離散化することによって、Oracle Data Miningの多くのアルゴリズム(NBなど)にプラスとなる場合がある。アルゴリズムごとに異なるビニング・タイプが必要になる場合がある。Oracle Data Miningには、質的属性に対して上位N個の頻度ビニングを、量的属性に対して等幅ビニングおよび分位ビニングを実行する変換がある。
距離ベース(クラスタリング・アルゴリズム)
距離ベースのアルゴリズムは、距離メトリック(関数)を使用して、データ・ポイント間の類似度を計測する。各データ・ポイントは、使用される距離メトリックに従って、最も近いクラスタに割り当てられる。
ディシジョン・ツリー
ディシジョン・ツリーは、分類システムまたは監視ありモデルの表現。ツリーは一連の問題として構築される。問題への答えはツリーをリーフまでさかのぼり、そのリーフで予測が生成される。
ディシジョン・ツリーは、クラスまたは値をもたらす一連の問題を表す方法である。ディシジョン・ツリーの最上位ノードはルート・ノードと呼ばれ、終端ノードはリーフ・ノードと呼ばれる。ディシジョン・ツリーは、各分割においてグループ間の距離が最大になるような、個々のグループへのデータの反復的な分割によって構築される。
ディシジョン・ツリー・モデルの重要な特性は、透過的であるという点にある。すなわち、その分類を説明するルールが存在する。
「ルール」も参照。
展開
質的属性に関して、複数値の質的列をいくつかの2項質的列で置き換える。属性を展開するには、属性がとる各個別値に新しい2項列を作成する必要がある。新しい列では、1は属性の値がその列の値をとることを示し、0はとらないことを示す。たとえば、質的属性が値{1, 2, 3}をとるとする。この属性を展開するために、col_1
、col_2
およびcol_3
という新しい列を3つ作成する。属性が値1をとる場合、col_1
の値は1であり、他の2つの列の値は0となる。
特徴抽出
元のデータを分解して、特徴の新しいセットを作成すること。特徴抽出を使用すると、通常、元の属性の数よりもはるかに少ない数の特徴でデータを記述できる。「Non-Negative Matrix Factorization」も参照。
一般化線形モデル
線形モデリング用の統計的手法。一般化線形モデル(GLM)は、単純な線形モデルのクラスを含み、このクラスを拡張したものである。Oracle Data Miningでは、GLM分類に対してロジスティック回帰が、GLM回帰に対して線形回帰がサポートされている。
k-Means
十分な数の個別ケースがある場合に、事前に決められた数のクラスタにデータをパーティション化する、距離ベースのクラスタリング・アルゴリズム。距離ベースのアルゴリズムは、距離メトリック(関数)を使用して、データ・ポイント間の類似度を計測する。各データ・ポイントは、使用される距離メトリックに従って、最も近いクラスタに割り当てられる。Oracle Data Miningには、k-Meansの拡張バージョンが用意されている。
リフト
偶然取得される予測結果より、モデルを使用している予測結果がどのくらい優れているかの測度。たとえば、カタログを請求した顧客の2%が購入を行っていると仮定し、あるモデルを使用してカタログの請求者を絞ると請求者の10%が購入を行っていると仮定する。この場合、そのモデルのリフトは10/2、つまり5となる。リフトは、異なるデータ・マイニング・モデルを比較するための測度としても使用できる場合がある。リフトは実際の結果を持つデータ表を使用して計算されるので、予測結果の当該データに関して、あるモデルがどの程度機能しているのかが比較される。リフトによって、実際の結果からランダムに選択した予測に対して、モデルがどの程度予測を向上させているかが示される。リフトを使用すると、新しいデータに対してモデルがどの程度機能するかを推測できる。
最小記述長
データのサンプルがあり、そのデータを説明するための適切な代替理論が効率的に列挙されている場合、最良の理論は次の合計を最小化するものである。
理論の記述のビット長
理論によってエンコードされる際のデータのビット長
この原理は、属性評価におけるターゲット値の区別に最も影響のある属性の選択に使用される。
マイニング機能
共通の高水準の特性を共有するデータ・マイニングの主なサブドメイン。Oracle Data Miningのプログラム・インタフェースは、分類、回帰、属性評価、特徴抽出およびクラスタリングの各マイニング機能をサポートしている。異常検出は分類の機能として、どちらのプログラム・インタフェースでもサポートされている。
マイニング・モデル
データ・マイニングの重要な目的の1つはモデルの生成にある。モデルは、監視ありモデルまたは監視なしモデルのいずれかである。理論的には、マイニング・モデルは、マイニング設定からモデルを作成した結果である。モデルの表現は、ユーザーが指定したか、DMSによって選択されたアルゴリズムに固有となる。モデルは、相関モデルから生成されたルールの検査や、データのスコアリングなど、直接検査のために使用できる。
欠損値
ランダムに欠損しているデータ値。欠損の理由には、使用不可、不明、または喪失がある。Oracle Data Miningでは、単純な(ネストしていない)データ型の列にある欠損値を、ランダムに欠損したと解釈する。Oracle Data Miningでは、ネストされた列の欠損値をスパースとして解釈する。
データ・マイニング・アルゴリズムには、様々な欠損値の処理方法がある。一般的な処理方法として、欠損値を無視する、欠損値を含んでいるレコードを省く、欠損値を最頻値または平均値で置き換える、または既存値から欠損値を推測するなどがあげられる。「スパース・データ」も参照。
Naive Bayes
Bayesの定理に基づく分類用のアルゴリズム。Naive Bayesでは、各属性は条件的に他の属性に従属しないものとみなされる。つまり、あるターゲット値を考える際、各予測子の分布は他の予測子に依存しない。
ネストしたデータ
Oracle Data Miningでは、名前と値のペアのネストした列でのトランザクショナル・データがサポートされている。1対多の関係を表す多次元データはネストした列にロードして、ケース表内の単一レコード・ケース・データとともにマイニングできる。
正規化
正規化では、[–1.0,1.0]や[0.0,1.0]などの量的な値を、x_new = (x_old-shift)/scale
などのように特定の範囲に変換します。正規化は、量的属性に対してのみ適用されます。Oracle Data Miningには、min-max正規化、スケール正規化およびz-スコア正規化を実行する変換が用意されています。
1クラス・サポート・ベクター・マシン
異常検出に関する問題の解決に使用されるサポート・ベクター・マシン・モデルのバージョン。Oracle Data Miningのプログラム・インタフェースでは、分類機能として1クラス・アルゴリズムが実装される。
直交パーティショニング・クラスタリング
グリッドベースの階層クラスタリング・モデルを作成するOracle独自のクラスタリング・アルゴリズム。つまり、軸並行な(直行の)パーティションを入力属性空間に作成する。このアルゴリズムは再帰的に作用する。結果の階層構造には、属性スペースをクラスタに四分木分割する不正なグリッドが表示される。
ポジティブ・ターゲット値
2項分類の問題では、2つのクラス(ターゲット値)のうち1つをポジティブとし、もう1つをネガティブと指定できる。Oracle Data Miningによってモデルのリフトが計算される際、モデルが一定の信頼度でポジティブ値を予測する、テスト・インスタンス・セット中のポジティブ・ターゲット値の密度が計算される。
予測モデル
予測モデルは、他の既知の値(独立変数または入力)からは目に見えないか、測定されない値(従属変数または出力)を予測できるようにする式またはルールのセットである。式またはルールの形式は、調査プロセスから収集されたマイニング・データによって示される。トレーニングまたは評価手法の中には、式やルールのパラメータの評価に使用されるものがある。予測モデルは、監視ありモデルである。
既存データ
特定のアルゴリズムを使用したモデルの作成に適したデータ。データ・マイニング・プロジェクトで費やされるほとんどの時間を、データの準備が占める場合がある。Oracle Data Miningでは、ビニング、正規化および欠損値の処理による変換がサポートされています。Oracle Data Miningは、自動データ変換が有効な場合には、アルゴリズムに適した変換を自動的に実行できます。
事前確率
事前確率のセットによって、元のソース・データにおける様々なクラスのサンプルの分布が指定される。単に「事前」とも呼ばれ、モデルの作成に提供されるデータセットで観測される分布とは異なる場合がある。
再コーディング
文字どおり、コードを変更または再配置すること。再コーディングは、データ・マイニングの多くの場合で有効となることがある。次にその例を示す。
欠損値の処理: 欠損値は、「0000」、「9999」、「NA」またはその他の文字列など、NULL
以外のもので示される場合がある。欠損値を処理するには、「0000」からNULL
に再コーディングするなどの方法がある。これにより、Oracle Data Miningのアルゴリズムおよびデータベースによって、その値は欠損値として認識される。
変数のデータ型の変更: 「Y」または「Yes」を1に、「N」または「No」を0に変更するなど。
カットオフ値の確立: $20,000より少ないすべての収入を同じ値に再コーディングするなど。
項目のグループ化: USの個々の州を地域にグループ化するなど。「New England region」の構成要素としてME、VT、NH、MA、CTおよびRIがある場合、この5つの州を、NE (for New England)などと再コーディングする。
回帰
既知のターゲット値を持つレコードから作成したモデルを使用して、新しいレコードの連続的なターゲット値を予測するデータ・マイニング機能。Oracle Data Miningでは、線形回帰(GLM)およびサポート・ベクター・マシンのアルゴリズムが回帰用にサポートされています。
スキーマ
Oracleデータベース内の表、ビュー、順序、ストアド・プロシージャ、シノニム、索引、クラスタ、データベース・リンクなどの論理構造を含むコレクション。スキーマは、特定のデータベース・ユーザーに関連付けられている。
スパース・データ
ある特定のケースにおいて、非ゼロまたは非NULLである属性の割合が小さいデータ。マーケット・バスケットやテキスト・マイニングのデータは通常スパース・データです。Oracle Data Miningは、ネストしたデータをスパースとして解釈します。「欠損値」も参照。
層別サンプル
データセットを非結合サブセット(層)に分割し、各サブセットからランダム・サンプルを取得すること。この手法は、ターゲット値の分布が大幅に偏っている場合に使用される。たとえば、マーケティング・キャンペーンに対する反応のポジティブ・ターゲット値が、そのキャンペーン期間の1%以下の場合などで使用される。層別サンプルにより、ポジティブ・ターゲット値とネガティブ・ターゲット値を区別する要因を学習するために十分な数のポジティブ・サンプルが、データ・マイニング・アルゴリズムに提供される。「ランダム・サンプル」も参照。
スーパーモデル
自身のデータを準備するための指示を格納しているマイニング・モデル。Oracle Data Miningでは、自動データ変換(ADP)および組込みのデータ変換が提供され、ともにスーパーモデルをサポートする。
監視ありモデル
既知の従属変数を使用して作成されたデータ・マイニング・モデル。ターゲットとも呼ばれる。監視ありマイニングの例として、分類および回帰手法がある。「監視なしモデル」を参照。予測モデルとしても知られる。
サポート・ベクター・マシン
機械学習理論を使用して、データへのオーバーフィットを自動的に回避しつつ予測の精度を最大化するアルゴリズム。サポート・ベクター・マシンは、バイオインフォマティクスで扱われるデータのように、予測子の列が多い一方で行が比較的少ない分野などに見られるスパース・データについても予測を行うことができます。サポート・ベクター・マシンは、分類、回帰および異常検出に使用できます。
テキストの特徴
ドキュメントまたはドキュメントのクラスの重要な属性を捕捉する用語の組合せ。テキストの特徴とは通常、キーワード、用語の頻出度など、ドキュメント派生の特徴である。ドキュメントには通常、多くの用語が含まれるが、特徴の数は比較的少ない。
テキスト・マイニング
テキストの特徴を使用して行われる従来型のデータ・マイニング。テキストの特徴とは通常、キーワード、用語の頻出度など、ドキュメント派生の特徴である。テキストの特徴を抽出して、その他のデータと同様にマイニングを行う。テキスト・マイニングは、Oracle Data MiningおよびOracle Textの両方でサポートされる。
上位N個の頻度ビニング
質的属性をビニングするビニングの一種。各属性のビンの定義は、データから計算される値の発生頻度に基づいて計算される。ビンの数は、ユーザーが特定の数(N)を指定する。この場合、bin_1,..., bin_Nの各ビンが頻度が上位にある値に対応し、bin_N+1のビンがそれ以外のすべての値に対応する。
トランザクショナル・データ
1つのケースのデータは、複数の行に格納されます。例としては、マーケット・バスケット・データ(ケースが複数の項目を含んでいる1つのバスケットを表す)があります。Oracle Data Miningでは、属性名と値のペアのネストした列でのトランザクショナル・データがサポートされています。「ネストしたデータ」、「複数レコード・ケース」および「単一レコード・ケース」も参照。
非構造化データ
画像、音声、映像、地理空間マッピング・データ、ドキュメントまたはテキストのデータは、まとめて非構造化データと呼ばれる。Oracle Data Miningでマイニングできる非構造化データはテキスト・データである。
監視なしモデル
既知の正確な結果のガイダンス(監視)なしで作成されたデータ・マイニング・モデル。監視あり学習では、この正確な結果がターゲット属性で提供される。監視なし学習には、そのようなターゲット属性がない。監視なしマイニング機能の例として、クラスタリングおよび相関がある。「監視ありモデル」を参照。
ウィンザライズ
外れ値を処理する方法。ウィンザライズでは、特定の属性の末端値を一定の指定値に設定する処理が伴う。たとえば、ウィンザライズを90%とする場合、下位5%の値は6パーセンタイルの最小値と同じ値に設定され、上位5%の値は95パーセンタイルの最大値と同じ値に設定される。