3 Oracle Data Miningの基礎
3.1 マイニング手法
データ・マイニング手法の概念を紹介します。
Oracle Data Miningの使用にあたっては、データ・マイニングの手法およびアルゴリズムに関する基礎的な理解が必要です。
データ・マイニングの各手法は、モデル化や解決の対象となる可能性がある問題の種類を表しています。データ・マイニング手法は、一般に教師ありと教師なしの2つのカテゴリに分けられます。教師あり学習、教師なし学習という概念は、人工知能の1分野といわれる機械学習学に由来しています。
人工知能とは、自身の知能や動作を自主的に提示するシステムの実装や研究を指します。機械学習においては、デバイスが自身のパフォーマンスから学習して、自身の機能を変更できるようにする技術が扱われます。データ・マイニングでは機械学習の概念がデータに適用されます。
関連項目
3.1.1 教師ありデータ・マイニング
教師あり学習は、指示あり学習とも呼ばれます。この種の学習プロセスは、既知である従属属性またはターゲットからの指示を受けます。指示ありデータ・マイニングでは、ターゲットの動作を一連の独立属性や予測子の機能として説明するように試みられます。
教師あり学習は、通常、予測モデルに帰着します。パターン検出を目的とする教師なし学習とは、この点が異なります。
教師ありモデルの作成には、トレーニングという、ターゲット値が既知である多数のケースをソフトウェアで分析するプロセスが伴います。このトレーニング・プロセスにおいて、モデルは予測を作成するロジックを「学習」します。たとえば、販促に反応しやすい顧客の識別を目的とするモデルは、過去に販促に反応した、または反応しなかったと認識されている多数の顧客の特性を分析することによって、トレーニングされている必要があります。
3.1.1.2 教師あり学習: スコアリング
適用データはスコアリング・データとも呼ばれ、モデルの適用対象となる実際の母集団のことを指します。たとえば、特定の製品を頻繁に購入する顧客の特性を識別するモデルを作成する場合について考えてみます。特定の店舗で買い物をする顧客のうち関連製品を購入する可能性がある顧客の一覧を取得するために、このモデルを当該店舗の顧客データに適用するとします。この場合、店舗の顧客データがスコアリング・データとなります。
教師あり学習のほとんどは、対象とする母集団に適用できます。主要な教師ありマイニング手法(分類および回帰)は、両方ともスコアリングに使用できます。
Oracle Data Miningでは、もう1つの教師あり手法である属性評価のスコアリング操作はサポートしていません。このタイプのモデルは、対象とする母集団に基づいて作成され、その母集団に関する情報を取得するため、別個のデータには適用できません。属性評価モデルでは、ターゲット値の予測において最も重要な属性が戻され、ランク付けされます。
3.1.2 教師なしデータ・マイニング
教師なし学習は、指示を受けません。従属属性と独立属性は区別されません。モデルの作成においてアルゴリズムを導く既知の結果は存在しません。
教師なし学習は、記述目的で使用できます。また、予測の作成にも使用できます。
3.1.2.1 教師なし学習: スコアリング
教師なし学習、サポートされているスコアリング操作および教師なしOracle Data Mining手法を紹介します。
教師なしデータ・マイニングはターゲットを指定しませんが、ほとんどの教師なし学習は対象とする母集団に適用できます。たとえば、クラスタリング・モデルは記述データ・マイニングの手法を使用しますが、クラスタの割当てに従ってケースを分類するために適用できます。異常検出は教師なしですが、通常は、あるデータ・ポイントが一連のケース内で典型的かどうかを予測するために使用されます。
Oracle Data Miningは、クラスタリングおよび特徴抽出(いずれも教師なしマイニング手法)のスコアリング操作をサポートしています。もう1つの教師なし機能である相関ルールのスコアリング操作はサポートしていません。相関モデルは、特定の母集団に関する情報を取得するためにその母集団に基づいて作成されるため、別個のデータには適用できません。相関モデルでは、項目またはイベントが互いにどのように関連付けられるのかを説明するルールが戻されます。相関ルールは統計とともに戻され、この統計を使用して確率に従ってランク付けされます。
Oracle Data Miningは、次の表に示す教師なし手法をサポートしています。
表3-2 Oracle Data Miningの教師なし手法
| 手法 | 説明 | サンプル・プログラム |
|---|---|---|
|
「通常の」データの特徴に合致しない項目(外れ値)を識別する。 |
1群の顧客に関する人口統計データを指定し、顧客の基準から大きく外れる購買行動を識別する。 |
|
|
データ内で同時発生する傾向にある項目を検出し、その同時発生の原則となるルールを特定する。 |
一緒に購入される傾向にある項目群を検出し、その関係性を特定する。 |
|
|
データ内で自然なグループを検出する。 |
人口統計データを複数のクラスタに分割し、ある個人が特定のクラスタに属する確率をランク付けする |
|
|
1群の顧客に関する人口統計データを指定し、顧客の一般的な特徴別に属性をグループ分けする。 |
関連項目
3.2 アルゴリズム
アルゴリズムとは、特定の種類の問題を解決するための数学的手続きです。一部の手法では、複数のアルゴリズムから選択することも可能です。
各アルゴリズムは、様々な特性を持つ特定のタイプのモデルを生成します。機械学習の問題には、複数のアルゴリズムを組み合せて使用すると最適に解決できるものがあります。たとえば、初めに特徴抽出モデルを使用して1組の最適化された予測子を作成し、続いて分類モデルを使用してその結果に対する予測を作成するといった方法があります。
3.2.1 Oracle Data Miningの教師ありアルゴリズム
Oracle Data Miningでは、次の表に示す教師ありデータ・マイニング・アルゴリズムがサポートされます。次に示すアルゴリズムの略称は、このマニュアル全体で使用されます。
表3-3 Oracle Data Miningの教師あり手法用アルゴリズム
3.2.2 Oracle Data Miningの教師なしアルゴリズム
Oracle Data Miningでサポートされている教師なしアルゴリズムについて学習します。
Oracle Data Miningでは、次の表に示す教師なしデータ・マイニング・アルゴリズムがサポートされます。次に示すアルゴリズムの略称は、このマニュアル全体で使用されます。
表3-4 Oracle Data Miningの教師なし手法用アルゴリズム
関連項目
3.3 データ準備
モデルの質は、そのモデルの作成(トレーニング)に使用されるデータの質に大きく左右されます。どのようなデータ・マイニング・プロジェクトでも、その取組みの多くの時間がデータの準備に費やされます。データは慎重に調査、整備および変換する必要があり、アルゴリズムに適したデータ準備方法を適用する必要があります。
データ準備のプロセスは、テスト用であるかスコアリング用であるかに関係なく、モデルが適用されるあらゆるデータについて、そのモデルのトレーニングに使用されたデータと同じ変換を行う必要があるため、一層複雑になっています。
3.3.1 Oracle Data Miningによるデータ準備の簡略化
Oracle Data Miningでは、データ準備プロセスを大幅に単純化するいくつかの機能が提供されます。
-
組込みのデータ準備: モデルのトレーニングに使用される変換は、モデルに組み込まれ、モデルが新しいデータに適用されるたびに自動的に実行されます。モデルの変換を指定する場合、1回指定すれば済みます。
-
自動データ準備(ADP): Oracle Data Miningでは、自動データ準備モードがサポートされます。ADPが有効化されている場合、アルゴリズムで必要とされるデータ変換が自動的に実行されます。変換の指示は、ユーザーが指定した変換の指示とともにモデルに組み込まれます。
-
欠損値およびスパース・データの自動管理: Oracle Data Miningでは、マイニング・アルゴリズム間で一貫した方法でスパース性および欠損値が処理されます。
-
透明性: Oracle Data Miningでは、モデル内部の属性のビューであるモデルの詳細が提供されます。ユーザーが解釈可能な形式に変換済属性値をマップする逆変換によって、モデル内部の詳細を調べることができます。可能である場合、属性値は元の列値に逆変換されます。逆変換は、教師ありモデルのターゲットにも適用されるため、スコアリングの結果は、元のターゲットの単位と同じ単位になります。
-
カスタム・データ準備用のツール: Oracle Data Miningでは、
DBMS_DATA_MINING_TRANSFORMPL/SQLパッケージに多くの一般的な変換ルーチンが用意されています。こられのルーチンを使用することも、SQLで独自のルーチンを開発することもできます(両方行うことも可能)。SQL言語は、データベースに変換を実装するために適しています。カスタムの変換指示は、ADPとともに使用することも、ADPのかわりに使用することもできます。
3.3.2 ケース・データ
ほとんどのデータ・マイニング・アルゴリズムは、各ケースの情報が個別の行に格納される単一レコード・ケース・データに対して動作します。ケースのデータ属性は、列に格納されます。
データがトランザクションに編成される場合、1つのケース(1つのトランザクション)のデータが複数の行に格納されます。トランザクショナル・データの例は、マーケット・バスケット・データです。ネイティブ・トランザクショナル・データに対して動作可能な相関ルールの1つの例外として、Oracle Data Miningのアルゴリズムには、単一レコード・ケースの編成が必要です。
3.3.3 テキスト・データ
データ・マイニング用の非構造化テキスト・データを準備および変換します。
Oracle Data Miningは、CLOB列および長いVARCHAR2列を自動的に非構造化テキストとして解釈します。また、短いVARCHAR2、CHAR、BLOBおよびBFILEの列を非構造化テキストとして指定できます。非構造化テキストには、Webページ、ドキュメント・ライブラリ、PowerPointプレゼンテーション、製品仕様、電子メール、レポートのコメント・フィールド、コール・センターのノートなどのデータ項目が含まれます。
Oracle Data Miningでは、Oracle Textユーティリティおよび用語の重み付け方針を使用して、非構造化テキストをマイニング用に変換します。テキスト変換では、テキスト用語が抽出され、テキスト索引の数値が付与されます。テキスト変換プロセスは、モデルおよび個々の属性に対して構成可能です。変換されると、テキストは、データ・マイニング・アルゴリズムでマイニングできます。
関連項目
3.4 データベース内スコアリング
スコアリングとは、データ・マイニング・アルゴリズムを新しいデータに適用することです。従来のデータ・マイニングでは、モデルは、リモート・システム上の特殊なソフトウェアを使用して構築され、スコアリングのために別のシステムに配置されます。これは、面倒でエラーの発生しやすいプロセスであり、セキュリティ違反に対して脆弱で、データ同期に困難が伴います。
Oracle Data Miningでは、スコアリングは簡単で安全です。スコアリング・エンジンとデータは、両方ともデータベース内に存在します。スコアリングは、SQL言語の拡張であるため、マイニングの結果はアプリケーションおよびレポート・システムに簡単に統合できます。
3.4.1 パラレル実行と管理の簡易化
すべてのOracle Data Miningのスコアリング・ルーチンは、大規模なデータ・セットをスコアリングするためのパラレル実行をサポートします。
データベース内スコアリングにはパフォーマンス上の利点があります。すべてのOracle Data Miningスコアリング・ルーチンはパラレル実行をサポートし、これによって複雑な問合せや大規模なデータ・セットのスコアリングの実行に必要な時間が大幅に短縮されます。
データベース内マイニングによって、データ・マイニングの構想をサポートするために必要なIT作業が最小限に抑えられます。標準的なデータベース技術を使用して、モデルをより新しいデータに簡単にリフレッシュ(再作成)および再デプロイできます。スコアリング問合せが同じままであるため、データベースで基礎となるモデルが置き換えられるのみであり、デプロイは迅速です。
3.4.2 モデル適用と動的スコアリングのためのSQL関数
Oracle Data Miningでは、スコアリングはSQL言語関数によって実行されます。SQL関数スコアリングに関わる様々な方法を理解します。
関数は、予測、クラスタリングおよび特徴抽出を実行します。関数は、2つの異なる方法、つまり、マイニング・モデル・オブジェクトを適用する方法(例3-1)か、またはマイニング分析を動的に計算する分析句を実行してそれをデータに適用する方法(例3-2)によって起動できます。動的スコアリングは、モデルの必要性を排除するため、「データ・マイニングのプロセス」で説明されている従来のデータ・マイニング方法を補完(または置換)できます。
例3-1では、PREDICTION_PROBABILITY関数によって、例2-1で作成されたモデルsvmc_sh_clas_sampleが適用され、mining_data_apply_vのデータがスコアリングされます。この関数によって、提携カードを使用する可能性の最も高いイタリアの10人の顧客が戻されます。
例3-2では、PREDICTIONおよびPREDICTION_PROBABILITY関数によって、分析構文(OVER ()句)が使用され、mining_data_apply_vのデータが動的にスコアリングされます。この問合せによって、現在提携カードを持っていないが、それを使用する可能性の高い顧客が戻されます。
例3-1 マイニング・モデルの適用によるデータのスコアリング
SELECT cust_id FROM
(SELECT cust_id,
rank() over (order by PREDICTION_PROBABILITY(svmc_sh_clas_sample, 1
USING *) DESC, cust_id) rnk
FROM mining_data_apply_v
WHERE country_name = 'Italy')
WHERE rnk <= 10
ORDER BY rnk;
CUST_ID
----------
101445
100179
100662
100733
100554
100081
100344
100324
100185
101345
例3-2 分析関数の実行によるデータのスコアリング
SELECT cust_id, pred_prob FROM
(SELECT cust_id, affinity_card,
PREDICTION(FOR TO_CHAR(affinity_card) USING *) OVER () pred_card,
PREDICTION_PROBABILITY(FOR TO_CHAR(affinity_card),1 USING *) OVER () pred_prob
FROM mining_data_build_v)
WHERE affinity_card = 0
AND pred_card = 1
ORDER BY pred_prob DESC;
CUST_ID PRED_PROB
---------- ---------
102434 .96
102365 .96
102330 .96
101733 .95
102615 .94
102686 .94
102749 .93
.
.
.
101656 .51