Oracle Data Miningの紹介

2 Oracle Data Miningの紹介

様々なマイニング・タスクを実行するためにOracle Data Miningを紹介します。

2.1 Oracle Data Miningとは

Oracle Data Miningの使用方法を理解し、様々なマイニング技術について学習します。

Oracle Data Miningを導入すると、Oracle Database内に強力な最新のデータ・マイニング機能が提供されます。Oracle Data Miningを使用して、予測的および記述的データ・マイニング・アプリケーションを作成および配置し、既存のアプリケーションにインテリジェント機能を追加して、データ調査のための予測問合せを生成できます。

Oracle Data Miningでは、様々な機械学習タスク(分類、回帰、異常検出、特徴抽出、クラスタリング、マーケット・バスケット分析など)を実行するための幅広いデータベース内アルゴリズム・セットが提供されます。このアルゴリズムは、標準的なケース・データ、トランザクション・データ、スター・スキーマおよび非構造化テキスト・データで機能します。Oracle Data Miningは、非常に大きなデータセットのマイニングに最適です。

Oracle Data Miningは、Oracle R Enterpriseとともに、特にデータベース内データ・マイニングのための強力なAPIを提供するOracle Advanced Analytics Optionのコンポーネントです。

関連項目

Oracle R Enterpriseドキュメント・ライブラリ

2.2 データベース・カーネルにおけるOracle Data Mining for SQL

Oracle DatabaseカーネルでのOracle Data Mining for SQL (Oracle Data Mining)の実装とその利点について学習します。

Oracle Data Miningは、Oracle Databaseカーネル内に実装されます。Oracle Data Miningモデルは、ファーストクラスのデータベース・オブジェクトです。Oracle Data Mining for SQLのプロセスでは、Oracle Databaseの組込み機能を使用して、スケーラビリティを最大限に高め、システム・リソースを効率的に利用します。

Oracle Database内のOracle Data Miningには、次のような多くの利点があります。

データ移動なし: 一部のデータ・マイニング製品では、データを企業のデータベースからエクスポートして、マイニング用に特別な形式へと変換する必要があります。Oracle Data Miningを使用すると、データを移動したり変換したりする必要がなくなります。このため、プロセス全体の簡略化、作業時間の短縮、エラー発生頻度の抑制が実現し、非常に大規模なデータセットの分析が可能になります。
セキュリティ: データはOracle Databaseの広範なセキュリティ・メカニズムで保護されます。さらに、データ・マイニングの様々なアクティビティには特定のデータベース権限が必要となります。適切な権限を持つユーザーのみが、データ・マイニング・モデル・オブジェクトを定義、操作または適用できます。
データ準備および管理: ほとんどのデータは、マイニング前に様々な方法での整備、フィルタリング、正規化、サンプリング、変換を必要とします。データ・マイニング・プロジェクトでは、最大で80%の労力がデータの準備に費やされることもあります。Oracle Data Miningでは、データ準備プロセスの主要なステップが自動的に管理されます。また、Oracle Databaseでも、データ準備および管理用の豊富な管理ツール群が提供されています。
データ・リフレッシュの簡易化: Oracle Database内におけるデータ・マイニング・プロセスでは、リフレッシュ済データへのアクセスが即座に実施されます。Oracle Data Miningは現在のデータに基づくデータ・マイニング結果を簡単に提示できるため、その適時性と関連性を最大限に高めることができます。
Oracle Database Analytics: Oracle Databaseには、高度な分析やビジネス・インテリジェンス用の機能が多数用意されています。データ・マイニングは、統計的分析やOLAPなど、データベースのその他の分析機能と簡単に統合できます。
Oracle Technology Stack: オラクル社に集積されたテクノロジのあらゆる側面を利用して、ビジネス・インテリジェンスや科学調査といった、より大規模なフレームワーク内に、データ・マイニングを統合できます。
ドメイン環境: データ・マイニング・モデルは、適切なアプリケーション・ドメイン環境で作成、テスト、検証、管理および配置する必要があります。データ・マイニングの結果には、永続リポジトリまたはデータ・ウェアハウスへ格納する前に、ドメイン固有の計算(推定リスクや反応確率の計算など)の一部として後処理を必要とするものもあります。Oracle Data Miningを使用すると、データ・マイニング・アクティビティの前処理および後処理をすべて同じ環境で実行できます。
Application Programming Interface: PL/SQL APIおよびSQL言語の演算子は、Oracle Database内のOracle Data Mining機能への直接アクセスを提供します。

関連項目

データベース分析の概要

2.3 Oracle Exadataでのデータ・マイニング

Oracle Exadataのスコアリングを理解します。

スコアリングとは、データ・マイニング・モデルをデータに適用して予測を生成するプロセスのことです。スコアリング・プロセスには、システム・リソースがかなり必要になることがあります。状況によっては、膨大な量のデータが関係するため、アルゴリズムの処理は非常に複雑になります。

Oracle Data Miningでは、処理が非常に高速でインテリジェントなOracle Exadata Storage Serverにスコアリングの負荷を移行できます。

Oracle Exadata Storage Serverは、オラクル社の高性能なストレージ・ソフトウェアとオラクル社の業界標準仕様のハードウェアを組み合せて、業界最高レベルのデータベース・ストレージ・パフォーマンスを実現します。Oracle Exadataの詳細は、Oracle Technology Networkにアクセスしてください。

関連項目

http://www.oracle.com/us/products/database/exadata/index.htm

2.4 パーティション化されたモデルについて

複数のモデルを編成し表現するためのパーティション化モデルについて説明します。

データ・セットにモデルを構築し、それを新しいデータに適用すると、新しいデータおよび進化するデータに対して実行したときに予測が一般的になりパフォーマンスが悪くなる場合があります。これを克服するために、データ・セットをいくつかの特性に基づいて異なる部分に分割できます。Oracle Data Mining for SQLは、パーティション化されたモデルをサポートしています。パーティション化されたモデルにより、ユーザーは各データ・パーティションごとに一種のアンサンブル・モデルを構築できます。トップレベル・モデルには、自動的に生成されるサブモデルがあります。サブモデルは、属性オプションに基づいています。たとえば、データ・セットに4つの値を持つMARITALという属性があり、それをパーティション化された属性として定義したとします。これで、この属性に対して4つのサブモデルが作成されます。サブモデルは自動的に管理され、単一のモデルとして使用されます。パーティション化されたモデルは、データ・マイニング・タスクを自動化し、複数のターゲット・モデルを通じてより高い精度を達成できる可能性があります。

パーティション化されたモデルとそのサブモデルは、ファースト・クラスの永続データベース・オブジェクトとして存在します。永続とは、パーティション化モデルにディスク上の表現があることを意味します。

パーティション化されたモデルを作成するには、ODMS_PARTITION_COLUMNS設定を含めます。パーティションの数を定義するには、ODMS_MAX_PARTITIONS設定を含めます。予測を行う場合は、トップレベル・モデルを使用する必要があります。正しいサブモデルは、属性、属性オプションおよびパーティション設定に基づいて自動的に選択されます。スコアリングする際に、パーティション列をUSING句の一部として含める必要があります。GROUPINGヒントは、パーティション化されたモデルをスコアリングするときに、データ・マイニング・スコアリング関数に適用されるオプションのヒントです。

パーティション名、キー値およびパーティション化モデルの構造は、ALL_MINING_MODEL_PARTITIONSビューにあります。

関連項目

Oracle Databaseリファレンス

2.5 Oracle Data Miningのインタフェース

Oracle Data Miningのプログラム・インタフェースは、モデルの作成および維持のためのPL/SQLと、スコアリングのためのSQL関数群です。Oracle Data Miningでは、Oracle SQL Developerの拡張として実装されるグラフィカル・ユーザー・インタフェースもサポートされます。

Oracle Predictive Analytics (簡略化されたデータ・マイニング・ルーチンのセット)は、Oracle Data Miningを基盤として構築され、PL/SQLパッケージとして実装されます。

2.5.1 PL/SQL API

Oracle Data Mining PL/SQL APIは、データ・マイニング・モデルの作成、テストおよび維持のためのルーチンを含むDBMS_DATA_MINING PL/SQLパッケージに実装されます。バッチ適用操作もこのパッケージに含まれます。

次の例に、SVMC_SH_Clas_sampleというSVM分類モデルを作成するための単純なPL/SQLスクリプトの一部を示します。モデルの作成では、重み付け表で指定される重みと、設定表で指定される設定が使用されます。重みは、ターゲット・クラスの重み付けに影響します。設定は、デフォルトの動作に優先します。モデルでは、自動データ準備(prep_auto_on設定)が使用されます。モデルは、mining_data_build_vのデータに対してトレーニングされます。

例2-1 分類モデルの作成

-----------------------  CREATE AND POPULATE A CLASS WEIGHTS TABLE  ------------
CREATE TABLE svmc_sh_sample_class_wt (
  target_value NUMBER,
  class_weight NUMBER);
INSERT INTO svmc_sh_sample_class_wt VALUES (0,0.35);
INSERT INTO svmc_sh_sample_class_wt VALUES (1,0.65);
COMMIT;
-----------------------  CREATE AND POPULATE A SETTINGS TABLE ------------------
CREATE TABLE svmc_sh_sample_settings (
  setting_name  VARCHAR2(30),
  setting_value VARCHAR2(4000));
BEGIN
INSERT INTO svmc_sh_sample_settings (setting_name, setting_value) VALUES
  (dbms_data_mining.algo_name, dbms_data_mining.algo_support_vector_machines);
INSERT INTO svmc_sh_sample_settings (setting_name, setting_value) VALUES
  (dbms_data_mining.svms_kernel_function, dbms_data_mining.svms_linear);
INSERT INTO svmc_sh_sample_settings (setting_name, setting_value) VALUES
  (dbms_data_mining.clas_weights_table_name, 'svmc_sh_sample_class_wt');
INSERT INTO svmc_sh_sample_settings (setting_name, setting_value) VALUES
  (dbms_data_mining.prep_auto, dbms_data_mining.prep_auto_on);
END;
/
------------------------  CREATE THE MODEL -------------------------------------
BEGIN
  DBMS_DATA_MINING.CREATE_MODEL(
    model_name          => 'SVMC_SH_Clas_sample',
    mining_function     => dbms_data_mining.classification,
    data_table_name     => 'mining_data_build_v',
    case_id_column_name => 'cust_id',
    target_column_name  => 'affinity_card',
    settings_table_name => 'svmc_sh_sample_settings');
END;
/

2.5.2 SQL関数

データ・マイニング用のSQL関数は、予測、クラスタリングおよび特徴抽出を実行します。

関数は、マイニング・モデル・オブジェクトを適用するか、動的スコアリングを実行する分析句を実行して、データをスコアリングします。

次の例に、分類モデルsvmc_sh_clas_sampleをビューmining_data_apply_vのデータに適用する問合せを示します。この問合せによって、提携カードを使用する可能性の高い顧客の平均年齢が戻されます。結果は性別によって分類されます。

例2-2 PREDICTION関数

SELECT cust_gender,
       COUNT(*) AS cnt,
       ROUND(AVG(age)) AS avg_age
  FROM mining_data_apply_v
 WHERE PREDICTION(svmc_sh_clas_sample USING *) = 1
GROUP BY cust_gender
ORDER BY cust_gender;

C        CNT    AVG_AGE
- ---------- ----------
F         59         41
M        409         45

関連項目

データベース内スコアリング

2.5.3 Oracle Data Miner

Oracle Data Mining for SQLは、Oracle Data Minerと呼ばれるグラフィカル・インタフェースをサポートしています。

Oracle Data Minerは、Oracle Data Miningのグラフィカル・インタフェースです。Oracle Data Minerは、Oracle Technology Networkで無償ダウンロードできるOracle SQL Developerの拡張です。

Oracle Data Minerは、ワークフロー・パラダイムを使用して、Oracle Data Miningモデルの構築、評価および適用のプロセスを取得、ドキュメント化および自動化します。ワークフロー内で、データ変換の指定、複数のモデルの作成と評価、および複数のデータセットのスコアリングを行うことができます。その後、ワークフローを保存して他のユーザーと共有できます。

図2-1 Oracle Data Minerのワークフロー

「図2-1 Oracle Data Minerのワークフロー」の説明

インストール手順を含むOracle Data Minerの詳細は、Oracle Technology Networkを参照してください。

関連項目

Oracle Data Miner

2.5.4 予測分析

予測分析は、データ・マイニング・プロセスを単純なルーチンで実行する手法です。

「1クリック・データ・マイニング」とも呼ばれるとおり、予測分析では、データ・マイニング・プロセスの単純化と自動化を実現しています。

予測分析ではデータ・マイニングの手法を使用しますが、データ・マイニングに関する知識は必要としません。ユーザーは、データに対して実行する操作を指定するだけで予測分析を実行できます。マイニング・モデルの作成や使用は不要であり、「Oracle Data Miningの基礎」で説明されているマイニング手法やマイニング・アルゴリズムについて理解しておく必要もありません。

Oracle Data Miningの予測分析の操作については、次の表を参照してください。

表2-1 Oracle Predictive Analyticsによる操作

操作	説明
`EXPLAIN`	ターゲット列の値の偏差に対して個々の予測子(列)がどのように影響するかを説明する。
`PREDICT`	各ケース(行)について、ターゲット列の値を予測する。
`PROFILE`	同じターゲット値を想定するケース(行)に対するルールのセットを作成する。

Oracle Predictive Analyticsによる操作は、DBMS_PREDICTIVE_ANALYTICS PL/SQLパッケージに実装されています。これらは、Oracle Data Minerでも利用できます。

関連項目

Oracle Data Miningの基礎

2.6 データベース分析の概要

Oracle Databaseでサポートされている、ネイティブの分析機能の概要です。

Oracle Databaseでは、ネイティブの多数の分析機能がサポートされています。これらの機能はすべて共通サーバーの一部であるため、効率的に組み合せることができます。分析処理の結果は、Oracle Business Intelligence Suite Enterprise EditionなどのBIツールやアプリケーションに統合できます。

様々な分析は、ほとんど制限なく組み合せることができます。例2-3に、単一のSQL問合せにおけるOracle Data Mining for SQLおよびテキストの処理を示します。この問合せでは、自然減する傾向が強く(確率が80%を超える)、有望な顧客であり(顧客価値率が90%を超える)、かつChecking Plusアカウントに関して最近カスタマ・サービスに問合せのあった顧客がすべて選択されます。自然減の傾向に関する情報は、tree_modelというOracle Data Miningモデルを使用して計算されます。Checking Plusアカウントに関するコール・センターのノートを検索するために、Oracle TextのCONTAINS演算子が使用されています。

Oracle Databaseでサポートされるネイティブ分析の一部を次の表で説明します。

表2-2 Oracle Databaseのネイティブ分析

分析機能	説明	参照先ドキュメント
複合データの変換	データ変換は、分析用アプリケーションやETL (抽出、変換およびロード)の重要な側面である。データ変換の実装には、SQL式または`DBMS_DATA_MINING_TRANSFORM`パッケージを使用できる。 `DBMS_DATA_MINING_TRANSFORM`は柔軟性のあるデータ変換用パッケージで、ビニングや正規化の機能に加え、様々な欠損値や外れ値の処理が含まれる。	Oracle Database PL/SQLパッケージ・プロシージャおよびタイプ・リファレンス
統計関数	Oracle Databaseでは多数のSQL 統計関数が提供され、仮説検定(t検定、F検定など)、相関関数(ピアソン相関など)、クロスタブ統計および記述統計(中央値、最頻値など)がサポートされる。`DBMS_STAT_FUNCS`パッケージにより、分布適用プロシージャや、ある列に対する記述統計を戻すサマリー・プロシージャが追加されている。	『Oracle Database SQL言語リファレンス』および『Oracle Database PL/SQLパッケージおよびタイプ・リファレンス』
ウィンドウ関数と分析SQL関数	Oracle Databaseでは、累積集計、移動集計および集中集計を計算するためのウィンドウ関数および分析関数がサポートされる。集計ウィンドウ関数群では、`SUM`、`AVERAGE`、`COUNT`、`MAX`、`MIN`を始めとする多数の関数の移動および累積バージョンの計算が可能です。	Oracle Databaseデータウェアハウス・ガイド
線形代数	`UTL_NLA`パッケージでは、VARRAYで表されるベクターや行列に対する操作用に、一般的な`BLAS`および`LAPACK`ライブラリ(バージョン3.0)のサブセットが公開される。このパッケージには、一次方程式のシステムを解決するプロシージャ、行列を反転するプロシージャ、および固有値と固有ベクターを計算するプロシージャが含まれる。	Oracle Database PL/SQLパッケージ・プロシージャおよびタイプ・リファレンス
OLAP	Oracle OLAPは多次元分析をサポートし、多次元問合せのパフォーマンスを向上するために使用できる。これまでは特殊なOLAPデータベースのみに存在した機能も提供されている。Oracle OLAPでは、ドリルダウンやロールアップにとどまらず、時系列分析、モデリングおよび予測の機能もサポートされる。	Oracle OLAPユーザーズ・ガイド
空間分析	Oracle Spatialでは、ハイエンドGISおよびLBSソリューションをサポートする高度な空間機能が提供される。Oracle Spatialの分析およびデータ・マイニング機能には、ビニング、地域パターンの検出、空間相関、関連データ・マイニングおよび空間クラスタリングなどの機能があります。また、Oracle Spatialでは、トポロジおよびネットワーク・データのモデルと分析もサポートされる。Oracle Spatialのトポロジ・データ・モデルを使用すると、トポロジ内のノード、エッジおよびフェイスに関するデータと連携できる。最短経路、最小コストの全域木、隣接分析、巡回セールスマン問題の計算など様々なネットワーク分析機能が含まれる。	Oracle Spatial and Graph開発者ガイド
グラフ	プロパティ・グラフは、Oracle Databaseの高度なグラフ問合せ機能および分析機能を提供します。インメモリー・グラフ・サーバー(PGX)は、グラフ化された機械学習アルゴリズムをサポートする機械学習ライブラリを提供します。機械学習ライブラリは、DeepWalk、教師ありGraphWiseおよびPg2vecアルゴリズムをサポートしています。	Oracle Database Property Graphグラフ開発者ガイド
テキスト分析	Oracle Textでは、Oracleデータベース、ファイルおよびWeb上に格納されているテキストおよびドキュメントの索引付け、検索および分析のために標準SQLが使用される。Oracle Textによって、一群のドキュメントの自動分類およびクラスタリングもサポートされる。こうしたOracle Textの分析機能の多くは、Oracle Data Mining機能の最上位に用意されています。	『Oracle Textアプリケーション開発者ガイド』

例2-3 Oracle Data Mining for SQLとOracle Textを組み合せるSQL問合せ

SELECT A.cust_name, A.contact_info
  FROM customers A
 WHERE PREDICTION_PROBABILITY(tree_model,
            'attrite' USING A.*) > 0.8
   AND A.cust_value > 90
   AND A.cust_id IN
       (SELECT B.cust_id
          FROM call_center B
         WHERE B.call_date BETWEEN '01-Jan-2005'
                               AND '30-Jun-2005'   
         AND CONTAINS(B.notes, 'Checking Plus', 1) > 0);