この項では、Oracle Data Mining 11g リリース1(11.1)の新機能について説明し、追加情報の参照先を紹介します。また、前のリリースでの新機能も引き続き掲載されているので、現行リリースへの移行時にも役立ちます。
次のトピックで、Oracle Data Miningの新機能について説明します。
マイニング・モデルのスキーマ・オブジェクト
Oracle 11gでは、データ・マイニング・モデルがSYS
スキーマ内のデータ・ディクショナリ・オブジェクトとして実装されています。新しく追加された一連のデータ・ディクショナリ・ビューで、マイニング・モデルとそのプロパティを参照できます。マイニング・モデル・オブジェクトに対するアクセスは、新しいシステムおよびオブジェクト権限で制御されます。
データ・マイニング・モデルは、前のリリースでは、DMSYS
スキーマ内の表の集合およびメタデータとして実装されていました。Oracle 11gには、DMSYS
スキーマはありません。
関連項目:
|
自動データ準備(ADP)
データをマイニングする前には、ほとんどの場合、ビニング、正規化、欠損値の処理などによってデータを変換する必要があります。作成データ、テスト・データおよび適用データに対しては、まったく同じ変換を行う必要があります。
以前のリリースでは、データの変換はユーザーが行っていました。Oracle Database 11gでは、データ準備プロセスを自動化できます。アルゴリズムに適した変換の指示がモデル内に組み込まれ、作成データおよびスコアリング・データに自動的に適用されます。こうした自動変換は、ユーザー指定の変換方法で補完したり置き換えたりすることができます。
マイニング・モデルは自身のデータを準備するための指示を格納しているため、スーパーモデルと呼ばれます。
関連項目:
|
ネストしたデータの検索機能、スパース・データの処理の向上
Oracle Data Miningでは、質的データと量的データの両方について、ネストしたデータ型がサポートされています。複数レコード・ケースのデータをマイニングするには、ネストした列に変換する必要があります。
Oracle Data Mining 10g リリース2では、ネストした列がトップレベルの属性として処理されていました。ユーザーは2つのネストした列に、同名の属性が含まれていないことを確認する必要がありました。Oracle Data Mining 11gでは、ネストした属性が列名で検索されるため、ユーザーはこの確認を行う必要がありません。
Oracle Data Mining 11gでは、スパース・データや欠損値の処理がアルゴリズム間で標準化されています。データがスパースであるのは、空の状態のセルが高い割合で存在するが、すべての値が既知であると想定される場合です。これは、マーケット・バスケット・データの場合にあてはまります。一部のセルが空でも、その値が既知でない場合は、値はランダムに欠損しているとみなされます。Oracle Data Miningでは、ネストした列内の欠損データはスパース表現であり、ネストしていない列内の欠損データはランダムに欠損しているとみなされます。
Oracle Data Mining 11gのディシジョン・ツリーおよびO-Clusterアルゴリズムでは、ネストしたデータはサポートされません。
関連項目: 『Oracle Data Miningアプリケーション開発者ガイド』 |
一般化線形モデル
Oracle 11gでは、一般化線形モデルという新しいアルゴリズムが導入されました。このアルゴリズムでは、分類(ロジスティック回帰)および回帰(線形回帰)という2種類のマイニング機能がサポートされます。
新しいSQLデータ・マイニング関数
一般化線形モデル用に、新しいSQLデータ・マイニング関数、PREDICTION_BOUNDS
が導入されました。PREDICTION_BOUNDS
は、予測値(回帰モデル)または予測確率(分類)の信頼限界を戻します。
関連項目: 『Oracle Data Miningアプリケーション開発者ガイド』 |
コスト重視の意思決定に関するサポートの向上
Oracle 11gでは、コスト・マトリックスのサポートが大幅に向上しています。新しいプロシージャであるDBMS_DATA_MINING.ADD_COST_MATRIX
およびDBMS_DATA_MINING.REMOVE_COST_MATRIX
を使用すると、どの分類モデルに対してもコスト・マトリックスの追加や削除が可能です。
インラインのコスト・マトリックスの指定用に、SQLデータ・マイニング関数で新しい構文がサポートされています。この新しい機能を使用すると、モデルにスコアリング用のコスト・マトリックスが関連付けられていない場合にも、コスト重視モデルの結果をSQL文内で戻すことができます。
コスト・マトリックスを指定して作成できるのは、ディシジョン・ツリー・モデルのみです。
このリリースで使用できない機能
DMSYS
スキーマ
Oracle Data Mining Scoring Engine
Oracle 10.2では、Database Configuration Assistant(DBCA)を使用してデータ・マイニング・オプションを構成できました。Oracle 11gでは、DBCAを使用してデータ・マイニング・オプションを構成する必要がありません。
Basic Local Alignment Search Tool(BLAST)
Adaptive Bayes Network分類アルゴリズム(ディシジョン・ツリーに置換)
モデル、モデルのシグネチャ、モデルの設定に関する情報を提供するDM_USER_MODELS
ビューおよびファンクション(GET_MODEL_SETTINGS
、GET_DEFAULT_SETTINGS
およびGET_MODEL_SIGNATURE
など)は、データ・ディクショナリ・ビューに置換されます。『Oracle Data Miningアプリケーション開発者ガイド』を参照してください。
Oracle Data Mining Java API(OJDM)は、Oracle Data Mining 11g リリース1(11.1)の新機能を完全にサポートしています。この項では、Java APIの新機能について概説します。詳細は、『Oracle Data Mining Java API Reference』(javadoc)を参照してください。
「マイニング・モデルのスキーマ・オブジェクト」で説明したように、11g リリース1(11.1)のマイニング・モデルは、SYS
スキーマのデータ・ディクショナリ・オブジェクトです。マイニング・モデルに対するアクセスは、システム権限およびオブジェクト権限で制御されます。
Oracle Data Mining Java APIには、ユーザーがアクセス可能なマイニング・オブジェクトをリスト表示するための新しい拡張メソッドOraConnection.getObjectNames
が追加されています。このメソッドでは、必要に応じてアプリケーションで使用できる様々なオブジェクト・フィルタリング・オプションが提供されています。
「自動データ準備(ADP)」で説明したように、Oracle Data Mining 11g リリース1(11.1)では、自動データ準備および組込みのデータ準備(スーパーモデル)がサポートされています。
Oracle Data Mining Java APIには、ADPを有効化するための新しい構築設定拡張メソッドOraBuildSettings.useAutomatedDataPreparations
が追加されています。新しいOraBuildTask.setTransformationSequenceName
を使用すると、アプリケーションでモデルに変換を組み込むことができます。
2つのGLMパッケージ(oracle.dmt.jdm.algorithm.glm
およびoracle.dmt.jdm.modeldetail.glm
)が新たに導入されました。これらのパッケージはそれぞれ、GLMアルゴリズム設定インタフェースとモデルの詳細インタフェースを持ちます。
分類の適用出力の確率限界を示すための新しい適用コンテンツ列挙値probabilityLowerBound
およびprobabilityUpperBound
が追加されています。列挙体oracle.dmt.jdm.supervised.classification.OraClassificationApplyContent
はこれらの列挙値を示します。同様に、回帰モデルの適用出力の予測限界を示すための適用コンテンツ列挙値predictionLowerBound
およびpredictionUpperBound
が追加されています。このリリースでは、GLMモデルのみがこの機能をサポートしています。
モデルへのコスト・マトリックスの関連付けをサポートする新しい静的メソッドaddCostMatrix
およびremoveCostMatrix
がOraClassificationModel
に追加されています。これによって、モデルとともにコストを容易に配置できます。
マイニング・タスク機能がマイニング・プロセス・ワークフローの作成をサポートするように拡張されています。新しいOraTask.addDependency
メソッドを使用すると、アプリケーションで従属タスクを指定できます。もう1つの注目すべき新しいタスク機能はoverwriteOutput
です。これは、新しいOraTask.overwriteOutput
メソッドを呼び出して有効化できます。
これらの新機能を使用すると、アプリケーションで容易にマイニング・プロセス・ワークフローを開発し、データベース・サーバーに配置できます。これらのタスク・ワークフローは、クライアント側から監視できます。これらのメソッドの使用方法については、製品に含まれているデモ・プログラムを参照してください(デモ・プログラムの詳細は、『Oracle Data Mining管理者ガイド』を参照)。
新しいマイニング・オブジェクトoracle.dmt.jdm.transform.OraTransformationSequence
では、ユーザー定義の変換シーケンスの指定がサポートされます。これらのシーケンスは、マイニング・モデルに組み込んだり、外部で管理したりできます。さらに、新しいOraExpressionTransform
オブジェクトを使用すると、モデルに含めるSQL式を指定できます。
新しい予測分析プロファイル機能をサポートするために、oracle.dmt.jdm.OraProfileTask
が新たに追加されています。
Oracle Data Mining Java APIは、Oracle Database 11g リリース1(11.1)およびOracle Database 10.2とともに使用できます。10.2データベースとともに使用する場合、利用できるのは10.2の機能のみです。
関連項目: 『Oracle Data Mining Java API Reference』および『Oracle Data Miningアプリケーション開発者ガイド』 |
Java Data Mining(JDM)準拠のJava API
Oracle 10g リリース2では、データ・マイニング用にまったく新しいJava APIが導入されました。このAPIはJSR-000073を実装し、Java Community Process(http://jcp.org
)で開発されたものです。
この新しいJava APIはPL/SQL API上に用意され、2つのAPI間には完全な相互運用性があります。この新しいJava APIと前のリリース(Oracle 10g リリース1)で使用可能なJava APIとの間に互換性はありません。
データ・マイニング用のSQL組込み関数
新しく導入された組込みSQL関数で、分類、回帰、クラスタリングおよび特徴抽出モデルのスコアリングがサポートされます。標準的なSQL文のコンテキスト内で、あらかじめ作成したモデルを新しいデータに適用でき、結果が以降の処理用に戻されます。データ・マイニング用のSQL関数は次のとおりです。
PREDICTION
、PREDICTION_COST
、PREDICTION_DETAILS
、PREDICTION_PROBABILITY
、PREDICTION_SET
CLUSTER_ID
、CLUSTER_PROBABILITY
、CLUSTER_SET
FEATURE_ID
、FEATURE_SET
、FEATURE_VALUE
予測分析
データ・マイニングのプロセスは予測分析によって自動化されます。予測分析ルーチンにより、データ準備、アルゴリズムの選択、モデルの作成およびモデルのスコアリングが管理され、ユーザーの介入が不要になりました。
DBMS_PREDICTIVE_ANALYTICS
PL/SQLパッケージにある予測分析ルーチンでは、予測が計算され、予測における各属性の相対的な影響が判断されます。
DBMS_PREDICTIVE_ANALYTICS
は、Oracle Spreadsheet Add-In for Predictive AnalyticsによってExcelのスプレッドシート内に実装されます。このSpreadsheet Add-InはOracle Technology Networkで入手できます。
新しいアルゴリズムと拡張されたアルゴリズム
新しく導入されたディシジョン・ツリー・アルゴリズムでは、予測用に人間が理解できるルールが生成されます。
新しく導入された1クラス・サポート・ベクター・マシン・アルゴリズムでは、異常検出がサポートされます。
このサポート・ベクター・マシン・アルゴリズムは、大規模な作成データセットを管理するための能動学習により拡張されます。
PL/SQLとJava APIの両方でO-Clusterアルゴリズムがサポートされます。Oracle 10g リリース1では、O-ClusterはJava APIでのみサポートされていました。