Oracle Data Minerでは次のアルゴリズムがサポートされています。
期待値の最大化(Oracle Database 12cが必要)
特異値分解および主成分分析(Oracle Database 12cが必要)
「設定情報」には、ほとんどのモデル・ビューアに共通する設定情報が含まれます。
『Oracle Data Mining概要』では、アルゴリズム、データ準備およびスコアリングの概要情報を示します。「Oracle Data Minerのドキュメント」の説明に従って、接続するデータベース・バージョンのマニュアルを参照してください。
異常検出(AD)では、一見同質なデータ内に存在する特異なケースを識別します。異常検出は、重大な意味を持ちながら検出することが難しい、不正行為、ネットワークへの侵入などの発生頻度の低いイベントを検出するための重要なツールです。
Oracle Data Miningでは、異常検出(AD)用の1クラス分類機能としてサポート・ベクター・マシン(SVM)を使用します。SVMは異常検出で使用される場合、分類マイニング機能を持ちますが、ターゲットは使用しません。
異常の検索には次の2つの方法があります。
1クラスSVMモデルは、適用時に、スコアリング・データの各ケースに対して予測および確率を生成します。
予測が1の場合、そのケースは典型的とみなされます。
予測が0の場合、そのケースは異常とみなされます。
この動作は、モデルが標準データでトレーニングされていることを反映しています。
この項では、異常検出モデル・ビューア、ADモデル・ビューアを表示する手順、および異常検出に関連するアルゴリズム設定について説明します。この項の内容は次のとおりです。
異常検出モデルは、次のいずれかの方法で表示できます。
方法1
モデルが構築されたノードを右クリックします。
「プロパティに移動」を選択します。
「プロパティ」の「モデル」セクションで、をクリックします。
方法2
モデルが構築されたワークフロー・ノードを選択します。
右クリックし、「モデルの表示」をクリックします。
表示するモデルを選択します。異常検出モデル・ビューアが新しいタブで開きます。異常検出モデルのデフォルト名は、名前にAD
が含まれています。
モデル・ビューアに表示される情報は、モデルの構築に使用されたカーネルによって異なります。
ガウス・カーネルが使用されている場合は、「設定」という1つのタブがあります。
線形カーネルが使用されている場合は、「係数」、「比較」および「設定」という3つのタブがあります。
異常検出モデルは、特別な種類のサポート・ベクター・マシン分類モデルです。
ガウス・カーネルを使用するADモデルのモデル・ビューアには、次のタブがあります。
AD設定ビューアには、次の2つのタブがあります。
「一般」設定には、次のようなモデルの特性が示されます。
所有者
名前
タイプ
アルゴリズム
ターゲット属性
作成日
モデル構築の期間
コメント
「アルゴリズム」設定では、モデル構築を制御します。「アルゴリズム」設定は構築ノードを定義するときに指定します。
モデルの構築に使用された属性のリストです。各属性について、次の情報が表示されます。
名前: 属性の名前。
データ型: 属性のデータ型
マイニング型:
カテゴリ型
数値型
データ準備: 「はい」
は、データ準備が実行されたことを示します。
「属性」リストで属性を選択した場合、変換プロパティ・ビューアでは、ユーザーまたは自動データ準備によって作成された変換がモデル変換リストに表示されます。
逆変換を表示するには、反転式の表示をクリックします。変換はSQL表記法で表示されます。すべての変換に逆変換があるわけではありません。変換および逆変換が常に表示されるわけではありません。
異常検出モデルは、特別なバージョンのSVM分類である1クラスSVMを使用して構築します。アルゴリズムのデフォルト設定は次のとおりです。
カーネル関数: デフォルトは「システム決定」です。モデルが構築されると、使用されたカーネル関数(線形またはガウス)が表示されます。
許容値: デフォルトは0.001
複雑度係数の指定: デフォルトは指定しない
外れ率を指定: デフォルトは0.1
アクティブな学習: オン
自動データ準備: オン
異常検出のアルゴリズムは、1クラスSVMです。カーネル設定は次のいずれかになります。
システム決定(デフォルト)
ガウス
線形
任意のバージョンのサポート・ベクター・マシン(SVM)アルゴリズムに指定できる設定は、選択したSVMカーネル関数によって次のように異なります。
注意: モデルが構築されると、使用されたカーネル関数(線形またはガウス)が「アルゴリズム設定」の「カーネル関数」に表示されます。 |
線形カーネルを指定した場合、またはシステムによってカーネルが決定されるようにした場合は、次の設定を変更できます。
相関は、項目の予測であり、グループ化される可能性が高い、相関ルールを発見するための監視なしマイニング機能です。Oracle Data Miningでは、相関ルール(AR)という1つのアルゴリズムが提供されます。
ARモデルを構築するには、相関ノードを使用します。
相関ルール(AR)モデルのデータは、通常、他の種類のモデルと異なり、トランザクション形式になります。
Oracle Data Miningでは、ARモデルの適用(スコアリング)はサポートされません。
次の項目では、ARモデルについて説明します。
相関マイニングの問題は、次の2つの下位問題に分解できます。
指定した最小頻度で発生する一連のトランザクションですべての項目の組合せを見つける。これらの組合せは高頻度項目セットと呼ばれます。
高頻度項目セット内で項目が同時に発生する確率を表す相関ルールを計算する。
Aprioriは、高頻度項目セット内で別の項目が存在する場合に、ある項目が存在する確率を計算します。
項目セットとは、トランザクション内の2つ以上の項目のあらゆる組合せのことです。
1つの項目セットに含める項目の最大数はユーザーが指定します。
最大数を2にした場合は、2項目から構成されるすべての組合せがカウントされます。
最大数が2を超える場合は、2項目から構成されるすべての組合せ、3項目から成るすべての組合せ、以降指定した最大数の項目から成るすべての組合せがカウントされます。
相関ルールは項目セットに基づいて計算されます。そのため、通常は、データ内での発生頻度が高い項目セットのみを使用してルールを生成する方が望ましいと言えます。高頻度項目セットとは、ユーザーが指定した最小頻度で発生する項目セットのことです。
最小頻度の項目セットの支持度は、相関ルール用に使用される項目セット数を制限するための割合であり、ユーザーが指定します。相関ルールの基盤として使用する項目セットは、すべてのトランザクションに対して少なくともこの割合で出現する必要があります。
Aprioriアルゴリズムは、高頻度項目セット内の項目間の確率的な関係を表すルールを計算します。たとえば、A、BおよびCを含む高頻度項目セットから、「トランザクションにAとBが含まれる場合、Cも含まれる可能性が高い」というルールが導出されます。
相関ルールは、IF antecedent THEN consequentの形式になります。相関ルールは、項目または項目のグループ(前件)がある確率で別の項目(後件)の存在を示すことを表します。ターゲットを予測するディシジョン・ツリー・ルールとは異なり、相関ルールは単に相関関係を表します。
相関ルールには、次のように信頼度および支持度が含まれます。
相関ルールの信頼度は、同一のトランザクションで前件と後件の両方が発生する確率を示します。信頼度は、前件が発生した場合に後件が発生する条件付き確率です。つまり、信頼度は、前件を含むトランザクションの数に対する、ルールの支持度の割合です。
相関ルールの支持度は、そのルールにある項目が同時に発生する頻度を示します。支持度は、全トランザクションの合計数に対する、前件と後件のすべての項目が含まれるトランザクションの割合です。
通常、相関ルールはトランザクション・データとともに使用されますが、単一レコード・ケース・データにも適用できます(他のアルゴリズムと同様)。
相関では、テキストはサポートされません。
ネイティブ・トランザクショナル・データは、次の2つの列で構成されます。
ケースID(カテゴリ型または数値型のいずれか)、項目ID(カテゴリ型または数値型のいずれか)
トランザクショナル・データには3つ目の列が含まれる場合もあります。
項目値、カテゴリ型または数値型のいずれか
トランザクショナル・データの典型例はマーケット・バスケット・データです。マーケット・バスケット・データでは、1つのケースが1つのバスケット(複数の項目を含む可能性がある)を表します。各項目は個別の行に格納され、1つのケースを表すのに多くの行が必要になる場合があります。ケースID値は各行を一意に識別しません。トランザクション・データはマルチレコード・ケース・データとも呼ばれます。
相関モデルを構築する場合は、次の情報を指定します。
項目ID: トランザクション内の項目が含まれる列の名前です。
項目値: トランザクション内の各項目に関連付けられている値が含まれる列の名前です。項目値列では、(リンゴ3個などの)項目数、(マッキントッシュのリンゴなどの)項目タイプなどの情報を指定できます。
項目値のデフォルト値は「存在」
です。つまり、項目IDにより識別された1つ以上の項目がバスケット内にあります。
「アイテム値」に特定の値を選択した場合は、適切なデータ準備を実行する必要がある場合があります。項目値の個別値の最大数は10です。項目値の特定の値が128よりも大きい場合は、変換ノードを使用して項目値で指定した属性をビニングします。
詳細は、『Oracle Data Miningユーザーズ・ガイド』のマーケット・バスケット・データに関する説明を参照してください。
Oracle Data Minerでは、相関はテキストをサポートしません。
Oracle Data MiningのAPIでテキストがサポートされている場合でも、相関にテキストを使用することは推奨されません。
ARモデルでは、支持度と信頼度が非常に低い場合、多数のルールが生成されることがあります。信頼度と支持度を高くすると、生成されるルールの数が減少します。
通常、信頼度は支持度以上である必要があります。
モデルにルールがない場合、次のメッセージがモデル・ビューアの「ルール」タブに表示されます。
Model contains no rules. Consider rebuilding model with lower confidence and support settings.
相関ノードのアルゴリズム設定を変更するには、ノードを右クリックし、「詳細設定」を選択します。次に、モデルを選択します。次の設定が「アルゴリズム設定」タブに表示されます。
ノードを右クリックします。
「詳細設定」を選択します。
モデルを選択します。次の設定が「アルゴリズム設定」タブに表示されます。
ルールの最大長。デフォルトは4
最小信頼度。デフォルトは10%
最小支持度。デフォルトは1%
ルールが生成されない場合は、次のことを実行します。
まず、最小支持度を低くしてみます。
効果がない場合は、「最小確信度」値を低くします。これらの値のいずれに対しても、大幅に小さい値を指定する必要がある場合があります。
完了後、「OK」をクリックします。
ノードを実行します。
この項では、相関ルール・モデル・ビューア、ARモデル・ビューアを表示する手順、およびARに関連するアルゴリズム設定について説明します。この項の内容は次のとおりです。
ARモデルは、次のいずれかの方法で表示できます。
方法1
モデルが構築されたノードを右クリックします。
「プロパティに移動」を選択します。
「プロパティ」の「モデル」セクションで、をクリックします。
方法2
モデルが構築されたワークフロー・ノードを選択します。
右クリックし、「モデルの表示」をクリックします。
表示するモデルを選択します。
ARモデル・ビューアが新しいタブで開きます。相関モデルのデフォルト名は、名前にASSOC
が含まれています。ARモデル・ビューアには、次のタブがあります。
相関ルールは、項目または項目のグループが別の項目の存在を示すことを表します。各ルールには確率があります。ターゲットを予測するディシジョン・ツリー・ルールとは異なり、相関ルールは単に相関関係を表します。
属性がネストした列の場合、完全な名前はCOLUMN_ NAME.SUBNAME
として表示されます。たとえば、GENDER.MALE
です。属性が標準の列である場合は、列名のみが表示されます。
Oracle Data Miningでは、前件(ルールのIF部分)に1つ以上の項目を、後件(ルールのTHEN部分)に1つの項目を持つ相関ルールをサポートしています。前件は条件と呼ばれ、後件は相関と呼ばれます。
ルールには、信頼度、支持度およびリフトが含まれます。
「ルール」タブは、上のセクション(「フィルタリング」と「ソート」)および下のセクション(ARルール・グリッド)の2つのセクションに分かれています。上のセクションの設定を使用して定義されたソートまたはフィルタリングは、モデルのすべてのルールに適用されます。下のセクションの設定を使用して定義されたソートまたはフィルタリングは、グリッド表示にのみ適用されます。
「ルール」タブで、次の機能を実行できます。
ソート基準: ルールを表示する順序を指定できます。ルールは次の基準でソートできます。
リフト、信頼度、支持度または長さ
昇順または降順
その他のソート・オプションを確認するには、「詳細」をクリックします。ソートのレベルは4つまで指定でき、各レベルの順序を指定できます。
フィルタ: ルールをフィルタ処理できます。フィルタリング・オプションを表示するには、「詳細」をクリックします。次のことをルールで指定できます。
最小リフト
最小支持度
最小信頼度
ルール内の最大項目数
ルール内の最小項目数
フェッチ・サイズ: 多くの場合、相関モデルでは多数のルールが生成されます。調べるルールの数を指定するには、「フェッチ・サイズ」をクリックします。デフォルトは1000
です。
問合せ: 指定した基準を使用して、データベースを問い合せます。たとえば、デフォルトのソート順序の変更、フィルタリングの指定、またはフェッチ・サイズの変更を実行した場合は、「問合せ」をクリックします。
「ルール」タブの下の部分には、取得されたルールがグリッドで表示されます。次のことがグリッド上に表示されます。
使用可能なルール: モデルのルールの総数。
取得されたルール: 問合せによって取得されたルールの数、つまり、フィルタリングによって取得されたルールの数。
ルール・コンテンツ: 情報を最大化するには、「名前」、「サブ名」および「値」の3つをすべて選択しますが、より少ない特性をメニューから選択することもできます。この選択は、グリッド内のルールにのみ適用されます。ルール・コンテンツのスマートな機能により、この値は、モデルの性質に基づいてより読みやすく設定されます。
検索: ルールを検索するには、で示される検索ボックスを使用します。
ドロップダウン・リストでは、「すべて」(デフォルト)、「先行情報」または「結果」を基準にしてルールを検索できます。前件を117で検索する場合、前件内の117を持つすべてのルールが表示されます。
検索をクリアする場合は、をクリックします。
各ルールでは、「ルール」グリッドに次の情報が表示されます。
ID: ルールの識別子、整数の文字列。
条件
相関
リフト: 棒が列に含まれます。棒のサイズは、いずれのルールでも、モデルで指定された最大のリフト値に合せてスケーリングするように設定されています。
信頼度:
サポート:
長さ
前件の支持度
条件の支持度
次のタスクを実行できます。
ソート: グリッド内の項目は、列のタイトルをクリックしてソートできます。このソートは、そのグリッドにのみ適用されます。
詳細の表示: ルールの詳細を表示するには、ルールをクリックし、「ルール詳細」を調べます。
ルールの妥当性の決定: ルールが有効であるかどうかを決定するには、「ARルールのリフト」の説明に従って、支持度と信頼度およびリフトを使用する必要があります。
これらの統計例を含む詳細は、『Oracle Data Mining概要』の相関ルールの評価に関する説明を参照してください。
関連項目: これらの統計の例を含む詳細は、『Oracle Data Mining概要』。 |
ルールが有効であるかどうかを決定するには、ARルールの支持度とARルールの信頼度の両方を使用する必要があります。ただし、これらの測度が高くても、有益でないルールが生成される場合もあります。
リフトは、それぞれの支持度を持つ前件と後件のランダムな同時発生に対するルールの強度を示します。リフトにより、改良度(前件を前提とする後件の確率の増加)に関する情報が得られます。リフトは次のように定義されます。
(Rule Support) /(Support(Antecedent) * Support(Consequent))
リフトは、後件の支持度で除算した項目の組合せの信頼度として定義することもできます。
ルールの信頼度は、同一のトランザクションで前件と後件の両方が発生する確率を示します。前件が存在する場合に後件が存在する条件付き確率です。
ARルールは、IF antecedent THEN consequent
の形式になります。
ルールの支持度は、そのルールにある項目が同時に発生する頻度を示します。支持度は、全トランザクションの合計数に対する、前件と後件のすべての項目が含まれるトランザクションの割合です。
ARルールは、IF antecedent THEN consequent
の形式になります。
ルール・グリッドでの情報は、「ルール詳細」リストに読みやすい書式で表示されます。
デフォルトのソートは次のとおりです。
リフトによる降順ソート
信頼度による降順ソート
支持度による降順ソート
ルールの長さによる降順ソート
ここで指定したソートは、モデル内のすべてのルールに適用されます。
すべてのフィルタリング・オプションを表示するには、「詳細」をクリックします。
次のものを指定できます。
フィルタ: フィルタ・ルールは、ルールの特性値に基づきます。次のものを指定できます。
最小リフト
最小支持度
最小信頼度
ルール内の最大項目数
ルール内の最小項目数
フェッチ・サイズ: フェッチする最大行数です。デフォルトは1000
です。値を小さくすると、フェッチが高速になります。
項目フィルタを定義して、戻されるルールの数を減らします。
フィルタを定義するには、「フィルタの使用」を選択します。フィルタを定義した後に、「問合せ」をクリックします。
項目フィルタを使用すると、必要な内容が含まれるルールのみを表示できます。ルール・フィルタでは、相関、条件、またはそれら両方に必要な項目を考慮する必要があります。ルール・フィルタでは、ルールのそれぞれの側(相関コレクション、条件コレクション)にOR
論理を使用します。ただし、ルール・フィルタはAND
ルールをコレクション全体で実行します。そのため、ルールが返されるには、そのルールに少なくとも1つの相関項目と1つの条件項目の両方が含まれる必要があります。
次のコントロールを使用して、項目フィルタを管理できます。
「アイテム・フィルタの追加」ダイアログ・ボックスを開くには、をクリックします。
選択した項目フィルタを削除するには、をクリックします。
選択した行の「フィルタ」列を「両方」に変更するには、をクリックします。両方とは、相関と条件を示します。
選択した行の「フィルタ」列を「条件」に変更するには、をクリックします。
選択した行の「フィルタ」列を「相関」に変更するには、をクリックします。
「項目の追加」ダイアログを開くには、をクリックします。
表示される実際の情報は、モデルによって異なります。たとえば、表示しているモデルのデータに複数の異なる値がある場合は、「値」列があります。
「詳細」をクリックして、次のように設定できるすべての情報を表示します。
項目フィルタのソートを指定します。デフォルトでは、属性で降順に、次に、支持度で昇順にソートされます。
フィルタの名前を指定します。
フェッチ・サイズをデフォルトの100,000
から変更します。
変更を行った場合は、「問合せ」をクリックして、属性または値のペアを取得します。
取得した項目を名前または値でフィルタ処理します。
グリッド内の1つ以上の項目を選択します。
ルールのフィルタ時に項目を使用する方法を選択します。
フィルタの定義の終了後に「OK」をクリックします。
ルールは項目セットから計算されます。項目セット・タブには、項目セットに関する情報が表示されます。
属性がネストした列の場合、完全な名前はCOLUMN_ NAME.SUBNAME
として表示されます。たとえば、GENDER.MALE
です。属性が標準の列である場合は、列名のみが表示されます。
項目セットには支持度があります。各項目セットには、1つ以上の項目が含まれます。
項目セットをソートします。「ソート基準」では、項目セットの順序を指定します。項目セットは次の基準でソートできます。
ID
項目数
支持度の昇順
支持度の降順
デフォルトでは、項目セットは支持度で降順にソートされます。その他のソート・オプションを確認するには、「詳細」をクリックします。ソート順を変更するには、変更を加えてから、「問合せ」をクリックします。
項目セットをフィルタ処理します。
項目セット詳細を表示します。項目セットをクリックして、その詳細を表示します。
「アイテム・セット」タブには、次の情報が表示されます。
使用可能な項目セット: モデル内の項目セットの合計数。
取得された項目セット: 問合せで取得された項目セットの数。つまり、フィルタリングに基づいて取得された項目セットの数です。
「アイテム・セット・コンテンツ」: 最大の情報を得るには、「名前」、「サブ名」および「値」の3つすべてを選択します。より少ない特性をメニューから選択できます。
項目セットの詳細を確認するには、項目セットをクリックし、「ルールの詳細」を調べます。
他のタブ: ARモデル・ビューアには次に示すその他のタブがあります。
各項目セットに関して、項目セット・グリッドには次の情報が表示されます。
ID: 項目セットの識別子、整数文字列
項目
支持度。列内の棒は、支持度の相対サイズを示します。
項目セット内の項目の数
「設定」タブには、次のタブがあります。
注意: ARモデルはスコアリングできない、つまり、新規データに適用できません。スコアリングできないモデルの場合、そのモデル・ビューアに「属性」タブはありません。 |
他のタブ: ARモデル・ビューアには次に示すその他のタブがあります。
このタブには、モデルに関する情報が表示されます。「サマリー」タブには、次の2種類の情報が表示されます。
一般: 次の情報がリストされます。
モデルのタイプ
モデルの所有者(分類、回帰など)
モデル名(モデルが構築されたスキーマ)
作成日
モデル構築の期間(分単位)
モデル・サイズ(MB)
コメント
アルゴリズム: 次の情報がリストされます。
自動準備(「オン」または「オフ」)
最小信頼度
最小支持度
これらの値を変更するには、モデル・ノードを右クリックし、「詳細設定」を選択します。
相関(AR)では、次の設定がサポートされています。
ルールの最大長: 各ルール内の最大属性数。この数は、2から20までの整数である必要があります。ルールの数が多いと、構築速度が遅くなります。デフォルト値は4です。
ルール内の属性の数を変更したり、無制限にすることができます。各ルールで多数の属性を指定すると、ルールの数が大幅に増えます。デフォルトで開始して、この数を徐々に増やすことが推奨されます。
最小信頼度: 信頼度は、データ内のこれらの項目が同時に発生する可能性を示します。信頼度は、前件が発生した場合に後件が発生する条件付き確率です。
信頼度は、パーセンテージを示す0から100までの数字です。信頼度が高くなると、構築速度が速くなります。デフォルトは10パーセントです。
最小サポート: パーセンテージを示す0から100までの数字。支持度は、項目がデータ内で同時に発生する頻度を示します。
支持度の値が小さくなると、構築速度が遅くなり、より多くのシステム・リソースが必要となります。デフォルトは1パーセントです。
ディシジョン・ツリー・アルゴリズムは、ルールを生成する分類アルゴリズムです。Oracle Data Miningでは、ディシジョン・ツリー(DT)アルゴリズムがサポートされています。この項では、次の項目について説明します。
ディシジョン・ツリー・アルゴリズムは条件付き確率に基づきます。ただし、ディシジョン・ツリーでは、Naive Bayesとは異なり、ルールが生成されます。ルールは、ユーザーが容易に使用でき、レコード・セットを識別するためにデータベース内で簡単に使用できる条件文です。
ディシジョン・ツリー・アルゴリズム:
ユーザーによる操作をあまり必要とせずに、正確かつ解釈可能なモデルを作成します。このアルゴリズムは、2項および多クラスのどちらの分類問題にも使用できます。
このアルゴリズムは、作成時と適用時の両方において高速です。ディシジョン・ツリー・アルゴリズムの作成プロセスは、並列処理されます。スコアリングはアルゴリズムに関係なく並列処理されます。
一連の質問を問うことによってターゲット値を予測します。各段階で問われる質問はそれぞれ、直前の質問に対する回答によって決まります。最終的に特定のターゲット値を一意に識別できるような質問を重ねていきます。
ディシジョン・ツリーのスコアリングは特に高速です。モデル作成時に作成されるツリー構造は、一連(通常、2から7)の単純なテストに使用されます。各テストは、単一の予測子に基づきます。これは、値のリストにIN(含まれる)かNOT IN(含まれない)か(質的予測子)、または、一定の値に対してLESS THAN(未満)かEQUAL TO(等しい)か(量的予測子)のメンバーシップに関するテストです。
ディシジョン・ツリー・アルゴリズムは、モデル構築において、ケース(レコード)のセットを2つの子ノードに分割する最も効率的な方法を繰り返し見つける必要があります。Oracle Data Miningでは、この分岐の計算用に2つの同種メトリック(ジニおよびエントロピ)を使用できます。デフォルトのメトリックはジニです。
ルールではモデルの透明性が提供され、モデルの内部機構について知ることができます。ルールは、モデルの予測の根拠を示します。Oracle Data Miningではモデルの透明性が高いレベルで確保されています。
信頼度と支持度は、次のように、ディシジョン・ツリー・アルゴリズムによって生成されたルールをランク付けするために使用されます。
支持度: ルールを満たすトレーニング・データ・セット内のレコード数です。
信頼度: ルールが満たされている場合に、予測結果が発生する可能性です。
ディシジョン・ツリーは、自身のデータ準備を内部的に管理します。データを事前処理する必要はありません。ディシジョン・ツリーは自動データ準備の影響を受けません。
ディシジョン・ツリーは、欠損値を、ランダムに欠損した値として解釈します。このアルゴリズムでは、ネストした表がサポートされないため、スパース・データもサポートされません。
ディシジョン・ツリー・モデルの構築
ディシジョン・ツリー・モデルを構築する場合は、分類ノードを使用します。Oracle Data Mining 12cリリース1 (12.1)以上では、ディシジョン・ツリーはネストされたデータをサポートします。ディシジョン・ツリーは、Oracle Database 12cのテキストをサポートしますが、それより前のリリースのテキストはサポートしません。
ディシジョン・ツリー・モデルのテスト
デフォルトでは、分類ノードはそれ自体が構築したすべてのモデルをテストします。テスト・データは、入力データを構築サブセットとテスト・サブセットに分割することによって作成されます。テスト・ノードを使用してディシジョン・ツリー・モデルをテストすることもできます。
ディシジョン・ツリー・モデルのチューニング
ディシジョン・ツリー・モデルを構築およびテストした後、そのモデルをチューニングできます。
ディシジョン・ツリー・モデルの適用
モデルを適用する場合は、適用ノードを使用します。
この項では、ディシジョン・ツリー・モデル・ビューア、ディシジョン・ツリー・モデル・ビューアを表示する手順、およびディシジョン・ツリーに関連するアルゴリズム設定について説明します。次の項目が含まれます。
次のいずれかの方法でディシジョン・ツリー・モデルを表示できます。
方法1
モデルが構築されたノードを右クリックします。
「プロパティに移動」を選択します。
「プロパティ」の「モデル」セクションで、をクリックします。
方法2
モデルが構築されたワークフロー・ノードを選択します。
右クリックし、「モデルの表示」をクリックします。
表示するモデルを選択します。
ディシジョン・ツリー・ビューアが新しいタブで開きます。ディシジョン・ツリー・モデルのデフォルト名は、名前にDT
が含まれます。
ツリー・ビューアには、次の2つのタブがあります。
ツリー: このタブはデフォルトで表示されます。「構造」ウィンドウを使用して、ツリーを移動および分析します。次の2つのペインに水平方向に分割されます。
上のペインにはツリーが表示されます。ルート・ノードはペインの最上部にあります。ツリーの各ノードに関して次の情報が表示されます。
「ノード番号」。0
はルート・ノードです。
「予測」、予測されたターゲット値。
予測の「サポート」。
予測の「信頼度」。
ヒストグラムには、ノードのターゲット値の分布が表示されます。
「分割」、ノードの分割に使用される属性(リーフ・ノードに分割はありません)。
下部ペインには、ルールが表示されます。ノードまたはリンクに関連付けられているルールを表示するには、そのノードまたはリンクを選択します。ルールが下部ペインに表示されます。次の情報が下部ペインに表示されます。
ルール
サロゲート
ターゲット値
上部ペインの最上部にあるアイコンとメニューにより、ツリーおよびそのノードが表示される方法が制御されます。次のタスクを実行できます。
ツリーのズームインまたはズームアウト。ドロップダウン・リストからサイズを選択することもできます。ツリーをウィンドウに合せることもできます。
レイアウトを水平に変更します。ツリーのデフォルトの「レイアウト・タイプ」は垂直です。
ノードに表示されるヒストグラムを非表示にします。
表示される内容を減らします。
すべてのノードを展開します。
ディシジョン・ツリーまたはクラスタリング・ルールを保存する手順:
上のタブの右端にある「ルールの保存」をクリックします。
デフォルトでは、リーフ・ノードのルールのみがMicrosoft Windowsのクリップボードに保存されます。その後、これらのルールをMicrosoft Wordドキュメントなどの任意のリッチ・ドキュメントに貼り付けることができます。
「リーフのみ」の選択を解除して、すべてのルールを保存することもできます。
ルールをファイルに保存するには、「ファイルに保存」をクリックして、ファイル名を指定します。
「保存」ダイアログ・ボックスでファイルの場所を選択します。デフォルトでは、ルールはHTMLファイルとして保存されます。
「OK」をクリックします。
「設定」タブには、次のタブがあります。
「コスト・マトリックス/ベネフィット」タブ: モデルをチューニングすると、チューニングによって作成されたコスト・マトリックスがこのタブに表示されます。
このタブには、モデルに関する次の情報が表示されます。
一般: 次の情報を示します。
モデルのタイプ
モデルの所有者(モデルが構築されたスキーマ)
モデル名
作成日
モデル構築の期間(分単位)
モデルのサイズ(MB)
コメント(モデルにコメントがある場合)
「アルゴリズム」設定はディシジョン・ツリー・アルゴリズム設定です。
このタブには、モデルの構築に使用された属性に関する情報が表示されます。
Oracle Data Minerでは、必ずしも構築データのすべての属性を使用するわけではありません。たとえば、属性の値が定数である場合、その属性は使用されません。
モデルの構築に使用された各属性に関して、このタブには次の情報が表示されます。
名前
データ型
マイニング型: 「カテゴリ型」、「数値型」または「テキスト」。
ターゲット: この列のは、属性がターゲットであることを示します。
データ準備
「はい」:
データ準備が実行されたことを示します。
「データ準備」が「はい」
の場合は、列を選択(クリック)します。データ準備が「データ準備」に表示されます。データ準備の逆変換を表示するには、逆変換の表示を選択します。変換はSQL表記法で表示されます。すべての変換に逆変換があるわけではありません。変換および逆変換が常に表示されるわけではありません。
いいえ:
データ準備が実行されなかったことを示します。
ターゲットの属性、データ型、および各ターゲット属性の値を表示します。
ディシジョン・ツリー・アルゴリズムでは、次の設定がサポートされています。
同質性メトリック:
ジニ(デフォルト)
エントロピ
最大深度: ツリーの最大レベル数。デフォルトは7です。値は2から20の範囲の整数にする必要があります。
ノードの最小レコード: ノードの最小レコード数。デフォルトは10です。値は0以上の整数にする必要があります。
ノードのレコード数の最小パーセント: デフォルトは0.05です。値は0から10の範囲の数にする必要があります。
分割の最小レコード: 分割する最小レコード数。デフォルトは20です。値は0以上の整数にする必要があります。
分割のレコード数の最小パーセント: デフォルトは0.1です。値は0から20の範囲の数にする必要があります。
期待値の最大化(EM)は、密度推定の技術です。Oracle Data Miningでは、確率密度推定を使用する配布ベースのクラスタリング・アルゴリズムとしてEMを実装します。
密度推定の目的は、所与の母集団がどのように分布しているかを取得する密度関数を構成することです。密度推定値は、母集団のサンプルを表現する観測済データに基づく。
注意: 期待値の最大化を使用するには、Oracle Database 12cが必要です。 |
密度の高い領域は、コンポーネントまたはクラスタとして解釈されます。密度ベースのクラスタリングは、クラスタ内の最小の距離および最大の距離に強調が置かれる距離ベースのクラスタリング(k-Meansなど)とは概念的に異なります。
EMで使用される確率密度関数の形状によって、識別されたクラスタの形状が効率的に前もって決定されます。たとえば、ガウス密度関数では、単一ピークの対称クラスタを識別できます。これらのクラスタは、単一の成分によってモデル化されます。より複雑な形状のクラスタは、複数の成分によってモデル化される必要があります。EMアルゴリズムでは、デフォルトで、モデル成分を高レベル・クラスタに割り当てます。
EMモデルを構築するには、クラスタリング・ノードを使用します。EMモデルを構築するには、Oracle Database 12cに接続する必要があります。
EMモデルを適用するには、適用ノードを使用します。
この項では、期待値の最大化モデル・ビューア、EMモデル・ビューアを表示する手順、およびEMに関連するアルゴリズム設定について説明します。内容は次のとおりです。
EMモデル・ビューアでEMモデルを表示および調べることができます。次のいずれかの方法でモデルを表示できます。
方法1
モデルが構築されたノードを右クリックします。
「プロパティに移動」を選択します。
「プロパティ」の「モデル」セクションで、をクリックします。
方法2
モデルが構築されたワークフロー・ノードを選択します。
右クリックし、「モデルの表示」をクリックします。
表示するモデルを選択します。
EMモデル・ビューアが新しいタブで開きます。EMモデルのデフォルト名は、名前にEM
が含まれます。
「ツリー」タブがデフォルトで表示されます。EMモデル・ビューアには、次のタブがあります。
「コンポーネント」タブには、EMモデルのコンポーネントに関する詳細情報が表示されます。
このタブは、複数のペインに分かれています。
上のペインでは、表示するクラスタを指定します。
コンポーネント: クラスタを識別する整数です。デフォルト値は1です。
優先度: 指定したコンポーネントの優先度です。
属性名でフィルタ: 必要な属性のみを表示できます。属性名を入力して、問合せをクリックします。
フェッチ・サイズ: フェッチされるレコード数です。デフォルトは2,000です。
中央のペインには、指定したコンポーネントの属性に関する次の情報が表示されます。
検索ボックスを使用して、指定した属性を検索できます。
属性は、グリッドに表示されます。グリッドには、属性(名前)、分布(ヒストグラムとして)、および平均と分散(数値属性のみ)がリストされます。
これらの列のいずれかをソートするには、その列タイトルをクリックします。
属性のより大きいバージョンのヒストグラム、および分布に関する情報を表示するには、属性を選択します。ヒストグラムが下のペインに表示されます。
下のペインに、選択したヒストグラム、データおよび予測(ある場合)のより大きいバージョンが次のように表示されます。
「グラフ」タブには、選択した属性のより大きなバージョンのヒストグラムが含まれます。
「データ」タブには、ヒストグラム・ビンの頻度が表示されます。
「予測」タブでは、グリッドに予測が表示され、各属性のサブ名の「値」および「係数」がリストされます。
「詳細」タブには、EMモデルのグローバル詳細が表示されます。次の情報が表示されます:
対数尤度の改善率
クラスタ数
コンポーネント数
EMでは、次の設定をサポートしています。
「クラスタ数」は、アルゴリズムによって生成されたリーフ・クラスタの最大数です。データによっては、指定した数よりも少ないクラスタがEMによって返される場合があります。EMによって返されるクラスタ数は、アルゴリズム固有の設定で制御しているコンポーネント数を超えることはできません。これらの設定によっては、コンポーネントよりも少ないクラスタが存在する場合があります。コンポーネントのクラスタリングが無効な場合、クラスタの数はコンポーネントの数に等しくなります。
デフォルトは「システム決定」です。特定の数のクラスタを指定するには、「ユーザー指定」をクリックし、整数値を入力します。
「コンポーネントのクラスタリング」がデフォルトで選択されています。
「コンポーネント・クラスタのしきい値」では、EMコンポーネントのクラスタリングを制御する相違のしきい値を指定します。値が小さいと、よりコンパクトな多数のクラスタが作成され、値が大きいと、より広く散らばった少数のクラスタが作成されます。デフォルト値は2です。
「リンク・ファンクション」では、凝集クラスタリング・ステップにおけるリンケージ機能の指定を許可します。リンケージ機能は次のとおりです。
「シングル」では、ブランチ内の最短距離が使用されます。クラスタは、大きくて特異な形状をしている傾向があります。
「シングル」がデフォルトです。
「平均」では、ブランチ内の平均距離が使用されます。連鎖効果は少なく、クラスタはよりコンパクトなものになります。
「完了」では、ブランチ内の最大距離が使用されます。クラスタは小さく、強固なコンポーネント・オーバーラップを必要とします。
近似計算は、パフォーマンスを向上させるために、アルゴリズムで近似計算を使用するかどうかを示します。
EMの場合、近似計算は、多数のコンポーネントが含まれた大規模なモデルや、多数の列を持つデータ・セットに適しています。近似計算では、このモデルに最大の影響を与える可能性があるパラメータでの学習を制限する、ローカライズされたパラメータの最適化が使用されます。
近似計算の値を次に示します。
システム決定(デフォルト)
有効化
無効化
「コンポーネント数」では、モデル内の最大コンポーネント数を指定します。アルゴリズムによってコンポーネントの数(尤度関数の改善度または正則化に基づいた指定された最大数まで)が自動的に決定されます。
コンポーネントの数は、クラスタの数以上である必要があります。
デフォルトのコンポーネント数は20です。
「最大反復数」では、EMコア・アルゴリズムにおける最大反復数を指定します。最大反復数は、1以上である必要があります。この設定は入力表または入力ビューの全体に適用され、属性ごとの指定は許可されません。
デフォルトは100です。
「対数尤度の改善率」では、モデルに新しいコンポーネントを追加するために必要な対数尤度関数の値の改善率を指定します。
デフォルト値は0.001です
「収束基準」では、EMの収束基準を指定します。収束基準は次のとおりです。
システム決定(デフォルト)
ベイズ情報量基準
保持データ・セット
「数値分布」では、数値属性をモデリングするための分布を指定します。分布のオプションは次のとおりです。
ベルヌーイ
ガウス
システム決定(デフォルト)
ベルヌーイ分布やガウス分布を選択した場合、すべての数値属性が同じ分布を使用してモデリングされます。システム決定の分布の場合は、個々の属性で、データに応じて異なる分布(ベルヌーイ分布またはガウス分布)を使用できます。
クラス統計の収集では、クラスタ(セントロイド、ヒストグラムおよびルール)の記述統計の収集を有効または無効にします。クラスタ統計を無効にすると、モデルが小さくなり、計算されるモデル詳細が減ります。
デフォルトでは、有効にする、つまりクラス統計の収集を選択します。
クラス統計の収集を無効にすると、モデルを表示できなくなります。
クラス統計の収集を有効にすると、「属性ルール・サポートの最小パーセント」を指定できます。
「属性ルール・サポートの最小パーセント」では、属性をクラスタ・ルールに含めるためにその属性に存在する必要があるクラスタに割り当てられたデータ行のパーセンテージを指定します。デフォルト値は0.1です。
「データの準備と分析」では、データの準備と分析の設定を指定します。選択内容を表示または変更するには、「設定」をクリックします。
完了後、「OK」をクリックします。
このダイアログ・ボックスでは、次の設定を表示または変更できます。
「相関2D属性の最大数」では、EMモデルで使用される相関2次元属性の最大数を指定します。2次元属性は、単純な(ネストしていない)データ型の列に対応します。
デフォルトは50です。
「ネストした列ごとの予測数」では、ネストした各列で使用される予測の数を指定します。指定した数の予測よりも列の個別属性の数が少ない場合、データの予測は行われません。この設定は、すべてのネストしている列に適用されます。
デフォルトは50です。
「変位値ビニングの数(数値型の列)」では、複数値のベルヌーイ分布において、数値列のモデリングに使用される分位ビンの数を指定します。
デフォルトは「システム決定」です。
「TopNビニングの数」(カテゴリ型の列)では、複数値のベルヌーイ分布において、カテゴリ型の列のモデリングに使用される上位Nビンの数を指定します。
デフォルトは「システム決定」です。
「等幅ビニングの数(数値型の列)」では、数値型の列のクラスタ統計を収集するために使用される等幅ビンの数を指定します。
デフォルトは11です。
「相関関係のない2D属性を含める」では、相関関係のない2次元属性をモデルに含めるかどうかを指定します。2次元属性は、ネストされていない列に対応します。
値は次のとおりです。
システム決定(デフォルト)
有効化
無効化
変更を完了したら、「OK」をクリックします。
一般化線形モデル(GLM)は、線形モデリング用の統計的手法です。Oracle Data Miningでは、回帰および分類の両方に対してGLMがサポートされています。次の項目では、GLMモデルについて説明します。
一般化線形モデル(GLM)は、線形回帰と呼ばれる線形モデルのクラスを含み、このクラスを拡張したものです。
Oracle Data Miningは、GLMモデルのファミリのうち最もよく使用されている次の2つのアルゴリズムを備えています。これらのアルゴリズムでは、最もよく使用されているリンク関数および分散関数が使用されます。
Oracle Database 12cでは、特徴選択および特徴の生成を実装するために、GLM分類およびGLM回帰が拡張されています。この機能は、指定されている場合、アルゴリズムのパフォーマンスを向上し、精度と解釈性を改善できます。
線形回帰は、Oracle Data MiningでサポートされているGLM回帰アルゴリズムです。このアルゴリズムでは、ターゲット値の範囲に対する一定分散およびターゲット変換を想定していません。
2項ロジスティック回帰は、Oracle Data MiningでサポートされているGLM分類アルゴリズムです。このアルゴリズムでは、ロジット・リンク関数および2項分散関数を使用します。
GLMでは自動データ準備を使用することをお薦めします。
GLM分類モデルで次のタスクを実行できます。
GLM回帰モデルで次のタスクを実行できます。
この項では、一般化線形モデル・ビューア、GLMビューアを表示する手順、およびGLMモデルに関連するアルゴリズム設定について説明します。内容は次のとおりです。
GLM分類(GLMC)モデル・ビューアには、GLMCモデルの特性が表示されます。GLMCはロジスティック回帰とも呼ばれます。GLMCモデルを表示するには、次のいずれかの方法を使用します。
方法1
方法1
モデルが構築されたノードを右クリックします。
「プロパティに移動」を選択します。
「プロパティ」の「モデル」セクションで、をクリックします。
方法2
モデルが構築されたワークフロー・ノードを選択します。
右クリックし、「モデルの表示」をクリックします。
表示するモデルを選択します。
GLMCビューアが新しいタブで開きます。GLMモデルのデフォルト名は、名前にGLM
が含まれます。「詳細」タブがデフォルトで表示されます。
ビューアには、次のタブがあります。
「詳細」。「GLMCの「詳細」」で説明しています。
「係数」。「GLMCの「係数」」で説明しています。
「比較」。「GLMCの「比較」」で説明しています。
「診断」。「GLMCの「診断」」で説明しています。診断はデフォルトでは生成されません。
「設定」。「GLMCの「設定」」で説明しています。
「モデル詳細」には、モデル全体としてのグローバル・メトリックがリストされます。メトリックには、メトリックの「名前」およびメトリックの「値」という2つの列が表示されます。次のメトリックが表示されます。
切片のみのモデルの適合度に関する赤池の基準(AIC)
切片および共変量(予測子)モデルの適合度に関する赤池基準モデル
依存平均
尤度比のカイ二乗値。
尤度比のカイ二乗確率値。
尤度比の自由度。
収束したモデル(「はい」または「いいえ」)
切片のみのモデルの-2対数尤度。
モデルの-2対数尤度
パラメータ数(切片を含む係数の数)
行数
正確な予測比率
不正確に予測された行の割合
結合ケース予測、つまり、予測を実行できないケース
擬似R2乗(CoxおよびSnell)
擬似R2乗(Nagelkerke)
切片のみのモデルの適合度に関するシュワルツの基準(SC)
切片および共変量(予測子)モデルの適合度に関するシュワルツの基準
終了(正常かどうか)
有効な共分散行列(「はい」または「いいえ」)
注意: 計算されたメトリックの実際のリストは、モデル設定によって異なります。 |
他のタブ: ビューアには、次に示すその他のタブがあります。
「係数」タブでは、GLMの係数を表示できます。ビューアでは、係数が表示される順序を制御するソート、および表示する係数を選択するフィルタリングがサポートされています。
デフォルトでは、絶対値で係数をソートします。「絶対値でソート」の選択を解除した場合は、「問合せ」をクリックします。
デフォルトのフェッチ・サイズは1000レコードです。フェッチ・サイズを変更するには、新しいレコード数を指定して、「問合せ」をクリックします。
注意: このタブで基準を変更した後に、「問合せ」をクリックしてデータベースに問い合せます。「絶対値でソート」の選択や選択の解除、フェッチ・サイズの変更などの変更の場合にも、「問合せ」をクリックする必要があります。 |
係数の相対値は、棒としてグラフィカルに表示され、正と負の値では異なる色となります。係数が0に近い場合、棒が小さすぎて表示されない場合があります。
ターゲット値: 特定のターゲット値を選択し、それらの係数のみを表示します。デフォルトでは、発生頻度が最も低い値の係数が表示されます。ターゲット値に係数がない場合もあり、その場合、リストにはエントリがありません。
絶対値でソート: デフォルトでは、絶対値で係数のリストをソートしますが、このオプションの選択は解除できます。
フェッチ・サイズ: 表示される行数。デフォルトは1000です。すべての係数が表示されているかどうかを確認するには、表示されている行数よりも大きいフェッチ・サイズを選択します。
係数は、グリッドにリストされます。項目がリストされていない場合、そのターゲット値に係数はありません。係数グリッドには次の列があります。
属性: 属性の名前
値: 属性の値
係数: 選択したターゲット値の線形係数推定値が表示されます。各係数の前に棒が表示されます(重なっている場合もあります)。棒は、係数の相対サイズを示します。正の値の場合、棒は明るい青色で、負の値の場合、棒は赤色です。(値が0に近い場合、棒が小さすぎて表示されない場合があります。)
標準化係数: 予測子の標準偏差の割合で、ターゲットの標準偏差に再スケーリングされた係数。
標準化係数では、すべての係数が同じスケール上に配置されるため、大きい係数と小さい係数を一目で識別できます。
標準誤差
Exp(係数)。係数の指数です。
予測の標準誤差。
Waldカイ2乗
カイ2乗よりも大きい「確率」
テスト統計: 線形回帰の場合は係数推定値のt値、ロジスティック回帰の場合は係数推定値のWaldカイ2乗値
テスト統計の「確率」。モデルの特定の属性の重要度を分析するのに使用されます。
分散拡大係数
切片の場合は0
ロジスティック回帰の場合はNull
「係数の下限」、係数の信頼限界値の下限
「係数の上限」、係数の信頼限界値の上限
Exp(係数)
ロジスティック回帰の場合は指数係数
線形回帰の場合はNull
Exp(係数の下限)
ロジスティック回帰の場合、信頼限界値の下限に対する指数係数
線形回帰の場合はNull
Exp(係数の上限)
ロジスティック回帰の場合、信頼限界値の上限に対する指数係数
線形回帰の場合はNull
注意: 各係数に対して、必ずしもすべての統計が戻されるわけではありません。 |
次のいずれかに該当する場合、統計はnullです。
統計がマイニング機能に適用されません。たとえば、「Exp(係数)」は線形回帰には適用されません。
システム・リソースの制限のために、統計を計算できません。
統計の値が無限です。
リッジ回帰を使用してモデルが構築されたか、または構築中に共分散マトリックスの異常が検出された場合に、係数限界値(上限および下限)の値がNULLになります。
他のタブ: ビューアには、次に示すその他のタブがあります。
数値型の列は、列のタイトルをクリックしてソートできます。たとえば、係数を数値の増加順に配置するには、グリッド内の「係数」をクリックします。
を使用して、項目を検索します。デフォルトでは、「属性」(名前)で検索されます。
表示される列を制限する検索オプションがあります。(または)/(および)
の接尾辞を指定したフィルタ設定を使用すると、スペースで区切られた複数の文字列を入力できます。たとえば、「属性/値/係数(または)」
を選択すると、文字列A .02
によって、属性または値タイプが文字Aで始まるか、係数が0.02で始まるすべての列が生成されます。
検索をクリアする場合は、をクリックします。
GLM分類比較ビューアは、2項分類モデルに対してのみGLMモデルを構築できることを除き、SVM係数比較ビューアに似ています。2つのターゲット・クラス値のみを比較に使用できます。
他のタブ: ビューアには、次のタブがあります。
GLM分類の「診断」タブには、構築データの各ケースIDの診断が表示されます。結果をフィルタ処理できます。
注意: 診断はデフォルトでは生成されません。診断を生成するには、「ケースID」を指定し、「詳細設定」で「行診断の生成」を選択します。 |
次の情報が「診断」グリッドに表示されます。
CASE_ ID
トレーニング・データ内の行のTARGET_VALUE
TARGET_VALUE_PROB (ターゲット値に関連付けられている確率)
HAT (ハット・マトリックスの対角要素の値)
WORKING_RESIDUAL (調整済従属変数に関する残差)
PEARSON_RESlDUAL (ターゲットの推定標準偏差によってスケーリングされた生の残差)
DEVIANCE_RESIDUAL (モデルの全体的な適合度に対する寄与率)
C (信頼区間の変位診断)
CBAR (信頼区間の変位診断)
DIFDEV (特定の観測値を削除したことによる逸脱度の変化)
DIFCHISQ (ピアソンのカイ2乗の変化)
他のタブ: ビューアには、次に示すその他のタブがあります。
「設定」タブには、次に示すその他のタブがあります。
コスト・マトリックス/ベネフィット: モデルをチューニングすると、チューニングによって作成されたコスト・マトリックスがこのタブに表示されます。
他のタブ: ビューアには、次に示すその他のタブがあります。
「一般」設定には、次のようなモデルの特性が示されます。
名前
タイプ
アルゴリズム
ターゲット属性
作成日
モデル構築の期間
コメント
「アルゴリズム」設定では、モデル構築を制御します。「アルゴリズム」設定は構築ノードを定義するときに指定します。
モデルが構築されると、システムによって計算された値がこのタブに表示されます。たとえば、「リッジ回帰の有効化」で「システム決定」を選択した場合、このタブには「リッジ回帰」が有効になっているかどうか、および計算されたリッジ値が表示されます。
他のタブ: 「設定」タブには、次に示すその他のタブがあります。
モデルの構築に使用された属性のリストです。各属性について、次の情報が表示されます。
名前: 属性の名前。
データ型: 属性のデータ型。
マイニング型: 「カテゴリ型」または「数値型」。
ターゲット: アイコンは、属性がターゲット属性であることを示します。
データ準備: 「はい」
は、データ準備が属性に対して実行されたことを示します。
属性を「属性」リストで選択した場合、変換プロパティ・ビューアには、ユーザーまたは自動データ準備によって作成された埋込み変換がモデル変換リストに表示されます。逆変換を表示するには、反転式の表示をクリックします。変換はSQL表記法で表示されます。すべての変換に逆変換があるわけではありません。変換および逆変換が常に表示されるわけではありません。
他のタブ: 「設定」タブには、次に示すその他のタブがあります。
ターゲットの属性、データ型、および各ターゲット属性の値を表示します。
他のタブ: 「設定」タブには、次に示すその他のタブがあります。
GLMでは、分類に関して次の設定がサポートされています。
行診断の生成: デフォルトでは、「行診断の生成」の選択は解除されています。行診断を生成するには、このオプションを選択し、「ケースID」も指定する必要があります。
「ケースID」を指定しないと、この設定は使用可能になりません。
モデル・ビューアの「診断」タブで「行診断」を表示できます。行診断をさらに分析するには、モデル詳細ノードを使用して行の診断表を抽出します。
信頼水準: 1.0未満の正の数。この値は、モデルによって計算される、真の確率が信頼限界内に収まることの確からしさの度合いを示します。デフォルトの信頼度は0.95です。
参照クラス名: 参照ターゲット・クラスは、2項ロジスティック回帰モデルで参照として使用されるターゲット値です。その他の(非参照)クラスに対しては確率が生成されます。デフォルトでは、アルゴリズムは普及率の最も高い値(ほとんどのケース)を選択します。タイの値が存在する場合、属性値は英数字の昇順でソートされます。「参照クラス名」のデフォルトは「システム決定」、つまり、アルゴリズムによって値が決定されます。
欠損値の処理: デフォルトは平均最頻値、つまり、量的な値には平均、質的な値には最頻値を使用します。「行の削除」を選択して、欠損値が含まれる行を削除することもできます。欠損値が含まれる行を削除する場合は、モデルが適用されるすべてのデータに同じ欠損値処理(行の削除)を適用する必要があります。
行の重み列の指定: デフォルトでは、「行の重み列」は指定されていません。「行の重み列」は、行の重み要素を含むトレーニング・データの列です。
行の重みは、特定の構成が複数回繰り返される試用を設計する場合のように、繰返し行のコンパクトな表現として使用できます。
また、行の重みは、モデルの作成中に特定の行を強調するためにも使用できます。たとえば、より新しい行を優先し、古い可能性のあるデータを避けるようにモデルにバイアスをかけます。
「行の重み列」を指定するには、チェック・ボックスを選択し、リストから列を選択します。
リッジ回帰: Oracle Database 11gおよび12cの両方において、デフォルトでは、「リッジ回帰」はシステムによって決定されます(無効化されません)。
注意: Oracle Database 11gおよびOracle Database 12cの両方において、「リッジ回帰」設定は一貫性がある(システムによって決定される)必要があります。 |
「リッジ回帰」を選択した場合、「機能選択」は自動的に選択が解除されます。
リッジ回帰は、多重共線性を補う手法です(相関関係にある予測子を使用する多変量回帰)。Oracle Data Miningでは、回帰および分類の両マイニング機能に対してリッジ回帰がサポートされています。
「リッジ回帰」のオプションを指定するには、「オプション」をクリックして、「リッジ回帰オプション・ダイアログ」(GLMC)を開きます。
「リッジ回帰」が有効な場合、戻されるグローバルな詳細がより少なくなります。たとえば、「リッジ回帰」が有効な場合、予測限界は生成されません。
注意: Oracle Database 11gリリース2 (11.2)に接続されているときに、GLMモデルの構築時にエラーORA-40024 が発生した場合は、「リッジ回帰」を有効にして、モデルを再構築します。 |
特徴選択: デフォルトでは、特徴選択の選択は解除されています。この設定では、Oracle Database 12cに接続している必要があります。特徴選択を指定するには、または特徴選択設定の表示や指定を行うには、「オプション」をクリックして、特徴選択オプション・ダイアログを開きます。
「機能選択」を選択した場合、「リッジ回帰」の選択は自動的に解除されます。
注意: 特徴選択設定は、Oracle Database 12cでのみ使用できます。 |
近似計算: パフォーマンスを向上させるために、アルゴリズムで近似計算を使用するかどうかを指定します。GLMでは、数多くの行を持つデータ密度の高い(データがまばらではない)データ・セットが近似処理に適しています。
近似計算の値を次に示します。
システム決定(デフォルト)
有効化
無効化
この設定では、Oracle Database 12cに接続している必要があります。
「機能選択」を選択した場合、「リッジ回帰」の選択は自動的に解除されます。このダイアログ・ボックスでは、GLMCまたはGLMRモデルの特徴選択を次のように指定できます。
特徴選択の条件: デフォルト設定は、システムによって決定されます。次のいずれかを選択できます。
赤池情報量
シュワルツのベイジアン情報量
リスク・インフレーション
アルファ投資
特徴の最大数: デフォルト設定は、システムによって決定されます。
複数の特徴を指定するには、オプション「ユーザー指定」オプションをクリックし、特徴の整数を入力します。
特徴識別: デフォルト設定は、システムによって決定されます。
次を選択することもできます。
サンプリングの有効化
サンプリングの無効化
特徴の受入れ: デフォルト設定は、システムによって決定されます。
次を選択することもできます。
厳密
寛容
プルーニング・モデル: デフォルトでは、「有効化」が選択されています。「無効化」を選択することもできます。
カテゴリ型予測子の処理: デフォルトでは、「一度に1つずつ追加」が選択されています。「一度にすべてを追加」を選択することもできます。
デフォルトである「一度に1つずつ追加」をそのまま使用する場合、特徴の生成は選択されません。「機能の生成」を選択した場合、デフォルトは「二次候補」です。「三次候補」を選択することもできます。
値を選択するには、「編集」をクリックします。「参照値の選択」ダイアログで、「カスタム」を選択します。次に、ターゲット値リスト内のいずれかの値を選択します。「OK」をクリックします。
システムによって決定された「リッジ値」を使用するか、独自の値を指定することが可能です。デフォルトでは、システムによって決定された値が使用されます。
「OK」をクリックします。
GLM回帰(GLMR)モデル・ビューアには、GLMRモデルの特性が表示されます。GLMRは、線形回帰とも呼ばれます。
GLMRモデルを表示するには、次のいずれかの方法を使用します。
モデルが構築されたノードを右クリックし、コンテキスト・メニューから「プロパティに移動」を選択します。「プロパティ」の「モデル」セクションで、モデルを選択し、をクリックします。
モデルが構築されたワークフロー・ノードを選択し、右クリックします。コンテキスト・メニューから「モデルの表示」を選択し、表示するモデルを選択します。
GLMモデルのデフォルト名は、名前にGLM
が含まれます。
GLMRビューアが新しいタブで開きます。
「詳細」タブがデフォルトで表示されます。
GLM回帰モデル・ビューアには、次のタブがあります。
「GLMRの「詳細」」で説明している「詳細」
「GLMRの「係数」」で説明している「係数」
「GLMRの「診断」」で説明している「診断」(デフォルトでは、診断を生成しません。)
「GLMRの「設定」」で説明している「設定」
「係数」タブでは、GLMの係数を表示できます。ビューアでは、係数が表示される順序を制御するソート、および表示する係数を選択するフィルタリングがサポートされています。
デフォルトでは、係数は絶対値でソートされます。「絶対値でソート」の選択を解除するか、選択し、「問合せ」をクリックできます。
デフォルトのフェッチ・サイズは1,000レコードです。フェッチ・サイズを変更するには、新しいレコード数を指定して、「問合せ」をクリックします。
注意: このタブで基準を変更した後に、「問合せ」をクリックしてデータベースに問い合せます。「絶対値でソート」の選択や選択の解除、フェッチ・サイズの変更などの変更の場合にも、「問合せ」をクリックする必要があります。 |
「GLMC係数のソートおよび検索」では、グリッドのソートおよび検索について説明します。
係数の相対値は、棒としてグラフィカルに表示され、正と負の値では異なる色となります。係数が0に近い場合、棒が小さすぎて表示されない場合があります。
絶対値でソート: 係数のリストを絶対値でソートします。
フェッチ・サイズ: 表示される行数。すべての係数が表示されているかどうかを確認するには、表示されている行数よりも大きいフェッチ・サイズを選択します。
係数は、グリッドにリストされます。項目がリストされていない場合、そのターゲット値に係数はありません。係数グリッドには次の列があります。
属性: 属性の名前
値: 属性の値
係数: 選択したターゲット値の線形係数推定値が表示されます。各係数の前に棒が表示されます(重なっている場合もあります)。棒は、係数の相対サイズを示します。正の値の場合、棒は明るい青色で、負の値の場合、棒は赤色です。(値が0に近い場合、棒が小さすぎて表示されない場合があります。)
予測の「標準エラー」
Waldカイ2乗
Pr > カイ2乗
係数の上限
係数の下限
注意: 各係数に対して、必ずしもすべての統計が戻されるわけではありません。 |
次のいずれかに該当する場合、統計はnullです。
統計がマイニング機能に適用されません。たとえば、exp_coefficientは線形回帰には適用されません。
システム・リソースの制限のために、統計を計算できません。
統計の値が無限です。
リッジ回帰を使用してモデルが構築されたか、または構築中に共分散マトリックスの異常が検出された場合に、係数限界値(上限および下限)の値がNULLになります。
他のタブ: ビューアには、次に示すその他のタブがあります。
「モデル詳細」には、モデル全体としてのグローバル・メトリックがリストされます。メトリックには、メトリックの「名前」およびメトリックの「値」という2つの列が表示されます。次のメトリックが表示されます。
調整済R2乗。
赤池情報量基準。
変動係数。
修正された総自由度。
修正された総平方和。
依存平均
誤差の自由度。
誤差の平均平方。
誤差の平方和。
モデルのF値の統計。
推定平均平方根誤差。
HockingのSp統計。
JP統計(最終予測誤差)。
収束したモデル(「はい」または「いいえ」)
モデルの自由度。
モデルのF値の確率。
モデルの平均平方。
モデルの平方和。
パラメータ数(切片を含む係数の数)。
行数
2乗平均平方根誤差。
R2乗。
シュワルツのベイズ情報量基準。
終了。
計算された有効な共分散マトリックス(「はい」または「いいえ」)。
「診断」タブには、構築データの各ケースIDの診断が表示されます。結果をフィルタ処理できます。
注意: 診断はデフォルトでは生成されません。診断を生成するには、「ケースID」を指定し、「行診断の生成」を選択する必要があります。 |
次の情報が「診断」グリッドに表示されます。
CASE_ID
トレーニング・データ内の行のTARGET_VALUE
PREDICTED_VALUE (ターゲットについてモデルにより予測された値)
HAT (ハット・マトリックスの対角要素の値)
RESIDUAL (調整済従属変数に関する残差)
STD_ERR_RESIDUAL (残差の標準誤差)
STUDENTIZED_RESIDUAL
PRED_RES (予測残差)
COOKS_D (Cookの距離影響統計)
他のタブ: ビューアには、次に示すその他のタブがあります。
「設定」タブには、次のタブがあります。
他のタブ: ビューアには、次に示すその他のタブがあります。
「一般」設定では、モデルの特性(所有者、名前、タイプ、アルゴリズム、ターゲット属性、モデル構築の作成日の期間、コメントなど)を示します。
「アルゴリズム」設定によってモデル構築が制御され、アルゴリズム設定は構築ノードを定義するときに指定します。
モデルが構築されると、システムによって計算された値がこのタブに表示されます。たとえば、「リッジ回帰の有効化」で「システム決定」を選択した場合、このタブには「リッジ回帰」が有効になっているかどうか、および計算されたリッジ値が表示されます。
他のタブ: 「設定」タブには、次に示すその他のタブがあります。
モデルの構築に使用された属性のリストです。各属性について、次の情報が表示されます。
名前: 属性の名前。
データ型: 属性のデータ型。
マイニング型: 「カテゴリ型」または「数値型」
ターゲット: チェックマークは、属性がターゲット属性であることを示します。
データ準備: 「はい」
は、データ準備が実行されたことを示します。
属性を「属性」リストで選択した場合、変換プロパティ・ビューアには、ユーザーまたは自動データ準備によって作成された埋込み変換がモデル変換リストに表示されます。逆変換を表示するには、反転式の表示をクリックします。変換はSQL表記法で表示されます。すべての変換に逆変換があるわけではありません。変換および逆変換が常に表示されるわけではありません。
他のタブ: 「設定」タブには、次に示すその他のタブがあります。
GLMでは、回帰に関して次の設定がサポートされています。
「行診断の生成」は、デフォルトで「オフ」
に設定されています。行診断を生成するには、このオプションを選択し、「ケースID」も指定する必要があります。
「ケースID」を指定しないと、この設定は使用可能になりません。
モデルの表示時に「診断」タブで「行診断」を表示できます。行診断をさらに分析するには、モデル詳細ノードを使用して行の診断表を抽出します。
信頼水準: 1.0未満の正の数。このレベルは、モデルによって計算される、真の確率が信頼限界内に収まることの確からしさの度合いを示します。デフォルトの信頼度は0.95です。
欠落値の処理: デフォルトは「平均モード」です。つまり、数値には「平均」、質的な値には「モード」を使用します。
「行の削除」を選択して、欠損値が含まれる行を削除することもできます。欠損値が含まれる行を削除する場合は、モデルが適用されるすべてのデータに同じ欠損値処理(行の削除)を適用する必要があります。
行の重み列の指定: 「行の重み列」は、行の重み要素を含むトレーニング・データの列です。デフォルトでは、「行の重み列」は指定されていません。行の重みは次の目的で使用できます。
特定の構成が複数回繰り返される試用を設計する場合のように、繰返し行のコンパクトな表現として。
モデルの作成中に特定の行を強調するため。たとえば、より新しい行を優先し、古い可能性のあるデータを避けるようにモデルにバイアスをかけます。
リッジ回帰: リッジ回帰は、多重共線性を補う手法です(相関関係にある予測子を使用する多変量回帰)。Oracle Data Miningでは、回帰および分類の両マイニング機能に対してリッジ回帰がサポートされています。
Oracle Database 11gおよびOracle Database 12cの両方において、デフォルトでは、「リッジ回帰」はシステムによって決定されます(無効化されません)。「リッジ回帰」を選択した場合、「機能選択」は自動的に選択が解除されます。
「リッジ回帰」のオプションを指定するには、「オプション」をクリックして、「リッジ回帰オプション・ダイアログ」(GLMR)を開きます。
「リッジ回帰」が有効な場合、戻されるグローバルな詳細がより少なくなります。たとえば、「リッジ回帰」が有効な場合、予測限界は生成されません。
注意: Oracle Database 11gリリース2 (11.2)に接続されているときに、GLMモデルの構築時にエラーORA-40024 が発生した場合は、「リッジ回帰」を有効にして、モデルを再構築します。 |
機能選択: この設定では、Oracle Database 12cに接続している必要があります。デフォルトでは、特徴選択の選択は解除されています。特徴選択を指定するには、または特徴選択設定の表示や指定を行うには、「オプション」をクリックして、特徴選択オプション・ダイアログを開きます。
「機能選択」を選択した場合、「リッジ回帰」の選択は自動的に解除されます。
注意: 特徴選択設定は、Oracle Database 12cでのみ使用できます。 |
近似計算: パフォーマンスを向上させるために、アルゴリズムで近似計算を使用するかどうかを指定します。GLMでは、数多くの行を持つデータ密度の高い(データがまばらではない)データ・セットが近似処理に適しています。
近似計算の値を次に示します。
システム決定(デフォルト)
有効化
無効化
システムによって決定された「リッジ値」を使用するか、独自の値を指定することが可能です。デフォルトでは、システムによって決定された値が使用されます。「分散拡大係数の生成」(VIF)は、デフォルトでは選択されていません。ユーザーが選択できます。
「OK」をクリックします。
値を選択するには、次の手順を実行します。
「編集」をクリックします。
「参照値の選択」ダイアログ・ボックスで、「カスタム」をクリックします。
「ターゲット値」フィールド内のいずれかの値を選択します。
「OK」をクリックします。
k-Means (KM)アルゴリズムは、十分な数の個別ケースがある場合に、事前に決められた数のクラスタにデータをパーティション化する、距離ベースのクラスタリング・アルゴリズムです。
距離ベースのアルゴリズムは、距離メトリック(関数)を使用して、データ・ポイント間の類似度を計測する。距離メトリックは、ユークリッド距離、コサイン距離または高速コサイン距離のいずれかです。各データ・ポイントは、使用される距離メトリックに従って、最も近いクラスタに割り当てられる。
クラスタリング・ノードを使用して、KMモデルを構築します。
適用ノードを使用して、KMモデルを新規データに適用します。
次の項目では、KMモデルについて説明します。
Oracle Data Miningに実装されている拡張バージョンのk-Meansアルゴリズムには、次の特徴があります。
このアルゴリズムは、階層形式でモデルを作成します。トップダウンでモデルを作成する際、2分岐を使用し、最後にすべてのノードを精錬します。この意味では、2分k-Meansアルゴリズムと似ています。階層の内部ノードの重心は、ツリーが展開していくにつれて、その変化を反映するように更新されます。ツリー全体が戻されます。
このアルゴリズムでは、一度に1つのノードでツリーを拡張します(不均衡法)。ユーザー設定に基づき、分散が最も大きいノードは、クラスタの数が指定された数に達するまで分割され、ツリーのサイズが大きくなります。クラスタの最大数は、構築設定で指定されます。
このアルゴリズムでは、確率的なスコアリングおよびクラスタへのデータの割当てが可能です。
このアルゴリズムは、クラスタごとに次の情報を返します。
重心(クラスタの原型)。重心は、カテゴリ属性については最頻値を、数値属性については平均および分散を示します。
ヒストグラム(属性ごとに1つ)。
クラスタに割り当てられるデータの大部分を囲むハイパーボックスを記述するルール。
拡張k-Meansによって検出されたクラスタを使用して、ベイズ的な確率モデルを生成し、このモデルを使用して、スコアリング(モデル適用)時にデータ・ポイントをクラスタに割り当てます。k-Meansアルゴリズムは、混合要素が、すべての要素に関して同じ分散を持つ球面多変量正規分布であるような混合モデルと解釈できます。
注意: k-Meansアルゴリズムでは、100万行をサンプリングします。サンプルを使用して、モデルを構築できます。 |
この項では、k-Means (KM)モデル・ビューア、KMモデル・ビューアを表示する手順、およびKMに関連するアルゴリズム設定について説明します。内容は次のとおりです。
KMモデル・ビューアでは、KMモデルを調べることができます。次のいずれかの方法でKMモデルを表示できます。
方法1
モデルが構築されたノードを右クリックします。
「プロパティに移動」を選択します。
「プロパティ」の「モデル」セクションで、をクリックします。
方法2
モデルが構築されたワークフロー・ノードを選択します。
右クリックし、「モデルの表示」をクリックします。
表示するモデルを選択します。
KMモデル・ビューアが新しいタブで開きます。k-Meansモデルのデフォルト名は、名前にKM
が含まれます。「ツリー」タブがデフォルトで表示されます。
KMモデル・ビューアには、次のタブがあります。
EM、KMおよびOCのツリー・ビューアは同じように動作します。
ツリー・ビューアは、階層クラスタのグラフィカル・ツリーです。ツリーを表示すると、次のようになります。
ワークフロー・サムネイルが開き、ツリー全体のビューが示されます。
「構造」ウィンドウは、ツリーの移動および分析を実行する場合に役立ちます。
EM、KMおよびOCの「比較」を使用して、特定のノードの属性を、母集団の属性と比較できます。
情報の表示:
特定のノードに関する情報を表示するには、次の手順を実行します。
ノードを選択します。
下部のペインでは、次に示す各タブに情報が表示されます。
重心: クラスタの重心を表示します。
クラスタ・ルール: クラスタのすべての要素が満たすルールを表示します。
表示コントロール:
次のコントロールによってツリーの表示全体が制御されます。
ズームイン: ダイアグラムにズームインし、ルールの詳細ビューを表示します。
ズームアウト: ダイアグラムをズームアウトし、ルールの大部分またはすべてのビューを表示します。
パーセント・サイズ: ビューの拡大率を正確なパーセンテージで選択できます。
ウィンドウに合せる: ダイアグラム全体が画面内に収まるまでダイアグラムからズームアウトします。
レイアウト・タイプ: 水平レイアウトまたは垂直レイアウトを選択でき、デフォルトは垂直レイアウトとなっています。
展開: すべてのノードにツリーのブランチが表示されます。
詳細の表示: 各ツリー・ノードの詳細データを表示します。もう一度クリックすると、詳細が非表示になります。
上位の属性: 上位Nの属性を表示します。デフォルトでは、Nは5です。Nを変更するには、リストから別の数を選択します。
リフレッシュ: 変更された「問合せ設定」を適用できます。
問合せ設定: 上位数の設定を変更できます。デフォルトは10です。別の数を新しいデフォルト値として保存できます。
EM、KMおよびOCの「クラスタ」タブは同じように動作します。
「クラスタ」タブでは、選択したクラスタに関する情報を表示できます。このビューアでは、選択した確率のみが表示されるようにするフィルタリングがサポートされています。
次の情報が表示されます:
クラスタ: 表示されるクラスタのID。別のクラスタを表示するには、メニューから別のIDを選択します。「リーフのみ」を選択して、リーフのみ(終端クラスタ)を表示できます。「リーフのみ」がデフォルトです。
フェッチ・サイズ: デフォルトは20です。この値は変更できます。
「フェッチ・サイズ」を変更した場合は、「問合せ」をクリックして、新しい表示を確認します。
グリッドには、クラスタ内の属性がリストされます。各属性について、次の情報が表示されます。
属性の「名前」。
クラスタ内の属性値の「ヒストグラム」。
数値、およびパーセンテージを示す棒の両方として表示される「信頼度」。信頼度が非常に小さい場合、棒は表示されません。
支持度(ケースの数)。
平均(数値属性の表示用)。
最頻値(カテゴリ属性の表示用)。
分散
大きいバージョンのヒストグラムを表示する場合は、属性を選択すると、ヒストグラムがグリッドの下に表示されます。ヒストグラム内の棒の上にカーソルを置いて、正確な値など、ヒストグラムの詳細を表示します。
特定の属性名や特定の最頻値で属性リストを検索できます。検索するには、検索ボックスを使用します。
ドロップダウン・リストでは、「属性」(デフォルト)または最頻値でグリッドを検索できます。の横のボックスに検索語を入力します。
検索をクリアする場合は、をクリックします。
他のタブ: NBモデル・ビューアには、次に示すその他のタブがあります。
EM、KMおよびOCの「比較」タブは同じように動作します。「比較」タブでは、同じモデル内の2つのクラスタを比較できます。この表示では、比較する2つのクラスタを選択できます。
次のタスクを実行できます。
クラスタの比較: 比較するクラスタは、リストから選択します。クラスタの比較では、属性値が比較されます。この比較はグリッドに表示されます。「比較」を使用して、個々のクラスタを母集団と比較します。
クラスタ名の変更: クラスタ名を変更するには、「編集」をクリックします。これにより、「クラスタ名の変更」ダイアログ・ボックスが開きます。デフォルトでは、リーフのみが表示されます。すべてのノードを表示するには、「リーフのみ表示」の選択を解除します。デフォルトのフェッチ・サイズは20です。この値は変更できます。
属性の検索: 属性を検索するには、検索ボックスに属性の名前を入力します。ランクで検索することもできます。
問合せの作成: 変更を加えた場合は、「問合せ」をクリックします。
各クラスタに関して、ヒストグラムが生成され、そのクラスタ内の属性値が表示されます。クラスタの拡大されたヒストグラムを表示するには、目的の属性をクリックします。拡大されたヒストグラムが属性グリッドの下に表示されます。
場合によっては、クラスタ内に存在しないヒストグラムのように見えることがあります。
個々のクラスタを母集団と比較する方法を確認するには、次の手順を実行します。
「比較」をクリックします。
「リーフのみ」の選択を解除します。
ルート・ノードを「クラスタ1」として選択します。クラスタの名前が変更されていない場合、これはクラスタ1です。クラスタ1内の属性値の分布は、母集団全体の値の分布を表します。母集団と比較するクラスタを「クラスタ2」として選択します。
これで、クラスタ2として選択したクラスタ内の各属性の値の分布を、クラスタ1内の値と比較できます。
クラスタがスパース・データを使用して構築されている場合、一部の属性値は、クラスタに割り当てられているレコード内に存在しません。
この場合、クラスタ比較には、属性が存在するクラスタの場合は重心値とヒストグラム値が表示され、属性が存在するクラスタの場合は空白のままになります。
ダイアログ・ボックスのタイトル・バーには、名前を変更するクラスタが表示されます。クラスタIDは番号です。これを文字列に変更できます。新しい名を入力して、OKをクリックします。
注意: 2つの異なるクラスタに同じ名前を付けることはできません。 |
「設定」タブには、モデルが構築された方法に関する情報が表示されます。
クラスタ・モデルの「入力」(別のタブ上)
他のタブ: KMモデル・ビューアには、次に示すその他のタブがあります。
モデル・ビューアの「設定」タブには、2つのタブ(クラスタ・モデルの「サマリー」およびクラスタ・モデルの「入力」)が含まれます。
「サマリー」タブには、次が含まれます。
「一般」設定には、次の情報がリストされます。
モデルのタイプ(分類、回帰など)
モデルの所有者(モデルが構築されたスキーマ)
モデル名
作成日
モデル構築の期間(分単位)
モデルのサイズ(MB)
コメント
「アルゴリズム」設定には、モデルの構築に使用されたアルゴリズムおよびアルゴリズム設定がリストされます。
「入力」タブは、スコアリングのみを実行できるモデルの場合に表示されます。モデルの構築に使用された属性のリストです。各属性について、次の情報が表示されます。
名前: 属性の名前。
データ型: 属性のデータ型。
マイニング型: 「カテゴリ型」または「数値型」。
データ準備: 「はい」
は、データ準備が実行されたことを示します。
属性を「属性」リストで選択した場合、変換プロパティ・ビューアには、ユーザーまたは自動データ準備によって作成された埋込み変換がモデル変換リストに表示されます。
逆変換を表示するには、反転式の表示をクリックします。変換はSQL表記法で表示されます。すべての変換に逆変換があるわけではありません。変換および逆変換が常に表示されるわけではありません。
k-Means (KM)アルゴリズムでは、次の設定がサポートされています。
「クラスタ数」は、アルゴリズムによって生成されたリーフ・クラスタの最大数です。デフォルトは10です。通常、k-Meansでは、個別のデータ・ポイントの数の方が多ければ、指定された数に正確に一致する数のクラスタが生成されます。
「増加係数」は、1よりも大きく、5以下の数値です。この値では、クラスタ・データを保持するために割り当てられるメモリーの増加係数を指定します。デフォルトは2です。
「収束許容値」は、0.001 (低速の構築)と0.1 (高速の構築)の間である必要があります。デフォルトは0.01です。許容値では、アルゴリズムの収束を制御します。この値が小さくなると、最適なソリューションに近づきますが、実行時間が長くなります。このパラメータは、反復パラメータの数と相互作用します。
距離関数では、アルゴリズムが距離を計算する方法を指定します。デフォルトの距離関数は「ユークリッド」です。他の距離関数は、次のとおりです。
コサイン
高速コサイン
「反復数」は、1以上である必要があります。デフォルトは30です。この値は、k-Meansアルゴリズムの最大反復数です。一般的に、反復が多くなると、構築速度が遅くなります。ただし、アルゴリズムは、最大に到達したり、早期に収束する可能性があります。収束は、「収束許容値」設定を満たすかどうかによって決定されます。
最小パーセント属性サポートは整数ではありません。最小パーセント属性サポートの値の範囲は次のとおりです。
0以上、
1以下。
デフォルト値は0.1です。デフォルト値によって、非常に低い支持度を持つ長い述語リストが生成されるかわりに、より重要な述語を強調できます。
この値を使用して、支持度しきい値を満たさないルール述語を除外できます。この値を高く設定しすぎると、結果として短いルール、場合によっては空のルールになります。
極端な場合、非常にまばらなデータでは、すべての属性述語が除外され、ルールが生成されない可能性があります。ルールが生成されない場合は、支持度しきい値を低くし、モデルを再構築して、述語支持度が非常に低い場合にもアルゴリズムによってルールが生成されるようにします。
「ヒストグラム・ビン数」は正の整数で、デフォルト値は10です。この値では、k-Meansで生成される属性ヒストグラムでのビンの数を指定します。各属性のビン境界は、トレーニング・データセット全体でグローバルに計算されます。ビニングの方法は等幅です。ただ1つのビンを持つ単一値が含まれる属性を除き、すべての属性は同じ数のビンを持ちます。
「分割基準」は、「分散」または「サイズ」になります。デフォルトは「分散」
です。分割基準は、k-Meansクラスタの初期化に関連します。アルゴリズムがバイナリ・ツリーを作成し、同時に新しいクラスタを1つ追加します。「サイズ」の場合、現在最大のクラスタが存在する領域内に新しいクラスタが配置されます。「分散」の場合、最も広く散らばったクラスタの領域内に新しいクラスタが配置されます。
Naive Bayes (NB)アルゴリズムは、分類モデルの構築に使用されます。Naive Bayesモデルを構築、テスト、適用およびチューニングできます。
NBモデルを構築する場合は、分類ノードを使用します。デフォルトでは、分類ノードはそれ自体が構築したすべてのモデルをテストします。テスト・データは、入力データを構築サブセットとテスト・サブセットに分割することによって作成されます。
NBモデルをテストする場合は、テスト・ノードを使用することもできます。
NBモデルを新規データに適用する場合は、適用ノードを使用します。
NBモデルをチューニングする場合の詳細は、「分類モデルのチューニング」を参照してください。NBモデルを構築およびテストした後に、そのNBモデルをチューニングできます。
次の項目では、Naive Bayesについて説明します。
Naive Bayes (NB)アルゴリズムは条件付き確率に基づいています。(履歴データの値の組合せと値の頻度を数えて確率を計算する) Bayesの定理が使用されます。Bayesの定理では、すでに発生している別のイベントの確率を前提として、あるイベントの発生確率を見つけます。
前提は次のとおりです。
Naive Bayesでは、各予測子は他の予測子とは条件的に独立していると想定されます。所定のターゲット値に関して、各予測子の分布は他の予測子とは独立しています。この非依存性という前提によって、(たとえ前提が満たされていない場合でも)モデルの予測精度が極端に低くなることがなくなり、またこの前提が、高速で計算可能なアルゴリズムと扱いにくいアルゴリズムの違いになっています。
特定の予測子の分布が、明らかに、より大きな母集団を代表していない場合があります。たとえば、トレーニング・データ内に21才未満の顧客が少数しか存在しないが、広範な顧客ベースには、この年齢グループの顧客が実際に多数存在する場合などが考えられます。補正するには、モデルのトレーニングの際に、事前確率を指定します。
Naive Bayesの利点は複数あります。
Naive Bayesモデルの利点は次のとおりです。
Naive Bayesアルゴリズムは、高速でスケーラビリティの高いモデルの構築およびスコアリングを実行できます。このアルゴリズムは予測子および行の数に基づいて線形にスケーリングされます。
Naive Bayesの構築プロセスは、並列処理されます。スコアリングもアルゴリズムに関係なく並列処理できます。
Naive Bayesは、2項および多クラスのどちらの分類問題にも使用できます。
この項では、Naive Bayes (NB)モデル・ビューア、NBモデル・ビューアを表示する手順、およびNBモデルに関連するアルゴリズム設定について説明します。内容は次のとおりです。
NBモデル・ビューアでは、NBモデルを調べることができます。次のいずれかの方法を使用して、NBモデルを表示できます。
方法1
モデルが構築されたノードを右クリックします。
「プロパティに移動」を選択します。
「プロパティ」の「モデル」セクションで、をクリックします。
方法2
モデルが構築されたワークフロー・ノードを選択します。
右クリックし、「モデルの表示」をクリックします。
表示するモデルを選択します。
モデル・ビューアが新しいタブで開きます。Naive Bayesモデルのデフォルト名は、名前にNB
が含まれます。
NBモデル・ビューアには、次のタブがあります。
「確率」タブには、モデル構築中に計算された確率がリストされます。確率が表示される順序をソートおよびフィルタ処理できます。
確率の相対値は棒としてグラフィカルに表示され、正の値の場合は青色の棒、負の値の場合は赤色の棒が表示されます。ゼロに近い数値の場合、この棒は小さすぎて表示されない場合があります。
「ターゲット値」を選択します。選択した値に関連付けられた確率が表示されます。デフォルトでは、発生頻度が最も低い値の確率が表示されます。
確率はグリッドにリストされます。
他のタブ: NBモデル・ビューアには、次に示すその他のタブがあります。
項目がリストされていない場合は、指定した基準を満たす値が存在しません。
行カウント: 表示されている行数。
グリッド・フィルタ: グリッド・フィルタを使用して、グリッド内の情報をフィルタ処理します。
確率グリッドには、次の列があります。
属性: 属性の名前
値: 属性の値
確率: 属性の値の確率。確率は、数値、およびパーセンテージを示す棒の両方として表示されます。確率が非常に小さい場合、棒は表示されません。
この値によって、「フィルタ」や「サーバー」の設定に関係なく、返される行数が制限されます。デフォルトのフェッチ・サイズは1000です。上下の矢印をクリックして、フェッチ・サイズを変更します。フェッチ・サイズを変更した場合は、「問合せ」をクリックします。
フィルタ制御では、グリッドに表示される項目をフィルタ処理できます。フィルタリングは、フィルタ検索ボックスに入力すると実行されます。
フィルタ・カテゴリを表示するには、双眼鏡アイコンの横にある下矢印をクリックします。確率では次のカテゴリがサポートされています。
属性: 「属性」(名前)列をフィルタ処理します。これがデフォルトのカテゴリです。たとえば、属性名にCUSTが含まれるすべてのエントリを表示するには、検索ボックスにCUSTと入力します。
値: 値列をフィルタ処理します。
確率: 確率列をフィルタ処理します。
すべて(および): 1つ以上の文字列およびその値を入力すると、AND条件を使用して「属性」列および「値」列と比較されます。たとえば、CUST M
と入力して、属性名にCUST
が含まれ、その値がM
である行を表示します。
すべて(または): 比較にOR条件を使用する点を除き、「すべて(および)」と同様に動作します。
比較のグリッド・フィルタには次のような類似カテゴリがリストされます。
名前: 属性名でフィルタします(デフォルト)。
値: 値列をフィルタ処理します。
属性/値/傾向(または): 属性、値および傾向のいずれかの列の値をフィルタ処理します。
属性/値/傾向(および): 属性、値および傾向のいずれかの列の値をフィルタ処理します。
ターゲット値1の傾向: ターゲット値1の傾向値をフィルタ処理します。
ターゲット値2の傾向: ターゲット値2の傾向値をフィルタ処理します。
1つ以上の文字列をフィルタ検索ボックスに入力すると、が表示されます。このアイコンをクリックして、検索文字列をクリアします。
「比較」タブでは、2つの異なるターゲット値の結果を比較できます。2つのターゲット値を選択します。
「ターゲット値1」と「ターゲット値2」のデフォルト値が表示されます。次の作業が実行できます。
ターゲット値を変更します。選択するターゲット値は異なる値である必要があります。
グリッド・フィルタを使用して、特定の値を表示します。
「フェッチ・サイズ」を変更します。
グリッド列をソートします。比較のグリッドには、次の列があります。
属性: 属性の名前
値: 属性の値
ターゲット値1の傾向
ターゲット値2の傾向
両方の傾向に関して、ヒストグラム棒が表示されます。傾向の最大値は1.0です。最小値は-1.0です。
「傾向」では、特定の属性値ペアに対して、2つのターゲット値のうち、どちらとの関係の予測可能性が高いかを示します。傾向は、ターゲット値の肯定的または否定的な予測という観点で測定でき、否定的な予測は負の値として示されます。
他のタブ: NBモデル・ビューアには、次に示すその他のタブがあります。
「設定」タブには、モデルが構築された方法に関する情報が表示されます。
重み(NB)(チューニングされたモデルの場合のみ表示)
他のタブ: NBモデル・ビューアには、次に示すその他のタブがあります。
「サマリー」タブでは、すべてのモデルについて説明しています。モデル設定では、モデル構築の特性が示されます。「設定」は、次のように分かれています。
このセクションでは、アルゴリズム、および自動データ準備(ADP)が「オン」
であるか「オフ」
であるかを識別します。
Naive Bayes固有の設定を次に示します。
「組のしきい値」: モデルに予測子を含めるために必要な組の最小発生割合。デフォルトは0です。
単一のしきい値: モデルに予測子を含めるために必要な単一の最小発生割合。デフォルトは0です。
「入力」タブは、スコアリングのみを実行できるモデルの場合に表示されます。
モデルの構築に使用された属性のリストです。各属性について、次の情報が表示されます。
名前: 属性の名前。
データ型: 属性のデータ型。
マイニング型: 「カテゴリ型」または「数値型」。
ターゲット: アイコンは、属性がターゲット属性であることを示します。
データ準備: 「はい」
は、データ準備が実行されたことを示します。
属性を「属性」リストで選択した場合、変換プロパティ・ビューアには、ユーザーまたは自動データ準備によって作成された埋込み変換がモデル変換リストに表示されます。
逆変換を表示するには、反転式の表示をクリックします。変換はSQL表記法で表示されます。すべての変換に逆変換があるわけではありません。変換および逆変換が常に表示されるわけではありません。
各ターゲット値に関して、システムによって計算された重みが「重み」タブに表示されます。モデルをチューニングすると、重みが変更される場合があります。
次の情報が表示されます。
ターゲットの属性
データ型
各ターゲット属性の値
デフォルトでは、分類モデルまたは回帰モデルが自動的にテストされます。分類モデルは、モデルの予測を既知の結果と比較することでテストされます。Oracle Data Minerでは、最新のテスト結果が保持されます。
モデルのテスト結果を表示するには、構築ノードを右クリックし、「結果の表示」を選択します。
Nonnegative Matrix Factorization (NMF)は、特徴抽出用にOracle Data Miningで使用される監視なしアルゴリズムです。
次の項目では、NMFについて説明します。
Nonnegative Matrix Factorization (NMF)は、属性の数が多く、それらの属性があいまいであるか、予測可能性が低い場合に役立ちます。属性を組み合せることによって、NMFで意味のあるパターン、トピックまたはテーマが生成されます。
NMFは、特にテキスト・マイニングに適しています。テキスト・ドキュメントでは、同じ言葉が異なる場所で別の意味を持って出現することがあります。たとえば、hikeという単語は、アウトドア(outdoor)または金利(interest rate)に関連して使用されます。NMFでは、次のように属性を組み合せることによって、予測能力にとって必須であるコンテキストを取り入れます。
"hike" + "mountain" -> "outdoor sports"
"hike" + "interest" -> "interest rates"
Non-Negative Matrix Factorization (NMF)では、多変量分析および線形代数の手法が使用されます。NMFでは、ユーザーが定義した数の特徴を作成して多変量データを分解します。各特徴は、元の属性セットの一次結合です。一次結合の係数は非負数です。
NMFは、VとW×Hがほぼ等しくなるように、データ行列Vを2つの下位ランク行列WおよびHの積に分解します。NMFは、反復法を使用して、その積がVに近づくようにWとHの初期値を変更します。近似誤差が収束するか、反復が指定数に達すると、処理が停止します。
モデルへの適用時、NMFモデルでは、モデルによって発見された属性(特徴)の新しいセットに元のデータがマップされます。
この項では、Nonnegative Matrix Factorization (NMF)モデル・ビューア、NMFモデル・ビューアを表示する手順、およびNMFに関連するアルゴリズム設定について説明します。内容は次のとおりです。
次のいずれかの方法で、NMFモデルを表示します。
方法1
モデルが構築されたノードを右クリックします。
「プロパティに移動」を選択します。
「プロパティ」の「モデル」セクションで、をクリックします。
方法2
モデルが構築されたワークフロー・ノードを選択します。
右クリックし、「モデルの表示」をクリックします。
表示するモデルを選択します。モデル・ビューアが新しいタブで開きます。「設定」タブは、デフォルトで表示されます。
NMFモデル・ビューアには、次のタブがあります。
ある特徴IDに関して、その係数が「係数」グリッドに表示されます。グリッドのタイトル「係数: x / y」には、モデルで使用可能なすべての行から返された行数が表示されます。
デフォルトでは、特徴IDは整数です。
「フェッチ・サイズ」によって、戻される行数が制限されます。デフォルトは1000、またはモデル・ビューアの「プリファレンス」設定で指定した値となります。
次のタスクを実行できます。
「係数」グリッドには次の列があります。
属性、属性名
値(属性の値)
「係数」。値は棒として表示され、棒の中央に値が示されます。正の値は明るい青色です。負の値は赤色です。
選択した特徴IDの名前を変更できます。
「特徴ID」フィールドに新しい名前を入力します。
「OK」をクリックします。
注意: 異なる特徴には別の名前を付ける必要があります。 |
フィルタ・カテゴリを表示するには、をクリックします。
フィルタ・カテゴリを次に示します。
属性(デフォルト): 属性名を検索します。
値: これは値列です。
係数: これは係数列です。
フィルタを作成するには、テキスト・ボックスに文字列を入力します。文字列が入力されると、アイコンが表示されます。フィルタをクリアするには、アイコンをクリックします。
「設定」タブには、次のタブがあります。
「一般」設定には、次のことがリストされます。
モデルのタイプ(分類、回帰など)
モデルの所有者(モデルが構築されたスキーマ)
モデル名
作成日
モデル構築の期間(分単位)
モデルのサイズ(MB)
コメント
「アルゴリズム」設定には、次のことがリストされます。
モデルの構築に使用されたアルゴリズムの名前。
モデル構築を制御するアルゴリズム設定。
このタブには、モデルの構築に使用された属性に関する情報が表示されます。
Oracle Data Minerでは、必ずしも構築データのすべての属性を使用するわけではありません。たとえば、属性の値が定数である場合、その属性は使用されません。
モデルの構築に使用された各属性に関して、このタブには次の情報が表示されます。
名前: 属性の名前。
データ型: 属性のデータ型
マイニング型: 「カテゴリ型」または「数値型」
データ準備: 「はい」
は、データ準備が実行されたことを示します。「データ準備」が「はい」
の場合は、列を選択(クリック)します。データ準備は、タブの下部にある「データ準備」に表示されます。
データ準備の逆変換を表示するには、逆変換の表示を選択します。変換はSQL表記法で表示されます。すべての変換に逆変換があるわけではありません。変換および逆変換が常に表示されるわけではありません。
Nonnegative Matrix Factorization (NMF)アルゴリズムでは、次の設定がサポートされています。
収束許容値: 最小収束許容値を示します。デフォルトは0.5です。
自動準備: オン
(デフォルト)。自動データ準備を示します。
NMFS_NONNEGATIVE_SCORING: 「有効」または「無効」。デフォルトは「有効」(NMFS_NONNEG_SCORING_ENABLE
)です。
特徴数: デフォルトでは、特徴の数は指定されません。特徴の数を指定しない場合、アルゴリズムによって特徴の数が決定されます。
特徴の数を指定するには、「特徴数の指定」を選択し、特徴の整数を入力します。特徴の数は、属性の最小数以下、かつケース数以下の正の整数である必要があります。多くの場合、5、または7以下のその他の数にすると、良好な結果となります。
反復数: 実行される反復の最大数を示します。デフォルトは50です。
乱数シード: サンプルの乱数シードです。デフォルトは-1です。シードは変更できます。この操作を繰り返して同じ結果を得るようにするには、必ず同じ乱数シードを使用してください。
直交パーティショニング・クラスタリング(O-Cluster)は、Oracle独自のクラスタリング・アルゴリズムです。O-Clusterアルゴリズムを構築および適用するための要件:
OCモデルを構築するには、クラスタリング・ノードを使用します。
OCモデルを新規データに適用する場合は、適用ノードを使用します。
次の項目では、O-Clusterについて説明します。
O-Cluster (OC)アルゴリズムによって、階層グリッドベースのクラスタリング・モデルが作成されます。つまり、軸並行な(直行の)パーティションを入力属性空間に作成します。このアルゴリズムは再帰的に作用します。生成される階層構造は、属性空間をクラスタに分割する不規則なグリッドになります。生成されるクラスタは、属性空間内の密度の高い領域を定義します。
クラスタは、属性軸沿いの間隔と、対応する重心およびヒストグラムによって記述されます。sensitivityパラメータは、基準となる密度レベルを定義します。最大密度がこの基準レベルを上回る領域のみを、クラスタとして認識できます。
O-Clusterによって検出されたクラスタを使用して、ベイズ的な確率モデルを生成し、その後このモデルは、スコアリング(モデル適用)時にデータ・ポイントをクラスタに割り当てるために使用されます。生成される確率モデルは混合モデルで、混合要素は、量的属性の独立正規分布と質的属性の多項分布の積によって表されます。
O-Clusterは、収束するまでチャンクのデータを調査します。処理される行数に明示的な制限はありません。
O-Clusterでは、欠損値をそのまま(ランダムに欠損している値として)処理します。このアルゴリズムでは、ネストした表がサポートされないため、スパース・データもサポートされません。
注意: OCでは、テキストはサポートされません。 |
この項では、O-Clusterモデル・ビューア、OCモデル・ビューアを表示する手順、およびOCに関連するアルゴリズム設定について説明します。内容は次のとおりです。
OCモデル・ビューアでは、OCモデルを調べることができます。次のいずれかの方法を使用して、OCモデルを表示できます。
方法1
モデルが構築されたノードを右クリックします。
「プロパティに移動」を選択します。
「プロパティ」の「モデル」セクションで、をクリックします。
方法2
モデルが構築されたワークフロー・ノードを選択します。
右クリックし、「モデルの表示」をクリックします。
表示するモデルを選択します。OCモデル・ビューアが新しいタブで開きます。「ツリー」タブがデフォルトで表示されます。O-Clusterモデルのデフォルト名は、名前にOC
が含まれます。
OCモデル・ビューアには、次のタブがあります。
EM、KMおよびOCの「ツリー」(O-Clusterのツリー表示はKMのツリー表示と同じです)。
クラスタ(ビューア)(O-Clusterの詳細表示はKMの詳細表示と同じです)。
EM、KMおよびOCの「比較」(O-Clusterの比較表示はKMの比較表示と同じです)。
「詳細」タブでは、クラスタの詳細を表示できます。選択したクラスタでの属性の値を見つけることができます。このビューアでは、選択した確率のみが表示されるようにするフィルタリングがサポートされています。
次の情報が表示されます:
クラスタ: 表示されるクラスタのID。別のIDを選択して、クラスタを変更できます。終端クラスタのみを表示するには、「リーフのみ」を選択します。
フェッチ・サイズ: 選択した列の数。デフォルトは50です。フェッチ・サイズを変更できます。フェッチ・サイズを変更した場合は、「問合せ」をクリックします。
グリッドには、クラスタ内の属性がリストされます。各属性について、次の情報が表示されます。
属性: 属性は、予測モデルの予測子、または記述モデルの記述情報の項目を指します。データ属性は、モデルの作成に使用されるデータの列を指します。データ属性は、変換により、モデルで質的属性または量的属性として使用できるようになる。質的属性および量的属性はモデル属性です。
ヒストグラム: 選択したクラスタの属性値は、ヒストグラムとして表示されます。
大きいバージョンのヒストグラムを表示するには、属性を選択します。ヒストグラムがグリッドの下に表示されます。ヒストグラム内の棒の上にカーソルを置いて、正確な値など、ヒストグラムの詳細を表示します。
信頼度: 数値、およびパーセンテージを示す棒の両方として表示されます。信頼度が非常に小さい場合、棒は表示されません。
支持度: ケースの数。
平均: 数値属性の場合に表示されます。
最頻値: カテゴリ属性の場合に表示されます。
分散
次のタスクを実行できます。
クラスタ内の属性をソートします。ソートするには、グリッド内の目的の列ヘッダーをクリックします。たとえば、属性名でソートするには、「属性」をクリックします。属性は次の基準でソートできます。
信頼度
支持度
平均
最頻値
分散
属性名
特定の属性名または特定の最頻値で属性リストを検索します。検索するには、の横にある検索ボックスを使用します。
「属性」でグリッドをソートします。ドロップダウン・リストでは、「属性」(デフォルト)または「モード」でグリッドを検索できます。検索フィールドに検索用語を入力します。検索をクリアする場合は、をクリックします。
他のタブ: OCモデル・ビューアには、次に示すその他のタブがあります。
「設定」タブには、モデルが構築された方法に関する情報が表示されます。
「サマリー」(OC)は、「モデル設定」タブにあります。
「入力」(OC)は別のタブ上にあります。
「詳細」(OC)。これは、追加のタブです。
「一般」設定には、次のことがリストされます。
モデルのタイプ(分類、回帰など)
モデルの所有者(モデルが構築されたスキーマ)
モデル名
作成日
モデル構築の期間(分単位)
モデルのサイズ(MB)
コメント
「アルゴリズム」設定には、次のことがリストされます。
アルゴリズムの名前。
モデル構築を制御する設定。「アルゴリズム」設定は構築ノードを定義するときに指定します。
「入力」タブは、スコアリングのみを実行できるモデルの場合に表示されます。
属性を「属性」リストで選択した場合、変換プロパティ・ビューアには、ユーザーまたは自動データ準備によって作成された埋込み変換がモデル変換リストに表示されます。
逆変換を表示するには、反転式の表示をクリックします。変換はSQL表記法で表示されます。すべての変換に逆変換があるわけではありません。変換および逆変換が常に表示されるわけではありません。
O-Cluster (OC)アルゴリズムでは、次の設定がサポートされています。
クラスタ数: アルゴリズムで生成されるリーフ・クラスタの最大数です。デフォルトは10です。
バッファ・サイズ: アルゴリズムが使用できる、メモリー・バッファの最大サイズです(論理レコード単位)。デフォルトは50,000論理レコードです。
更新検出: 0 (クラスタ数が少ない)から1 (クラスタ数が多い)の間の数値です。デフォルトは0.5です。この値では、新しいクラスタを分割するために必要な最大密度を指定します。この値は、全体の均一密度と関連しています。
特異値分解(SVD)および主成分分析(PCA)は、特徴抽出用にOracle Data Miningで使用される監視なしアルゴリズムです。
Nonnegative Matrix Factorizationとは異なり、SVDおよびPCAは、基礎となるデータ分散を取得する場合に最適な直交線形変換です。この特性は、高次元データのディメンション性を減少させ、有益なデータの視覚化をサポートする場合に非常に役立つ。
注意: 特異値分解(SVD)および主成分分析(PCA)では、Oracle Database 12cが必要です。 |
ディメンション性の低減に加え、SVDとPCAには、データのノイズ除去(スムージング)、データ圧縮、マトリックス反転、線形方程式系の解決など、他にも複数の重要な応用があります。Oracle Data Mining実装SVD/PCAで、これらすべての領域を実質的にサポートできます。
SVDは、特徴抽出アルゴリズムとして実装されます。PCAは、SVDアルゴリズムの特別なスコア計算方法として実装されます。
関連項目: SVDモデルとPCAモデル、およびアルゴリズム設定の詳細は、次を参照してください。 |
SVDまたはPCAモデルを構築するには、特徴抽出ノードを使用します。特徴抽出モデルは、特徴構築ノードを作成します。Oracle Database 12cに接続している場合、特徴構築ノードは、1つのNMFモデルと1つのPCAモデルを作成します。SVDモデルを追加できます。
SVDまたはPCAモデルを適用するには、適用ノードを使用します。
この項では、PCAモデル・ビューア、PCAモデル・ビューアを表示する手順、およびPCAに関連するアルゴリズム設定について説明します。内容は次のとおりです。
PCAモデル・ビューアでは、正常に構築されたPCAモデルを調べることができます。次のいずれかの方法を使用して、PCAモデルを表示できます。
方法1
モデルが構築されたノードを右クリックします。
「プロパティに移動」を選択します。
「プロパティ」の「モデル」セクションで、をクリックします。
方法2
モデルが構築されたワークフロー・ノードを選択します。
右クリックし、「モデルの表示」をクリックします。
表示するモデルを選択します。モデル・ビューアが新しいタブで開きます。PCAモデルのデフォルト名は、名前にPCA
が含まれます。
モデル・ビューアには、次のタブがあります。
ある特徴IDに関して、その係数が「係数」グリッドに表示されます。グリッドのタイトル「係数: x / y」には、モデルで使用可能なすべての行から返された行数が表示されます。デフォルトでは、特徴IDは整数(1、2、3、…)です。選択した特徴IDの固有値が、読取り専用値として表示されます。
次のタスクを実行できます。
「係数」グリッドには次の列があります。
属性
特異値
値は棒として表示され、棒の中央に値が示されます。正の値は明るい青色で、負の値は赤色です。
デフォルトは「絶対値でソート」で、このオプションの選択を解除した場合は「問合せ」をクリックします。
選択した特徴IDの名前を変更できます。
「特徴ID」フィールドに新しい名前を入力します。
「OK」をクリックします。
注意: 異なる特徴には別の名前を付ける必要があります。 |
フィルタ・カテゴリを表示するには、をクリックします。
フィルタ・カテゴリを次に示します。
「属性」(デフォルト)では、属性名を検索します。
特異値、特異値列。
フィルタを作成するには、テキスト・ボックスに文字列を入力します。文字列が入力されると、が表示されます。フィルタをクリアするには、そのフィルタをクリックします。
PCAの「スクリー・プロット」では、次を指定します。
特徴は、X軸に沿って描画されます。
カットオフは、Y軸に沿って描画されます。
分散は赤い線として描画されます。
累積パーセントは青い線として描画されます。
グラフの下のグリッドには、各特徴IDの「固有値」、「分散」および累積パーセント分散が表示されます。
このタブには、次に示すSVDモデルのグローバル詳細の値が表示されます。
コンポーネント数
推奨カットオフ
「設定」タブには、次のタブがあります。
「一般」設定には、次のことがリストされます。
モデルのタイプ(分類、回帰など)
モデルの所有者(モデルが構築されたスキーマ)
モデル名
作成日
モデル構築の期間(分単位)
モデルのサイズ(MB)
コメント
「アルゴリズム」設定には、次のことがリストされます。
モデルの構築に使用されたアルゴリズムの名前。
モデル構築を制御するアルゴリズム設定。
このタブには、モデルの構築に使用された属性に関する情報が表示されます。
Oracle Data Minerでは、必ずしも構築データのすべての属性を使用するわけではありません。たとえば、属性の値が定数である場合、その属性は使用されません。
モデルの構築に使用された各属性に関して、このタブには次の情報が表示されます。
名前: 属性の名前。
データ型: 属性のデータ型。
マイニング型: 「カテゴリ型」または「数値型」。
データ準備: 「はい」
は、データ準備が実行されたことを示します。
属性を「属性」リストで選択した場合、変換プロパティ・ビューアには、ユーザーまたは自動データ準備によって作成された埋込み変換がモデル変換リストに表示されます。
逆変換を表示するには、反転式の表示をクリックします。変換はSQL表記法で表示されます。すべての変換に逆変換があるわけではありません。変換および逆変換が常に表示されるわけではありません。
PCAアルゴリズムでは、次の設定がサポートされています。
特徴数: デフォルトは「システム決定」です。値を指定するには、「ユーザー指定」を選択し、整数値を入力します。
近似計算: デフォルトは「システム決定」です。「有効化」または「無効化」を選択できます。近似計算によってパフォーマンスが向上します。
予測: デフォルトでは、「予測」は選択されていません。
特徴数: デフォルトは「システム決定」です。ユーザーは、数を指定できます。
スコアリング・モード: 使用するスコアリング・モード(特異値分解スコアリングまたは主成分分析スコアリング)です。デフォルトは、「主要コンポーネント分析スコアリング」(PCAスコアリング)
です。
ビルド・データがSVDでスコアリングされた場合、Uマトリックスと同じ予測になります。
ビルド・データがPCAでスコアリングされた場合、UマトリックスとSマトリックスの積が予測になります。
Uマトリックス出力: SVDによって作成されたUマトリックスを永続化するかどうかの指定。SVDのUマトリックスには、構築データの行と同数の行があります。大規模なモデルの作成を回避するため、Uマトリックスは、「Uマトリックス出力」が有効な場合にのみ永続化されます。「Uマトリックス出力」を有効にした場合、構築データにケースIDを含める必要があります。デフォルトは「無効」
です。
この項では、SVDモデル・ビューア、SVDモデル・ビューアを表示する手順、およびSVDに関連するアルゴリズム設定について説明します。内容は次のとおりです。
SVDモデル・ビューアでは、正常に構築されたSVDモデルを調べることができます。次のいずれかの方法を使用して、SVDモデルを表示できます。
方法1
モデルが構築されたノードを右クリックします。
「プロパティに移動」を選択します。
「プロパティ」の「モデル」セクションで、をクリックします。
方法2
モデルが構築されたワークフロー・ノードを選択します。
右クリックし、「モデルの表示」をクリックします。
表示するモデルを選択します。モデル・ビューアが新しいタブで開きます。SVDモデルのデフォルト名は、名前にSVD
が含まれます。
モデル・ビューアには、次のタブがあります。
ある特徴IDに関して、その係数が「係数」グリッドに表示されます。グリッドのタイトル「係数: x / y」には、モデルで使用可能なすべての行から返された行数が表示されます。デフォルトでは、特徴IDは整数です。
選択した特徴IDの固有値が、読取り専用値として表示されます。
「フェッチ・サイズ」によって、戻される行数が制限されます。デフォルトは1,000、またはモデル・ビューアの「プリファレンス」設定で指定した値となります。
次のタスクを実行できます。
「係数」グリッドには次の列があります。
属性(属性名)
特異値
値は棒として表示され、棒の中央に値が示されます。正の値は明るい青色で、負の値は赤色です。
デフォルトは「絶対値でソート」です。符号付き値でソートするには、オプションの選択を解除してから、「問合せ」をクリックします。
選択した特徴IDの名前を変更できます。新しい名を入力して、OKをクリックします。異なる特徴には別の名前を付ける必要があります。
フィルタ・カテゴリを表示するには、をクリックします。
フィルタ・カテゴリを次に示します。
「属性」(デフォルト)では、属性名を検索します
特異値、特異値列。
フィルタを作成するには、テキスト・ボックスに文字列を入力します。文字列が入力されると、が表示されます。フィルタをクリアするには、そのフィルタをクリックします。
グリッドには、各特徴IDの特異値が表示されます。
このタブには、次に示すSVDモデルのグローバル詳細の値が表示されます。
コンポーネント数
推奨カットオフ
「設定」タブには、次のタブがあります。
「一般」設定には、次のことがリストされます。
モデルのタイプ(分類、回帰など)
モデルの所有者(モデルが構築されたスキーマ)
モデル名
作成日
モデル構築の期間(分単位)
モデルのサイズ(MB)
コメント
「アルゴリズム」設定には、次のことがリストされます。
モデルの構築に使用されたアルゴリズムの名前。
モデル構築を制御するアルゴリズム設定。
このタブには、モデルの構築に使用された属性に関する情報が表示されます。
Oracle Data Minerでは、必ずしも構築データのすべての属性を使用するわけではありません。たとえば、属性の値が定数である場合、その属性は使用されません。
モデルの構築に使用された各属性に関して、このタブには次の情報が表示されます。
名前: 属性の名前。
データ型: 属性のデータ型。
マイニング型: 「カテゴリ型」または「数値型」。
データ準備: 「はい」
は、データ準備が実行されたことを示します。
属性を「属性」リストで選択した場合、変換プロパティ・ビューアには、ユーザーまたは自動データ準備によって作成された埋込み変換がモデル変換リストに表示されます。
逆変換を表示するには、反転式の表示をクリックします。変換はSQL表記法で表示されます。すべての変換に逆変換があるわけではありません。変換および逆変換が常に表示されるわけではありません。
SVDアルゴリズムでは、次の設定がサポートされています。
近似計算: パフォーマンスを向上させるために、アルゴリズムで近似計算を使用するかどうかを指定します。SVDでは、多くの場合、数多くの列を含むデータ・セットが近似計算に適しています。近似処理の低ランク分解では、適切な計算コストで十分な結果を得られます。SVDの近似計算を無効にすると、近似処理はデータの特徴に基づいて行われます。2500個の属性(特徴の最大許容数)を超えるデータ・セットでは、近似分解のみが実行可能です。2500個の属性を超えるデータ・セットで近似計算を無効にすると、例外が発生します。
近似計算の値を次に示します。
システム決定(デフォルト)
有効化
無効化
自動準備: 「オン」または「オフ」。デフォルトは「オン」です。
特徴数: 「システム決定」(デフォルト)。ユーザーは、数を指定できます。
スコアリング・モード: 使用するスコアリング・モード(特異値分解スコアリングまたは主成分分析スコアリング)です。デフォルトは、「単一値分解スコアリング」
です。
ビルド・データがSVDでスコアリングされた場合、Uマトリックスと同じ予測になります。
ビルド・データがPCAでスコアリングされた場合、UマトリックスとSマトリックスの積が予測になります。
Uマトリックス出力: SVDによって作成されたUマトリックスを永続化するかどうかの指定。SVDのUマトリックスには、ビルド・データの行と同数の行があります。大規模なモデルの作成を回避するため、Uマトリックスは、「Uマトリックス出力」が有効な場合にのみ永続化されます。「Uマトリックス出力」を有効にした場合、構築データにケースIDを含める必要があります。デフォルトは「無効化」です。
サポート・ベクター・マシン(SVM)アルゴリズムは、分類モデル、回帰モデルおよび異常検出モデルの構築に使用できます。次の項目では、サポート・ベクター・マシンについて説明します。
サポート・ベクター・マシン(SVM)アルゴリズムは、様々な問題およびデータで使用できるアルゴリズム・スイートです。あるカーネルを別のカーネルに変更することで、SVMは様々なデータ・マイニングの問題を解決できます。Oracle Data Miningでは、次の2つのカーネル関数をサポートしています。
線形
ガウス
SVMの主要な機能は次のとおりです。
SVMは、線形回帰、ニューラル・ネットなどの従来の方法をエミュレートできますが、柔軟性、スケーラビリティおよび速度の点でこれらの方法をはるかに超えています。
SVMを使用して、分類、回帰および異常検出の問題を解決できます。
OracleData Miningでは、異常検出用の1クラス分類機能としてSVMが使用されます。SVMは異常検出で使用される場合、分類マイニング機能を持ちますが、ターゲットは使用しません。1クラスSVMモデルを適用すると、スコアリング・データの各ケースに対して予測および確率が生成されます。予測が1の場合、そのケースは典型的とみなされます。予測が0の場合、そのケースは異常とみなされます。
n属性を含むデータ・レコードは、n次元空間のポイントとみなすことができます。これらの点は、SVMによって同種のターゲット値を持つサブセットに分割されます。点は、線形ケースの超平面、および非線形ケース(ガウス)の非線形セパレータによって分割されます。SVMは、クラスの最も広範な区切りを与えるセパレータを定義するベクター(サポート・ベクター)を検出します。n = 2の場合は簡単に視覚化でき、SVMは平面のポイントのクラスを分割する直線(線形)または曲線(非線形)を検出します。
SVMは、データ・ポイントの周りにn次元チューブを定義し、最も広範な区切りを与えるベクターを決定して、回帰問題を解決します。
サポート・ベクター・マシン(SVM)アルゴリズムは、ガウスおよび線形の2つのカーネル関数をサポートします。構築するモデルのタイプ(分類または回帰)およびデータに応じて、いずれかのカーネル関数を使用します。
カーネル関数を選択した場合は、次のいずれかを選択します。
システム決定(デフォルト)
ガウス
線形
分類モデルおよび異常検出モデルの場合は、ガウス・カーネルを使用して、クラスを線形に分離できない(つまり、クラスを線または平面で分離できない)問題を解決します。ガウス・カーネル・モデルを使用すると、強力な非線形クラス分離モデルが実現します。クラスを線形に分離できる場合は、線形カーネルを使用します。
回帰の問題の場合、線形カーネルも同様に直線を持つデータの近似値を求めます。線形カーネルは、データに直線を適合するよりも強力です。ガウス・カーネルでは、非線形関数を持つデータの近似値を求めます。
この項では、SVMモデルを構築およびテストする方法を説明します。構築データを表すデータ・ソース・ノードを適切な構築ノードに接続して、モデルの構築を指定します。
デフォルトでは、分類ノードまたは回帰ノードはそれ自体が構築したすべてのモデルをテストします。デフォルトでは、テスト・データは、入力データを構築サブセットとテスト・サブセットに分割することによって作成されます。または、2つのデータ・ソースを構築ノードに接続したり、テスト・ノードを使用してモデルをテストすることができます。
次の3種類のSVMモデルを構築できます。
SVM分類(SVMC)は、決定境界を定義する決定面の概念に基づいています。決定面は、異なるクラスのメンバーシップを持つオブジェクト・セット間を区別するものです。SVMは、クラスの最も広範な区切りを与えるセパレータを定義するベクター(サポート・ベクター)を検出します。
SVMCでは、2項および多クラスの両ターゲットがサポートされています。
SVMCモデルを構築およびテストするには、分類ノードを使用します。デフォルトでは、SVMCノードはそれ自体が構築したモデルをテストします。テスト・データは、入力データを構築サブセットとテスト・サブセットに分割することによって作成されます。テスト・ノードを使用してモデルをテストすることもできます。
SVMCモデルをテストした後に、そのモデルをチューニングできます。
SVMCはSVMの「重み」を使用して、ターゲット値の相対的な重要度を指定します。
SVMモデルは、クラス全体にわたって最良の平均予測を得るために自動的に初期化されます。トレーニング・データが実際の分布を代表していない場合は、モデルにバイアスをかけて、十分に代表されていないクラス値を補正できます。クラスの重みを増やすと、そのクラスの正しい予測子の割合が増加します。
SVMでは、回帰問題を解決するために、イプシロン非感受性損失関数が使用されます。SVM回帰(SVMR)では、データ・ポイントの最大数がイプシロン幅の非感受性チューブ内に収まるような連続関数の検出が試行されます。真のターゲット値のイプシロン距離内におさまる予測は、誤差として解釈されません。
イプシロン要素は、SVMR用の正則化設定です。この設定によって、モデルの堅牢性と誤差のマージンのバランスがとられ、新しいデータへの最適な一般化を実現できます。
SVMRモデルを構築およびテストするには、回帰ノードを使用します。デフォルトでは、回帰ノードはそれ自体が構築したモデルをテストします。テスト・データは、入力データを構築サブセットとテスト・サブセットに分割することによって作成されます。テスト・ノードを使用してモデルをテストすることもできます。
モデルを新規データに適用して、動作を予測します。適用ノードを使用して、SVMモデルを適用します。
3種類のSVMモデルをすべて適用できます。
1クラスSVMモデルは、適用時に、スコアリング・データの各ケースに対して予測および確率を生成します。この動作は、モデルが標準データでトレーニングされていることを反映しています。
予測が1の場合、そのケースは典型的とみなされます。
予測が0の場合、そのケースは異常とみなされます。
この項では、SVMモデル・ビューア、SVMモデル・ビューアを表示する手順、およびSVMに関連するアルゴリズム設定について説明します。内容は次のとおりです。
SVMモデル・ビューアでは、SVM分類モデルを調べることができます。次のいずれかの方法を使用して、SVMCモデルを表示できます。
方法1
モデルが構築されたノードを右クリックします。
「プロパティに移動」を選択します。
「プロパティ」の「モデル」セクションで、をクリックします。
方法2
モデルが構築されたワークフロー・ノードを選択します。
右クリックし、「モデルの表示」をクリックします。
表示するモデルを選択します。モデル・ビューアが新しいタブで開きます。モデル・ビューアに表示される情報は、モデルの構築に使用されたカーネルによって異なります。
モデル・ビューアに表示される情報は、モデルの構築に使用されたカーネルによって異なります。
ガウス・カーネルが使用された場合は、「設定」という1つのタブがあります。
線形カーネルが使用された場合は、「係数」、「比較」および「設定」という3つのタブがあります。
SVMCモデル・ビューアで表示されるタブは、次に示す、モデルの構築に使用されたカーネルによって異なります。
SVMCモデルが線形カーネルを持つ場合、そのビューアには次のタブがあります。
SVMCモデルがガウス・カーネルを持つ場合、そのビューアには次のタブがあります。
線形カーネルを使用して構築されたサポート・ベクター・マシン・モデルには係数が含まれ、それらの係数は実数です。係数の数値は膨大になる可能性があります。
「係数」タブでは、SVMの係数を表示できます。ビューアでは、係数が表示される順序を指定するソート、および表示する係数を選択するフィルタリングがサポートされています。
係数は「係数」グリッド(SVMC)に表示されます。係数の相対値は、棒としてグラフィカルに表示され、正と負の値では異なる色となります。ゼロに近い数値の場合、この棒は小さすぎて表示されない場合があります。
「係数」グリッドには次のコントロールがあります。
ターゲット値: 特定のターゲット値を選択し、その値に関連付けられている係数を表示します。デフォルトでは、発生頻度が最も低い値の係数が表示されます。
絶対値でソート: 選択されている場合、係数は絶対値でソートされます。絶対値でソートすると、-2の係数は1.9の係数の前にきます。デフォルトでは、絶対値でソートされます。
フェッチ・サイズ: 表示される行数。すべての係数が表示されているかどうかを確認するには、表示されている行数よりも大きいフェッチ・サイズを選択します。
属性を名前で検索できます。を使用します。グリッドに項目がリストされていない場合、選択したターゲット値に係数はありません。係数グリッドには次の列があります。
属性: 属性の名前。
値: 属性の値。属性がビニングされている場合、これは範囲になる場合があります。
係数: 属性の値の確率。
値は棒として表示され、棒の中央に値が示されます。正の値は明るい青色で、負の値は赤色です。
線形カーネルを使用して構築されたサポート・ベクター・マシン・モデルでは、ターゲット値の比較が可能です。選択した属性について、Data Minerは傾向(つまり、自然な性向やプリファレンス)を計算して、2つのターゲット値のうち1つを優先します。たとえば、「ターゲット値1」の傾向が、「ターゲット値1」を優先する傾向となります。
ターゲット値を比較するには、次の手順を実行します。
情報の表示方法を次のうちから選択します。
フェッチ・サイズ: デフォルトのフェッチ・サイズは1000の属性です。この数値は変更できます。
「絶対値でソート」がデフォルトです。このオプションの選択を解除できます。
比較する2つの個別のターゲット値を次のように選択します。
ターゲット値1: 最初のターゲット値を選択します。
ターゲット値2: 2つ目のターゲット値を選択します。
「問合せ」をクリックします。デフォルトを変更しなかった場合、このステップを実行する必要はありません。
グリッドに表示される情報:
属性: 属性の名前。
値: 属性の値
Target_Value_1の傾向: 「ターゲット値1」を優先する傾向。
Target_Value_2の傾向: 「ターゲット値2」を優先する傾向。
グリッドは、複数の方法で検索できます。
を使用して、グリッドを検索します。
名前(デフォルト)、値、およびターゲット値1の傾向やターゲット値2の傾向を基準にして検索できます。
別の検索オプションを選択するには、双眼鏡の横にある三角形をクリックします。
検索をクリアする場合は、をクリックします。
「設定」タブには、モデルが構築された方法に関する情報が表示されます。
「サマリー」(SVMR)タブ: モデルおよびアルゴリズムの設定が含まれます。
「入力」(SVMC)タブ: モデルの構築に使用された属性が含まれます。
「ターゲット値」(SVMC)タブ: ターゲットが含まれます。
「コスト・マトリックス/ベネフィット」タブ: モデルをチューニングすると、チューニングによって作成されたコスト・マトリックスがこのタブに表示されます。
「一般」設定には、次のことがリストされます。
モデルのタイプ(分類、回帰など)
モデルの所有者(モデルが構築されたスキーマ)
モデル名
作成日
モデル構築の期間(分単位)
モデルのサイズ(MB)
コメント。
「アルゴリズム」設定には、次のことがリストされます。
モデルの構築に使用されたアルゴリズムの名前。
モデル構築を制御するアルゴリズム設定。
モデルの構築に使用された属性のリストです。各属性について、次の情報が表示されます。
名前: 属性の名前。
データ型: 属性のデータ型。
マイニング型: 「カテゴリ型」または「数値型」。
ターゲット: アイコンは、属性がターゲット属性であることを示します。
データ準備: 「はい」
は、データ準備が実行されたことを示します。
属性を「属性」リストで選択した場合、変換プロパティ・ビューアには、ユーザーまたは自動データ準備によって作成された埋込み変換がモデル変換リストに表示されます。
逆変換を表示するには、反転式の表示をクリックします。変換はSQL表記法で表示されます。すべての変換に逆変換があるわけではありません。変換および逆変換が常に表示されるわけではありません。
ターゲット属性の値を表示します。
をクリックして、ターゲット値を検索します。
をクリックして、検索をクリアします。
サポート・ベクター・マシン分類では、重みは、ターゲット値(クラス)の相対的な重要度を示すためのバイアス・メカニズムです。SVMモデルは、クラス全体にわたって最良の平均予測を得るために自動的に初期化されます。ただし、トレーニング・データが実際の分布を代表していない場合は、モデルにバイアスをかけて、十分に代表されていないクラス値を補正できます。クラスの重みを増やすと、そのクラスの正しい予測子の割合が増加します。
デフォルトでは、分類モデルまたは回帰モデルが自動的にテストされます。分類モデルは、モデルの予測を既知の結果と比較することでテストされます。Oracle Data Minerでは、最新のテスト結果が保持されます。
モデルのテスト結果を表示するには、構築ノードを右クリックし、「結果の表示」を選択します。
サポート・ベクター・マシン(SVM)アルゴリズムに対して指定する設定は、選択するカーネル関数に基づきます。カーネル関数を選択する方法の詳細は、「SVMカーネル関数」を参照してください。
個々の設定の意味は、分類と回帰の両方で同じとなります。
SVM分類アルゴリズム設定を編集するには、次の手順を実行します。
次のいずれかのオプションを使用して、設定を編集できます。
分類ノードを右クリックし、「詳細設定」を選択します。
分類ノードを右クリックし、「編集」を選択します。次に、「拡張」をクリックします。
「アルゴリズム設定」タブで、設定を使用できます。「カーネル関数」を選択します。オプションは、次のとおりです。
システム決定(デフォルト)。モデルが構築されると、使用されたカーネルがモデル・ビューアの設定に表示されます。
線形。SVMで線形カーネルを使用する場合、モデルは係数を生成します。
ガウス(非線形関数)。
完了後、「OK」をクリックします。
線形カーネルを指定した場合、またはシステムによってカーネルが決定されるようにした場合は、次の設定を変更できます。
SVM回帰モデル・ビューアでは、SVMRモデルを調べることができます。次のいずれかの方法を使用して、SVMRモデルを表示できます。
方法1
モデルが構築されたノードを右クリックします。
「プロパティに移動」を選択します。
「プロパティ」の「モデル」セクションで、をクリックします。
方法2
モデルが構築されたワークフロー・ノードを選択します。
右クリックし、「モデルの表示」をクリックします。
表示するモデルを選択します。
モデル・ビューアに表示される情報は、モデルの構築に使用されたカーネルによって異なります。
ガウス・カーネルが使用された場合は、「設定」という1つのタブがあります。
線形カーネルが使用された場合は、「係数」、「比較」および「設定」という3つのタブがあります。
SVMCモデル・ビューアで表示されるタブは、次に示す、モデルの構築に使用されたカーネルによって異なります。
SVMCモデルがガウス・カーネルを持つ場合、そのビューアには次のタブがあります。
線形カーネルを使用して構築されたサポート・ベクター・マシン・モデルには係数が含まれます。係数は、実数です。係数の数値は膨大になる可能性があります。
「係数」タブでは、SVMRの係数を表示できます。ビューアでは、係数が表示される順序を指定するソート、および表示する係数を選択するフィルタリングがサポートされています。
係数はSVMRの「係数」グリッドに表示されます。係数の相対値は、棒としてグラフィカルに表示され、正と負の値では異なる色となります。ゼロに近い数値の場合、この棒は小さすぎて表示されない場合があります。
係数に関する情報は、次のように構成されています。
絶対値でソート: デフォルトでは、絶対値でソートされます。たとえば、1および-1は、同じ絶対値となります。この値を変更した場合は、「問合せ」をクリックする必要があります。
フェッチ・サイズ: フェッチする最大行数で、デフォルトは1,000です。値を小さくすると、フェッチが高速になります。この値を変更した場合は、「問合せ」をクリックする必要があります。
係数: 表示される係数の数で、たとえば95 / 95は、95の係数があり、それら95すべてが表示されることを示します。
次のタスクを実行できます。
検索: を使用して、項目を検索します。次の基準で検索できます。
属性名(デフォルト)
値
係数
すべて(および): この基準で検索すると、指定したすべての基準を満たす項目が検索されます。たとえば、ED Bacを検索すると、両方の値が出現するすべての属性が見つかります。
すべて(または): この基準で検索すると、少なくとも1つの値が含まれる属性が検索されます
検索のクリア: 検索をクリアするには、をクリックします。
別の検索オプションを選択するには、双眼鏡の横にある三角形をクリックします。
係数は、グリッドにリストされます。係数グリッドには次の列があります。
属性: 属性の名前
値: 属性の値
係数: 選択したターゲット値の各係数の値が表示されます。各係数の前に棒が表示されます(重なっている場合もあります)。棒は、係数の相対サイズを示します。正の値の場合、棒は明るい青色で、負の値の場合、棒は赤色です。値が0に近い場合、棒が小さすぎて表示されない場合があります。
モデルの構築に使用された属性のリストです。各属性について、次の情報が表示されます。
名前: 属性の名前。
データ型: 属性のデータ型。
マイニング型: 「カテゴリ型」または「数値型」。
ターゲット: アイコンは、属性がターゲット属性であることを示します。
データ準備: 「はい」
は、データ準備が実行されたことを示します。
属性を「属性」リストで選択した場合、変換プロパティ・ビューアには、ユーザーまたは自動データ準備によって作成された埋込み変換がモデル変換リストに表示されます。
逆変換を表示するには、反転式の表示をクリックします。変換はSQL表記法で表示されます。すべての変換に逆変換があるわけではありません。変換および逆変換が常に表示されるわけではありません。
「設定」タブには、モデルが構築された方法に関する情報が表示されます。
「サマリー」(SVMR)タブ: モデルおよびアルゴリズムの設定が含まれます。
「入力」(SVMR)タブ: モデルの構築に使用された属性が含まれます。
「一般」設定には、次のことがリストされます。
モデルのタイプ(分類、回帰など)
モデルの所有者(モデルが構築されたスキーマ)
モデル名
作成日
モデル構築の期間(分単位)
モデルのサイズ(MB)
コメント。
「アルゴリズム」設定には、次のことがリストされます。
モデルの構築に使用されたアルゴリズムの名前。
モデル構築を制御するアルゴリズム設定。
デフォルトでは、分類モデルまたは回帰モデルが自動的にテストされます。分類モデルは、モデルの予測を既知の結果と比較することでテストされます。Oracle Data Minerでは、最新のテスト結果が保持されます。
モデルのテスト結果を表示するには、構築ノードを右クリックし、「結果の表示」を選択します。
サポート・ベクター・マシン(SVM)アルゴリズムに対して指定する設定は、選択するカーネル関数に基づきます。
個々の設定の意味は、分類と回帰の両方で同じとなります。
SVM回帰アルゴリズム設定を編集するには、次の手順を実行します。
次のいずれかのオプションを使用して、設定を編集できます。
分類ノードを右クリックし、「詳細設定」を選択します。
分類ノードを右クリックし、「編集」を選択します。次に、「拡張」をクリックします。
「アルゴリズム設定」タブで、設定を使用できます。「カーネル関数」を選択します。オプションは、次のとおりです。
システム決定(デフォルト)。モデルが構築されると、使用されたカーネルがモデル・ビューアの設定に表示されます。
線形。SVMで線形カーネルを使用する場合、モデルは係数を生成します。
ガウス(非線形関数)。
完了後、「OK」をクリックします。
線形カーネルを指定した場合、またはシステムによってカーネルを決定した場合、SVM回帰モデルの次の設定を変更できます。
ガウス・カーネルを指定した場合は、SVM回帰モデルの次の設定を変更できます。
能動学習は、精度を維持するサポート・ベクターのサブセットの選択を最適化すると同時に、モデルの速度を高める方法です。能動学習の主な機能は次のとおりです。
線形カーネルのパフォーマンスを向上します。能動学習では、パフォーマンスの向上およびガウス・カーネルのサイズ縮小の両方が実現されます。これは、メモリーおよび一時ディスク領域に問題がある場合に重要な考慮事項となります。
SVMアルゴリズムは最も有益なサンプルを学習し、データ全体を使用しないように制限されます。通常、生成されるモデルの予測精度は、標準的な(精密な) SVMモデルの予測精度と同程度になります。
この設定は無効化しないでください。
能動学習はデフォルトで選択されています。オフにするには、能動学習の選択を解除します。
ほとんどのアルゴリズムでは、なんらかの形のデータ変換が必要となります。Oracle Data Miningは、モデルの構築プロセス中にアルゴリズムで必要とされる変換を自動的に実行できます。ユーザーは、この自動変換に独自の変換を追加したり、すべての変換を独自に管理できます。
自動変換を計算する際、Oracle Data Miningでは、経験則を使用して特定のアルゴリズムの一般的な要件を見つけます。多くの場合、このプロセスによってモデルの質がある程度確保されます。
ガウス・カーネルを選択した場合は、構築操作時に計算済カーネルを格納するために使用するキャッシュのサイズを指定できます。デフォルト・サイズは50MBです。
ガウス SVMモデルの構築時に最もコストがかかる操作は、カーネルの計算です。構築する際は、データのチャンク内に一度に収束して、次にチャンク外で違反をテストする方法が一般的です。許容値内に違反がなくなると、構築が完了します。チャンクのサイズは、関連するカーネルをメモリー内のカーネル・キャッシュで保持できるように選択されます。チャンク・サイズが大きくなるほど、チャンクがトレーニング・データの母集団をより適切に表すようになり、新しいチャンクの作成回数が少なくなります。一般的に、キャッシュが大きくなるほど、構築が高速になります。
デフォルトでは、複雑度係数は指定されません。
「複雑度係数の指定」を選択して、SVMモデルの複雑度係数を指定します。
複雑度係数によって、トレーニング・データでモデルの誤差を最小化することと、モデルの複雑性を最小化することの間のトレードオフが決定します。これは、データの過剰な適合(トレーニング・データで複雑すぎるモデル適合によるノイズ)、および不十分な適合(モデルがシンプルすぎる)を回避するために使用します。
複雑度係数の値が非常に大きいと、誤差に対して極端なペナルティが発生するため、SVMではターゲット・クラスの完全な分離を試みます。複雑度係数の値が小さいと、誤差に対して発生するペナルティは低く、モデル・パラメータに対する制約が高くなるため、モデル適合が不十分になる可能性があります。
ターゲット属性のヒストグラムが左または右に歪んでいる場合は、複雑度係数の値を大きくしてください。
デフォルトでは複雑度係数は指定されておらず、この場合、システムで複雑度係数が計算されます。複雑度係数を指定する場合は、正の数を指定してください。異常検出の複雑度係数を指定した場合、デフォルトは1です。
ガウス・カーネルを選択した場合は、ガウス・カーネルの標準偏差を指定できます。この値は、正の数であることが必要です。デフォルトでは、標準偏差は指定されていません。
異常検出の場合、標準偏差を指定すると、デフォルトは1です。
許容値は、モデルが収束したとみなされる場合など、収束条件の違反の最大サイズです。デフォルトは0.001です。値が大きいほどモデルの構築は高速になりますが、モデルの精度は低下します。
この項には、ほとんどのアルゴリズムで共通する設定に関する次の項目が含まれます。
モデル・ビューアの「設定」タブには、次の2つのカテゴリの設定が表示されます。
この項目で説明されている、一般設定
選択したアルゴリズムに固有のアルゴリズム設定
次の一般設定は、すべてのアルゴリズムに提供されます。
タイプ: モデルのマイニング機能(異常検出、相関ルール、属性重要度、分類、クラスタリング、特徴抽出または回帰)。
所有者: モデルの構築に使用されたデータ・マイニング・アカウント(スキーマ)。
モデル名: モデルの名前。
ターゲット属性: ターゲット属性(分類モデルと回帰モデルのみがターゲットを持ちます)。
作成日: モデルが作成された日付(MM/DD/YYYY
の形式)
期間: モデルの構築に必要となった時間(分単位)。
サイズ: モデルのサイズ(MB)。
コメント: Oracle Data Minerを使用して作成されていないモデルの場合、このオプションでは、モデルに埋め込まれたコメントを表示します。Oracle Data Minerを使用して構築されたモデルに対するコメントを表示するには、モデルが構築されたノードの「プロパティ」に移動します。
Oracle Data Minerを使用して作成されたモデルでは、BALANCED、NATURAL、CUSTOMまたはTUNEDが含まれている場合があります。Oracle Data Minerは、これらの値を挿入して、モデルがチューニングされたかどうかや、チューニングされた方法を示します。
他の設定は次のとおりです。
各ルール内の属性数の制限: デフォルトで、このオプションが選択されています。各ルール内の最大属性数です。この数は、2から20までの整数である必要があります。ルールの数が多いと、構築速度が遅くなります。ルール内の属性の数を変更したり、無制限にすることができます。デフォルトで開始して、この数を徐々に増やすことをお薦めします。
制限を指定しない場合は、このオプションの選択を解除します。
各ルールで多数の属性を指定すると、ルールの数が大幅に増えます。
デフォルトは3です。
自動準備: 「オン」
または「オフ」
。「オン」
は、自動データ準備(ADP)が正規化および外れ値検出に使用されることを示します。SVMアルゴリズムは、欠損値処理およびカテゴリ別データの変換を自動的に処理します。正規化および外れ値検出は、ADPで処理するか、手動で準備する必要があります。デフォルトは「オン」
です。
最小サポート: パーセンテージを示す0から100までの数字。支持度の値が小さくなると、構築速度が遅くなり、より多くのシステム・リソースが必要となります。デフォルトは5%です。
最小信頼度: ルールの信頼度。パーセンテージを示す、0から100までの数字。信頼度が高くなると、構築速度が速くなります。デフォルトは10%です。
SVMモデルのイプシロン値を指定するには、質問「イプシロン値を指定しますか。」
に対する回答でオプション「はい」をクリックします。イプシロン値は、0よりも大きいか未定義である必要があります。
SVMでは、小さいエラーと大きいエラーを区別します。この違いは、イプシロン値によって定義します。アルゴリズムによってイプシロン値が内部的に計算および最適化されるようにするか、ユーザーが値を指定することができます。
モデルで定義されているサポート・ベクターの数が非常に大きい場合は、イプシロン値を大きくしてみます。
カーディナリティが非常に高いカテゴリ属性がある場合は、イプシロンを減らしてみます。
デフォルトでは、イプシロン値は指定されていません。このような場合は、アルゴリズムによってイプシロン値が計算されます。