13 Oracle Machine Learningのアルゴリズム

Oracle Data Minerのモデルは様々な機械学習アルゴリズムでサポートされています。

Oracle Data Minerでは次のアルゴリズムがサポートされています。

13.1 「異常検出」

異常検出(AD)では、一見同質なデータ内に存在する特異なケースを識別します。

異常検出は、重大な意味を持ちながら検出することが難しい、不正行為、ネットワークへの侵入などの発生頻度の低いイベントを検出するための重要なツールです。

Oracle Machine Learningでは、異常検出(AD)用の1クラス分類機能としてサポート・ベクター・マシン(SVM)を使用します。SVMは異常検出で使用される場合、分類マイニング機能を持ちますが、ターゲットは使用しません。

異常の検索には次の2つの方法があります。

  • 異常検出モデルを構築して適用します。ADモデルを構築するには、適切なデータ・ソース・ノードに接続されている異常検出ノードを使用します。

  • 予測問合せノードの1つである異常検出問合せを使用します。

異常検出について、Oracle Machine Learning for SQLには次のアルゴリズムがあります。
  • 多変量状態推定法 - 逐次確率比検定 (MSET-SPRT)
  • 1クラス・サポート・ベクター・マシン(SVM)

MSET-SPRTアルゴリズムと1クラスSVMアルゴリズムを使用してモデルを作成する際は、分類の機械学習ファンクションを指定します。これらのアルゴリズムでは、ターゲットを使用しません。

13.1.1 「異常検出モデルの適用」

Oracle Machine Learningでは、異常検出(AD)用の1クラス分類機能としてサポート・ベクター・マシン(SVM)を使用します。

SVMは、異常検出に使用する場合には、分類の機械学習ファンクションがありますが、ターゲットは使用しません。1クラスSVMモデルは、適用時に、スコアリング・データの各ケースに対して予測および確率を生成します。

  • 予測が1の場合、そのケースは典型的とみなされます。

  • 予測が0の場合、そのケースは異常とみなされます。

この動作は、モデルが標準データでトレーニングされていることを反映しています。

13.1.2 「ADのアルゴリズム設定」

異常検出のアルゴリズムは、1クラスSVMです。

カーネル設定は次のいずれかになります。

  • システム決定(デフォルト)

  • ガウス

  • 線形

任意のバージョンのサポート・ベクター・マシン(SVM)アルゴリズムに指定できる設定は、選択したSVMカーネル関数によって異なります。

ノート:

モデルが構築されると、使用されたカーネル関数(線形またはガウス)が「アルゴリズム設定」の「カーネル関数」に表示されます。

関連項目

13.1.2.1 線形カーネルまたはシステム決定カーネルの異常検出アルゴリズム設定

線形カーネルまたはシステム決定カーネルの異常検出アルゴリズム設定には、許容値、複雑度係数、外れ値率および能動学習が含まれます。

線形カーネルを指定した場合、またはシステムによってカーネルが決定されるようにした場合は、次の設定を変更できます。

13.1.2.1.1 能動学習

能動学習は、精度を維持するサポート・ベクターのサブセットの選択を最適化すると同時に、モデルの速度を高める方法です。

ノート:

能動学習は、Oracle Database 12.2以上に接続したOracle Data Miner 21.2ではサポートされていません。

能動学習の主な機能は次のとおりです。

  • 線形カーネルのパフォーマンスを向上します。能動学習では、パフォーマンスの向上およびガウス・カーネルのサイズ縮小の両方が実現されます。これは、メモリーおよび一時ディスク領域に問題がある場合に重要な考慮事項となります。

  • SVMアルゴリズムは最も有益なサンプルを学習し、データ全体を使用しないように制限されます。通常、生成されるモデルの予測精度は、標準的な(精密な) SVMモデルの予測精度と同程度になります。

この設定は無効化しないでください。

能動学習はデフォルトで選択されています。オフにするには、能動学習の選択を解除します。

13.1.2.1.2 複雑度係数

複雑度係数によって、トレーニング・データでモデルの誤差を最小化することと、モデルの複雑性を最小化することの間のトレードオフが決定します。

これは、データの過剰な適合(トレーニング・データで複雑すぎるモデル適合によるノイズ)、および不十分な適合(モデルがシンプルすぎる)を回避するために使用します。デフォルトでは、複雑度係数は指定されません

「複雑度係数の指定」を選択して、SVMモデルの複雑度係数を指定します。

複雑度係数の値が非常に大きいと、誤差に対して極端なペナルティが発生するため、SVMではターゲット・クラスの完全な分離を試みます。複雑度係数の値が小さいと、誤差に対して発生するペナルティは低く、モデル・パラメータに対する制約が高くなるため、モデル適合が不十分になる可能性があります。

ターゲット属性のヒストグラムが左または右に歪んでいる場合は、複雑度係数の値を大きくしてください。

デフォルトでは複雑度係数は指定されておらず、この場合、システムで複雑度係数が計算されます。複雑度係数を指定する場合は、正の数を指定してください。異常検出の複雑度係数を指定した場合、デフォルトは1です。

13.1.2.1.3 外れ値率

外れ値率は、トレーニング・データに対して1クラスSVMモデルによって生成された近似の外れ値率(ネガティブ予測)です。この率は、疑わしいレコードの割合を示します。

率は、0より大きく、1以下の数値となります。デフォルト値は0.1です。

外れ値率を指定しない場合は、「外れ率を指定」の選択を解除します。

13.1.2.1.4 許容値

許容値は、モデルが収束したとみなされる場合など、収束条件の違反の最大サイズです。

デフォルト値は0.001です。値が大きいほどモデルの構築は高速になりますが、モデルの精度は低下します。

13.1.2.2 ガウス・カーネルの異常検出アルゴリズム設定

ガウス・カーネルの異常検出アルゴリズム設定には、許容値、複雑度係数、外れ値率、能動学習、標準偏差およびキャッシュ・サイズが含まれます。

ガウス・カーネルを指定した場合は、次の設定を変更できます。

13.1.2.2.1 アクティブな学習:オン

能動学習は、精度を維持するサポート・ベクターのサブセットの選択を最適化すると同時に、モデルの速度を高める方法です。

ノート:

能動学習は、Oracle Database 12.2以上に接続したOracle Data Miner 21.2ではサポートされていません。

能動学習の主な機能は次のとおりです。

  • 線形カーネルのパフォーマンスを向上します。能動学習では、パフォーマンスの向上およびガウス・カーネルのサイズ縮小の両方が実現されます。これは、メモリーおよび一時ディスク領域に問題がある場合に重要な考慮事項となります。

  • SVMアルゴリズムは最も有益なサンプルを学習し、データ全体を使用しないように制限されます。通常、生成されるモデルの予測精度は、標準的な(精密な) SVMモデルの予測精度と同程度になります。

この設定は無効化しないでください。

能動学習はデフォルトで選択されています。オフにするには、能動学習の選択を解除します。

13.1.2.2.2 キャッシュ・サイズ(ガウス・カーネル)

ガウス・カーネルを選択した場合は、構築操作時に計算済カーネルを格納するために使用するキャッシュのサイズを指定できます。

デフォルト・サイズは50 MBです。

ガウス SVMモデルの構築時に最もコストがかかる操作は、カーネルの計算です。構築する際は、データのチャンク内に一度に収束して、次にチャンク外で違反をテストする方法が一般的です。許容値内に違反がなくなると、構築が完了します。チャンクのサイズは、関連するカーネルをメモリー内のカーネル・キャッシュで保持できるように選択されます。チャンク・サイズが大きくなるほど、チャンクがトレーニング・データの母集団をより適切に表すようになり、新しいチャンクの作成回数が少なくなります。一般的に、キャッシュが大きくなるほど、構築が高速になります。

13.1.2.2.3 複雑度係数

複雑度係数によって、トレーニング・データでモデルの誤差を最小化することと、モデルの複雑性を最小化することの間のトレードオフが決定します。

これは、データの過剰な適合(トレーニング・データで複雑すぎるモデル適合によるノイズ)、および不十分な適合(モデルがシンプルすぎる)を回避するために使用します。デフォルトでは、複雑度係数は指定されません

「複雑度係数の指定」を選択して、SVMモデルの複雑度係数を指定します。

複雑度係数の値が非常に大きいと、誤差に対して極端なペナルティが発生するため、SVMではターゲット・クラスの完全な分離を試みます。複雑度係数の値が小さいと、誤差に対して発生するペナルティは低く、モデル・パラメータに対する制約が高くなるため、モデル適合が不十分になる可能性があります。

ターゲット属性のヒストグラムが左または右に歪んでいる場合は、複雑度係数の値を大きくしてください。

デフォルトでは複雑度係数は指定されておらず、この場合、システムで複雑度係数が計算されます。複雑度係数を指定する場合は、正の数を指定してください。異常検出の複雑度係数を指定した場合、デフォルトは1です。

13.1.2.2.4 外れ値率

外れ値率は、トレーニング・データに対して1クラスSVMモデルによって生成された近似の外れ値率(ネガティブ予測)です。この率は、疑わしいレコードの割合を示します。

率は、0より大きく、1以下の数値となります。デフォルト値は0.1です。

外れ値率を指定しない場合は、「外れ率を指定」の選択を解除します。

13.1.2.2.5 標準偏差(ガウス・カーネル)

標準偏差は、変動量を定量化するために使用されるメジャーです。

ガウス・カーネルを選択した場合は、ガウス・カーネルの標準偏差を指定できます。この値は、正の数であることが必要です。デフォルトでは、標準偏差は指定されていません。

異常検出の場合、標準偏差を指定すると、デフォルトは1です。

13.1.2.2.6 許容値

許容値は、モデルが収束したとみなされる場合など、収束条件の違反の最大サイズです。

デフォルト値は0.001です。値が大きいほどモデルの構築は高速になりますが、モデルの精度は低下します。

13.1.3 「異常検出モデル・ビューア」

モデル・ビューアに表示される情報は、モデルの構築に使用されたカーネルによって異なります。

モデル・ビューアに表示される情報は次のように決まります。

  • ガウス・カーネルが使用されている場合は、「設定」 という1つのタブがあります。

  • 線形カーネルが使用されている場合は、「係数」「比較」および「設定」という3つのタブがあります。

異常検出モデルは、特別な種類のサポート・ベクター・マシン分類モデルです。

13.1.3.1 ガウス・カーネルのADモデル・ビューア

モデル・ビューアに表示される情報は、モデルの構築に使用されたカーネルによって異なります。

ガウス・カーネルを使用するADモデルのモデル・ビューアの場合、「入力」タブと「設定」タブに情報が表示されます。

13.1.3.1.1 設定(AD)

異常検出モデル・ビューアの「設定」タブでは、「サマリー」と「入力」に情報が表示されます。

異常検出の「設定」タブは次のタブで構成されます。

13.1.3.1.1.1 サマリー(AD)

「サマリー」タブの一般設定はモデルの特性を表します。

次のものが含まれます。

  • 所有者

  • 名前

  • タイプ

  • アルゴリズム

  • ターゲット属性

  • 作成日

  • モデル構築の期間

  • コメント

「アルゴリズム設定」では、モデル構築を制御します。「アルゴリズム」設定は構築ノードを定義するときに指定します。

「ビルド詳細」には、計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

13.1.3.1.1.2 入力(AD)

「入力」タブには、モデルの構築に使用される属性が表示されます。

各属性について、次の情報が表示されます。

  • 名前: 属性の名前。

  • データ型: 属性のデータ型

  • マイニング型:

    • カテゴリ型

    • 数値型

    • 混在: 入力シグネチャの列が複数の属性タイプを持つことを示します。

    • パーティション: 入力シグネチャの列がパーティション・キーとして使用されることを示します。

  • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

  • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

13.1.3.1.2 入力(AD)

「入力」タブには、モデルの構築に使用される属性が表示されます。

各属性について、次の情報が表示されます。

  • 名前: 属性の名前。

  • データ型: 属性のデータ型

  • マイニング型:

    • カテゴリ型

    • 数値型

    • 混在: 入力シグネチャの列が複数の属性タイプを持つことを示します。

    • パーティション: 入力シグネチャの列がパーティション・キーとして使用されることを示します。

  • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

  • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

13.1.3.2 異常検出アルゴリズムの設定

異常検出モデルは、特別なバージョンのSVM分類である1クラスSVMを使用して構築します。

アルゴリズムのデフォルト設定は次のとおりです。

  • カーネル関数: デフォルトは「システム決定」です。モデルが構築されると、使用されたカーネル関数(線形またはガウス)が表示されます。

  • 許容値: デフォルトは0.001です。

  • 複雑度係数の指定: デフォルトは指定しないです。

  • 外れ率を指定: デフォルトは0.1です。

  • 能動学習: オン

  • 自動データ準備: オン

13.1.3.3 線形カーネルのADモデル・ビューア

モデル・ビューアに表示される情報は、モデルの構築に使用されたカーネルによって異なります。

線形カーネルを使用するADモデルのモデル・ビューアには、次のタブがあります。

13.1.3.3.1 係数(SVMC線形)

線形カーネルを使用して構築されたサポート・ベクター・マシン・モデルには係数が含まれます。係数は、実数です。係数の数値は膨大になる可能性があります。

「係数」タブでは、SVMの係数を表示できます。ビューアでは、係数が表示される順序を指定するソート、および表示する係数を選択するフィルタリングがサポートされています。

係数は「係数」グリッドに表示されます。係数の相対値は、棒としてグラフィカルに表示され、正と負の値では異なる色となります。ゼロに近い数値の場合、この棒は小さすぎて表示されない場合があります。

13.1.3.3.2 設定(AD)

異常検出モデル・ビューアの「設定」タブでは、「サマリー」と「入力」に情報が表示されます。

異常検出の「設定」タブは次のタブで構成されます。

13.1.3.3.3 比較(SVMC線形)

線形カーネルを使用して構築されたサポート・ベクター・マシン・モデルでは、ターゲット値の比較が可能です。ターゲット値を比較できます。

選択した属性について、Data Minerは傾向、つまり、自然な性向やプリファレンスを計算して、2つのターゲット値のうち1つを優先します。たとえば、「ターゲット値1」の傾向が、「ターゲット値1」を優先する傾向となります。

ターゲット値を比較するには:

  1. 情報の表示方法を次のうちから選択します。
    • フェッチ・サイズ: デフォルトのフェッチ・サイズは1000の属性です。この数値は変更できます。

    • 絶対値でソート: これがデフォルトです。このオプションの選択を解除できます。

  2. 比較する2つの個別のターゲット値を次のように選択します。
    • ターゲット値1: 最初のターゲット値を選択します。

    • ターゲット値2: 2つ目のターゲット値を選択します。

  3. 「問合せ」をクリックします。デフォルトを変更しなかった場合、このステップを実行する必要はありません。

グリッドに表示される情報:

  • 属性: 属性の名前。

  • 値: 属性の値

  • Target_Value_1の傾向: 「ターゲット値1」を優先する傾向。

  • Target_Value_2の傾向: 「ターゲット値2」を優先する傾向。

13.1.4 「モデル・ビューアでのモデルの表示」

モデルを正しく構築すると、モデル・ビューアでそのモデルの詳細を表示できるようになります。

モデルを構築するノードを正しく実行する必要があります。
モデル・ビューアには2つの方法でアクセスできます。「モデルの表示」コンテキスト・メニュー・オプションを使用してアクセスできます。
  1. モデルが構築されたワークフロー・ノードを選択します。

  2. 右クリックして「モデルの表示」を選択します。

  3. 表示するモデルを選択します。

モデル・プロパティからモデルを表示することもできます。
  1. モデルが構築されたノードを右クリックします。

  2. 「プロパティに移動」を選択します。

  3. 「プロパティ」の「モデル」セクションで、表示アイコンをクリックします。

13.2 相関

相関は、項目の予測であり、グループ化される可能性が高い、相関ルールを発見するための教師なし機械学習ファンクションです。Oracle Machine Learningでは、相関ルール(AR)という1つのアルゴリズムが提供されます。

ARモデルを構築するには、相関ノードを使用します。

ノート:

モデルにルールがない場合、または非常に多数のルールが存在する場合は、ARモデルのトラブルシューティングが必要になることがあります。

相関ルール(AR)モデルのデータは、通常、他の種類のモデルと異なり、トランザクション形式になります。

Oracle Machine Learningでは、ARモデルの適用(スコアリング)はサポートされません。

内容は次のとおりです。

関連項目

13.2.1 相関の計算

Aprioriアルゴリズムでの相関ルール計算では、高頻度項目セット内に、ある項目が別の項目とともに存在する確率が計算されます。この処理では、データベース内の個々の高頻度項目が識別されます。

相関マイニングの問題は、次の2つの下位問題に分解できます。

  1. 指定した最小頻度で発生する一連のトランザクションですべての項目の組合せを見つける。これらの組合せは高頻度項目セットと呼ばれます。

  2. 高頻度項目セット内で項目が同時に発生する確率を表す相関ルールを計算する。

13.2.1.1 項目セット

項目セットは1つ以上の項目で構成されます。

1つの項目セットに含める項目の最大数はユーザーが指定します。

  • 最大数を2にした場合は、2項目から構成されるすべての組合せがカウントされます。

  • 最大数が2を超える場合は、2項目から構成されるすべての組合せ、3項目から成るすべての組合せ、以降指定した最大数の項目から成るすべての組合せがカウントされます。

相関ルールは項目セットに基づいて計算されます。そのため、通常は、データ内での発生頻度が高い項目セットのみを使用してルールを生成する方が望ましいと言えます。高頻度項目セットとは、ユーザーが指定した最小頻度で発生する項目セットのことです。

最小頻度の項目セットの支持度は、相関ルール用に使用される項目セット数を制限するための割合であり、ユーザーが指定します。相関ルールの基盤として使用する項目セットは、すべてのトランザクションに対して少なくともこの割合で出現する必要があります。

関連項目

13.2.1.2 相関ルール

相関ルールは、IF antecedent THEN consequentの形式になります。

相関ルールは、項目または項目のグループ(前件)がある確率で別の項目(後件)の存在を示すことを表します。ターゲットを予測するデシジョン・ツリー・ルールとは異なり、相関ルールは単に相関関係を表します。

Aprioriアルゴリズムは、高頻度項目セット内の項目間の確率的な関係を表すルールを計算します。たとえば、A、BおよびCを含む高頻度項目セットから、「トランザクションにAとBが含まれる場合、Cも含まれる可能性が高い」というルールが導出されます。

相関ルールには、次のように信頼度および支持度が含まれます。

  • 相関ルールの信頼度は、同一のトランザクションで前件と後件の両方が発生する確率を示します。信頼度は、前件が発生した場合に後件が発生する条件付き確率です。つまり、信頼度は、前件を含むトランザクションの数に対する、ルールの支持度の割合です。

  • 相関ルールの支持度は、そのルールにある項目が同時に発生する頻度を示します。支持度は、全トランザクションの合計数に対する、前件と後件のすべての項目が含まれるトランザクションの割合です。

13.2.2 ARモデルのデータ

相関では、テキストはサポートされません。通常、相関ルールはトランザクション・データとともに使用されますが、単一レコード・ケース・データにも適用できます(他のアルゴリズムと同様)。

ネイティブ・トランザクショナル・データは、次の2つの列で構成されます。

  • ケースID (カテゴリ型または数値型のいずれか)、項目ID (カテゴリ型または数値型のいずれか)

トランザクショナル・データには3つ目の列が含まれる場合もあります。

  • 項目値、カテゴリ型または数値型のいずれか

トランザクショナル・データの典型例はマーケット・バスケット・データです。マーケット・バスケット・データでは、1つのケースが1つのバスケット(複数の項目を含む可能性がある)を表します。各項目は個別の行に格納され、1つのケースを表すのに多くの行が必要になる場合があります。ケースID値は各行を一意に識別しません。トランザクション・データはマルチレコード・ケース・データとも呼ばれます。

相関モデルを構築する場合は、次の情報を指定します。

  • 項目ID: トランザクション内の項目が含まれる列の名前です。

  • 項目値: トランザクション内の各項目に関連付けられている値が含まれる列の名前です。項目値列では、(リンゴ3個などの)項目数、(マッキントッシュのリンゴなどの)項目タイプなどの情報を指定できます。

    「アイテム値」のデフォルト値は「存在」です。つまり、バスケット内に、「アイテムID」で特定された1つ以上のアイテムがあります。

    項目値に特定の値を選択した場合は、適切なデータ準備を実行する必要がある場合があります。「アイテム値」の個別値の最大数は10です。項目値の特定の値が128よりも大きい場合は、変換ノードを使用して項目値で指定した属性をビニングします。

13.2.2.1 テキストのサポート(AR)

Oracle Data Minerでは、相関はテキストをサポートしません。

Oracle Machine LearningのAPIでテキストがサポートされている場合でも、相関にテキストを使用することは推奨されません。

13.2.3 ARモデルのトラブルシューティング

相関ルール・モデルでは、支持度と信頼度が非常に低い場合、多数のルールが生成されることがあります。

信頼度と支持度を高くすると、生成されるルールの数が減少します。

通常、信頼度は支持度以上である必要があります。

モデルにルールがない場合、「モデルにルールが含まれていません。確信度とサポートの設定を低くしてモデルを再構築することを検討してください。」というメッセージがモデル・ビューアの「ルール」タブに表示されます。

13.2.3.1 相関ルールのアルゴリズム設定

相関ノードのアルゴリズム設定を変更するには、ノードを右クリックし、「詳細設定」を選択します。次に、モデルを選択します。次の設定が「アルゴリズム設定」タブに表示されます。

  1. ノードを右クリックします。
  2. 「詳細設定」を選択します。
  3. モデルを選択します。次の設定が「アルゴリズム設定」タブに表示されます。
    • ルールの最大長: デフォルトは4です。

    • 最小確信度: デフォルトは10%です。

    • 最小サポート: デフォルトは1%です。

  4. ルールが生成されない場合は、次のことを実行します。
    • まず、最小支持度を低くしてみます。

    • 効果がない場合は、「最小確信度」値を低くします。これらの値のいずれに対しても、大幅に小さい値を指定する必要がある場合があります。

  5. 完了後、「OK」をクリックします。
  6. ノードを実行します。

13.2.4 ARモデル・ビューア

ARモデル・ビューアが新しいタブで開きます。相関モデルのデフォルト名は、名前にASSOCが含まれています。

ARモデル・ビューアには、次のタブがあります。

13.2.4.1 ARルール

相関ルールは、項目または項目のグループが別の項目の存在を示すことを表します。

各ルールには確率があります。ターゲットを予測するデシジョン・ツリー・ルールとは異なり、相関ルールは単に相関関係を表します。

属性がネストした列の場合、完全な名前はCOLUMN_ NAME.SUBNAMEとして表示されます。たとえば、GENDER.MALEです。属性が標準の列である場合は、列名のみが表示されます。

Oracle Machine Learningでは、前件(ルールのIF部分)に1つ以上の項目を、後件(ルールのTHEN部分)に1つの項目を持つ相関ルールをサポートしています。前件は条件と呼ばれ、後件は相関と呼ばれます。

ルールには、信頼度、支持度およびリフトが含まれます。

「ルール」タブは、上のセクション(フィルタリングとソート)および下のセクション(ARルール・グリッド)の2つのセクションに分かれています。上のセクションの設定を使用して定義されたソートまたはフィルタリングは、モデルのすべてのルールに適用されます。下のセクションの設定を使用して定義されたソートまたはフィルタリングは、グリッド表示にのみ適用されます。

「ルール」タブで、次の機能を実行できます。

  • ソート基準: ルールを表示する順序を指定できます。ルールは次の基準でソートできます。

    • リフト、信頼度、支持度または長さ

    • 昇順または降順

    ノート:

    集計情報を基準にソートできるのは、集計がノードに定義されている場合のみです。
  • フィルタ: フィルタリング・オプションを表示するには、「詳細」をクリックし、「フィルタの使用」を選択します。フィルタ表には次の列があります。

    • タイプ: タイプ(メトリックまたは項目)を示します。

    • フィルタ対象: 次のいずれかをダブルクリックして選択します。

      • リフト

      • 信頼度

      • 逆確信度

      • アイテム数

      • サポート

      • サポート数

    • フィルタ対象: フィルタの対象がルール、前件または後件のいずれであるかを示します。ダブルクリックして編集します。

    • 値: ここで値の範囲を設定できます。ダブルクリックして値の範囲を編集し、「適用」をクリックします。

  • フェッチ・サイズ: 多くの場合、相関モデルでは多数のルールが生成されます。調べるルールの数を指定するには、「フェッチ・サイズ」をクリックします。デフォルトは1000です。

  • 問合せ: 指定した基準を使用して、データベースを問い合せます。たとえば、デフォルトのソート順序の変更、フィルタリングの指定、またはフェッチ・サイズの変更を実行した場合は、「問合せ」をクリックします。

13.2.4.1.1 ARルール・グリッド

「ルール」タブの下の部分には、取得されたルールがグリッドで表示されます。次のことがグリッド上に表示されます。

  • 使用可能なルール: モデルのルールの総数。

  • 取得されたルール: 問合せによって取得されたルールの数、つまり、フィルタリングによって取得されたルールの数。

  • ルール・コンテンツ: 情報を最大化するには、「名前」、「サブ名」および「値」の3つをすべて選択しますが、より少ない特性をメニューから選択することもできます。この選択は、グリッド内のルールにのみ適用されます。ルール・コンテンツのスマートな機能により、この値は、モデルの性質に基づいてより読みやすく設定されます。

関連項目

13.2.4.1.2 ARルールの表示

各ルールでは、「ルール」グリッドに次の情報が表示されます。

  • ID: ルールの識別子、整数の文字列。

  • 条件

  • 相関

  • リフト: 棒が列に含まれます。棒のサイズは、いずれのルールでも、モデルで指定された最大のリフト値に合せてスケーリングするように設定されています。

  • 信頼度:

  • 支持度:

  • 長さ

  • 前件の支持度

  • 条件の支持度。集計が定義されている場合は、集計列を表示できます。デフォルトで表示される列の数は、相関ルールのプリファレンス設定によって制御します。

次のタスクを実行できます。

  • ソート: グリッド内の項目は、列のタイトルをクリックしてソートできます。このソートは、そのグリッドにのみ適用されます。

  • 詳細の表示: ルールの詳細を表示するには、ルールをクリックし、ルール詳細を調べます。

  • ルールの妥当性の決定: ルールが有効であるかどうかを決定するには、支持度と信頼度およびリフトを使用する必要があります。

  • 選択したルールの項目セット表示構造の変更:別の表示構造を選択するには、ルールを選択し、歯車アイコンをクリックします。「アイテム・セット表示構造の選択」ダイアログ・ボックスが開きます。

これらの統計例を含む詳細は、『Oracle Machine Learning for SQL概要』の相関ルールの評価に関する説明を参照してください

13.2.4.1.2.1 ARルールのリフト

リフトは、後件の支持度で除算した項目の組合せの信頼度として定義することができます。

ルールが有効であるかどうかを決定するには、ARルールの支持度とARルールの信頼度を使用する必要があります。ただし、これらの測度が高くても、有益でないルールが生成される場合もあります。

リフトは、それぞれの支持度を持つ前件と後件のランダムな同時発生に対するルールの強度を示します。リフトにより、改良度(前件を前提とする後件の確率の増加)に関する情報が得られます。リフトは次のように定義されます。

(ルールの支持度) / (支持度(前件) * 支持度(後件))

13.2.4.1.2.2 ARルールの信頼度

ルールの信頼度は、同一のトランザクションで前件と後件の両方が発生する確率を示します。

前件が存在する場合に後件が存在する条件付き確率です。

相関ルールは、IF antecedent THEN consequentの形式になります。

13.2.4.1.2.3 ARルールの支持度

ルールの支持度は、そのルールにある項目が同時に発生する頻度を示します。

支持度は、全トランザクションの合計数に対する、前件と後件のすべての項目が含まれるトランザクションの割合です。

相関ルールは、IF antecedent THEN consequentの形式になります。

13.2.4.1.2.4 アイテム・セット表示構造の選択

「アイテム・セット表示構造の選択」を使用すると、ARモデル・ビューアの「ルール」タブにトランザクション・データを表示する形式を各種選択できます。

Oracle Data Minerでは、トランザクション形式を使用するARモデルのみが構築されます。トランザクション・データはARルールでname.subnameと表されます(ここでは、name=列名subname=アイテム名)。ARでは集計メトリックがサポートされているため、値は選択されません。値を表示した場合は、デフォルトで1が表示されます。
Oracle Machine Learning APIを使用すると、非トランザクション・データを使用するモデルを構築できます。このような場合は、nameのみを入力し、Subnameは空にします。非トランザクション・データ構造はマーケット・バスケット分析のデータを表す構造として一般的ではないため、Oracle Data Minerではこのようなモデルを構築できません。ただし、それをモデル・ノードから参照することでモデルを表示することは可能です。
ARモデル・ビューアを表示するには、相関ルール・モデルを作成して実行する必要があります。
  1. 「ルール」タブの「ルール」セクションでルールを選択します。
  2. 「ルール」セクションで歯車アイコンをクリックします。
    「アイテム・セット表示構造の選択」ダイアログ・ボックスが開きます。
  3. 「アイテム・セット表示構造の選択」フィールドで、ドロップダウン・リストからオプションを選択します。使用可能なオプションは次のとおりです。
    • 名前
    • サブ名
    • 名前 = 値
    • 名前.サブ名 = 値
    • サブ名
    • サブ名 = 値
  4. 「OK」をクリックします。
13.2.4.1.3 ルールの詳細

ルール・グリッドでの情報は、「ルール詳細」リストに読みやすい書式で表示されます。

13.2.4.1.4 ソート

デフォルトのソートは次のとおりです。

  1. リフトによる降順ソート(デフォルト)

  2. 信頼度による降順ソート

  3. 支持度による降順ソート

  4. ルールの長さによる降順ソート

ここで指定したソートは、モデル内のすべてのルールに適用されます。

13.2.4.1.5 フィルタリング

すべてのフィルタリング・オプションを表示するには、「詳細」をクリックします。

次のものを指定できます。

  • フィルタ: フィルタ・ルールは、ルールの特性値に基づきます。次のものを指定できます。

    • 最小リフト

    • 最小サポート

    • 最小確信度

    • ルール内の最大項目数

    • ルール内の最小項目数

  • フェッチ・サイズ: フェッチする最大行数です。デフォルトは1000です。値を小さくすると、フェッチが高速になります。

  • 項目フィルタを定義して、戻されるルールの数を減らします。

フィルタを定義するには、「フィルタの使用」を選択します。フィルタを定義した後に、「問合せ」をクリックします。

関連項目

13.2.4.1.6 項目フィルタ

項目フィルタを使用すると、必要な内容が含まれるルールのみを表示できます。ルール・フィルタでは、相関、条件、またはそれら両方に必要な項目を考慮する必要があります。ルール・フィルタでは、ルールのそれぞれの側(相関コレクション、条件コレクション)にOR論理を使用します。ただし、ルール・フィルタはANDルールをコレクション全体で実行します。そのため、ルールが返されるには、そのルールに少なくとも1つの相関項目と1つの条件項目の両方が含まれる必要があります。

次のコントロールを使用して、項目フィルタを管理できます。

  • 「アイテム・フィルタの追加」ダイアログ・ボックスを開くには、追加をクリックします。

  • 選択した項目フィルタを削除するには、削除をクリックします。

  • 選択した行の「フィルタ」列を「両方」に変更するには、両方をクリックします。両方とは、相関と条件を示します。

  • 選択した行の「フィルタ」列を「条件」に変更するには、条件をクリックします。

  • 選択した行の「フィルタ」列を「相関」に変更するには、相関をクリックします。

13.2.4.1.7 項目フィルタの追加

「アイテムの追加」ダイアログ・ボックスを開くには、追加をクリックします。

表示される実際の情報は、モデルによって異なります。たとえば、表示しているモデルのデータに複数の異なる値がある場合は、「値」列があります。

「詳細」をクリックして、次のように設定できるすべての情報を表示します。

  • 項目フィルタのソートを指定します。デフォルトでは、属性で降順に、次に、支持度で昇順にソートされます。

  • フィルタの名前を指定します。

  • 「フェッチ・サイズ」をデフォルトの100,000から変更します。

  • 変更を行った場合は、「問合せ」をクリックして、属性または値のペアを取得します。

  • 取得した項目を名前または値でフィルタ処理します。

  • グリッド内の1つ以上の項目を選択します。

  • ルールのフィルタ時に項目を使用する方法を選択します。

フィルタの定義の終了後に「OK」をクリックします。

13.2.4.2 項目セット

ルールは項目セットから計算されます。項目セット・タブには、項目セットに関する情報が表示されます。

属性がネストした列の場合、完全な名前はCOLUMN_ NAME.SUBNAMEとして表示されます。たとえば、GENDER.MALEです。属性が標準の列である場合は、列名のみが表示されます。

項目セットには支持度があります。各項目セットには、1つ以上の項目が含まれます。

  • 項目セットをソートします。「ソート基準」では、項目セットの順序を指定します。項目セットは次の基準でソートできます。

    • ID

    • 項目数

    • 支持度の昇順

    • 支持度の降順

    デフォルトでは、項目セットは支持度で降順にソートされます。その他のソート・オプションを確認するには、「詳細」をクリックします。ソート順を変更するには、変更を加えてから、「問合せ」をクリックします。

  • 項目セットをフィルタ処理します

  • 項目セットの詳細を表示します。項目セットをクリックして、その詳細を表示します。

「アイテム・セット」タブには、次の情報が表示されます。

  • 使用可能な項目セット: モデル内の項目セットの合計数。

  • 取得された項目セット: 問合せで取得された項目セットの数。つまり、フィルタリングに基づいて取得された項目セットの数です。

  • 「アイテム・セット・コンテンツ」: 最大の情報を得るには、「名前」、「サブ名」および「値」の3つすべてを選択します。より少ない特性をメニューから選択できます。

他のタブ: ARモデル・ビューアには次に示すその他のタブがあります。

  • ARルール

  • 設定

13.2.4.2.1 項目セットの表示

各項目セットに関して、項目セット・グリッドには次の情報が表示されます。

  • ID: 項目セットの識別子、整数文字列

  • 項目

  • 支持度。列内の棒は、支持度の相対サイズを示します。

  • 項目セット内の項目の数

13.2.4.2.2 項目セットの詳細

項目セットの詳細を表示するには、項目セット・グリッド内の1つ以上の項目セットを選択します。項目セット・グリッド内での情報は、読みやすい書式で表示されます。

13.2.4.3 設定(AR)

ARモデルはスコアリングできない、つまり、新規データに適用できません。スコアリングできないモデルの場合、そのモデル・ビューアに「属性」タブはありません。

「設定」タブには、次のタブがあります。

  • サマリー

他のタブ:

  • 項目セット

  • ARルール

13.2.4.3.1 サマリー

「サマリー」タブには、モデルに関する次の情報が含まれています。

  • 一般: 次の情報がリストされます。

    • モデルのタイプ

    • モデルの所有者(分類、回帰など)

    • モデル名(モデルが構築されたスキーマ)

    • 作成日

    • モデル構築の期間(分単位)

    • モデル・サイズ(MB)

    • コメント

  • アルゴリズム: 次の情報がリストされます。

    • 自動準備(「オン」または「オフ」)

    • 最小確信度

    • 最小サポート

    これらの値を変更するには、モデル・ノードを右クリックし、「詳細設定」を選択します。

  • ビルド詳細: 次のことがリストされます。

    • アイテム・セット数

    • 最大サポート

    • 行数

    • ルール数

    • トランザクション件数

関連項目

13.2.4.3.1.1 アルゴリズム設定

相関(AR)では、次のアルゴリズム設定がサポートされています。

  • ルールの最大長: 各ルール内の最大属性数。この数は、2から20までの整数である必要があります。ルールの数が多いと、構築速度が遅くなります。デフォルト値は4です。

    ルール内の属性の数を変更したり、無制限にすることができます。各ルールで多数の属性を指定すると、ルールの数が大幅に増えます。デフォルトで開始して、この数を徐々に増やすことが推奨されます。

  • 最小信頼度: 信頼度は、データ内のこれらの項目が同時に発生する可能性を示します。信頼度は、前件が発生した場合に後件が発生する条件付き確率です。

    信頼度は、パーセンテージを示す0から100までの数字です。信頼度が高くなると、構築速度が速くなります。デフォルトは10パーセントです。

  • 最小サポート: パーセンテージを示す0から100までの数字。支持度は、項目がデータ内で同時に発生する頻度を示します。

    支持度の値が小さくなると、構築速度が遅くなり、より多くのシステム・リソースが必要となります。デフォルトは1パーセントです。

  • 最小サポート数: 任意の整数を指定できます。デフォルト値は1です。

  • 最小逆確信度(%): 任意の浮動小数点値を指定できます。デフォルトは0.0%です。

関連項目

13.2.5 「モデル・ビューアでのモデルの表示」

モデルを正しく構築すると、モデル・ビューアでそのモデルの詳細を表示できるようになります。

モデルを構築するノードを正しく実行する必要があります。
モデル・ビューアには2つの方法でアクセスできます。「モデルの表示」コンテキスト・メニュー・オプションを使用してアクセスできます。
  1. モデルが構築されたワークフロー・ノードを選択します。

  2. 右クリックして「モデルの表示」を選択します。

  3. 表示するモデルを選択します。

モデル・プロパティからモデルを表示することもできます。
  1. モデルが構築されたノードを右クリックします。

  2. 「プロパティに移動」を選択します。

  3. 「プロパティ」の「モデル」セクションで、表示アイコンをクリックします。

13.3 デシジョン・ツリー

デシジョン・ツリー・アルゴリズムは、ルールを生成する分類アルゴリズムです。Oracle Machine Learningでは、デシジョン・ツリー(DT)アルゴリズムがサポートされています。

内容は次のとおりです。

13.3.1 デシジョン・ツリー・アルゴリズム

デシジョン・ツリー・アルゴリズムは条件付き確率に基づきます。

ただし、デシジョン・ツリーでは、Naive Bayesとは異なり、ルールが生成されます。ルールは、ユーザーが使用でき、レコード・セットを識別するためにデータベース内で使用できる条件文です。

デシジョン・ツリー・アルゴリズム:

  • ユーザーによる操作をあまり必要とせずに、正確かつ解釈可能なモデルを作成します。このアルゴリズムは、2項および多クラスのどちらの分類問題にも使用できます。このアルゴリズムは、作成時と適用時の両方において高速です。デシジョン・ツリー・アルゴリズムの作成プロセスは、並列処理されます。スコアリングはアルゴリズムに関係なく並列処理されます。

  • 一連の質問を問うことによってターゲット値を予測します。各段階で問われる質問はそれぞれ、直前の質問に対する回答によって決まります。最終的に特定のターゲット値を一意に識別できるような質問を重ねていきます。

デシジョン・ツリーのスコアリングは特に高速です。モデル作成時に作成されるツリー構造は、一連(通常、2から7)の単純なテストに使用されます。各テストは、単一の予測子に基づきます。これは、値のリストにIN(含まれる)かNOT IN(含まれない)か(質的予測子)、または、一定の値に対してLESS THAN(未満)かEQUAL TO(等しい)か(量的予測子)のメンバーシップに関するテストです。

デシジョン・ツリー・アルゴリズムは、モデル構築において、ケース(レコード)のセットを2つの子ノードに分割する最も効率的な方法を繰り返し見つける必要があります。Oracle Machine Learningでは、この分岐の計算用に2つの同種メトリック(ジニおよびエントロピ)を使用できます。デフォルトのメトリックはginiです。

13.3.1.1 デシジョン・ツリー・ルール

ルールは、モデルの予測の根拠を示します。

ルールではモデルの透明性が提供され、モデルの内部機構について知ることができます。Oracle Machine Learningではモデルの透明性が高いレベルで確保されています。

信頼度と支持度は、次のように、デシジョン・ツリー・アルゴリズムによって生成されたルールをランク付けするために使用されます。

  • 支持度: ルールを満たすトレーニング・データ・セット内のレコード数です。

  • 信頼度: ルールが満たされている場合に、予測結果が発生する可能性です。

13.3.2 「デシジョン・ツリー・モデルの構築、テストおよび適用」

デシジョン・ツリー・アルゴリズムは、自身のデータ準備を内部的に管理します。データを事前処理する必要はありません。

デシジョン・ツリーは自動データ準備の影響を受けません。

デシジョン・ツリーは、欠損値を、ランダムに欠損した値として解釈します。このアルゴリズムでは、ネストした表がサポートされないため、スパース・データもサポートされません。デシジョン・ツリー・モデルで次のタスクを実行できます。
  • デシジョン・ツリー・モデルの構築: デシジョン・ツリー・モデルを構築する場合は、分類ノードを使用します。Oracle Machine Learning 12cリリース1(12.1)以上では、デシジョン・ツリーはネストされたデータをサポートします。デシジョン・ツリーは、Oracle Database 12c以上のテキストをサポートしますが、それより前のリリースのテキストはサポートしません。

  • デシジョン・ツリー・モデルのテスト: デフォルトでは、分類ノードはそれ自体が構築したすべてのモデルをテストします。テスト・データは、入力データを構築サブセットとテスト・サブセットに分割することによって作成されます。テスト・ノードを使用してデシジョン・ツリー・モデルをテストすることもできます。

  • デシジョン・ツリー・モデルのチューニング: デシジョン・ツリー・モデルを構築およびテストした後、そのモデルをチューニングできます。

  • デシジョン・ツリー・モデルの適用: モデルを適用するには、適用ノードを使用します。

13.3.3 デシジョン・ツリー・アルゴリズム設定

デシジョン・ツリー・アルゴリズムでサポートされている設定がリストされます。

  • 同質性メトリック:

    • ジニ(デフォルト)

    • エントロピ

  • 最大深度: ツリーの最大レベル数。デフォルトは7です。値は2から20の範囲の整数にする必要があります。

  • ノードの最小レコード: ノードの最小レコード数。デフォルトは10です。値は0以上の整数にする必要があります。

  • ノードのレコード数の最小パーセント: デフォルトは0.05です。値は0から10の範囲の数にする必要があります。

  • 教師ありビンの最大数: 教師ありビンを使用するアルゴリズムの属性ごとのビン数の上限。デフォルト値は32です。

  • 分割の最小レコード: 分割する最小レコード数。デフォルトは20です。値は0以上の整数にする必要があります。

  • 分割のレコード数の最小パーセント: デフォルトは0.1です。値は0から20の範囲の数にする必要があります。

13.3.4 「デシジョン・ツリー・モデル・ビューア」

デシジョン・ツリー・モデルのデフォルト名は、名前にDTが含まれます。ツリー・ビューアには、次の2つのタブがあります。

  • ツリー: このタブはデフォルトで表示されます。「構造」ウィンドウを使用して、ツリーを移動および分析します。次の2つのペインに水平方向に分割されます。

    • 上のペインにはツリーが表示されます。ルート・ノードはペインの最上部にあります。ツリーの各ノードに関して次の情報が表示されます。

      • ノード番号: 0はルート・ノードです。

      • 予測: 予測されたターゲット値。

      • サポート: これは予測に対するものです。

      • 信頼度: これは予測に対するものです。

      • ヒストグラムには、ノードのターゲット値の分布が表示されます。

      • 分割: ノードの分割に使用される属性(リーフ・ノードに分割はありません)。

    • 下部ペインには、ルールが表示されます。ノードまたはリンクに関連付けられているルールを表示するには、そのノードまたはリンクを選択します。ルールが下部ペインに表示されます。次の情報が下部ペインに表示されます。

      • ルール

      • サロゲート

      • ターゲット値

  • 設定: 上部ペインの最上部にあるアイコンとメニューにより、ツリーおよびそのノードが表示される方法が制御されます。次のタスクを実行できます。

  • ツリーのズームインまたはズームアウト。ドロップダウン・リストからサイズを選択することもできます。ツリーをウィンドウに合せることもできます。

  • レイアウトを水平に変更します。ツリーのデフォルトの「レイアウト・タイプ」は垂直です。

  • ノードに表示されるヒストグラムを非表示にします。

  • 表示される内容を減らします。

  • すべてのノードを展開します。

  • ルールの保存

13.3.4.1 ルールの保存

デシジョン・ツリー・ルールまたはクラスタリング・ルールをファイルとしてシステムに保存できます。

アルゴリズム・ルールを保存するには:

  1. 上のタブの右端にある「ルールの保存」をクリックします。デフォルトでは、リーフ・ノードのルールのみがMicrosoft Windowsのクリップボードに保存されます。その後、これらのルールをMicrosoft Wordドキュメントなどの任意のリッチ・ドキュメントに貼り付けることができます。「リーフのみ」の選択を解除して、すべてのルールを保存することもできます。
  2. ルールをファイルに保存するには、「ファイルに保存」をクリックして、ファイル名を指定します。
  3. 「保存」ダイアログ・ボックスでファイルの場所を選択します。デフォルトでは、ルールはHTMLファイルとして保存されます。
  4. 「OK」をクリックします。
13.3.4.2 設定(DT)

「設定」タブには、モデル・サマリー、入力、ターゲット値、コスト・マトリックス(モデルがチューニングされている場合)、パーティション・キー(モデルがパーティション化されている場合)などに関する情報が含まれています。

「パーティション」フィールドで、パーティション名をクリックします。パーティションの詳細が「パーティションの詳細」ウィンドウに表示されます。

検索をクリックして「パーティションの選択」ダイアログ・ボックスを開くと、パーティション・キーに基づいてフィルタ処理されたパーティションが表示されます。

「設定」タブの内容は次のとおりです。

13.3.4.2.1 サマリー(DT)

「サマリー」タブには、モデルに関する次の情報が表示されます。

  • 「一般」には、次の情報が含まれています。

    • モデルのタイプ

    • モデルの所有者(モデルが構築されたスキーマ)

    • モデル名

    • 作成日

    • モデル構築の期間(分単位)

    • モデルのサイズ(MB)

    • コメント(モデルにコメントがある場合)

  • アルゴリズム

  • 「ビルド詳細」には、計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

13.3.4.2.2 入力(DT)

「入力」タブには、モデルの構築に使用された属性に関する情報が表示されます。

Oracle Data Minerでは、必ずしも構築データのすべての属性を使用するわけではありません。たとえば、属性の値が定数である場合、その属性は使用されません。

モデルの構築に使用された各属性に関して、このタブには次の情報が表示されます。

  • 名前

  • データ型

  • マイニング型: 「カテゴリ型」、「数値型」または「テキスト」。

  • ターゲット: この列のチェックは、属性がターゲットであることを示します。

  • データ準備

    • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

    • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。
13.3.4.2.3 パーティション・キー

「パーティション・キー」タブには、パーティション化された列がリストされます。

「パーティション・キー」タブには、パーティション化された列とともに次の詳細がリストされます。
  • パーティション名

  • ソース

  • データ型

13.3.4.2.4 ターゲット値(DT)

「ターゲット値」タブには、ターゲット属性、そのデータ型および各ターゲット属性の値が表示されます。

13.4 期待値の最大化

期待値の最大化(EM)は、密度推定の技術です。Oracle Machine Learningでは、確率密度推定を使用する配布ベースのクラスタリング・アルゴリズムとしてEMを実装します。

密度推定の目的は、所与の母集団がどのように分布しているかを取得する密度関数を構成することです。密度推定値は、母集団のサンプルを表現する観測済データに基づく。

ノート:

期待値の最大化では、Oracle Database 12c以上が必要です。

密度の高い領域は、コンポーネントまたはクラスタとして解釈されます。密度ベースのクラスタリングは、クラスタ内の最小の距離および最大の距離に強調が置かれる距離ベースのクラスタリング(k-Meansなど)とは概念的に異なります。

期待値の最大化で使用される確率密度関数の形状によって、識別されたクラスタの形状が効率的に前もって決定されます。たとえば、ガウス密度関数では、単一ピークの対称クラスタを識別できます。これらのクラスタは、単一の成分によってモデル化されます。より複雑な形状のクラスタは、複数の成分によってモデル化される必要があります。期待値の最大化アルゴリズムでは、デフォルトで、モデル成分を高レベル・クラスタに割り当てます。

13.4.1 EMモデルの構築および適用

期待値の最大化モデルを構築および適用するには、それぞれクラスタリング・ノードおよび適用ノードを使用します。

EMモデルを構築するには、クラスタリング・ノードを使用します。

ノート:

Oracle Database 12c以上に接続する必要があります。

EMモデルを適用するには、適用ノードを使用します。

13.4.2 EMアルゴリズム設定

期待値の最大化アルゴリズムでサポートされている設定がリストされます。

設定は次のとおりです。

  • 「クラスタ数」は、アルゴリズムによって生成されたリーフ・クラスタの最大数です。データによっては、指定した数よりも少ないクラスタがEMによって返される場合があります。EMによって返されるクラスタ数は、アルゴリズム固有の設定で制御しているコンポーネント数を超えることはできません。これらの設定によっては、コンポーネントよりも少ないクラスタが存在する場合があります。コンポーネントのクラスタリングが無効な場合、クラスタの数はコンポーネントの数に等しくなります。

    デフォルトは「システム決定」です。特定の数のクラスタを指定するには、「ユーザー指定」をクリックし、整数値を入力します。

  • 「コンポーネントのクラスタリング」がデフォルトで選択されています。

    「コンポーネント・クラスタのしきい値」では、EMコンポーネントのクラスタリングを制御する相違のしきい値を指定します。値が小さいと、よりコンパクトな多数のクラスタが作成され、値が大きいと、より広く散らばった少数のクラスタが作成されます。デフォルト値は2です。

  • 「リンク・ファンクション」では、凝集クラスタリング・ステップにおけるリンケージ機能の指定を許可します。リンケージ機能は次のとおりです。

    • 「シングル」では、ブランチ内の最短距離が使用されます。クラスタは、大きくて特異な形状をしている傾向があります。

      「シングル」がデフォルトです。

    • 「平均」では、ブランチ内の平均距離が使用されます。連鎖効果は少なく、クラスタはよりコンパクトなものになります。

    • 「完了」では、ブランチ内の最大距離が使用されます。クラスタは小さく、強固なコンポーネント・オーバーラップを必要とします。

  • 近似計算は、パフォーマンスを向上させるために、アルゴリズムで近似計算を使用するかどうかを示します。

    EMの場合、近似計算は、多数のコンポーネントが含まれた大規模なモデルや、多数の列を持つデータ・セットに適しています。近似計算では、このモデルに最大の影響を与える可能性があるパラメータでの学習を制限する、ローカライズされたパラメータの最適化が使用されます。

    近似計算の値を次に示します。

    • システム決定(デフォルト)

    • 有効化

    • 無効化

  • 「コンポーネント数」では、モデル内の最大コンポーネント数を指定します。アルゴリズムによってコンポーネントの数(尤度関数の改善度または正則化に基づいた指定された最大数まで)が自動的に決定されます。

    コンポーネントの数は、クラスタの数以上である必要があります。

    デフォルトのコンポーネント数は20です。

  • 「最大反復数」では、EMコア・アルゴリズムにおける最大反復数を指定します。最大反復数は、1以上である必要があります。この設定は入力表または入力ビューの全体に適用され、属性ごとの指定は許可されません。

    デフォルトは100です。

  • 「対数尤度の改善率」では、モデルに新しいコンポーネントを追加するために必要な対数尤度関数の値の改善率を指定します。

    デフォルト値は0.001です。

  • 「収束基準」では、EMの収束基準を指定します。収束基準は次のとおりです。

    • システム決定(デフォルト)

    • ベイジアン情報量規準

    • 除外データセット

  • 「数値分布」では、数値属性をモデリングするための分布を指定します。分布のオプションは次のとおりです。

    • ベルヌーイ

    • ガウス

    • システム決定(デフォルト)

    ベルヌーイ分布やガウス分布を選択した場合、すべての数値属性が同じ分布を使用してモデリングされます。システム決定の分布の場合は、個々の属性で、データに応じて異なる分布(ベルヌーイ分布またはガウス分布)を使用できます。

  • 「詳細のレベル」では、クラスタ(セントロイド、ヒストグラムおよびルール)の記述統計の収集を有効または無効にします。クラスタ統計を無効にすると、モデルが小さくなり、計算されるモデル詳細が減ります。

    • 「すべて」を選択すると、アルゴリズム設定が有効になります。

    • 「階層」を選択すると、アルゴリズム設定が無効になります。

  • 「属性ルール・サポートの最小パーセント」では、属性をクラスタ・ルールに含めるためにその属性に存在する必要があるクラスタに割り当てられたデータ行のパーセンテージを指定します。デフォルト値は0.1です。

  • 「データの準備と分析」では、データの準備と分析の設定を指定します。選択内容を表示または変更するには、「設定」をクリックします。

  • 「乱数シード」では、期待値の最大化で使用されるランダム・ジェネレータのシードを制御します。この値は、負でない整数である必要があります。デフォルトは0です。

  • 「モデル検索」では、EMでの検索を有効にし、様々なモデル・サイズの中から最適なサイズを選択できます。デフォルトでは、「無効化」に設定されています。

  • 「小さいコンポーネントの削除」では、アルゴリズムでソリューションから小さいコンポーネントを削除できるようにします。デフォルトでは、「有効化」に設定されています。

完了後、「OK」をクリックします。

13.4.2.1 EMデータの準備と分析の設定

このダイアログ・ボックスでは、次の設定を表示または変更できます。

  • 「相関2D属性の最大数」では、EMモデルで使用される相関2次元属性の最大数を指定します。2次元属性は、単純な(ネストしていない)データ型の列に対応します。

    デフォルトは50です。

  • 「ネストした列ごとの予測数」では、ネストした各列で使用される予測の数を指定します。指定した数の予測よりも列の個別属性の数が少ない場合、データの予測は行われません。この設定は、すべてのネストしている列に適用されます。

    デフォルトは50です。

  • 「変位値ビニングの数(数値型の列)」では、複数値のベルヌーイ分布において、数値列のモデリングに使用される分位ビンの数を指定します。

    デフォルトは「システム決定」です。

  • 「TopNビニングの数」(カテゴリ型の列)では、複数値のベルヌーイ分布において、カテゴリ型の列のモデリングに使用される上位Nビンの数を指定します。

    デフォルトは「システム決定」です。

  • 「等幅ビニングの数(数値型の列)」では、数値型の列のクラスタ統計を収集するために使用される等幅ビンの数を指定します。

    デフォルトは11です。

  • 「相関関係のない2D属性を含める」では、相関関係のない2次元属性をモデルに含めるかどうかを指定します。2次元属性は、ネストされていない列に対応します。

    値は次のとおりです。

    • システム決定(デフォルト)

    • 有効化

    • 無効化

変更を完了したら、「OK」をクリックします。

13.4.3 EMモデル・ビューア

EMモデル・ビューアでEMモデルを表示および調べることができます。

「ツリー」タブがデフォルトで表示されます。EMモデル・ビューアには、次のタブがあります。

13.4.3.1 EM、KMおよびOCのツリー・ビューア

ツリー・ビューアは、階層クラスタのグラフィカル・ツリーです。

期待値の最大化、k-Meansおよび直交クラスタリングの各ツリー・ビューアの動作は同じです。ツリーを表示すると、次のようになります。

  • ワークフロー・サムネイルが開き、ツリー全体のビューが示されます。

  • 「構造」ウィンドウは、ツリーの移動および分析を実行する場合に役立ちます。

EM、KMおよびOCの「比較」を使用して、特定のノードの属性を、母集団の属性と比較できます。

特定のノードに関する情報を表示するには:

  1. ノードを選択します。

  2. 下部のペインでは、次に示す各タブに情報が表示されます。

    • 重心: クラスタの重心を表示します。

    • クラスタ・ルール: クラスタのすべての要素が満たすルールを表示します。

表示コントロール:

次のコントロールによってツリーの表示全体が制御されます。

  • ズームイン: ダイアグラムにズームインし、ルールの詳細ビューを表示します。

  • ズームアウト: ダイアグラムをズームアウトし、ルールの大部分またはすべてのビューを表示します。

  • パーセント・サイズ: ビューの拡大率を正確なパーセンテージで選択できます。

  • ウィンドウに合せる: ダイアグラム全体が画面内に収まるまでダイアグラムからズームアウトします。

  • レイアウト・タイプ: 水平レイアウトまたは垂直レイアウトを選択でき、デフォルトは垂直レイアウトとなっています。

  • 展開: すべてのノードにツリーのブランチが表示されます。

  • 詳細の表示: 各ツリー・ノードの詳細データを表示します。もう一度クリックすると、詳細が非表示になります。

  • 上位の属性: 上位Nの属性を表示します。デフォルトでは、Nは5です。Nを変更するには、リストから別の数を選択します。

  • リフレッシュ: 変更された「問合せ設定」を適用できます。

  • 問合せ設定: 上位数の設定を変更できます。デフォルトは10です。別の数を新しいデフォルト値として保存できます。

  • ルールの保存

13.4.3.2 クラスタ(ビューア)

「クラスタ」タブでは、選択したクラスタに関する情報を表示できます。このビューアでは、選択した確率のみが表示されるようにするフィルタリングがサポートされています。

EM、KMおよびOCの「クラスタ」タブは同じように動作します。

次の情報が表示されます:

  • クラスタ: 表示されるクラスタのID。別のクラスタを表示するには、メニューから別のIDを選択します。「リーフのみ」を選択して、リーフのみ(終端クラスタ)を表示できます。「リーフのみ」がデフォルトです。

  • フェッチ・サイズ: デフォルトは20です。この値は変更できます。

    「フェッチ・サイズ」を変更した場合は、「問合せ」をクリックして、新しい表示を確認します。

グリッドには、クラスタ内の属性がリストされます。各属性について、次の情報が表示されます。

  • 属性の「名前」

  • クラスタ内の属性値の「ヒストグラム」

  • 数値、およびパーセンテージを示す棒の両方として表示される「信頼度」。信頼度が非常に小さい場合、棒は表示されません。

  • 支持度(ケースの数)。

  • 平均。数値属性の場合に表示されます。

  • 最頻値。カテゴリ属性の場合に表示されます。

  • 分散

大きいバージョンのヒストグラムを表示する場合は、属性を選択すると、ヒストグラムがグリッドの下に表示されます。ヒストグラム内の棒の上にカーソルを置いて、正確な値など、ヒストグラムの詳細を表示します。

特定の属性名や特定の最頻値で属性リストを検索できます。検索するには、検索ボックスを使用します。

ドロップダウン・リストでは、「属性」 (デフォルト)または最頻値でグリッドを検索できます。検索の横のボックスに検索語を入力します。

検索をクリアする場合は、削除をクリックします。

他のタブ: NBモデル・ビューアには、次のようなタブもあります。

  • EM、KMおよびOCのツリー・ビューア

  • EM、KMおよびOCの「比較」

  • 設定

13.4.3.3 クラスタ・モデルの「設定」(ビューア)

クラスタ・モデル・ビューアの「設定」タブには、モデル・サマリーおよびモデル入力に関する情報が含まれています。

情報は次のタブに表示されます。

13.4.3.4 EM、KMおよびOCの「比較」

「比較」タブでは、同じモデル内の2つのクラスタを比較できます。

EM、KMおよびOCの「比較」タブは同じように動作します。この表示では、比較する2つのクラスタを選択できます。

次のタスクを実行できます。

  • クラスタの比較: 比較するクラスタは、リストから選択します。クラスタの比較では、属性値が比較されます。この比較はグリッドに表示されます。「比較」を使用して、個々のクラスタを母集団と比較します。

  • クラスタ名の変更: クラスタ名を変更するには、「編集」 をクリックします。これにより、「クラスタ名の変更」ダイアログ・ボックスが開きます。デフォルトでは、リーフのみが表示されます。すべてのノードを表示するには、「リーフのみ表示」の選択を解除します。「フェッチ・サイズ」のデフォルトは20です。この値は変更できます。

  • 属性の検索: 属性を検索するには、検索ボックスに属性の名前を入力します。ランクで検索することもできます。

  • 問合せの作成: 変更を加えた場合は、「問合せ」をクリックします。

各クラスタに関して、ヒストグラムが生成され、そのクラスタ内の属性値が表示されます。クラスタの拡大されたヒストグラムを表示するには、目的の属性をクリックします。拡大されたヒストグラムが属性グリッドの下に表示されます。

場合によっては、クラスタ内にヒストグラムが存在しないことがあります。

13.4.3.5 コンポーネント(EM)

「コンポーネント」タブには、EMモデルのコンポーネントに関する詳細情報が表示されます。

このタブは、複数のペインに分かれています。

上のペインでは、表示するクラスタを指定します。

  • コンポーネント: クラスタを識別する整数です。デフォルト値は1です。

  • 優先度: 指定したコンポーネントの優先度です。

  • 属性名でフィルタ: 必要な属性のみを表示できます。属性名を入力して、問合せをクリックします。

  • フェッチ・サイズ: フェッチされるレコード数です。デフォルトは2,000です。

中央のペインには、指定したコンポーネントの属性に関する次の情報が表示されます。

  • 検索ボックスを使用して、指定した属性を検索できます。

  • 属性は、グリッドに表示されます。グリッドには、属性(名前)、分布(ヒストグラムとして)、および平均と分散(数値属性のみ)がリストされます。

    これらの列のいずれかをソートするには、その列タイトルをクリックします。

  • 属性のより大きいバージョンのヒストグラム、および分布に関する情報を表示するには、属性を選択します。ヒストグラムが下のペインに表示されます。

下のペインに、選択したヒストグラム、データおよび予測(ある場合)のより大きいバージョンが次のように表示されます。

  • 「グラフ」タブには、選択した属性のより大きなバージョンのヒストグラムが含まれています。

  • 「データ」タブには、ヒストグラム・ビンの頻度が表示されます。

  • 「予測」タブでは、グリッドに予測が表示され、各属性のサブ名の「値」および「係数」がリストされます。

13.4.3.6 EM詳細

「詳細」タブには、期待値の最大化モデルに関するグローバルな詳細が含まれています。

次の情報が表示されます:

  • 対数尤度の改善率

  • クラスタ数

  • コンポーネント数

13.5 明示的セマンティック分析

明示的セマンティック分析アルゴリズムでは、特異値分解などの潜在的セマンティック分析手法により導出される潜在特徴のかわりに、既存のナレッジ・ベースの概念が特徴として使用されます。

各概念または特徴は属性ベクトルまたは特徴IDで表されます。これらの属性ベクトルの要素は、対応する属性と概念の間の関連の強さを定量化するものです。属性ベクトルの要素は、概念のプロパティを示す質的な値となる場合もあります。明示的セマンティック分析では、すべての属性をナレッジ・ベースの概念(つまり、概念-属性の関連値のベクトル)にマップする転置インデックスを作成します。(ESA)は、ドキュメント・コーパスをナレッジ・ベースとして使用するベクトル形式のテキスト表現(個々の単語またはドキュメント全体)です。ESAでは、単語とドキュメントは次のように表されます。

  • 単語: テキスト・コーパスのtf-idfマトリックスにおける列ベクトルとして表されます。一般的なテキスト・コーパスはWikipediaです。

  • ドキュメント(複数の単語からなる文字列): 単語を表すベクトルの重心として表されます。

Oracle Machine LearningによってWikipediaに基づく事前構築済のESAモデルが提供され、ユーザーはこのモデルを機械学習の目的でOracle Data Minerにインポートできます。

明示的セマンティック分析アルゴリズムの詳細は、明示的セマンティック分析を参照してください

13.5.1 アルゴリズムの使用

明示的セマンティック分析(ESA)アルゴリズムはテキスト処理分野で使用できます。

具体的なテキスト処理領域は次のとおりです。

  • ドキュメント分類

  • セマンティック関連の計算

  • 情報の取得

13.5.2 サポートされているマイニング・モデル

明示的セマンティック・アルゴリズムでサポートされている機械学習モデルがリストされます。

機械学習モデルは、次のとおりです。

  • モデル・ノード

  • モデル詳細ノード

  • 適用ノード

13.5.3 ESAアルゴリズム設定

明示的セマンティック分析アルゴリズムでサポートされている設定がリストされます。

設定は次のとおりです。

  • アルゴリズム名: 明示的セマンティック分析の名前が表示されます。

  • 自動準備: 「オン」(デフォルト)になっています。自動データ準備を示します。

  • テキスト機能の最大数: テキストの特徴の数が表示されます。

  • 最小アイテム: 入力行に表示する必要があるゼロ以外のエントリの最小数を決定します。デフォルト値は次のとおりです。

    • テキスト入力の場合: 100

    • テキスト以外の入力の場合: 0

  • トークンに必要な最小行数: トークンに必要な最小行数が表示されます。

  • 欠落値の処理: 単純なデータ型の列に値が欠損している場合、質的データの欠損値は最頻値に、量的データの欠損値は平均値に自動的に置換されます。ネストした列に欠損値がある場合、アルゴリズムではそれらをスパースとして解釈します。

  • サンプリング: 「有効」または「無効」を指定します。

  • しきい値: しきい値(変換後の構築データの下限値)を設定します。負でない数値である必要があります。デフォルトは0.00000001です。

  • 上位N機能: 属性ごとの特徴の最大数を制御します。

13.5.4 ESAモデル・ビューア

ESAモデル・ビューアには、ESA係数、アラート、特徴およびアルゴリズム設定が表示されます。

モデル・ビューアには、次のタブがあります。

  • 係数: ESA係数が表示されます。特徴IDを指定して係数やその属性を検索できます

  • 特徴

  • 設定

  • アラート: パーティション化されたモデルに関するアラートが表示されます(存在する場合)。

13.5.4.1 特徴

「特徴」タブには、すべての特徴が特徴IDおよび対応する項目とともに表示されます。

下部のパネルには、次のタブがあります。

  • タグ・クラウド: 選択した特徴がタグ・クラウド形式で表示されます。特徴タグを係数順またはアルファベット順にソートできます。昇順または降順で表示することもできます。クラウド画像をコピーして保存するには、右クリックして次のいずれかを選択します。

    • 画像を別名で保存

    • 画像をクリップボードにコピー

  • 係数: 選択した特徴の属性がその値および係数とともに表形式で表示されます。

13.5.4.2 設定(ESA)

「設定」タブでは、モデル、アルゴリズム、入力およびテキストの特徴に関する一般情報が次のタブに表示されます。

  • サマリー: 次の3つのカテゴリの情報が表示されます。

    • 一般: モデル名、モデル・タイプ、作成日、期間など、モデルに関する一般情報が表示されます。

    • アルゴリズム: アルゴリズムに関する情報が表示されます。

    • ビルド詳細: 計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

  • 入力: 各属性の名前、データ型、マイニング・タイプ、データ準備およびパーティション・キーが表示されます。

    • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

    • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

  • テキストの機能: このタブは、テキスト処理が行われる場合にのみ表示されます。このタブには、単語がそれに関連するドキュメント頻度とともに表示されます。

13.5.4.3 係数(ESA)

選択した特徴の属性がその値および係数とともに表形式で表示されます。特徴IDを指定して特徴を検索できます。

  • 拡大鏡アイコンは検索オプションを示します。をクリックします。「値の検索」ダイアログ・ボックスで、検索する特徴を入力します。特徴を検索する際には、その他のパラメータを指定することもできます。

  • 特徴の問合せオプションを示す緑色の右向き矢印アイコン。をクリックして、特徴を問い合せます。

13.6 一般化線形モデル

一般化線形モデル(GLM)は、線形モデリング用の統計的手法です。Oracle Machine Learningでは、回帰と分類の両方に対してGLMがサポートされています。

次の項目では、GLMモデルについて説明します。

13.6.1 「一般化線形モデルの概要」

一般化線形モデル(GLM)は、線形回帰と呼ばれる線形モデルのクラスを含み、このクラスを拡張したものです。

Oracle Machine Learningは、GLMモデルのファミリのうち最もよく使用されている次の2つのアルゴリズムを備えています。これらのアルゴリズムでは、最もよく使用されているリンク関数および分散関数が使用されます。

  • 線形回帰: 恒等リンク関数および分散関数(定数1に等しい: 応答値の範囲に対する一定分散)を使用します。

  • ロジスティック回帰: ロジスティック・リンク関数および2項分散関数を使用します。

Oracle Database 12c以上では、特徴選択および特徴の生成を実装するために、GLM分類およびGLM回帰が拡張されています。この機能は、指定されている場合、アルゴリズムのパフォーマンスを向上し、精度と解釈性を改善できます。

13.6.1.1 線形回帰

線形回帰は、Oracle Machine LearningでサポートされているGLM回帰アルゴリズムです。このアルゴリズムでは、ターゲット値の範囲に対する一定分散およびターゲット変換を想定していません。

13.6.1.2 ロジスティック回帰

2項ロジスティック回帰は、Oracle Machine LearningでサポートされているGLM分類アルゴリズムです。このアルゴリズムでは、ロジット・リンク関数および2項分散関数を使用します。

13.6.1.3 GLM用のデータ準備

GLMでは自動データ準備を使用することをお薦めします。

13.6.2 GLM分類モデル

分類ノードを使用すると、GLM分類モデルを構築、テストおよび適用できます。

GLM分類モデルで次のタスクを実行できます。

  • GLM分類モデルの構築およびテスト: GLM分類(GLMC)モデルを構築およびテストする場合は、分類ノードを使用します。デフォルトでは、分類ノードはそれ自体が構築したモデルをテストします。テスト・データは、入力データを構築サブセットとテスト・サブセットに分割することによって作成されます。テスト・ノードを使用してモデルをテストすることもできます。

  • GLM分類モデルのチューニング: GLM分類モデルを構築およびテストした後に、そのモデルをチューニングできます。

  • GLM分類モデルの適用: GLM分類モデルを適用する場合は、適用ノードを使用します。

13.6.2.1 GLM分類アルゴリズム設定

GLMアルゴリズムでサポートされている設定がリストされます。

分類の設定には次のようなものがあります。

  • 行診断の生成: デフォルトでは、「行診断の生成」の選択は解除されています。行診断を生成するには、このオプションを選択し、「ケースID」も指定する必要があります。

    「ケースID」を指定しないと、この設定は使用可能になりません。

    モデル・ビューアの「診断」タブで「行診断」を表示できます。行診断をさらに分析するには、モデル詳細ノードを使用して行の診断表を抽出します。

  • 信頼水準: 1.0未満の正数です。この値は、モデルによって計算される、真の確率が信頼限界内に収まることの確からしさの度合いを示します。デフォルトの信頼度は0.95です。

  • 参照クラス名: 参照ターゲット・クラスは、2項ロジスティック回帰モデルで参照として使用されるターゲット値です。その他の(非参照)クラスに対しては確率が生成されます。デフォルトでは、アルゴリズムは普及率の最も高い値(ほとんどのケース)を選択します。タイの値が存在する場合、属性値は英数字の昇順でソートされます。「参照クラス名」のデフォルトは「システム決定」、つまり、アルゴリズムによって値が決定されます。

  • 欠損値の処理: デフォルトは平均最頻値、つまり、量的な値には平均、質的な値には最頻値を使用します。「行の削除」を選択して、欠損値が含まれる行を削除することもできます。欠損値が含まれる行を削除する場合は、モデルが適用されるすべてのデータに同じ欠損値処理(行の削除)を適用する必要があります。

  • 行の重み列の指定: デフォルトでは、「行の重み列」は指定されていません。「行の重み列」は、行の重み要素を含むトレーニング・データの列です。

    行の重みは、特定の構成が複数回繰り返される試用を設計する場合のように、繰返し行のコンパクトな表現として使用できます。

    また、行の重みは、モデルの作成中に特定の行を強調するためにも使用できます。たとえば、より新しい行を優先し、古い可能性のあるデータを避けるようにモデルにバイアスをかけます。

    「行の重み列」を指定するには、チェック・ボックスを選択し、リストから列を選択します。

  • 特徴選択: デフォルトでは、特徴選択の選択は解除されています。この設定では、Oracle Database 12c以上に接続している必要があります。「機能選択」を指定するには、または「機能選択」設定の表示や指定を行うには、「オプション」をクリックして、機能選択オプション・ダイアログ・ボックスを開きます。

    「機能選択」を選択した場合、「リッジ回帰」の選択は自動的に解除されます。

    ノート:

    「機能選択」設定は、Oracle Database 12c以上で使用できます。

  • ソルバー: GLMソルバーを選択できます。オプションは次のとおりです。

    • システム決定(デフォルト)

    • 確率的勾配降下

    • コレスキー

    • QR

    ノート:

    この設定は、Oracle Data Miner 18.3以上をOracle Database 12.2以上に接続している場合にのみ使用できます。

    スパース・ソルバー: デフォルトでは、この設定は無効になっています。

  • リッジ回帰: Oracle Database 11gおよび12c以上の両方において、デフォルトでは、「リッジ回帰」はシステムによって決定されます(無効化されません)。

    ノート:

    Oracle Database 11gおよびOracle Database 12c以上の両方において、「リッジ回帰」設定は一貫性がある(システムによって決定される)必要があります。

    「リッジ回帰」を選択した場合、「機能選択」は自動的に選択が解除されます。

    リッジ回帰は、多重共線性を補う手法です(相関関係にある予測子を使用する多変量回帰)。Oracle Machine Learningでは、回帰と分類の両マイニング機能に対してリッジ回帰がサポートされています。

    「リッジ回帰」のオプションを指定するには、「オプション」をクリックして、リッジ回帰オプション・ダイアログ・ボックスを開きます。

    「リッジ回帰」が有効な場合、戻されるグローバルな詳細がより少なくなります。たとえば、「リッジ回帰」が有効な場合、予測限界は生成されません。

    ノート:

    Oracle Database 11gリリース2 (11.2)に接続されているときに、GLMモデルの構築時にエラーORA-40024が発生した場合は、「リッジ回帰」を有効にして、モデルを再構築します。

  • 収束許容値: GLMアルゴリズムの収束許容値を決定します。値は0から1までの範囲内(0と1は含まない)にある必要があります。デフォルトは「システム決定」です。

    ノート:

    この設定は、Oracle Data Miner 18.3以上をOracle Database 12.2以上に接続している場合にのみ使用できます。
  • 反復数: GLMアルゴリズムにおける最大反復数を制御します。デフォルトは、システムによって決定されます。

    ノート:

    この設定は、Oracle Data Miner 18.3以上をOracle Database 12.2以上に接続している場合にのみ使用できます。
  • バッチ行: ソルバーで使用されるバッチ内の行数を制御します。デフォルトは2000です。

    ノート:

    この設定は、Oracle Data Miner 18.3以上をOracle Database 12.2以上に接続している場合にのみ使用できます。
  • 近似計算: パフォーマンスを向上させるために、アルゴリズムで近似計算を使用するかどうかを指定します。GLMでは、数多くの行を持つデータ密度の高い(データがまばらではない)データ・セットが近似処理に適しています。

    近似計算の値を次に示します。

    • システム決定(デフォルト)

    • 有効化

    • 無効化

13.6.2.1.1 特徴選択オプション・ダイアログ

機能選択オプション・ダイアログ・ボックスでは、GLMCまたはGLMRモデルの特徴選択を指定できます。

「アルゴリズム設定」タブで「機能選択」を選択すると、「リッジ回帰」の選択が自動的に解除されます。「機能選択」を選択し、「オプション」をクリックします。機能選択オプション・ダイアログ・ボックスで、次の設定を指定します。

ノート:

この設定では、Oracle Database 12c以上に接続している必要があります。
  • プルーニング・モデル: デフォルトでは、「有効化」が選択されています。「無効化」を選択することもできます。

  • 特徴の最大数: デフォルト設定は、システムによって決定されます。

    複数の特徴を指定するには、「ユーザー指定」をクリックし、特徴の整数を入力します。

  • 特徴選択の条件: デフォルト設定は、システムによって決定されます。次のいずれかを選択できます。

    • 赤池情報量

    • シュワルツのベイジアン情報量

    • リスク・インフレーション

    • アルファ投資

  • 特徴識別: デフォルト設定は、システムによって決定されます。

    次を選択することもできます。

    • サンプリングの有効化

    • サンプリングの無効化

  • 特徴の受入れ: デフォルト設定は、システムによって決定されます。

    次を選択することもできます。

    • 厳密

    • 寛容

  • カテゴリ型予測子の処理: デフォルトでは、「一度に1つずつ追加」が選択されています。「一度にすべてを追加」を選択することもできます。

    デフォルトである「一度に1つずつ追加」をそのまま使用する場合、特徴の生成は選択されません。「機能の生成」を選択した場合、デフォルトは「二次候補」です。「三次候補」を選択することもできます。

13.6.2.1.2 参照値の選択(GLMC)

「参照値の選択」ダイアログ・ボックスでは、一般化線形モデルの参照値を設定できます。

一般化線形モデルの参照値を設定するには:

  1. 「詳細設定」ダイアログ・ボックスで、「アルゴリズム設定」タブに移動します。

  2. 「参照クラス名」フィールドで、「編集」をクリックします。「参照値の選択」ダイアログ・ボックスが開きます。

  3. 「参照値の選択」ダイアログで、「カスタム」を選択します。検索アイコンをクリックして、モデルの参照値を選択します。

  4. 「ターゲット値」リストでいずれかの値を選択します。

  5. 「OK」をクリックします。

13.6.2.1.3 リッジ回帰オプション・ダイアログ(GLMC)

システムによって決定された「リッジ値」を使用するか、独自の値を指定することが可能です。デフォルトでは、システムによって決定された値が使用されます。

「OK」をクリックします。

13.6.3 「GLM分類モデル・ビューア」

GLMCはロジスティック回帰とも呼ばれます。GLM分類(GLMC)モデル・ビューアには、GLMCモデルの特性が表示されます。

GLMCモデルを表示するには、次のいずれかの方法を使用します。

ビューアには、次のタブがあります。

  • 詳細

  • 係数

  • 比較

  • 診断。診断はデフォルトでは生成されません。

  • 設定

13.6.3.1 詳細(GLMC)

「モデル詳細」には、モデル全体としてのグローバル・メトリックがリストされます。

メトリックには、メトリックの「名前」およびメトリックの「値」という2つの列が表示されます。次のメトリックが表示されます。

  • 切片のみのモデルの適合度に関する赤池の基準(AIC)

  • 切片および共変量(予測子)モデルの適合度に関する赤池基準モデル

  • 依存平均

  • 尤度比のカイ二乗値。

  • 尤度比のカイ二乗確率値。

  • 尤度比の自由度。

  • 収束したモデル(「はい」または「いいえ」)

  • 切片のみのモデルの-2対数尤度。

  • モデルの-2対数尤度

  • パラメータ数(切片を含む係数の数)

  • 行数

  • 正確な予測比率

  • 不正確に予測された行の割合

  • 結合ケース予測、つまり、予測を実行できないケース

  • 擬似R2乗(CoxおよびSnell)

  • Nagelkerke擬似R2乗

  • 切片のみのモデルの適合度に関するシュワルツの基準(SC)

  • 切片および共変量(予測子)モデルの適合度に関するシュワルツの基準

  • 終了(正常かどうか)

  • 有効な共分散行列(「はい」または「いいえ」)

ノート:

計算されたメトリックの実際のリストは、モデル設定によって異なります。

他のタブ: ビューアには、次のようなタブもあります。

  • 係数

  • 比較

  • 診断(生成された場合)

  • 設定

13.6.3.2 係数(GLMC)

「係数」タブでは、GLM係数を表示できます。

ビューアでは、係数が表示される順序を制御するソート、および表示する係数を選択するフィルタリングがサポートされています。

デフォルトでは、絶対値で係数をソートします。「絶対値でソート」の選択を解除した場合は、「問合せ」をクリックします。

デフォルトのフェッチ・サイズは1000レコードです。フェッチ・サイズを変更するには、新しいレコード数を指定して、「問合せ」をクリックします。

ノート:

このタブで基準を変更した後に、「問合せ」をクリックしてデータベースに問い合せます。「絶対値でソート」の選択や選択の解除、フェッチ・サイズの変更などの変更の場合にも、「問合せ」をクリックする必要があります。

係数の相対値は、棒としてグラフィカルに表示され、正と負の値では異なる色となります。係数が0に近い場合、棒が小さすぎて表示されない場合があります。

  • ターゲット値: 特定のターゲット値を選択し、それらの係数のみを表示します。デフォルトでは、発生頻度が最も低い値の係数が表示されます。ターゲット値に係数がない場合もあり、その場合、リストにはエントリがありません。

  • 絶対値でソート: デフォルトでは、絶対値で係数のリストをソートしますが、このオプションの選択は解除できます。

  • フェッチ・サイズ: 表示される行数。デフォルトは1000です。すべての係数が表示されているかどうかを確認するには、表示されている行数よりも大きいフェッチ・サイズを選択します。

係数は、グリッドにリストされます。項目がリストされていない場合、そのターゲット値に係数はありません。係数グリッドには次の列があります。

  • 属性: 属性の名前

  • 値: 属性の値

  • 係数: 選択したターゲット値の線形係数推定値が表示されます。各係数の前に棒が表示されます(重なっている場合もあります)。棒は、係数の相対サイズを示します。正の値の場合、棒は明るい青色で、負の値の場合、棒は赤色です。(値が0に近い場合、棒が小さすぎて表示されない場合があります。)

  • 標準化係数: 予測子の標準偏差の割合で、ターゲットの標準偏差に再スケーリングされた係数。

    標準化係数では、すべての係数が同じスケール上に配置されるため、大きい係数と小さい係数を一目で識別できます。

  • Exp (係数)。係数の指数です。

  • 予測の「標準エラー」。

  • Waldカイ2乗

  • カイ2乗よりも大きい「確率」

  • テスト統計: 線形回帰の場合は係数推定値のt値、ロジスティック回帰の場合は係数推定値のWaldカイ2乗値

  • テスト統計の「確率」。モデルの特定の属性の重要度を分析するのに使用されます。

  • 分散拡大係数

    • 切片の場合は0

    • ロジスティック回帰の場合はNull

  • 「係数の下限」、係数の信頼限界値の下限

  • 「係数の上限」、係数の信頼限界値の上限

  • Exp (係数)

    • ロジスティック回帰の場合は指数係数

    • 線形回帰の場合はNull

  • Exp(係数の下限)

    • ロジスティック回帰の場合、信頼限界値の下限に対する指数係数

    • 線形回帰の場合はNull

  • Exp(係数の上限)

    • ロジスティック回帰の場合、信頼限界値の上限に対する指数係数

    • 線形回帰の場合はNull

ノート:

各係数に対して、必ずしもすべての統計が戻されるわけではありません。

次のいずれかに該当する場合、統計はnullです。

  • 統計がマイニング機能に適用されません。たとえば、「Exp(係数)」は線形回帰には適用されません。

  • システム・リソースの制限のために、統計を計算できません。

  • 統計の値が無限です。

  • リッジ回帰を使用してモデルが構築されたか、または構築中に共分散マトリックスの異常が検出された場合に、係数限界値(上限および下限)の値がNULLになります。

他のタブ: ビューアには、次のようなタブもあります。
  • 係数

  • 比較

  • 診断

  • 設定

13.6.3.2.1 GLMC係数のソートおよび検索

数値型の列は、列のタイトルをクリックしてソートできます。

たとえば、係数を数値の増加順に配置するには、グリッド内の「係数」をクリックします。

検索を使用して、項目を検索します。デフォルトでは、「属性」(名前)で検索されます。

表示される列を制限する検索オプションがあります。(または)/(および)の接尾辞を指定したフィルタ設定を使用すると、スペースで区切られた複数の文字列を入力できます。たとえば、「属性/値/係数(または)」を選択すると、文字列A .02によって、属性または値タイプが文字Aで始まるか、係数が0.02で始まるすべての列が生成されます。

検索をクリアする場合は、削除をクリックします。

13.6.3.3 比較(GLMC)

GLM分類比較ビューアは、2項分類モデルに対してのみGLMモデルを構築できることを除き、SVM係数比較ビューアに似ています。

2つのターゲット・クラス値のみを比較に使用できます。

他のタブ: ビューアには、次のタブがあります。

  • 詳細

  • 係数

  • 診断

  • 設定

13.6.3.4 診断(GLMC)

GLM分類の「診断」タブには、構築データの各ケースIDの診断が表示されます。

結果をフィルタ処理できます。

ノート:

診断はデフォルトでは生成されません。診断を生成するには、「ケースID」を指定し、「詳細設定」「行診断の生成」を選択します。

次の情報が「診断」グリッドに表示されます。

  • CASE_ ID

  • トレーニング・データ内の行のTARGET_VALUE

  • TARGET_VALUE_PROB (ターゲット値に関連付けられている確率)

  • HAT (ハット・マトリックスの対角要素の値)

  • WORKING_RESIDUAL (調整済従属変数に関する残差)

  • PEARSON_RESlDUAL (ターゲットの推定標準偏差によってスケーリングされた生の残差)

  • DEVIANCE_RESIDUAL (モデルの全体的な適合度に対する寄与率)

  • C (信頼区間の変位診断)

  • CBAR (信頼区間の変位診断)

  • DIFDEV (特定の観測値を削除したことによる逸脱度の変化)

  • DIFCHISQ (ピアソンのカイ2乗の変化)

他のタブ: ビューアには、次に示すその他のタブがあります。

  • 詳細

  • 係数

  • 比較

  • 設定

13.6.3.5 設定(GLMC)

「設定」タブには、モデル・サマリー、アルゴリズム詳細、パーティション詳細(パーティション化されたモデルの場合)などに関する情報が表示されます。

「パーティション」フィールドで、パーティション名をクリックします。パーティションの詳細が「パーティションの詳細」ウィンドウに表示されます。

検索をクリックして「パーティションの選択」ダイアログ・ボックスを開くと、パーティション・キーに基づいてフィルタ処理されたパーティションが表示されます。

「設定」タブには、次のタブがあります。

13.6.3.5.1 サマリー

「サマリー」タブには、モデル、アルゴリズム設定およびビルド詳細の特性に関する情報が含まれています。

一般設定セクションには、次の情報が含まれています。

  • 名前

  • タイプ

  • アルゴリズム

  • ターゲット属性

  • 作成日

  • モデル構築の期間

  • コメント

「アルゴリズム設定」では、モデル構築を制御します。「アルゴリズム」設定は構築ノードを定義するときに指定します。

モデルが構築されると、システムによって計算された値がこのタブに表示されます。たとえば、「リッジ回帰の有効化」「システム決定」を選択した場合、このタブには「リッジ回帰」が有効になっているかどうか、および計算されたリッジ値が表示されます。

「ビルド詳細」には、計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

他のタブ: 「設定」タブには、次に示すその他のタブがあります。

  • 入力

  • ターゲット値

13.6.3.5.2 入力

「入力」タブには、モデルの構築に使用された属性のリストが表示されます。

各属性について、次の情報が表示されます。

  • 名前: 属性の名前。

  • データ型: 属性のデータ型。

  • マイニング型: 「カテゴリ型」または「数値型」。

  • ターゲット: チェックアイコンは、属性がターゲット属性であることを示します。

  • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

  • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

13.6.3.5.3 パーティション・キー

「パーティション・キー」タブには、パーティション化された列がリストされます。

「パーティション・キー」タブには、パーティション化された列とともに次の詳細がリストされます。
  • パーティション名

  • ソース

  • データ型

13.6.3.5.4 重み

「重み」タブには、各ターゲット値に対してシステムによって計算された重みが表示されます。

モデルをチューニングすると、重みが変更される場合があります。

13.6.3.5.5 ターゲット値(GLMC)

「ターゲット値」タブには、ターゲット属性、そのデータ型および各ターゲット属性の値が表示されます。

他のタブ: 「設定」タブには、次に示すその他のタブがあります。

  • サマリー

  • 入力

関連項目

13.6.4 GLM回帰モデル

回帰ノードを使用すると、GLM回帰モデルを構築、テストおよび適用できます。

GLM回帰モデルで次のタスクを実行できます。

  • GLM回帰モデルの構築およびテスト: GLM回帰(GLMR)モデルを構築およびテストする場合は、回帰ノードを使用します。デフォルトでは、回帰ノードはそれ自体が構築したモデルをテストします。テスト・データは、入力データを構築サブセットとテスト・サブセットに分割することによって作成されます。テスト・ノードを使用してモデルをテストすることもできます。

  • GLM回帰モデルの適用: GLM回帰モデルを適用する場合は、適用ノードを使用します。

13.6.5 GLM回帰アルゴリズム設定

回帰の一般化線形モデルでサポートされている設定がリストされます。

回帰の設定は次のとおりです。

  • 「行診断の生成」は、デフォルトで「オフ」に設定されています。行診断を生成するには、このオプションを選択し、「ケースID」も指定する必要があります。

    「ケースID」を指定しないと、この設定は使用可能になりません。

    モデルの表示時に「診断」タブで「行診断」を表示できます。行診断をさらに分析するには、モデル詳細ノードを使用して行の診断表を抽出します。

  • 信頼水準: 1.0未満の正数です。このレベルは、モデルによって計算される、真の確率が信頼限界内に収まることの確からしさの度合いを示します。デフォルトの信頼度は0.95です。

  • 欠落値の処理: デフォルトは「平均モード」です。つまり、量的な値には平均、質的な値には最頻値を使用します。「行の削除」を選択して、欠損値が含まれる行を削除することもできます。欠損値が含まれる行を削除する場合は、モデルが適用されるすべてのデータに同じ欠損値処理(行の削除)を適用する必要があります。

  • 行の重み列の指定: 「行の重み列」は、行の重み要素を含むトレーニング・データの列です。デフォルトでは、「行の重み列」は指定されていません。行の重みは次の目的で使用できます。

    • 特定の構成が複数回繰り返される試用を設計する場合のように、繰返し行のコンパクトな表現として。

    • モデルの作成中に特定の行を強調するため。たとえば、より新しい行を優先し、古い可能性のあるデータを避けるようにモデルにバイアスをかけます。

  • 特徴選択: モデルに含める用語を選択できます。この設定では、Oracle Database 12cに接続している必要があります。デフォルトでは、特徴選択の選択は解除されています。「機能選択」を指定するには、または「機能選択」設定の表示や指定を行うには、「オプション」をクリックして、機能選択オプション・ダイアログ・ボックスを開きます。

    「機能選択」を選択した場合、「リッジ回帰」の選択は自動的に解除されます。

    ノート:

    特徴選択設定は、Oracle Database 12cでのみ使用できます。

  • 特徴生成: モデルへの用語の変換を追加できます。特徴生成によって、ターゲットと予測子の間のより複雑な関係に適合するようにモデルの能力を拡張できます。特徴生成は、構築設定です。デフォルトでは、特徴生成は無効です。機能生成を有効にするには、機能選択を有効にする必要があります。特徴生成方法を選択します。
    • <システム決定>

    • 二次候補

    • 三次候補

  • リッジ回帰: リッジ回帰は、多重共線性を補う手法です(相関関係にある予測子を使用する多変量回帰)。Oracle Machine Learningでは、回帰と分類の両方の機械学習ファンクションに対してリッジ回帰がサポートされています。

    Oracle Database 11gおよびOracle Database 12cの両方において、デフォルトでは、「リッジ回帰」はシステムによって決定されます(無効化されません)。「リッジ回帰」を選択した場合、「機能選択」は自動的に選択が解除されます。

    「リッジ回帰」のオプションを指定するには、「オプション」をクリックして、リッジ回帰オプション・ダイアログ・ボックスを開きます。

    「リッジ回帰」が有効な場合、戻されるグローバルな詳細がより少なくなります。たとえば、「リッジ回帰」が有効な場合、予測限界は生成されません。

    ノート:

    Oracle Database 11gリリース2 (11.2)に接続されているときに、GLMモデルの構築時にエラーORA-40024が発生した場合は、「リッジ回帰」を有効にして、モデルを再構築します。

  • ソルバー: GLMソルバーを選択できます。オプションは次のとおりです。

    • システム決定

    • 確率的勾配降下

    • コレスキー

    • QR

    スパース・ソルバー: デフォルトでは、この設定は無効になっています。

  • 収束許容値: GLMアルゴリズムの収束許容値を決定します。値は0から1までの範囲内(0と1は含まない)にある必要があります。デフォルトは「システム決定」です。

  • 反復数: GLMアルゴリズムにおける最大反復数を制御します。デフォルトは、システムによって決定されます。

  • バッチ行: ソルバーで使用されるバッチ内の行数を制御します。デフォルトは2000です。

  • 近似計算: パフォーマンスを向上させるために、アルゴリズムで近似計算を使用するかどうかを指定します。GLMでは、数多くの行を持つデータ密度の高い(データがまばらではない)データ・セットが近似処理に適しています。

    近似計算の値を次に示します。

    • システム決定(デフォルト)

    • 有効化

    • 無効化

13.6.5.1 リッジ回帰オプション・ダイアログ(GLMR)

リッジ回帰オプション・ダイアログ・ボックスでは、回帰の一般化線形モデルのリッジ値を設定できます。

システムによって決定された「リッジ値」を使用するか、独自の値を指定することが可能です。デフォルトでは、システムによって決定された値が使用されます。「分散拡大係数の生成」(VIF)は、デフォルトでは選択されていません。

13.6.5.2 参照値の選択(GLMR)

「参照値の選択」ダイアログ・ボックスでは、回帰の一般化線形モデルの参照値を設定できます。

値を選択するには:

  1. 「編集」をクリックします。
  2. 「参照値の選択」ダイアログ・ボックスで、「カスタム」をクリックします。
  3. 「ターゲット値」フィールド内のいずれかの値を選択します。
  4. 「OK」をクリックします。

13.6.6 「GLM回帰モデル・ビューア」

GLM回帰(GLMR)モデル・ビューアには、GLMRモデルの特性が表示されます。GLMRは、線形回帰とも呼ばれます。

GLMモデルのデフォルト名は、名前にGLMが含まれます。

GLMRビューアが新しいタブで開きます。

「詳細」タブがデフォルトで表示されます。

GLM回帰モデル・ビューアには、次のタブがあります。

  • 詳細

  • 係数

  • 診断(デフォルトでは、診断は生成されません)

  • 設定

13.6.6.1 係数(GLMR)

「係数」タブでは、GLM係数を表示できます。

ビューアでは、係数が表示される順序、および表示する係数を選択するためにフィルタリングされる順序を制御するソートがサポートされています。

デフォルトでは、係数は絶対値でソートされます。「絶対値でソート」の選択を解除するか、選択し、「問合せ」をクリックできます。

デフォルトのフェッチ・サイズは1,000レコードです。フェッチ・サイズを変更するには、新しいレコード数を指定して、「問合せ」をクリックします。

ノート:

このタブで基準を変更した後に、「問合せ」をクリックしてデータベースに問い合せます。「絶対値でソート」の選択や選択の解除、フェッチ・サイズの変更などの変更の場合にも、「問合せ」をクリックする必要があります。

係数の相対値は、棒としてグラフィカルに表示され、正と負の値では異なる色となります。係数が0に近い場合、棒が小さすぎて表示されない場合があります。

  • 絶対値でソート: 係数のリストを絶対値でソートします。

  • フェッチ・サイズ: 表示される行数。すべての係数が表示されているかどうかを確認するには、表示されている行数よりも大きいフェッチ・サイズを選択します。

係数は、グリッドにリストされます。項目がリストされていない場合、そのターゲット値に係数はありません。係数グリッドには次の列があります。

  • 属性: 属性の名前

  • 値: 属性の値

  • 係数: 選択したターゲット値の線形係数推定値が表示されます。各係数の前に棒が表示されます(重なっている場合もあります)。棒は、係数の相対サイズを示します。正の値の場合、棒は明るい青色で、負の値の場合、棒は赤色です。値が0に近い場合、棒が小さすぎて表示されない場合があります。

  • 予測の「標準エラー」

  • Waldカイ2乗

  • Pr > カイ2乗

  • 係数の上限

  • 係数の下限

ノート:

各係数に対して、必ずしもすべての統計が戻されるわけではありません。

次のいずれかに該当する場合、統計はnullです。

  • 統計がマイニング機能に適用されません。たとえば、exp_coefficientは線形回帰には適用されません。

  • システム・リソースの制限のために、統計を計算できません。

  • 統計の値が無限です。

  • リッジ回帰を使用してモデルが構築されたか、または構築中に共分散マトリックスの異常が検出された場合に、係数限界値(上限および下限)の値がNULLになります。

他のタブ: ビューアには、次に示すその他のタブがあります。

  • 詳細

  • 診断

  • 設定

13.6.6.2 詳細(GLMR)

「モデル詳細」には、モデル全体としてのグローバル・メトリックがリストされます。

メトリックには、メトリックの「名前」およびメトリックの「値」という2つの列が表示されます。次のメトリックが表示されます。

  • 調整済R2乗

  • 赤池情報量規準

  • 変動の係数

  • 修正された総自由度。

  • 修正された総平方和。

  • 依存平均

  • 誤差の自由度。

  • 2乗平均の誤差

  • 誤差の平方和。

  • モデルのF値の統計。

  • 推定平均平方根誤差。

  • HockingのSp統計

  • JP統計(最終予測誤差)。

  • 収束したモデル(「はい」または「いいえ」)

  • モデルの自由度。

  • モデルのF値の確率。

  • 2乗平均のモデル

  • モデルの平方和。

  • パラメータ数(切片を含む係数の数)。

  • 行数

  • 2乗平均平方根誤差。

  • R2乗

  • シュワルツのベイズ情報量基準。

  • 終了

  • 計算された有効な共分散マトリックス(「はい」または「いいえ」)。

13.6.6.3 診断(GLMR)

「診断」タブには、構築データの各ケースIDの診断が表示されます。

結果をフィルタ処理できます。

ノート:

診断はデフォルトでは生成されません。診断を生成するには、「ケースID」を指定し、「行診断の生成」を選択する必要があります。

次の情報が「診断」グリッドに表示されます。

  • CASE_ID

  • トレーニング・データ内の行のTARGET_VALUE

  • PREDICTED_VALUE (ターゲットについてモデルにより予測された値)

  • HAT (ハット・マトリックスの対角要素の値)

  • RESIDUAL (調整済従属変数に関する残差)

  • STD_ERR_RESIDUAL (残差の標準誤差)

  • STUDENTIZED_RESIDUAL

  • PRED_RES (予測残差)

  • COOKS_D (Cookの距離影響統計)

他のタブ: ビューアには、次に示すその他のタブがあります。

  • 詳細

  • 係数

  • 設定

13.6.6.4 設定(GLMR)

「設定」タブには、入力、ビルド詳細、アルゴリズム設定およびその他の一般設定に関する情報が含まれています。

「設定」タブには、次のタブがあります。

13.6.6.4.1 サマリー(GLMR)

「サマリー」タブには、一般設定、アルゴリズム設定およびビルド詳細に関する情報が含まれています。

  • 「一般」設定では、モデルの特性(所有者、名前、タイプ、アルゴリズム、ターゲット属性、モデル構築の作成日の期間、コメントなど)を示します。

  • 「アルゴリズム」設定によってモデル構築が制御され、アルゴリズム設定は構築ノードを定義するときに指定します。モデルが構築されると、システムによって計算された値がこのタブに表示されます。たとえば、「リッジ回帰の有効化」「システム決定」を選択した場合、このタブには「リッジ回帰」が有効になっているかどうか、および計算されたリッジ値が表示されます。

  • 「ビルド詳細」には、計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

  • 「設定」タブには、GLMRの「入力」タブがあります。

13.6.6.4.2 入力(GLMR)

「入力」タブには、モデルの構築に使用された属性のリストが表示されます。

各属性について、次の情報が表示されます。

  • 名前: 属性の名前。

  • データ型:: 属性のデータ型。

  • マイニング型: 「カテゴリ型」または「数値型」。

  • ターゲット: チェックマークは、属性がターゲット属性であることを示します。

  • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

  • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

関連項目

13.6.6.4.3 係数(GLMR)

「係数」タブでは、GLM係数を表示できます。

ビューアでは、係数が表示される順序、および表示する係数を選択するためにフィルタリングされる順序を制御するソートがサポートされています。

デフォルトでは、係数は絶対値でソートされます。「絶対値でソート」の選択を解除するか、選択し、「問合せ」をクリックできます。

デフォルトのフェッチ・サイズは1,000レコードです。フェッチ・サイズを変更するには、新しいレコード数を指定して、「問合せ」をクリックします。

ノート:

このタブで基準を変更した後に、「問合せ」をクリックしてデータベースに問い合せます。「絶対値でソート」の選択や選択の解除、フェッチ・サイズの変更などの変更の場合にも、「問合せ」をクリックする必要があります。

係数の相対値は、棒としてグラフィカルに表示され、正と負の値では異なる色となります。係数が0に近い場合、棒が小さすぎて表示されない場合があります。

  • 絶対値でソート: 係数のリストを絶対値でソートします。

  • フェッチ・サイズ: 表示される行数。すべての係数が表示されているかどうかを確認するには、表示されている行数よりも大きいフェッチ・サイズを選択します。

係数は、グリッドにリストされます。項目がリストされていない場合、そのターゲット値に係数はありません。係数グリッドには次の列があります。

  • 属性: 属性の名前

  • 値: 属性の値

  • 係数: 選択したターゲット値の線形係数推定値が表示されます。各係数の前に棒が表示されます(重なっている場合もあります)。棒は、係数の相対サイズを示します。正の値の場合、棒は明るい青色で、負の値の場合、棒は赤色です。値が0に近い場合、棒が小さすぎて表示されない場合があります。

  • 予測の「標準エラー」

  • Waldカイ2乗

  • Pr > カイ2乗

  • 係数の上限

  • 係数の下限

ノート:

各係数に対して、必ずしもすべての統計が戻されるわけではありません。

次のいずれかに該当する場合、統計はnullです。

  • 統計がマイニング機能に適用されません。たとえば、exp_coefficientは線形回帰には適用されません。

  • システム・リソースの制限のために、統計を計算できません。

  • 統計の値が無限です。

  • リッジ回帰を使用してモデルが構築されたか、または構築中に共分散マトリックスの異常が検出された場合に、係数限界値(上限および下限)の値がNULLになります。

他のタブ: ビューアには、次に示すその他のタブがあります。

  • 詳細

  • 診断

  • 設定

13.6.6.4.4 詳細(GLMR)

「モデル詳細」には、モデル全体としてのグローバル・メトリックがリストされます。

メトリックには、メトリックの「名前」およびメトリックの「値」という2つの列が表示されます。次のメトリックが表示されます。

  • 調整済R2乗

  • 赤池情報量規準

  • 変動の係数

  • 修正された総自由度。

  • 修正された総平方和。

  • 依存平均

  • 誤差の自由度。

  • 2乗平均の誤差

  • 誤差の平方和。

  • モデルのF値の統計。

  • 推定平均平方根誤差。

  • HockingのSp統計

  • JP統計(最終予測誤差)。

  • 収束したモデル(「はい」または「いいえ」)

  • モデルの自由度。

  • モデルのF値の確率。

  • 2乗平均のモデル

  • モデルの平方和。

  • パラメータ数(切片を含む係数の数)。

  • 行数

  • 2乗平均平方根誤差。

  • R2乗

  • シュワルツのベイズ情報量基準。

  • 終了

  • 計算された有効な共分散マトリックス(「はい」または「いいえ」)。

13.6.6.4.5 診断(GLMR)

「診断」タブには、構築データの各ケースIDの診断が表示されます。

結果をフィルタ処理できます。

ノート:

診断はデフォルトでは生成されません。診断を生成するには、「ケースID」を指定し、「行診断の生成」を選択する必要があります。

次の情報が「診断」グリッドに表示されます。

  • CASE_ID

  • トレーニング・データ内の行のTARGET_VALUE

  • PREDICTED_VALUE (ターゲットについてモデルにより予測された値)

  • HAT (ハット・マトリックスの対角要素の値)

  • RESIDUAL (調整済従属変数に関する残差)

  • STD_ERR_RESIDUAL (残差の標準誤差)

  • STUDENTIZED_RESIDUAL

  • PRED_RES (予測残差)

  • COOKS_D (Cookの距離影響統計)

他のタブ: ビューアには、次に示すその他のタブがあります。

  • 詳細

  • 係数

  • 設定

13.7 k-Means

k-Means (KM)アルゴリズムは、十分な数の個別ケースがある場合に、事前に決められた数のクラスタにデータをパーティション化する、距離ベースのクラスタリング・アルゴリズムです。

距離ベースのアルゴリズムは、距離メトリック(関数)を使用して、データ・ポイント間の類似度を計測する。距離メトリックは、ユークリッド距離、コサイン距離または高速コサイン距離のいずれかです。各データ・ポイントは、使用される距離メトリックに従って、最も近いクラスタに割り当てられる。

KMモデルを構築および適用するには:
  • クラスタリング・ノードを使用して、KMモデルを構築します。

  • 適用ノードを使用して、KMモデルを新規データに適用します。

次の項目では、KMモデルについて説明します。

13.7.1 k-Meansアルゴリズム

Oracle Machine Learningには、拡張バージョンのk-Meansアルゴリズムが実装されています。

k-Meansアルゴリズムの特徴は次のとおりです。

  • このアルゴリズムは、階層形式でモデルを作成します。トップダウンでモデルを作成する際、2分岐を使用し、最後にすべてのノードを精錬します。この意味では、2分k-Meansアルゴリズムと似ています。階層の内部ノードの重心は、ツリーが展開していくにつれて、その変化を反映するように更新されます。ツリー全体が戻されます。

  • このアルゴリズムでは、一度に1つのノードでツリーを拡張します(不均衡法)。ユーザー設定に基づき、分散が最も大きいノードは、クラスタの数が指定された数に達するまで分割され、ツリーのサイズが大きくなります。クラスタの最大数は、構築設定で指定されます。

  • このアルゴリズムでは、確率的なスコアリングおよびクラスタへのデータの割当てが可能です。

  • このアルゴリズムは、クラスタごとに次の情報を返します。

    • 重心(クラスタの原型)。重心は、カテゴリ属性については最頻値を、数値属性については平均および分散を示します。

    • ヒストグラム(属性ごとに1つ)。

    • クラスタに割り当てられるデータの大部分を囲むハイパーボックスを記述するルール。

拡張k-Meansによって検出されたクラスタを使用して、ベイズ的な確率モデルを生成し、このモデルを使用して、スコアリング(モデル適用)時にデータ・ポイントをクラスタに割り当てます。k-Meansアルゴリズムは、混合要素が、すべての要素に関して同じ分散を持つ球面多変量正規分布であるような混合モデルと解釈できます。

ノート:

k-Meansアルゴリズムでは、100万行をサンプリングします。サンプルを使用して、モデルを構築できます。

13.7.2 KMアルゴリズム設定

k-Means (KM)アルゴリズムでは、クラスタ数、増加係数、収束許容値、距離関数、反復数および最小属性サポートに関連する設定がサポートされています。

次に、設定とその説明を示します。

  • 「クラスタ数」は、アルゴリズムによって生成されたリーフ・クラスタの最大数です。デフォルトは10です。通常、k-Meansでは、個別のデータ・ポイントの数の方が多ければ、指定された数に正確に一致する数のクラスタが生成されます。

  • 「増加係数」は、1よりも大きく、5以下の数値です。この値では、クラスタ・データを保持するために割り当てられるメモリーの増加係数を指定します。デフォルトは2です。

  • 「収束許容値」は、0.001 (低速の構築)と0.1 (高速の構築)の間である必要があります。デフォルトは0.01です。許容値では、アルゴリズムの収束を制御します。この値が小さくなると、最適なソリューションに近づきますが、実行時間が長くなります。このパラメータは、反復パラメータの数と相互作用します。

  • 距離関数では、アルゴリズムが距離を計算する方法を指定します。デフォルトの距離関数はユークリッドです。その他の距離関数は次のとおりです。

    • コサイン

    • 高速コサイン

  • 「反復数」は、1以上である必要があります。デフォルトは30です。この値は、k-Meansアルゴリズムの最大反復数です。一般的に、反復が多くなると、構築速度が遅くなります。ただし、アルゴリズムは、最大に到達したり、早期に収束する可能性があります。収束は、「収束許容値」設定を満たすかどうかによって決定されます。

  • 最小パーセント属性サポートは整数ではありません。最小パーセント属性サポートの値の範囲は次のとおりです。

    • 0以上、

    • 1以下。

      デフォルト値は0.1です。デフォルト値によって、非常に低い支持度を持つ長い述語リストが生成されるかわりに、より重要な述語を強調できます。

    この値を使用して、支持度しきい値を満たさないルール述語を除外できます。この値を高く設定しすぎると、結果として短いルール、場合によっては空のルールになります。

    極端な場合、非常にまばらなデータでは、すべての属性述語が除外され、ルールが生成されない可能性があります。ルールが生成されない場合は、支持度しきい値を低くし、モデルを再構築して、述語支持度が非常に低い場合にもアルゴリズムによってルールが生成されるようにします。

  • 「ヒストグラム・ビン数」は正の整数であり、デフォルト値は10です。この値では、k-Meansで生成される属性ヒストグラムでのビンの数を指定します。各属性のビン境界は、トレーニング・データセット全体でグローバルに計算されます。ビニングの方法は等幅です。ただ1つのビンを持つ単一値が含まれる属性を除き、すべての属性は同じ数のビンを持ちます。

  • 「分割基準」は、「分散」または「サイズ」になります。デフォルトは「分散」です。分割基準は、k-Meansクラスタの初期化に関連します。アルゴリズムがバイナリ・ツリーを作成し、同時に新しいクラスタを1つ追加します。「サイズ」の場合、現在最大のクラスタが存在する領域内に新しいクラスタが配置されます。「分散」の場合、最も広く散らばったクラスタの領域内に新しいクラスタが配置されます。

  • 「詳細のレベル」では、構築の過程で計算されるクラスタ詳細のレベルを決定します。適用できる値は次のとおりです。

    • なし: 詳細なし。スコアリング情報のみが保持されます

    • 階層: クラスタ階層とクラスタ・レコード数

    • すべて: クラスタ階層、レコード数およびすべての記述統計(平均値、分散値、最頻値、ヒストグラム、ルールなど)

  • 「乱数シード」では、k-Meansの初期化中に使用されるランダム・ジェネレータのシードを制御します。乱数シードは1以上の値である必要があります。デフォルトは0です。

13.7.3 KMモデル・ビューア

KMモデル・ビューアでは、KMモデルを調べることができます。

KMモデル・ビューアには、次のタブがあります。

13.7.3.1 EM、KMおよびOCのツリー・ビューア

ツリー・ビューアは、階層クラスタのグラフィカル・ツリーです。

期待値の最大化、k-Meansおよび直交クラスタリングの各ツリー・ビューアの動作は同じです。ツリーを表示すると、次のようになります。

  • ワークフロー・サムネイルが開き、ツリー全体のビューが示されます。

  • 「構造」ウィンドウは、ツリーの移動および分析を実行する場合に役立ちます。

EM、KMおよびOCの「比較」を使用して、特定のノードの属性を、母集団の属性と比較できます。

特定のノードに関する情報を表示するには:

  1. ノードを選択します。

  2. 下部のペインでは、次に示す各タブに情報が表示されます。

    • 重心: クラスタの重心を表示します。

    • クラスタ・ルール: クラスタのすべての要素が満たすルールを表示します。

表示コントロール:

次のコントロールによってツリーの表示全体が制御されます。

  • ズームイン: ダイアグラムにズームインし、ルールの詳細ビューを表示します。

  • ズームアウト: ダイアグラムをズームアウトし、ルールの大部分またはすべてのビューを表示します。

  • パーセント・サイズ: ビューの拡大率を正確なパーセンテージで選択できます。

  • ウィンドウに合せる: ダイアグラム全体が画面内に収まるまでダイアグラムからズームアウトします。

  • レイアウト・タイプ: 水平レイアウトまたは垂直レイアウトを選択でき、デフォルトは垂直レイアウトとなっています。

  • 展開: すべてのノードにツリーのブランチが表示されます。

  • 詳細の表示: 各ツリー・ノードの詳細データを表示します。もう一度クリックすると、詳細が非表示になります。

  • 上位の属性: 上位Nの属性を表示します。デフォルトでは、Nは5です。Nを変更するには、リストから別の数を選択します。

  • リフレッシュ: 変更された「問合せ設定」を適用できます。

  • 問合せ設定: 上位数の設定を変更できます。デフォルトは10です。別の数を新しいデフォルト値として保存できます。

  • ルールの保存

13.7.3.2 クラスタ(ビューア)

「クラスタ」タブでは、選択したクラスタに関する情報を表示できます。このビューアでは、選択した確率のみが表示されるようにするフィルタリングがサポートされています。

EM、KMおよびOCの「クラスタ」タブは同じように動作します。

次の情報が表示されます:

  • クラスタ: 表示されるクラスタのID。別のクラスタを表示するには、メニューから別のIDを選択します。「リーフのみ」を選択して、リーフのみ(終端クラスタ)を表示できます。「リーフのみ」がデフォルトです。

  • フェッチ・サイズ: デフォルトは20です。この値は変更できます。

    「フェッチ・サイズ」を変更した場合は、「問合せ」をクリックして、新しい表示を確認します。

グリッドには、クラスタ内の属性がリストされます。各属性について、次の情報が表示されます。

  • 属性の「名前」

  • クラスタ内の属性値の「ヒストグラム」

  • 数値、およびパーセンテージを示す棒の両方として表示される「信頼度」。信頼度が非常に小さい場合、棒は表示されません。

  • 支持度(ケースの数)。

  • 平均。数値属性の場合に表示されます。

  • 最頻値。カテゴリ属性の場合に表示されます。

  • 分散

大きいバージョンのヒストグラムを表示する場合は、属性を選択すると、ヒストグラムがグリッドの下に表示されます。ヒストグラム内の棒の上にカーソルを置いて、正確な値など、ヒストグラムの詳細を表示します。

特定の属性名や特定の最頻値で属性リストを検索できます。検索するには、検索ボックスを使用します。

ドロップダウン・リストでは、「属性」 (デフォルト)または最頻値でグリッドを検索できます。検索の横のボックスに検索語を入力します。

検索をクリアする場合は、削除をクリックします。

他のタブ: NBモデル・ビューアには、次のようなタブもあります。

  • EM、KMおよびOCのツリー・ビューア

  • EM、KMおよびOCの「比較」

  • 設定

13.7.3.3 EM、KMおよびOCの「比較」

「比較」タブでは、同じモデル内の2つのクラスタを比較できます。

EM、KMおよびOCの「比較」タブは同じように動作します。この表示では、比較する2つのクラスタを選択できます。

次のタスクを実行できます。

  • クラスタの比較: 比較するクラスタは、リストから選択します。クラスタの比較では、属性値が比較されます。この比較はグリッドに表示されます。「比較」を使用して、個々のクラスタを母集団と比較します。

  • クラスタ名の変更: クラスタ名を変更するには、「編集」 をクリックします。これにより、「クラスタ名の変更」ダイアログ・ボックスが開きます。デフォルトでは、リーフのみが表示されます。すべてのノードを表示するには、「リーフのみ表示」の選択を解除します。「フェッチ・サイズ」のデフォルトは20です。この値は変更できます。

  • 属性の検索: 属性を検索するには、検索ボックスに属性の名前を入力します。ランクで検索することもできます。

  • 問合せの作成: 変更を加えた場合は、「問合せ」をクリックします。

各クラスタに関して、ヒストグラムが生成され、そのクラスタ内の属性値が表示されます。クラスタの拡大されたヒストグラムを表示するには、目的の属性をクリックします。拡大されたヒストグラムが属性グリッドの下に表示されます。

場合によっては、クラスタ内にヒストグラムが存在しないことがあります。

13.7.3.3.1 クラスタと母集団の比較

個々のクラスタと母集団を比較表示できます。

クラスタと母集団を比較するには:

  1. 「比較」をクリックします。
  2. 「リーフのみ」の選択を解除します。
  3. ルート・ノードを「クラスタ1」として選択します。クラスタの名前が変更されていない場合、これはクラスタ1です。クラスタ1内の属性値の分布は、母集団全体の値の分布を表します。母集団と比較するクラスタを「クラスタ2」として選択します。
  4. これで、クラスタ2として選択したクラスタ内の各属性の値の分布を、クラスタ1内の値と比較できます。
13.7.3.3.2 クラスタ内に存在しないヒストグラム

クラスタがスパース・データを使用して構築されている場合、一部の属性値は、クラスタに割り当てられているレコード内に存在しません。

この場合、クラスタ比較には、属性が存在するクラスタの場合は重心値とヒストグラム値が表示され、属性が存在するクラスタの場合は空白のままになります。

13.7.3.3.3 クラスタ名の変更

クラスタIDは番号です。ダイアログ・ボックスのタイトル・バーには、名前を変更するクラスタが表示されます。

これを文字列に変更できます。クラスタ名を変更するには:

  1. 新しい名前を入力します。

  2. 「OK」をクリックします。

ノート:

2つの異なるクラスタに同じ名前を付けることはできません。

13.7.3.4 設定(KM)

「設定」タブには、モデルが構築された方法に関する情報が表示されます

情報は次のタブに表示されます。

  • クラスタ・モデルの「サマリー」

  • クラスタ・モデルの「入力」

他のタブ:

  • EM、KMおよびOCのツリー・ビューア

  • クラスタ・ビューア

  • EM、KMおよびOCの「比較」

13.7.3.4.1 クラスタ・モデルの「設定」(ビューア)

クラスタ・モデル・ビューアの「設定」タブには、モデル・サマリーおよびモデル入力に関する情報が含まれています。

情報は次のタブに表示されます。

13.7.3.4.1.1 クラスタ・モデルの「サマリー」

「サマリー」タブには、モデル、モデル構築およびアルゴリズムに関する一般情報が含まれています。

「サマリー」タブには、次が含まれます。

  • 「一般」設定には、次の情報がリストされます。

    • モデルのタイプ(分類、回帰など)

    • モデルの所有者(モデルが構築されたスキーマ)

    • モデル名

    • 作成日

    • モデル構築の期間(分単位)

    • モデルのサイズ(MB)

    • コメント

  • 「アルゴリズム設定」には、モデルの構築に使用されたアルゴリズムとアルゴリズム設定がリストされます。

  • 「ビルド詳細」には、計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

13.7.3.4.1.2 クラスタ・モデルの「入力」

「入力」タブは、スコアリングのみを実行できるモデルの場合に表示されます。

モデルの構築に使用された属性のリストです。各属性について、次の情報が表示されます。

  • 名前: 属性の名前。

  • データ型: 属性のデータ型。

  • マイニング型: カテゴリ型または数値型。

  • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

  • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

13.8 Naive Bayes

Naive Bayes (NB)アルゴリズムは、分類モデルの構築に使用されます。Naive Bayesモデルを構築、テスト、適用およびチューニングできます。

  • NBモデルを構築する場合は、分類ノードを使用します。デフォルトでは、分類ノードはそれ自体が構築したすべてのモデルをテストします。テスト・データは、入力データを構築サブセットとテスト・サブセットに分割することによって作成されます。

  • NBモデルをテストする場合は、テスト・ノードを使用することもできます。

  • NBモデルを新規データに適用する場合は、適用ノードを使用します。

  • NBモデルをチューニングする場合は、最初にNBモデルを構築してテストする必要があります。

次の項目では、Naive Bayesについて説明します。

13.8.1 Naive Bayesアルゴリズム

Naive Bayes (NB)アルゴリズムは、条件付き確率に基づき、Bayesの定理を使用します。

Naive Bayes (NB)アルゴリズムでは、履歴データの値の組合せと値の頻度を数えて確率を計算します。Bayesの定理では、すでに発生している別のイベントの確率を前提として、あるイベントの発生確率を見つけます。

前提:

Naive Bayesでは、各予測子は他の予測子とは条件的に独立していると想定されます。所定のターゲット値に関して、各予測子の分布は他の予測子とは独立しています。この非依存性という前提によって、(たとえ前提が満たされていない場合でも)モデルの予測精度が極端に低くなることがなくなり、またこの前提が、高速で計算可能なアルゴリズムと扱いにくいアルゴリズムの違いになっています。

特定の予測子の分布が、明らかに、より大きな母集団を代表していない場合があります。たとえば、トレーニング・データ内に21才未満の顧客が少数しか存在しないが、広範な顧客ベースには、この年齢グループの顧客が実際に多数存在する場合などが考えられます。補正するには、モデルのトレーニングの際に、事前確率を指定します。

13.8.1.1 Naive Bayesの利点

Naive Bayesモデルの利点は次のとおりです。

  • Naive Bayesアルゴリズムは、高速でスケーラビリティの高いモデルの構築およびスコアリングを実行できます。このアルゴリズムは予測子および行の数に基づいて線形にスケーリングされます。

  • Naive Bayesの構築プロセスは、並列処理されます。スコアリングもアルゴリズムに関係なく並列処理できます。

  • Naive Bayesは、2項および多クラスのどちらの分類問題にも使用できます。

13.8.2 Naive Bayesテスト・ビューア

デフォルトでは、分類モデルまたは回帰モデルが自動的にテストされます。オプションで、テスト結果を表示できます。

分類モデルは、モデルの予測を既知の結果と比較することでテストされます。Oracle Data Minerでは、最新のテスト結果が保持されます。

モデルのテスト結果を表示するには、構築ノードを右クリックし、「結果の表示」を選択します。

13.8.3 Naive Bayesモデル・ビューア

Naive Bayesモデル・ビューアでは、Naive Bayesモデルを調べることができます。

次のいずれかの方法を使用して、Naive Bayesモデルを表示できます。

NBモデル・ビューアには、次のタブがあります。

13.8.3.1 確率(NB)

「確率」タブには、モデル構築中に計算された確率がリストされます。確率が表示される順序をソートおよびフィルタ処理できます。

確率の相対値は棒としてグラフィカルに表示され、正の値の場合は青色の棒、負の値の場合は赤色の棒が表示されます。ゼロに近い数値の場合、この棒は小さすぎて表示されない場合があります。

「ターゲット値」を選択します。選択した値に関連付けられた確率が表示されます。デフォルトでは、発生頻度が最も低い値の確率が表示されます。

確率はグリッドにリストされます。

他のタブ: NBモデル・ビューアには、次に示すその他のタブがあります。

  • 比較

  • 設定

関連項目

13.8.3.1.1 グリッド

グリッドでは、行数とグリッド・フィルタを表示できます。

項目がリストされていない場合は、指定した基準を満たす値が存在しません。

  • 行カウント: 表示されている行数。

  • グリッド・フィルタ: グリッド・フィルタを使用して、グリッド内の情報をフィルタ処理します。

確率グリッドには、次の列があります。

  • 属性: 属性の名前

  • 値: 属性の値

  • 確率: 属性の値の確率。確率は、数値、およびパーセンテージを示す棒の両方として表示されます。確率が非常に小さい場合、棒は表示されません。

13.8.3.1.2 フェッチ・サイズ

フェッチ・サイズでは、フィルタ設定やサーバー設定に関係なく、戻される行数を制限します。

デフォルトのフェッチ・サイズは1000です。上下の矢印をクリックして、フェッチ・サイズを変更します。フェッチ・サイズを変更した場合は、「問合せ」をクリックします。

13.8.3.1.3 グリッド・フィルタ

グリッド・フィルタでは、様々なカテゴリに基づいて項目をフィルタできます。

フィルタ制御チェックでは、グリッドに表示される項目をフィルタ処理できます。フィルタリングは、フィルタ検索ボックスに入力すると実行されます。

フィルタ・カテゴリを表示するには、双眼鏡アイコンの横にある下矢印をクリックします。確率では次のカテゴリがサポートされています。

  • 属性: 「属性」(名前)列をフィルタ処理します。これがデフォルトのカテゴリです。たとえば、属性名にCUSTが含まれるすべてのエントリを表示するには、検索ボックスにCUSTと入力します。

  • 値: 値列をフィルタ処理します。

  • 確率: 確率列をフィルタ処理します。

  • すべて(および): 1つ以上の文字列およびその値を入力すると、AND条件を使用して「属性」列および「値」列と比較されます。たとえば、CUST Mと入力して、属性名にCUSTが含まれ、その値がMである行を表示します。

  • すべて(または): 比較にOR条件を使用する点を除き、「すべて(および)」と同様に動作します。

比較のグリッド・フィルタには次のような類似カテゴリがリストされます。

  • 名前: 属性名でフィルタします(デフォルト)。

  • 値: 値列をフィルタ処理します。

  • 属性/値/傾向(または): 属性、値および傾向のいずれかの列の値をフィルタ処理します。

  • 属性/値/傾向(および): 属性、値および傾向のいずれかの列の値をフィルタ処理します。

  • ターゲット値1の傾向: ターゲット値1の傾向値をフィルタ処理します。

  • ターゲット値2の傾向: ターゲット値2の傾向値をフィルタ処理します。

1つ以上の文字列をフィルタ検索ボックスに入力すると、削除が表示されます。このアイコンをクリックして、検索文字列をクリアします。

13.8.3.2 比較(NB)

「比較」タブでは、2つの異なるターゲット値の結果を比較できます。

2つのターゲット値を選択します。「ターゲット値1」と「ターゲット値2」のデフォルト値が表示されます。

次の操作を実行できます。

  • ターゲット値を変更します。選択するターゲット値は異なる値である必要があります。

  • グリッド・フィルタを使用して、特定の値を表示します。

  • 「フェッチ・サイズ」を変更します。

  • グリッド列をソートします。比較のグリッドには、次の列があります。

    • 属性: 属性の名前

    • 値: 属性の値

    • ターゲット値1の傾向

    • ターゲット値2の傾向

    両方の傾向に関して、ヒストグラム棒が表示されます。傾向の最大値は1.0です。最小値は-1.0です。

    「傾向」では、特定の属性値ペアに対して、2つのターゲット値のうち、どちらとの関係の予測可能性が高いかを示します。傾向は、ターゲット値の肯定的または否定的な予測という観点で測定でき、否定的な予測は負の値として示されます。

他のタブ:

  • 確率

  • 設定

13.8.3.3 設定(NB)

「設定」タブには、モデル・サマリー、入力、ターゲット値、コスト・マトリックス(モデルがチューニングされている場合)、パーティション・キー(モデルがパーティション化されている場合)などに関する情報が含まれています。

「パーティション」フィールドで、パーティション名をクリックします。パーティションの詳細が「パーティションの詳細」ウィンドウに表示されます。

検索をクリックして、「パーティションの選択」ダイアログを開きます。

「設定」タブには、モデルが構築された方法に関する情報が表示されます。

他のタブ: NBモデル・ビューアには、次に示すその他のタブがあります。

  • 比較

  • 確率

13.8.3.3.1 設定(NB)

「設定」タブには、モデルの情報が表示されます。

「設定」タブには、次のタブがあります。

13.8.3.3.1.1 サマリー(NB)

「サマリー」タブでは、すべてのモデルについて説明しています。

モデル設定では、モデル構築の特性が示されます。「設定」は、次のように分かれています。

13.8.3.3.1.2 入力(NB)

Naive Bayesの「入力」タブは、スコアリングのみを実行できるモデルの場合に表示されます。

モデルの構築に使用された属性のリストです。各属性について、次の情報が表示されます。

  • 名前: 属性の名前。

  • データ型: 属性のデータ型。

  • マイニング型: 「カテゴリ型」または「数値型」。

  • ターゲット: チェックアイコンは、属性がターゲット属性であることを示します。

  • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

  • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

13.8.3.3.1.3 重み

「重み」タブには、各ターゲット値に対してシステムによって計算された重みが表示されます。

モデルをチューニングすると、重みが変更される場合があります。

13.8.3.3.1.4 ターゲット値

「ターゲット値」タブには、ターゲット属性、そのデータ型および各ターゲット属性の値が表示されます。

Naive Bayesの「ターゲット値」タブには次の情報が表示されます。

  • ターゲット属性

  • データ型

  • 各ターゲット属性の値

13.8.3.3.1.5 ターゲット値

「ターゲット値」タブには、ターゲット属性、そのデータ型および各ターゲット属性の値が表示されます。

Naive Bayesの「ターゲット値」タブには次の情報が表示されます。

  • ターゲット属性

  • データ型

  • 各ターゲット属性の値

13.8.3.3.2 サマリー(NB)

「サマリー」タブでは、すべてのモデルについて説明しています。

モデル設定では、モデル構築の特性が示されます。「設定」は、次のように分かれています。

13.8.3.3.2.1 「Naive Bayesアルゴリズム設定」

Naive Bayesアルゴリズムの設定がリストされます。

このセクションでは、アルゴリズム、および自動データ準備「オン」であるか「オフ」であるかを識別します。

Naive Bayes固有の設定を次に示します。

  • 「組のしきい値」: モデルに予測子を含めるために必要な組の最小発生割合。デフォルトは0です。

  • 単一のしきい値: モデルに予測子を含めるために必要な単一の最小発生割合。デフォルトは0です。

13.8.3.3.2.2 一般設定

一般設定は「設定」タブと「一般」タブに含まれています。

モデル・ビューアの「設定」タブには、次の3つのカテゴリの設定が表示されます。

  • 「一般」には、この項目で説明するようなモデルの一般情報が表示されます。

  • 「アルゴリズム設定」には、選択したアルゴリズムに固有の情報が表示されます。

  • 「ビルド詳細」には、計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

「一般」タブには、すべてのアルゴリズムの次の情報が含まれています。

  • タイプ モデルの機械学習ファンクション(異常検出、相関ルール、属性重要度、分類、クラスタリング、特徴抽出または回帰)。

  • 所有者: モデルの構築に使用された機械学習アカウント(スキーマ)。

  • モデル名: モデルの名前。

  • ターゲット属性: ターゲット属性(分類モデルと回帰モデルのみがターゲットを持ちます)。

  • 作成日: モデルが作成された日付(MM/DD/YYYYの形式)

  • 期間: モデルの構築に必要となった時間(分単位)。

  • サイズ: モデルのサイズ(MB)。

  • コメント: Oracle Data Minerを使用して作成されていないモデルの場合、このオプションでは、モデルに埋め込まれたコメントを表示します。Oracle Data Minerを使用して構築されたモデルに対するコメントを表示するには、モデルが構築されたノードの「プロパティ」に移動します。

    Oracle Data Minerを使用して作成されたモデルでは、BALANCED、NATURAL、CUSTOMまたはTUNEDが含まれている場合があります。Oracle Data Minerは、これらの値を挿入して、モデルがチューニングされたかどうかや、チューニングされた方法を示します。

13.8.3.3.3 入力(NB)

Naive Bayesの「入力」タブは、スコアリングのみを実行できるモデルの場合に表示されます。

モデルの構築に使用された属性のリストです。各属性について、次の情報が表示されます。

  • 名前: 属性の名前。

  • データ型: 属性のデータ型。

  • マイニング型: 「カテゴリ型」または「数値型」。

  • ターゲット: チェックアイコンは、属性がターゲット属性であることを示します。

  • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

  • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

13.8.3.3.4 パーティション・キー

「パーティション・キー」タブには、パーティション化された列がリストされます。

「パーティション・キー」タブには、パーティション化された列とともに次の詳細がリストされます。
  • パーティション名

  • ソース

  • データ型

13.8.3.3.5 重み

「重み」タブには、各ターゲット値に対してシステムによって計算された重みが表示されます。

モデルをチューニングすると、重みが変更される場合があります。

13.8.3.3.6 ターゲット値

「ターゲット値」タブには、ターゲット属性、そのデータ型および各ターゲット属性の値が表示されます。

Naive Bayesの「ターゲット値」タブには次の情報が表示されます。

  • ターゲット属性

  • データ型

  • 各ターゲット属性の値

13.9 Nonnegative Matrix Factorization

Nonnegative Matrix Factorization (NMF)は、特徴抽出用にOracle Machine Learningで使用される教師なしアルゴリズムです。

  • NMFモデルを構築するには、特徴抽出ノードを使用します。

  • NMFモデルを新規データに適用する場合は、適用ノードを使用します。

13.9.1 「Nonnegative Matrix Factorizationの使用方法」

Nonnegative Matrix Factorization (NMF)は、属性の数が多く、それらの属性があいまいであるか、予測可能性が低い場合に役立ちます。

属性を組み合せることによって、NMFで意味のあるパターン、トピックまたはテーマが生成されます。

NMFは、特にテキスト・マイニングに適しています。テキスト・ドキュメントでは、同じ言葉が異なる場所で別の意味を持って出現することがあります。たとえば、hikeという単語は、アウトドア(outdoor)または金利(interest rate)に関連して使用されます。NMFでは、次のように属性を組み合せることによって、予測能力にとって必須であるコンテキストを取り入れます。

  • "hike" + "mountain" -> "outdoor sports"
  • "hike" + "interest" -> "interest rates"

13.9.2 Nonnegative Matrix Factorizationの仕組み

Non-Negative Matrix Factorization (NMF)では、多変量分析および線形代数の手法が使用されます。

NMFでは、ユーザーが定義した数の特徴を作成して多変量データを分解します。各特徴は、元の属性セットの一次結合です。一次結合の係数は非負数です。

NMFは、VW×Hがほぼ等しくなるように、データ行列Vを2つの下位ランク行列WおよびHの積に分解します。NMFは、反復法を使用して、その積がVに近づくようにWHの初期値を変更します。近似誤差が収束するか、反復が指定数に達すると、処理が停止します。

モデルへの適用時、NMFモデルでは、モデルによって発見された属性(特徴)の新しいセットに元のデータがマップされます。

13.9.3 NMFアルゴリズム設定

Nonnegative Matrix Factorization (NMF)アルゴリズムでサポートされている設定がリストされます。

設定は次のとおりです。

  • 収束許容値: 最小収束許容値を示します。デフォルトは0.5です。

  • 自動データ準備: オン(デフォルト)。自動データ準備を示します。

  • 負のスコアリングなし: NMFスコアリングの結果をゼロで切り捨てるかどうか、つまり負の値が生成されないようにするかどうかを制御します。オプションは「有効」または「無効」です。デフォルトでは、「負のスコアリングなし」は「有効」になっています。

  • 特徴数: デフォルトでは、特徴の数は指定されません。特徴の数を指定しない場合、アルゴリズムによって特徴の数が決定されます。

    特徴の数を指定するには、「特徴数の指定」を選択し、特徴の整数を入力します。特徴の数は、属性の最小数以下、かつケース数以下の正の整数である必要があります。多くの場合、5、または7以下のその他の数にすると、良好な結果となります。

  • 反復数: 実行される反復の最大数を示します。デフォルトは50です。

  • 乱数シード: サンプルの乱数シードです。デフォルト値は-1です。このシードは変更できます。この操作を繰り返して同じ結果を得るようにするには、必ず同じ乱数シードを使用してください。

13.9.4 NMFモデル・ビューア

NMFモデル・ビューアでは、係数や設定など、モデルとアルゴリズムに関する情報を表示できます。

NMFモデル・ビューアには、次のタブがあります。

13.9.4.1 係数(NMF)

ある特徴IDに関して、その係数が「係数」グリッドに表示されます。

グリッドのタイトル「係数: x / y」には、モデルで使用可能なすべての行から返された行数が表示されます。

デフォルトでは、特徴IDは整数です。

「フェッチ・サイズ」によって、戻される行数が制限されます。デフォルトは1000、またはモデル・ビューアの「プリファレンス」設定で指定した値となります。

次のタスクを実行できます。

  • 名前変更

  • フィルタ

「係数」グリッドには次の列があります。

  • 属性: 属性名

  • 値: 属性の値

  • 係数: 値は棒として表示され、棒の中央に値が示されます。正の値は明るい青色です。負の値は赤色です。

13.9.4.1.1 名前変更(NMF)

「名前変更」ダイアログ・ボックスでは、任意の特徴IDの名前を変更できます。

選択した特徴IDの名前を変更するには:

  1. 「特徴ID」フィールドに新しい名前を入力します。
  2. 「OK」をクリックします。

ノート:

異なる特徴には別の名前を付ける必要があります。

13.9.4.1.2 フィルタ(NMF)

「フィルタ」ダイアログ・ボックスでは、フィルタを作成したり、属性、値、係数などの各種カテゴリを基準にフィルタを表示できます。

フィルタ・カテゴリを表示するには、検索をクリックします。

フィルタ・カテゴリを次に示します。

  • 属性(デフォルト): 属性名を検索します。

  • 値: これは値列です。

  • 係数: これは係数列です。

フィルタを作成するには、テキスト・ボックスに文字列を入力します。文字列が入力されると、削除アイコンが表示されます。フィルタをクリアするには、アイコンをクリックします。

13.9.4.2 特徴

「特徴」タブには、すべての特徴が特徴IDおよび対応する項目とともに表示されます。

下部のパネルには、次のタブがあります。

  • タグ・クラウド: 選択した特徴がタグ・クラウド形式で表示されます。特徴タグを係数順またはアルファベット順にソートできます。昇順または降順で表示することもできます。クラウド画像をコピーして保存するには、右クリックして次のいずれかを選択します。

    • 画像を別名で保存

    • 画像をクリップボードにコピー

  • 係数: 選択した特徴の属性がその値および係数とともに表形式で表示されます。

13.9.4.3 設定(NMF)

「設定」タブには、入力、ビルド詳細、アルゴリズム設定およびその他の一般設定に関する情報が含まれています。

13.9.4.3.1 サマリー(NMF)

「サマリー」タブには、ビルド詳細、アルゴリズム設定およびその他の一般設定に関する情報が含まれています。

「サマリー」タブには次のセクションがあります。

  • 「一般」設定には、次のことがリストされます。

    • モデルのタイプ(分類、回帰など)

    • モデルの所有者(モデルが構築されたスキーマ)

    • モデル名

    • 作成日

    • モデル構築の期間(分単位)

    • モデルのサイズ(MB)

    • コメント

  • 「アルゴリズム設定」には、次のことがリストされます。

    • モデルの構築に使用されたアルゴリズムの名前。

    • モデル構築を制御するアルゴリズム設定。

  • 「ビルド詳細」には、計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

13.9.4.3.2 入力(NMF)

「入力」タブには、モデルの構築に使用された属性のリストが表示されます。

Oracle Data Minerでは、必ずしも構築データのすべての属性を使用するわけではありません。たとえば、属性の値が定数である場合、その属性は使用されません。

モデルの構築に使用された各属性に関して、このタブには次の情報が表示されます。

  • 名前: 属性の名前。

  • データ型: 属性のデータ型

  • マイニング型: 「カテゴリ型」または「数値型」

  • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

  • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

13.10 直交パーティショニング・クラスタリング

直交パーティショニング・クラスタリングは、Oracle独自のクラスタリング・アルゴリズムです。

(O-Cluster) O-Clusterアルゴリズムを構築および適用するための要件:

  • OCモデルを構築するには、クラスタリング・ノードを使用します。

  • OCモデルを新規データに適用する場合は、適用ノードを使用します。

次の項目では、O-Clusterについて説明します。

13.10.1 O-Clusterアルゴリズム

O-Cluster (OC)アルゴリズムによって、階層グリッドベースのクラスタリング・モデルが作成されます。つまり、軸並行な(直行の)パーティションを入力属性空間に作成します。

このアルゴリズムは再帰的に作用します。生成される階層構造は、属性空間をクラスタに分割する不規則なグリッドになります。生成されるクラスタは、属性空間内の密度の高い領域を定義します。

クラスタは、属性軸沿いの間隔と、対応する重心およびヒストグラムによって記述されます。sensitivityパラメータは、基準となる密度レベルを定義します。最大密度がこの基準レベルを上回る領域のみを、クラスタとして認識できます。

O-Clusterによって検出されたクラスタを使用して、ベイズ的な確率モデルを生成し、その後このモデルは、スコアリング(モデル適用)時にデータ・ポイントをクラスタに割り当てるために使用されます。生成される確率モデルは混合モデルで、混合要素は、量的属性の独立正規分布と質的属性の多項分布の積によって表されます。

O-Clusterは、収束するまでチャンクのデータを調査します。処理される行数に明示的な制限はありません。

O-Clusterでは、欠損値をそのまま(ランダムに欠損している値として)処理します。このアルゴリズムでは、ネストした表がサポートされないため、スパース・データもサポートされません。

ノート:

OCでは、テキストはサポートされません。

13.10.2 OCアルゴリズム設定

O-Cluster (OC)アルゴリズムでサポートされている設定がリストされます。

設定は次のとおりです。

  • クラスタ数: アルゴリズムで生成されるリーフ・クラスタの最大数です。デフォルトは10です。

  • バッファ・サイズ: アルゴリズムが使用できる、メモリー・バッファの最大サイズです(論理レコード単位)。デフォルトは50,000論理レコードです。

  • 更新検出: 0 (クラスタ数が少ない)から1 (クラスタ数が多い)の間の数値です。デフォルトは0.5です。この値では、新しいクラスタを分割するために必要な最大密度を指定します。この値は、全体の均一密度と関連しています。

13.10.3 OCモデル・ビューア

OCモデル・ビューアでは、OCモデルの詳細を調べることができます。

OCモデル・ビューアには、次のタブがあります。

13.10.3.1 EM、KMおよびOCのツリー・ビューア

ツリー・ビューアは、階層クラスタのグラフィカル・ツリーです。

期待値の最大化、k-Meansおよび直交クラスタリングの各ツリー・ビューアの動作は同じです。ツリーを表示すると、次のようになります。

  • ワークフロー・サムネイルが開き、ツリー全体のビューが示されます。

  • 「構造」ウィンドウは、ツリーの移動および分析を実行する場合に役立ちます。

EM、KMおよびOCの「比較」を使用して、特定のノードの属性を、母集団の属性と比較できます。

特定のノードに関する情報を表示するには:

  1. ノードを選択します。

  2. 下部のペインでは、次に示す各タブに情報が表示されます。

    • 重心: クラスタの重心を表示します。

    • クラスタ・ルール: クラスタのすべての要素が満たすルールを表示します。

表示コントロール:

次のコントロールによってツリーの表示全体が制御されます。

  • ズームイン: ダイアグラムにズームインし、ルールの詳細ビューを表示します。

  • ズームアウト: ダイアグラムをズームアウトし、ルールの大部分またはすべてのビューを表示します。

  • パーセント・サイズ: ビューの拡大率を正確なパーセンテージで選択できます。

  • ウィンドウに合せる: ダイアグラム全体が画面内に収まるまでダイアグラムからズームアウトします。

  • レイアウト・タイプ: 水平レイアウトまたは垂直レイアウトを選択でき、デフォルトは垂直レイアウトとなっています。

  • 展開: すべてのノードにツリーのブランチが表示されます。

  • 詳細の表示: 各ツリー・ノードの詳細データを表示します。もう一度クリックすると、詳細が非表示になります。

  • 上位の属性: 上位Nの属性を表示します。デフォルトでは、Nは5です。Nを変更するには、リストから別の数を選択します。

  • リフレッシュ: 変更された「問合せ設定」を適用できます。

  • 問合せ設定: 上位数の設定を変更できます。デフォルトは10です。別の数を新しいデフォルト値として保存できます。

  • ルールの保存

13.10.3.2 クラスタ(ビューア)

「クラスタ」タブでは、選択したクラスタに関する情報を表示できます。このビューアでは、選択した確率のみが表示されるようにするフィルタリングがサポートされています。

EM、KMおよびOCの「クラスタ」タブは同じように動作します。

次の情報が表示されます:

  • クラスタ: 表示されるクラスタのID。別のクラスタを表示するには、メニューから別のIDを選択します。「リーフのみ」を選択して、リーフのみ(終端クラスタ)を表示できます。「リーフのみ」がデフォルトです。

  • フェッチ・サイズ: デフォルトは20です。この値は変更できます。

    「フェッチ・サイズ」を変更した場合は、「問合せ」をクリックして、新しい表示を確認します。

グリッドには、クラスタ内の属性がリストされます。各属性について、次の情報が表示されます。

  • 属性の「名前」

  • クラスタ内の属性値の「ヒストグラム」

  • 数値、およびパーセンテージを示す棒の両方として表示される「信頼度」。信頼度が非常に小さい場合、棒は表示されません。

  • 支持度(ケースの数)。

  • 平均。数値属性の場合に表示されます。

  • 最頻値。カテゴリ属性の場合に表示されます。

  • 分散

大きいバージョンのヒストグラムを表示する場合は、属性を選択すると、ヒストグラムがグリッドの下に表示されます。ヒストグラム内の棒の上にカーソルを置いて、正確な値など、ヒストグラムの詳細を表示します。

特定の属性名や特定の最頻値で属性リストを検索できます。検索するには、検索ボックスを使用します。

ドロップダウン・リストでは、「属性」 (デフォルト)または最頻値でグリッドを検索できます。検索の横のボックスに検索語を入力します。

検索をクリアする場合は、削除をクリックします。

他のタブ: NBモデル・ビューアには、次のようなタブもあります。

  • EM、KMおよびOCのツリー・ビューア

  • EM、KMおよびOCの「比較」

  • 設定

13.10.3.3 EM、KMおよびOCの「比較」

「比較」タブでは、同じモデル内の2つのクラスタを比較できます。

EM、KMおよびOCの「比較」タブは同じように動作します。この表示では、比較する2つのクラスタを選択できます。

次のタスクを実行できます。

  • クラスタの比較: 比較するクラスタは、リストから選択します。クラスタの比較では、属性値が比較されます。この比較はグリッドに表示されます。「比較」を使用して、個々のクラスタを母集団と比較します。

  • クラスタ名の変更: クラスタ名を変更するには、「編集」 をクリックします。これにより、「クラスタ名の変更」ダイアログ・ボックスが開きます。デフォルトでは、リーフのみが表示されます。すべてのノードを表示するには、「リーフのみ表示」の選択を解除します。「フェッチ・サイズ」のデフォルトは20です。この値は変更できます。

  • 属性の検索: 属性を検索するには、検索ボックスに属性の名前を入力します。ランクで検索することもできます。

  • 問合せの作成: 変更を加えた場合は、「問合せ」をクリックします。

各クラスタに関して、ヒストグラムが生成され、そのクラスタ内の属性値が表示されます。クラスタの拡大されたヒストグラムを表示するには、目的の属性をクリックします。拡大されたヒストグラムが属性グリッドの下に表示されます。

場合によっては、クラスタ内にヒストグラムが存在しないことがあります。

13.10.3.4 詳細(OC)

「詳細」タブでは、クラスタの詳細を表示できます。選択したクラスタでの属性の値を見つけることができます。

このビューアでは、選択した確率のみが表示されるようにするフィルタリングがサポートされています。次の情報が表示されます:

  • クラスタ: 表示されるクラスタのID。別のIDを選択して、クラスタを変更できます。終端クラスタのみを表示するには、「リーフのみ」を選択します。

  • フェッチ・サイズ: 選択した列の数。デフォルトは50です。フェッチ・サイズを変更できます。フェッチ・サイズを変更した場合は、「問合せ」をクリックします。

グリッドには、クラスタ内の属性がリストされます。各属性について、次の情報が表示されます。

  • 属性: 属性は、予測モデルの予測子、または記述モデルの記述情報の項目を指します。データ属性は、モデルの作成に使用されるデータの列を指します。データ属性は、変換により、モデルで質的属性または量的属性として使用できるようになる。質的属性および量的属性はモデル属性です。

  • ヒストグラム: 選択したクラスタの属性値は、ヒストグラムとして表示されます。

    大きいバージョンのヒストグラムを表示するには、属性を選択します。ヒストグラムがグリッドの下に表示されます。ヒストグラム内の棒の上にカーソルを置いて、正確な値など、ヒストグラムの詳細を表示します。

  • 信頼度: 数値、およびパーセンテージを示す棒の両方として表示されます。信頼度が非常に小さい場合、棒は表示されません。

  • 支持度: ケースの数。

  • 平均: 数値属性の場合に表示されます。

  • 最頻値: カテゴリ属性の場合に表示されます。

  • 分散

次のタスクを実行できます。

  • クラスタ内の属性をソートします。ソートするには、グリッド内の目的の列ヘッダーをクリックします。たとえば、属性名でソートするには、「属性」をクリックします。属性は次の基準でソートできます。

    • 信頼度

    • サポート

    • 平均

    • モード

    • 分散

    • 属性名

  • 特定の属性名または特定の最頻値で属性リストを検索します。検索するには、表示の横にある検索ボックスを使用します。

  • 「属性」でグリッドをソートします。ドロップダウン・リストでは、「属性」(デフォルト)または「モード」でグリッドを検索できます。検索フィールドに検索用語を入力します。検索をクリアする場合は、削除をクリックします。

他のタブ: OCモデル・ビューアには、「設定」タブがあります。

関連項目

13.10.3.5 設定(OC)

「設定」タブには、モデルが構築された方法に関する情報が表示されます。

関連項目

13.10.3.5.1 サマリー(OC)

「サマリー」タブには、ビルド詳細、アルゴリズム設定およびその他の一般設定に関する情報が含まれています。

「サマリー」タブには次のセクションがあります。

  • 「一般」設定には、次のことがリストされます。

    • モデルのタイプ(分類、回帰など)

    • モデルの所有者(モデルが構築されたスキーマ)

    • モデル名

    • 作成日

    • モデル構築の期間(分単位)

    • モデルのサイズ(MB)

    • コメント

  • 「アルゴリズム設定」には、次のことがリストされます。

    • アルゴリズムの名前。

    • モデル構築を制御する設定。「アルゴリズム」設定は構築ノードを定義するときに指定します。

  • 「ビルド詳細」には、計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

13.10.3.5.2 入力(OC)

「入力」タブは、スコアリングのみを実行できるモデルの場合に表示されます。

次の情報が表示されます。
  • 名前: 属性の名前。

  • データ型: 属性のデータ型

  • マイニング型: 「カテゴリ型」または「数値型」

  • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

  • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

13.10.4 クラスタ・ルールの解釈

クラスタ・ルールは数学的表記で表されます。

クラスタリング構築ノードを実行すると、クラスタリング・ノードにより、O-Cluster、k-Means、期待値の最大化の各アルゴリズムを使用して3つのモデルが構築されます。モデル・ビューアでは、「ツリー」タブの下部ペインにある「ルール」タブに各クラスタのクラスタリング・ルールが表示されます。ルールごとに、「設定」タブの「サマリー」にアルゴリズムの詳細が表示されます。ツリー・ノードでクラスタを選択すると、選択したクラスタのルールが表示されます。

例13-1 クラスタ・ルールの例

選択したクラスタのルールが次のようになっていると仮定します。

If TIME_AS_CUSTOMER In ("1", "2")

And N_OF_DEPENDENTS = "(.857143; 1.71429]"

And HOUSE_OWNERSHIP = "1"

And N_MORTGAGES = "1"

And REGION In ("NorthEast", "South")

Then Cluster is: 19

ビンについてのルールが生成されます。この例におけるルールは次のように解釈できます。

ルールIf TIME_AS_CUSTOMER In ("1", "2")では、属性TIME_AS_CUSTOMERにより、値が1および2の行を対象としています。列のマイニング型がカテゴリ型であるため、ルールはセットとして表されます。

ルールN_OF_DEPENDENTS = "(.857143; 1.71429]".857143 < N_OF_DEPENDENTS <= 1.71429を表します。列のマイニング型は数値であるため、ビンは範囲として表されます。

ルールHOUSE_OWNERSHIP = "1"およびN_MORTGAGES = "1"では、属性HOUSE_OWNERSHIPおよびN_MORTGAGESにより、値が1の行を対象としています。

ルールREGION In ("NorthEast", "South")では、属性REGIONにより、値として"Northeast"および"South"が含まれている行を対象としています。

これらのルールによると、クラスタは19として導出されます。

13.11 特異値分解および主成分分析

特異値分解(SVD)および主成分分析(PCA)は、特徴抽出用にOracle Machine Learningで使用される教師なしアルゴリズムです。

NMFとは異なり、SVDおよびPCAは、基礎となるデータ分散を取得する場合に最適な直交線形変換です。この特性は、高次元データのディメンション性を減少させ、有益なデータ・ビジュアライゼーションをサポートする場合に非常に役立つ。

ノート:

特異値分解(SVD)および主成分分析(PCA)では、Oracle Database 12c以上が必要です。

ディメンション性の低減に加え、SVDとPCAには、データのノイズ除去(スムージング)、データ圧縮、マトリックス反転、線形方程式系の解決など、他にも複数の重要な応用があります。Oracle Machine Learning実装SVD/PCAで、これらすべての領域を実質的にサポートできます。

SVDは、特徴抽出アルゴリズムとして実装されます。PCAは、SVDアルゴリズムの特別なスコア計算方法として実装されます。

13.11.1 「SVDモデルとPCAモデルの構築および適用」

SVDまたはPCAモデルを構築するには、特徴抽出ノードを使用します。

特徴抽出モデルは、特徴構築ノードを作成します。Oracle Database 12c以上に接続している場合、特徴構築ノードは、1つのNMFモデルと1つのPCAモデルを作成します。SVDモデルを追加できます。

SVDまたはPCAモデルを適用するには、適用ノードを使用します。

13.11.2 PCAアルゴリズム設定

PCAアルゴリズムでサポートされている設定がリストされます。

  • 特徴数: デフォルトは「システム決定」です。値を指定するには、「ユーザー指定」を選択し、整数値を入力します。

  • ソルバー: ソルバー設定は、データの主成分分析(PCA)の計算に使用されるSVDソルバーのタイプを示します。ソルバーは、ナロー・データ・ソルバーであるTall-Skinny SVDソルバーとワイド・データ・ソルバーである確率SVDソルバーに分類されます。オプションは次のとおりです。

    • Tall-Skinny (QR計算用)。これはナロー・データ用のデフォルト・ソルバーです。

    • Tall-Skinny (固有値計算用)

    • 確率(QR計算用)。このオプションを選択した場合は、「オプション」をクリックします。これにより、ソルバー(確率QR計算)ダイアログ・ボックスが開きます。これはワイド・データ用のデフォルトです。

    • 確率(固有値計算用)

    ノート:

    QR計算を使用したソルバー(tssvdおよびssvd)は、固定値計算を使用したソルバー(tseigenおよびsteigen)よりも安定性が高く、不良条件データ行列に対してもより精度の高い結果を生み出します。安定性の向上は計算コストの増加につながっています。

  • 許容範囲: デフォルトでは、「システム決定」に設定されています。値を指定するには、「ユーザー指定」をクリックします。値は、0より大きく1より小さい数値にする必要があります。

  • 概算: デフォルトは「システム決定」です。「有効化」または「無効化」を選択できます。近似計算によってパフォーマンスが向上します。

  • 予測: デフォルトでは、「予測」は選択されていません。

  • 機能数: デフォルトは「システム決定」です。ユーザーは、数を指定できます。

  • スコアリング・モード: 使用するスコアリング・モード(特異値分解スコアリングまたは主成分分析スコアリング)です。デフォルトは、「主要コンポーネント分析スコアリング」(PCAスコアリング)です。

    • ビルド・データがSVDでスコアリングされた場合、Uマトリックスと同じ予測になります。

    • ビルド・データがPCAでスコアリングされた場合、UマトリックスとSマトリックスの積が予測になります。

  • Uマトリックス出力: SVDによって作成されたUマトリックスを永続化するかどうかを指定します。SVDのUマトリックスには、構築データの行と同数の行があります。大規模なモデルの作成を回避するため、Uマトリックスは、「Uマトリックス出力」が有効な場合にのみ永続化されます。「Uマトリックス出力」を有効にした場合、構築データにケースIDを含める必要があります。デフォルトは「無効」です。

13.11.2.1 ソルバー(確率QR計算)

ここでは、確率(QR計算)ソルバーの設定を指定できます。

  1. 「オーバー・サンプリング」・フィールドで、1以上10000以下の値を指定します。デフォルトは5です。オーバーサンプリング値を大きくするほど、精度が向上しますが、長期的なトレーニング・コストが発生することになります。この値により、確率SVDソルバーで使用されるサンプリング・マトリックスの列数が構成されます。このマトリックスの列数は、特徴の要求数にオーバーサンプリング設定を加えた数と同じです。
  2. 「べき乗法」フィールドで、0以上20以下の値を指定します。デフォルトは2です。この値により、ソルバーの精度が向上します。
  3. 「乱数シード」フィールドで、0以上4294967296以下の値を指定します。デフォルトは0です。この乱数シード値により、確率SVDソルバーで使用されるサンプリング・マトリックスが初期化されます。
  4. 「OK」をクリックします。

13.11.3 PCAモデル・ビューア

PCAモデル・ビューアでは、主成分分析モデルの詳細を調べることができます。

モデル・ビューアには、次のタブがあります。

13.11.3.1 係数(PCA)

ある特徴IDに関して、その係数が「係数」グリッドに表示されます。

グリッドのタイトル「係数: x / y」には、モデルで使用可能なすべての行から返された行数が表示されます。デフォルトでは、特徴IDは整数(1、2、3、…)です。選択した特徴IDの固有値が、読取り専用値として表示されます。

次のタスクを実行できます。

  • フィルタ・カテゴリの表示および作成

  • 機能IDの名前変更

「係数」グリッドには次の列があります。

  • 属性

  • 単一値

    値は棒として表示され、棒の中央に値が示されます。正の値は明るい青色で、負の値は赤色です。

    デフォルトは「絶対値でソート」です。このオプションの選択を解除した場合は、「問合せ」をクリックします。

13.11.3.1.1 名前変更(PCA)

「名前変更」ダイアログ・ボックスでは、選択した特徴IDの名前を変更できます。名前を変更するには:

  1. 「特徴ID」フィールドに新しい名前を入力します。
  2. 「OK」をクリックします。

ノート:

異なる特徴には別の名前を付ける必要があります。

13.11.3.1.2 フィルタ(PCA)

フィルタ・カテゴリを表示するには、表示をクリックします。

フィルタ・カテゴリを次に示します。

  • 属性: (デフォルト)。属性名を検索します。

  • 単一値: 特異値列です。

フィルタを作成するには、テキスト・ボックスに文字列を入力します。文字列が入力されると、削除が表示されます。フィルタをクリアするには、そのフィルタをクリックします。

13.11.3.2 スクリー・プロット(PCA)

スクリー・プロットには、成分または因子に関連する固有値が表示されます。

主成分分析では、スクリー・プロットを使用して、データのほとんどの変化を説明する成分または因子を視覚的に評価できます。PCAのスクリー・プロットは次のようになっています。

  • 特徴は、X軸に沿って描画されます。

  • カットオフは、Y軸に沿って描画されます。

  • 分散は赤い線として描画されます。

  • 累積パーセントは青い線として描画されます。

グラフの下のグリッドには、各特徴IDの「固有値」、「分散」および累積パーセント分散が表示されます。

13.11.3.3 特徴

「特徴」タブには、すべての特徴が特徴IDおよび対応する項目とともに表示されます。

下部のパネルには、次のタブがあります。

  • タグ・クラウド: 選択した特徴がタグ・クラウド形式で表示されます。特徴タグを係数順またはアルファベット順にソートできます。昇順または降順で表示することもできます。クラウド画像をコピーして保存するには、右クリックして次のいずれかを選択します。

    • 画像を別名で保存

    • 画像をクリップボードにコピー

  • 係数: 選択した特徴の属性がその値および係数とともに表形式で表示されます。

13.11.3.4 詳細(PCA)

「詳細」タブには、SVDモデルのグローバル詳細の値が表示されます。

次の情報が表示されます:

  • コンポーネント数

  • 推奨カットオフ

13.11.3.5 設定(PCA)

「設定」タブには、モデルが構築された方法に関する情報が表示されます。

「設定」タブには、次のタブがあります。

13.11.3.5.1 サマリー(PCA)

「サマリー」タブには、ビルド詳細、アルゴリズム設定およびその他の一般設定に関する情報が含まれています。

「サマリー」タブの各セクションには、次の情報が含まれています。

  • 「一般」設定には、次のことがリストされます。

    • モデルのタイプ(分類、回帰など)

    • モデルの所有者(モデルが構築されたスキーマ)

    • モデル名

    • 作成日

    • モデル構築の期間(分単位)

    • モデルのサイズ(MB)

    • コメント

  • 「アルゴリズム設定」には、次のことがリストされます。

    • モデルの構築に使用されたアルゴリズムの名前。

    • モデル構築を制御するアルゴリズム設定。

  • 「ビルド詳細」には、計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

13.11.3.5.2 入力(PCA)

「入力」タブには、モデルの構築に使用された属性のリストが表示されます。

Oracle Data Minerでは、必ずしも構築データのすべての属性を使用するわけではありません。たとえば、属性の値が定数である場合、その属性は使用されません。

モデルの構築に使用された各属性に関して、このタブには次の情報が表示されます。

  • 名前: 属性の名前。

  • データ型: 属性のデータ型。

  • マイニング型: 「カテゴリ型」または「数値型」。

  • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

  • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

13.11.4 SVDアルゴリズム設定

SVDアルゴリズムでサポートされている設定がリストされます。

  • 概算: パフォーマンスを向上させるために、アルゴリズムで近似計算を使用するかどうかを指定します。SVDでは、多くの場合、数多くの列を含むデータ・セットが近似計算に適しています。近似処理の低ランク分解では、適切な計算コストで十分な結果を得られます。SVDの近似計算を無効にすると、近似処理はデータの特徴に基づいて行われます。2500個の属性(特徴の最大許容数)を超えるデータ・セットでは、近似分解のみが実行可能です。2500個の属性を超えるデータ・セットで近似計算を無効にすると、例外が発生します。

    近似計算の値を次に示します。

    • システム決定(デフォルト)

    • 有効化

    • 無効化

  • 自動準備: 「オン」または「オフ」。デフォルトは「オン」です。

  • 特徴数: 「システム決定」(デフォルト)。ユーザーは、数を指定できます。

  • ソルバー: この設定は、データの特異値分解(SVD)の計算に使用されるソルバーを示します。ソルバーは、ナロー・データ・ソルバーであるTall-Skinny SVDソルバーとワイド・データ・ソルバーである確率SVDソルバーに分類されます。オプションは次のとおりです。

    • Tall-Skinny (QR計算用)。これはナロー・データ用のデフォルト・ソルバーです。

    • Tall-Skinny (固有値計算用)

    • 確率(QR計算用)。このオプションを選択した場合は、「オプション」をクリックします。これにより、ソルバー(確率QR計算)ダイアログ・ボックスが開きます。これはワイド・データ用のデフォルトです。

    • 確率(固有値計算用)

    ノート:

    QR計算を使用したソルバー(tssvdおよびssvd)は、固定値計算を使用したソルバー(tseigenおよびsteigen)よりも安定性が高く、不良条件データ行列に対してもより精度の高い結果を生み出します。安定性の向上は計算コストの増加につながっています。

  • 許容範囲: デフォルトでは、「システム決定」に設定されています。値を指定するには、「ユーザー指定」をクリックします。値は、0より大きく1より小さい数値にする必要があります。

  • スコアリング・モード: 使用するスコアリング・モード(特異値分解スコアリングまたは主成分分析スコアリング)です。デフォルトは、「単一値分解スコアリング」です。

    • ビルド・データがSVDでスコアリングされた場合、Uマトリックスと同じ予測になります。

    • ビルド・データがPCAでスコアリングされた場合、UマトリックスとSマトリックスの積が予測になります。

  • Uマトリックス出力: SVDによって作成されたUマトリックスを永続化するかどうかの指定。SVDのUマトリックスには、ビルド・データの行と同数の行があります。大規模なモデルの作成を回避するため、Uマトリックスは、「Uマトリックス出力」が有効な場合にのみ永続化されます。「Uマトリックス出力」を有効にした場合、構築データにケースIDを含める必要があります。デフォルトは「無効化」です。

13.11.5 SVDモデル・ビューア

SVDモデル・ビューアでは、特異値分解モデルの詳細を調べることができます。

SVDモデル・ビューアには、次のタブがあります。

13.11.5.1 係数(SVD)

ある特徴IDに関して、その係数が「係数」グリッドに表示されます。

グリッドのタイトル「係数: x / y」には、モデルで使用可能なすべての行から返された行数が表示されます。デフォルトでは、特徴IDは整数です。

選択した特徴IDの固有値が、読取り専用値として表示されます。

「フェッチ・サイズ」によって、戻される行数が制限されます。デフォルトは1,000、またはモデル・ビューアの「プリファレンス」設定で指定した値となります。

次のタスクを実行できます。

  • 名前変更

  • フィルタ

「係数」グリッドには次の列があります。

  • 属性

  • 単一値

    値は棒として表示され、棒の中央に値が示されます。正の値は明るい青色で、負の値は赤色です。

    デフォルトは「絶対値でソート」です。符号付き値でソートするには、オプションの選択を解除してから、「問合せ」をクリックします。

13.11.5.1.1 名前変更(SVD)

選択した特徴IDの名前を変更できます。新しい名を入力して、OKをクリックします。異なる特徴には別の名前を付ける必要があります。

13.11.5.1.2 フィルタ(SVD)

フィルタ・カテゴリを表示するには、表示をクリックします。

フィルタ・カテゴリを次に示します。

  • 「属性」(デフォルト)では、属性名を検索します

  • 特異値、特異値列。

フィルタを作成するには、テキスト・ボックスに文字列を入力します。文字列が入力されると、削除が表示されます。フィルタをクリアするには、そのフィルタをクリックします。

13.11.5.2 特徴

「特徴」タブには、すべての特徴が特徴IDおよび対応する項目とともに表示されます。

下部のパネルには、次のタブがあります。

  • タグ・クラウド: 選択した特徴がタグ・クラウド形式で表示されます。特徴タグを係数順またはアルファベット順にソートできます。昇順または降順で表示することもできます。クラウド画像をコピーして保存するには、右クリックして次のいずれかを選択します。

    • 画像を別名で保存

    • 画像をクリップボードにコピー

  • 係数: 選択した特徴の属性がその値および係数とともに表形式で表示されます。

13.11.5.3 単一値(SVD)

各特徴IDの特異値がグリッド形式で表示されます。

13.11.5.4 詳細(SVD)

このタブには、次に示すSVDモデルのグローバル詳細の値が表示されます。

  • コンポーネント数

  • 推奨カットオフ

13.11.5.5 設定(SVD)

「設定」タブには、モデルが構築された方法に関する情報が表示されます。

「設定」タブには、次のタブがあります。

  • サマリー

  • 入力

13.11.5.5.1 サマリー(SVD)

「サマリー」タブには、ビルド詳細、アルゴリズム設定およびその他の一般設定に関する情報が含まれています。

「サマリー」タブの各セクションには、次の情報が含まれています。

  • 「一般」設定には、次のことがリストされます。

    • モデルのタイプ(分類、回帰など)

    • モデルの所有者(モデルが構築されたスキーマ)

    • モデル名

    • 作成日

    • モデル構築の期間(分単位)

    • モデルのサイズ(MB)

    • コメント

  • 「アルゴリズム設定」には、次のことがリストされます。

    • モデルの構築に使用されたアルゴリズムの名前。

    • モデル構築を制御するアルゴリズム設定。

  • 「ビルド詳細」には、計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

13.11.5.5.2 入力(SVD)

「入力」タブには、モデルの構築に使用された属性のリストが表示されます。

Oracle Data Minerでは、必ずしも構築データのすべての属性を使用するわけではありません。たとえば、属性の値が定数である場合、その属性は使用されません。

モデルの構築に使用された各属性に関して、このタブには次の情報が表示されます。

  • 名前: 属性の名前。

  • データ型: 属性のデータ型。

  • マイニング型: 「カテゴリ型」または「数値型」。

  • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

  • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

13.12 サポート・ベクター・マシン

サポート・ベクター・マシン(SVM)アルゴリズムは、分類モデル、回帰モデルおよび異常検出モデルの構築に使用できます。

次の項目では、サポート・ベクター・マシンについて説明します。

13.12.1 「サポート・ベクター・マシン・アルゴリズム」

サポート・ベクター・マシン(SVM)アルゴリズムは、様々な問題およびデータで使用できるアルゴリズム・スイートです。あるカーネルを別のカーネルに変更することで、SVMは様々な機械学習の問題を解決できます。

Oracle Machine Learningでは、次の2つのカーネル関数をサポートしています。

  • 線形

  • ガウス

SVMの主要な機能は次のとおりです。

  • SVMは、線形回帰、ニューラル・ネットなどの従来の方法をエミュレートできますが、柔軟性、スケーラビリティおよび速度の点でこれらの方法をはるかに超えています。

  • SVMを使用して、分類、回帰および異常検出の問題を解決できます。

    Oracle Machine Learningでは、異常検出用の1クラス分類機能としてSVMが使用されます。SVMは異常検出で使用される場合、分類マイニング機能を持ちますが、ターゲットは使用しません。1クラスSVMモデルを適用すると、スコアリング・データの各ケースに対して予測および確率が生成されます。予測が1の場合、そのケースは典型的とみなされます。予測が0の場合、そのケースは異常とみなされます。

13.12.1.1 サポート・ベクター・マシンの機能

SVMは、データ・ポイントの周りにn次元チューブを定義し、最も広範な区切りを与えるベクターを決定して、回帰問題を解決します。

n属性を含むデータ・レコードは、n次元空間のポイントとみなすことができます。これらの点は、SVMによって同種のターゲット値を持つサブセットに分割されます。点は、線形ケースの超平面、および非線形ケース(ガウス)の非線形セパレータによって分割されます。SVMは、クラスの最も広範な区切りを与えるセパレータを定義するベクター(サポート・ベクター)を検出します。n = 2の場合は簡単にビジュアル化でき、SVMは平面のポイントのクラスを分割する直線(線形)または曲線(非線形)を検出します。

13.12.1.2 SVMカーネル関数

サポート・ベクター・マシン(SVM)アルゴリズムは、ガウスおよび線形の2つのカーネル関数をサポートします。

構築するモデルのタイプ(分類または回帰)およびデータに応じて、いずれかのカーネル関数を使用します。

カーネル関数を選択した場合は、次のいずれかを選択します。

  • システム決定(デフォルト)

  • ガウス

  • 線形

分類モデルおよび異常検出モデルの場合は、ガウス・カーネルを使用して、クラスを線形に分離できない(つまり、クラスを線または平面で分離できない)問題を解決します。ガウス・カーネル・モデルを使用すると、強力な非線形クラス分離モデルが実現します。クラスを線形に分離できる場合は、線形カーネルを使用します。

回帰の問題の場合、線形カーネルも同様に直線を持つデータの近似値を求めます。線形カーネルは、データに直線を適合するよりも強力です。ガウス・カーネルでは、非線形関数を持つデータの近似値を求めます。

13.12.2 「SVMモデルの構築およびテスト」

構築データを表すデータ・ソース・ノードを適切な構築ノードに接続して、モデルの構築を指定します。

デフォルトでは、分類ノードまたは回帰ノードはそれ自体が構築したすべてのモデルをテストします。デフォルトでは、テスト・データは、入力データを構築サブセットとテスト・サブセットに分割することによって作成されます。または、2つのデータ・ソースを構築ノードに接続したり、テスト・ノードを使用してモデルをテストすることができます。

次の3種類のSVMモデルを構築できます。

13.12.2.1 SVM分類モデル

SVM分類(SVMC)は、決定境界を定義する決定面の概念に基づいています。

決定面は、異なるクラスのメンバーシップを持つオブジェクト・セット間を区別するものです。SVMは、クラスの最も広範な区切りを与えるセパレータを定義するベクター(サポート・ベクター)を検出します。

SVMCでは、2項および多クラスの両ターゲットがサポートされています。

SVMCモデルを構築およびテストするには、分類ノードを使用します。デフォルトでは、SVMCノードはそれ自体が構築したモデルをテストします。テスト・データは、入力データを構築サブセットとテスト・サブセットに分割することによって作成されます。テスト・ノードを使用してモデルをテストすることもできます。

SVMCモデルをテストした後に、そのモデルをチューニングできます。

SVMCはSVMの「重み」を使用して、ターゲット値の相対的な重要度を指定します。

13.12.2.1.1 SVMの重み

SVMモデルは、クラス全体にわたって最良の平均予測を得るために自動的に初期化されます。トレーニング・データが実際の分布を代表していない場合は、モデルにバイアスをかけて、十分に代表されていないクラス値を補正できます。クラスの重みを増やすと、そのクラスの正しい予測子の割合が増加します。

13.12.2.2 SVM回帰モデル

SVM回帰(SVMR)モデルでは、データ・ポイントの最大数がイプシロン幅の非感受性チューブ内に収まるような連続関数の検出が試行されます。

SVMでは、回帰問題を解決するために、イプシロン非感受性損失関数が使用されます。真のターゲット値のイプシロン距離内におさまる予測は、誤差として解釈されません。

イプシロン要素は、SVMR用の正則化設定です。この設定によって、モデルの堅牢性と誤差のマージンのバランスがとられ、新しいデータへの最適な一般化を実現できます。

SVMRモデルを構築およびテストするには、回帰ノードを使用します。デフォルトでは、回帰ノードはそれ自体が構築したモデルをテストします。テスト・データは、入力データを構築サブセットとテスト・サブセットに分割することによって作成されます。テスト・ノードを使用してモデルをテストすることもできます。

13.12.2.3 「SVM異常検出モデル」

Oracle Machine Learningでは、異常検出(AD)に1クラスSVMが使用されます。

異常検出のターゲットはありません。ADモデルを構築するには、適切なデータ・ソースに接続されている異常検出ノードを使用します。

13.12.3 SVMモデルの適用

モデルを新規データに適用して、動作を予測します。

適用ノードを使用して、SVMモデルを適用します。

3種類のSVMモデルをすべて適用できます。

13.12.3.1 1クラスSVMモデルの適用

1クラスSVMモデルは、適用時に、スコアリング・データの各ケースに対して予測および確率を生成します。

この動作は、モデルが標準データでトレーニングされていることを反映しています。

  • 予測が1の場合、そのケースは典型的とみなされます。

  • 予測が0の場合、そのケースは異常とみなされます。

13.12.4 SVM分類アルゴリズム設定

サポート・ベクター・マシン(SVM)アルゴリズムに対して指定する設定は、選択するカーネル関数に基づきます。

個々の設定の意味は、分類と回帰の両方で同じとなります。

SVM分類アルゴリズム設定を編集するには:

  1. 次のいずれかのオプションを使用して、設定を編集できます。
    • 分類ノードを右クリックし、「詳細設定」を選択します。

    • 分類ノードを右クリックし、「編集」を選択します。次に、「拡張」をクリックします。

  2. 「アルゴリズム設定」タブで、設定を使用できます。「カーネル関数」を選択します。オプションは次のとおりです。
    • システム決定:(デフォルト)。モデルが構築されると、使用されたカーネルがモデル・ビューアの設定に表示されます。

    • 線形: SVMで線形カーネルを使用する場合、モデルは係数を生成します。

    • ガウス(非線形関数)。

  3. 完了後、「OK」をクリックします。
13.12.4.1 線形カーネルまたはシステム決定カーネルのアルゴリズム設定(SVMC)

線形カーネルを指定した場合のSVM分類モデルのアルゴリズム設定がリストされています。

線形カーネルを指定した場合、またはシステムによってカーネルが決定されるようにした場合は、次の設定を変更できます。

  • 許容値

  • 複雑度係数

  • 能動学習

  • ソルバー: SVMソルバーのリストが表示されます。

    • システム決定(デフォルト)

    • 劣勾配降下。劣勾配降下ソルバーの設定を指定するには、「オプション」をクリックします。ソルバー(劣勾配降下)ダイアログ・ボックスが開きます。

    • 内点法

    ノート:

    カーネルが非線形である場合、ソルバーは選択できません。
  • 反復数: SVM反復数の上限を設定します。

    • システム決定

    • ユーザー指定

13.12.4.1.1 ソルバー(劣勾配降下)

ソルバー・オプション・ダイアログ・ボックスでは、劣勾配降下の設定を指定できます。

劣勾配降下に関する次の設定を指定します。

  1. 拘束条件: サポート・ベクター・マシン・ソルバーで使用される拘束条件のタイプを制御します。この設定は、線形SVMモデルにのみ使用できます。オプションは次のとおりです。
    • システム決定

    • L1

    • L2

  2. バッチ行: サポート・ベクター・マシン・ソルバーのバッチ・サイズを設定します。オプションは次のとおりです。
    • システム決定

    • デフォルト: 2000

  3. 「OK」をクリックします。
13.12.4.2 ガウス・カーネルのアルゴリズム設定(SVMC)

ガウス・カーネルを指定した場合のSVM分類モデルのアルゴリズム設定がリストされています。

ガウス・カーネルを指定した場合は、次の設定を変更できます。

  • 許容値

  • 複雑度係数

  • 能動学習

    ノート:

    能動学習は、Oracle Database 12.2以上に接続したOracle Data Miner 21.2ではサポートされていません。

  • 標準偏差(ガウス・カーネル)

  • キャッシュ・サイズ(ガウス・カーネル)

  • ソルバー: ガウス・カーネルのSVMソルバーのリストが表示されます。

    • システム決定

    • 内点法

  • 反復数: SVM反復数の上限を設定します。

    • システム決定

    • ユーザー指定

  • 不完全なコレスキ分解で使用されるピボット数: 不完全なコレスキ分解で使用されるピボット数の上限を設定します。非線形カーネルにのみ適用されます。値は、1 - 10000の正の整数である必要があります。デフォルトは200です。

13.12.4.2.1 能動学習

能動学習は、精度を維持するサポート・ベクターのサブセットの選択を最適化すると同時に、モデルの速度を高める方法です。

ノート:

能動学習は、Oracle Database 12.2以上に接続したOracle Data Miner 21.2ではサポートされていません。

能動学習の主な機能は次のとおりです。

  • 線形カーネルのパフォーマンスを向上します。能動学習では、パフォーマンスの向上およびガウス・カーネルのサイズ縮小の両方が実現されます。これは、メモリーおよび一時ディスク領域に問題がある場合に重要な考慮事項となります。

  • SVMアルゴリズムは最も有益なサンプルを学習し、データ全体を使用しないように制限されます。通常、生成されるモデルの予測精度は、標準的な(精密な) SVMモデルの予測精度と同程度になります。

この設定は無効化しないでください。

能動学習はデフォルトで選択されています。オフにするには、能動学習の選択を解除します。

13.12.4.2.2 複雑度係数

複雑度係数によって、トレーニング・データでモデルの誤差を最小化することと、モデルの複雑性を最小化することの間のトレードオフが決定します。

これは、データの過剰な適合(トレーニング・データで複雑すぎるモデル適合によるノイズ)、および不十分な適合(モデルがシンプルすぎる)を回避するために使用します。デフォルトでは、複雑度係数は指定されません

「複雑度係数の指定」を選択して、SVMモデルの複雑度係数を指定します。

複雑度係数の値が非常に大きいと、誤差に対して極端なペナルティが発生するため、SVMではターゲット・クラスの完全な分離を試みます。複雑度係数の値が小さいと、誤差に対して発生するペナルティは低く、モデル・パラメータに対する制約が高くなるため、モデル適合が不十分になる可能性があります。

ターゲット属性のヒストグラムが左または右に歪んでいる場合は、複雑度係数の値を大きくしてください。

デフォルトでは複雑度係数は指定されておらず、この場合、システムで複雑度係数が計算されます。複雑度係数を指定する場合は、正の数を指定してください。異常検出の複雑度係数を指定した場合、デフォルトは1です。

13.12.4.2.3 許容値

許容値は、モデルが収束したとみなされる場合など、収束条件の違反の最大サイズです。

デフォルト値は0.001です。値が大きいほどモデルの構築は高速になりますが、モデルの精度は低下します。

13.12.4.2.4 キャッシュ・サイズ(ガウス・カーネル)

ガウス・カーネルを選択した場合は、構築操作時に計算済カーネルを格納するために使用するキャッシュのサイズを指定できます。

デフォルト・サイズは50 MBです。

ガウス SVMモデルの構築時に最もコストがかかる操作は、カーネルの計算です。構築する際は、データのチャンク内に一度に収束して、次にチャンク外で違反をテストする方法が一般的です。許容値内に違反がなくなると、構築が完了します。チャンクのサイズは、関連するカーネルをメモリー内のカーネル・キャッシュで保持できるように選択されます。チャンク・サイズが大きくなるほど、チャンクがトレーニング・データの母集団をより適切に表すようになり、新しいチャンクの作成回数が少なくなります。一般的に、キャッシュが大きくなるほど、構築が高速になります。

13.12.4.2.5 標準偏差(ガウス・カーネル)

標準偏差は、変動量を定量化するために使用されるメジャーです。

ガウス・カーネルを選択した場合は、ガウス・カーネルの標準偏差を指定できます。この値は、正の数であることが必要です。デフォルトでは、標準偏差は指定されていません。

異常検出の場合、標準偏差を指定すると、デフォルトは1です。

13.12.5 「SVM分類テスト・ビューア」

デフォルトでは、分類モデルまたは回帰モデルが自動的にテストされます。オプションで、テスト結果を表示できます。

分類モデルは、モデルの予測を既知の結果と比較することでテストされます。Oracle Data Minerでは、最新のテスト結果が保持されます。

モデルのテスト結果を表示するには、構築ノードを右クリックし、「結果の表示」を選択します。

13.12.6 「SVM分類モデル・ビューア」

SVMモデル・ビューアでは、SVM分類モデルの詳細を調べることができます。

SVMCモデル・ビューアで表示されるタブは、次に示す、モデルの構築に使用されたカーネルによって異なります。

  • 線形カーネルを使用するモデルのSVMCモデル・ビューア

  • ガウス・カーネルを使用するモデルのSVMCモデル・ビューア

13.12.6.1 「線形カーネルを使用するモデルのSVMCモデル・ビューア」

サポート・ベクター・マシン分類モデルで線形カーネルが使用されている場合に表示されるタブがリストされています。

次のタブがあります。

13.12.6.1.1 係数(SVMC線形)

線形カーネルを使用して構築されたサポート・ベクター・マシン・モデルには係数が含まれます。係数は、実数です。係数の数値は膨大になる可能性があります。

「係数」タブでは、SVMの係数を表示できます。ビューアでは、係数が表示される順序を指定するソート、および表示する係数を選択するフィルタリングがサポートされています。

係数は「係数」グリッドに表示されます。係数の相対値は、棒としてグラフィカルに表示され、正と負の値では異なる色となります。ゼロに近い数値の場合、この棒は小さすぎて表示されない場合があります。

13.12.6.1.2 比較(SVMC線形)

線形カーネルを使用して構築されたサポート・ベクター・マシン・モデルでは、ターゲット値の比較が可能です。ターゲット値を比較できます。

選択した属性について、Data Minerは傾向、つまり、自然な性向やプリファレンスを計算して、2つのターゲット値のうち1つを優先します。たとえば、「ターゲット値1」の傾向が、「ターゲット値1」を優先する傾向となります。

ターゲット値を比較するには:

  1. 情報の表示方法を次のうちから選択します。
    • フェッチ・サイズ: デフォルトのフェッチ・サイズは1000の属性です。この数値は変更できます。

    • 絶対値でソート: これがデフォルトです。このオプションの選択を解除できます。

  2. 比較する2つの個別のターゲット値を次のように選択します。
    • ターゲット値1: 最初のターゲット値を選択します。

    • ターゲット値2: 2つ目のターゲット値を選択します。

  3. 「問合せ」をクリックします。デフォルトを変更しなかった場合、このステップを実行する必要はありません。

グリッドに表示される情報:

  • 属性: 属性の名前。

  • 値: 属性の値

  • Target_Value_1の傾向: 「ターゲット値1」を優先する傾向。

  • Target_Value_2の傾向: 「ターゲット値2」を優先する傾向。

13.12.6.1.3 設定(SVMC)

「設定」タブには、モデル・サマリー、入力、ターゲット値、コスト・マトリックス(モデルがチューニングされている場合)、パーティション・キー(モデルがパーティション化されている場合)などに関する情報が含まれています。

「パーティション」フィールドで、パーティション名をクリックします。パーティションの詳細が「パーティションの詳細」ウィンドウに表示されます。

検索をクリックして、「パーティションの選択」ダイアログを開きます。

「設定」タブには、モデルが構築された方法に関する情報が表示されます。

13.12.6.2 「ガウス・カーネルを使用するモデルのSVMCモデル・ビューア」

サポート・ベクター・マシン分類モデルでガウス・カーネルが使用されている場合に表示されるタブがリストされています。

次のタブがあります。

13.12.6.2.1 サマリー(SVMC)

「サマリー」タブには、入力、ビルド詳細、アルゴリズム設定およびその他の一般設定に関する情報が含まれています。

  • 「一般」設定には、次のことがリストされます。

    • モデルのタイプ(分類、回帰など)

    • モデルの所有者(モデルが構築されたスキーマ)

    • モデル名

    • 作成日

    • モデル構築の期間(分単位)

    • モデルのサイズ(MB)

    • コメント。

  • 「アルゴリズム設定」タブには、次のことがリストされます。

    • モデルの構築に使用されたアルゴリズムの名前。

    • モデル構築を制御するアルゴリズム設定。

  • 「ビルド詳細」には、計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

13.12.6.2.2 入力(SVMC)

「入力」タブには、モデルの構築に使用された属性のリストが表示されます。

各属性について、次の情報が表示されます。

  • 名前: 属性の名前。

  • データ型: 属性のデータ型。

  • マイニング型: 「カテゴリ型」または「数値型」。

  • ターゲット: チェックアイコンは、属性がターゲット属性であることを示します。

  • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

  • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

13.12.6.2.3 重み(SVMC)

サポート・ベクター・マシン分類では、重みは、ターゲット値(クラス)の相対的な重要度を示すためのバイアス・メカニズムです。

SVMモデルは、クラス全体にわたって最良の平均予測を得るために自動的に初期化されます。ただし、トレーニング・データが実際の分布を代表していない場合は、モデルにバイアスをかけて、十分に代表されていないクラス値を補正できます。クラスの重みを増やすと、そのクラスの正しい予測子の割合が増加します。

13.12.6.2.4 ターゲット値(SVMC)

サポート・ベクター・マシン分類モデルの「ターゲット値」には、ターゲット属性の値が表示されます。

  • 表示をクリックして、ターゲット値を検索します。

  • 削除をクリックして、検索をクリアします。

13.12.6.3 係数(SVMC線形)

線形カーネルを使用して構築されたサポート・ベクター・マシン・モデルには係数が含まれます。係数は、実数です。係数の数値は膨大になる可能性があります。

「係数」タブでは、SVMの係数を表示できます。ビューアでは、係数が表示される順序を指定するソート、および表示する係数を選択するフィルタリングがサポートされています。

係数は「係数」グリッドに表示されます。係数の相対値は、棒としてグラフィカルに表示され、正と負の値では異なる色となります。ゼロに近い数値の場合、この棒は小さすぎて表示されない場合があります。

13.12.6.3.1 「係数」グリッド(SVMC)

「係数」グリッドには次のコントロールがあります。

  • ターゲット値: 特定のターゲット値を選択し、その値に関連付けられている係数を表示します。デフォルトでは、発生頻度が最も低い値の係数が表示されます。

  • 絶対値でソート: 選択されている場合、係数は絶対値でソートされます。絶対値でソートすると、係数-2は係数1.9の前にきます。デフォルトでは、絶対値でソートされます。

  • フェッチ・サイズ: 表示される行数。すべての係数が表示されているかどうかを確認するには、表示されている行数よりも大きいフェッチ・サイズを選択します。

属性を名前で検索できます。表示を使用します。グリッドに項目がリストされていない場合、選択したターゲット値に係数はありません。係数グリッドには次の列があります。

  • 属性: 属性の名前。

  • 値 : 属性の値。属性がビニングされている場合、これは範囲になる場合があります。

  • 係数: 属性の値の確率。

    値は棒として表示され、棒の中央に値が示されます。正の値は明るい青色で、負の値は赤色です。

13.12.6.4 比較(SVMC線形)

線形カーネルを使用して構築されたサポート・ベクター・マシン・モデルでは、ターゲット値の比較が可能です。ターゲット値を比較できます。

選択した属性について、Data Minerは傾向、つまり、自然な性向やプリファレンスを計算して、2つのターゲット値のうち1つを優先します。たとえば、「ターゲット値1」の傾向が、「ターゲット値1」を優先する傾向となります。

ターゲット値を比較するには:

  1. 情報の表示方法を次のうちから選択します。
    • フェッチ・サイズ: デフォルトのフェッチ・サイズは1000の属性です。この数値は変更できます。

    • 絶対値でソート: これがデフォルトです。このオプションの選択を解除できます。

  2. 比較する2つの個別のターゲット値を次のように選択します。
    • ターゲット値1: 最初のターゲット値を選択します。

    • ターゲット値2: 2つ目のターゲット値を選択します。

  3. 「問合せ」をクリックします。デフォルトを変更しなかった場合、このステップを実行する必要はありません。

グリッドに表示される情報:

  • 属性: 属性の名前。

  • 値: 属性の値

  • Target_Value_1の傾向: 「ターゲット値1」を優先する傾向。

  • Target_Value_2の傾向: 「ターゲット値2」を優先する傾向。

13.12.6.4.1 検索

表示を使用して、グリッドを検索します。

名前(デフォルト)、値、およびターゲット値1の傾向やターゲット値2の傾向を基準にして検索できます。

  • 別の検索オプションを選択するには、双眼鏡の横にある三角形をクリックします。

  • 検索をクリアする場合は、削除をクリックします。

13.12.6.4.2 傾向

傾向の目的は、特定の属性/値のペアに関して、2つのターゲット値のうち、どちらとの関係の予測可能性が高いかを示すことです。傾向は、ターゲット値の肯定的または否定的な予測という観点で測定できます。傾向が値に反する場合、その数値は負になります。

13.12.6.5 設定(SVMC)

「設定」タブには、モデル・サマリー、入力、ターゲット値、コスト・マトリックス(モデルがチューニングされている場合)、パーティション・キー(モデルがパーティション化されている場合)などに関する情報が含まれています。

「パーティション」フィールドで、パーティション名をクリックします。パーティションの詳細が「パーティションの詳細」ウィンドウに表示されます。

検索をクリックして、「パーティションの選択」ダイアログを開きます。

「設定」タブには、モデルが構築された方法に関する情報が表示されます。

13.12.6.5.1 サマリー(SVMC)

「サマリー」タブには、入力、ビルド詳細、アルゴリズム設定およびその他の一般設定に関する情報が含まれています。

  • 「一般」設定には、次のことがリストされます。

    • モデルのタイプ(分類、回帰など)

    • モデルの所有者(モデルが構築されたスキーマ)

    • モデル名

    • 作成日

    • モデル構築の期間(分単位)

    • モデルのサイズ(MB)

    • コメント。

  • 「アルゴリズム設定」タブには、次のことがリストされます。

    • モデルの構築に使用されたアルゴリズムの名前。

    • モデル構築を制御するアルゴリズム設定。

  • 「ビルド詳細」には、計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

13.12.6.5.1.1 設定(SVMC線形)

「設定」タブは、次で構成されています。

13.12.6.5.2 入力(SVMC)

「入力」タブには、モデルの構築に使用された属性のリストが表示されます。

各属性について、次の情報が表示されます。

  • 名前: 属性の名前。

  • データ型: 属性のデータ型。

  • マイニング型: 「カテゴリ型」または「数値型」。

  • ターゲット: チェックアイコンは、属性がターゲット属性であることを示します。

  • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

  • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

13.12.6.5.2.1 ターゲット値(SVMC)

サポート・ベクター・マシン分類モデルの「ターゲット値」には、ターゲット属性の値が表示されます。

  • 表示をクリックして、ターゲット値を検索します。

  • 削除をクリックして、検索をクリアします。

13.12.6.5.3 パーティション・キー

「パーティション・キー」タブには、パーティション化された列がリストされます。

「パーティション・キー」タブには、パーティション化された列とともに次の詳細がリストされます。
  • パーティション名

  • ソース

  • データ型

13.12.6.5.4 重み(SVMC)

サポート・ベクター・マシン分類では、重みは、ターゲット値(クラス)の相対的な重要度を示すためのバイアス・メカニズムです。

SVMモデルは、クラス全体にわたって最良の平均予測を得るために自動的に初期化されます。ただし、トレーニング・データが実際の分布を代表していない場合は、モデルにバイアスをかけて、十分に代表されていないクラス値を補正できます。クラスの重みを増やすと、そのクラスの正しい予測子の割合が増加します。

13.12.6.6 SVMCのアルゴリズム設定

SVMアルゴリズムには分類のための次の設定があります。

  • アルゴリズム名: サポート・ベクター・マシン

  • カーネル関数: 「ガウス」または「線形」

  • 許容値: デフォルトは0.001です。

  • 複雑度係数の指定: デフォルトでは、指定されていません。

  • 能動学習: オン

  • 標準偏差(ガウス・カーネルのみ)

  • キャッシュ・サイズ(ガウス・カーネルのみ)

13.12.7 「SVM回帰アルゴリズム設定」

サポート・ベクター・マシン(SVM)アルゴリズムに対して指定する設定は、選択するカーネル関数に基づきます。

個々の設定の意味は、分類と回帰の両方で同じとなります。

SVM回帰アルゴリズム設定を編集するには:

  1. 次のいずれかのオプションを使用して、設定を編集できます。
    • 分類ノードを右クリックし、「詳細設定」を選択します。

    • 分類ノードを右クリックし、「編集」を選択します。次に、「拡張」をクリックします。

  2. 「アルゴリズム設定」タブで、設定を使用できます。「カーネル関数」を選択します。オプションは次のとおりです。
    • システム決定(デフォルト)。モデルが構築されると、使用されたカーネルがモデル・ビューアの設定に表示されます。

    • 線形。SVMで線形カーネルを使用する場合、モデルは係数を生成します。

    • ガウス(非線形関数)。

  3. 完了後、「OK」をクリックします。
13.12.7.1 線形カーネルまたはシステム決定カーネルのアルゴリズム設定(SVMR)

線形カーネルを指定した場合、またはシステムによってカーネルを決定した場合、SVM回帰モデルの許容値、複雑度係数および能動学習を変更できます。

13.12.7.1.1 許容値

許容値は、モデルが収束したとみなされる場合など、収束条件の違反の最大サイズです。

デフォルト値は0.001です。値が大きいほどモデルの構築は高速になりますが、モデルの精度は低下します。

13.12.7.1.2 能動学習

能動学習は、精度を維持するサポート・ベクターのサブセットの選択を最適化すると同時に、モデルの速度を高める方法です。

ノート:

能動学習は、Oracle Database 12.2以上に接続したOracle Data Miner 21.2ではサポートされていません。

能動学習の主な機能は次のとおりです。

  • 線形カーネルのパフォーマンスを向上します。能動学習では、パフォーマンスの向上およびガウス・カーネルのサイズ縮小の両方が実現されます。これは、メモリーおよび一時ディスク領域に問題がある場合に重要な考慮事項となります。

  • SVMアルゴリズムは最も有益なサンプルを学習し、データ全体を使用しないように制限されます。通常、生成されるモデルの予測精度は、標準的な(精密な) SVMモデルの予測精度と同程度になります。

この設定は無効化しないでください。

能動学習はデフォルトで選択されています。オフにするには、能動学習の選択を解除します。

13.12.7.1.3 複雑度係数

複雑度係数によって、トレーニング・データでモデルの誤差を最小化することと、モデルの複雑性を最小化することの間のトレードオフが決定します。

これは、データの過剰な適合(トレーニング・データで複雑すぎるモデル適合によるノイズ)、および不十分な適合(モデルがシンプルすぎる)を回避するために使用します。デフォルトでは、複雑度係数は指定されません

「複雑度係数の指定」を選択して、SVMモデルの複雑度係数を指定します。

複雑度係数の値が非常に大きいと、誤差に対して極端なペナルティが発生するため、SVMではターゲット・クラスの完全な分離を試みます。複雑度係数の値が小さいと、誤差に対して発生するペナルティは低く、モデル・パラメータに対する制約が高くなるため、モデル適合が不十分になる可能性があります。

ターゲット属性のヒストグラムが左または右に歪んでいる場合は、複雑度係数の値を大きくしてください。

デフォルトでは複雑度係数は指定されておらず、この場合、システムで複雑度係数が計算されます。複雑度係数を指定する場合は、正の数を指定してください。異常検出の複雑度係数を指定した場合、デフォルトは1です。

13.12.7.2 ガウス・カーネルのアルゴリズム設定(SVMR)

ガウス・カーネルを指定した場合、SVM回帰モデルの許容値、複雑度係数、能動学習、標準偏差およびキャッシュ・サイズを編集できます。

13.12.7.2.1 許容値

許容値は、モデルが収束したとみなされる場合など、収束条件の違反の最大サイズです。

デフォルト値は0.001です。値が大きいほどモデルの構築は高速になりますが、モデルの精度は低下します。

13.12.7.2.2 複雑度係数

複雑度係数によって、トレーニング・データでモデルの誤差を最小化することと、モデルの複雑性を最小化することの間のトレードオフが決定します。

これは、データの過剰な適合(トレーニング・データで複雑すぎるモデル適合によるノイズ)、および不十分な適合(モデルがシンプルすぎる)を回避するために使用します。デフォルトでは、複雑度係数は指定されません

「複雑度係数の指定」を選択して、SVMモデルの複雑度係数を指定します。

複雑度係数の値が非常に大きいと、誤差に対して極端なペナルティが発生するため、SVMではターゲット・クラスの完全な分離を試みます。複雑度係数の値が小さいと、誤差に対して発生するペナルティは低く、モデル・パラメータに対する制約が高くなるため、モデル適合が不十分になる可能性があります。

ターゲット属性のヒストグラムが左または右に歪んでいる場合は、複雑度係数の値を大きくしてください。

デフォルトでは複雑度係数は指定されておらず、この場合、システムで複雑度係数が計算されます。複雑度係数を指定する場合は、正の数を指定してください。異常検出の複雑度係数を指定した場合、デフォルトは1です。

13.12.7.2.3 能動学習

能動学習は、精度を維持するサポート・ベクターのサブセットの選択を最適化すると同時に、モデルの速度を高める方法です。

ノート:

能動学習は、Oracle Database 12.2以上に接続したOracle Data Miner 21.2ではサポートされていません。

能動学習の主な機能は次のとおりです。

  • 線形カーネルのパフォーマンスを向上します。能動学習では、パフォーマンスの向上およびガウス・カーネルのサイズ縮小の両方が実現されます。これは、メモリーおよび一時ディスク領域に問題がある場合に重要な考慮事項となります。

  • SVMアルゴリズムは最も有益なサンプルを学習し、データ全体を使用しないように制限されます。通常、生成されるモデルの予測精度は、標準的な(精密な) SVMモデルの予測精度と同程度になります。

この設定は無効化しないでください。

能動学習はデフォルトで選択されています。オフにするには、能動学習の選択を解除します。

13.12.7.2.4 標準偏差(ガウス・カーネル)

標準偏差は、変動量を定量化するために使用されるメジャーです。

ガウス・カーネルを選択した場合は、ガウス・カーネルの標準偏差を指定できます。この値は、正の数であることが必要です。デフォルトでは、標準偏差は指定されていません。

異常検出の場合、標準偏差を指定すると、デフォルトは1です。

13.12.7.2.5 キャッシュ・サイズ(ガウス・カーネル)

ガウス・カーネルを選択した場合は、構築操作時に計算済カーネルを格納するために使用するキャッシュのサイズを指定できます。

デフォルト・サイズは50 MBです。

ガウス SVMモデルの構築時に最もコストがかかる操作は、カーネルの計算です。構築する際は、データのチャンク内に一度に収束して、次にチャンク外で違反をテストする方法が一般的です。許容値内に違反がなくなると、構築が完了します。チャンクのサイズは、関連するカーネルをメモリー内のカーネル・キャッシュで保持できるように選択されます。チャンク・サイズが大きくなるほど、チャンクがトレーニング・データの母集団をより適切に表すようになり、新しいチャンクの作成回数が少なくなります。一般的に、キャッシュが大きくなるほど、構築が高速になります。

13.12.7.3 自動データ準備

ほとんどのアルゴリズムでは、なんらかの形のデータ変換が必要となります。Oracle Machine Learningは、モデルの構築プロセス中にアルゴリズムで必要とされる変換を自動的に実行できます。

ユーザーは、この自動変換に独自の変換を追加したり、すべての変換を独自に管理できます。

自動変換を計算する際、Oracle Machine Learningでは、経験則を使用して特定のアルゴリズムの一般的な要件を見つけます。多くの場合、このプロセスによってモデルの質がある程度確保されます。

13.12.8 「SVM回帰テスト・ビューア」

デフォルトでは、分類モデルまたは回帰モデルが自動的にテストされます。オプションで、テスト結果を表示できます。

分類モデルは、モデルの予測を既知の結果と比較することでテストされます。Oracle Data Minerでは、最新のテスト結果が保持されます。

モデルのテスト結果を表示するには、構築ノードを右クリックし、「結果の表示」を選択します。

13.12.9 「SVM回帰モデル・ビューア」

SVM回帰モデル・ビューアでは、SVM (回帰)モデルを調べることができます。

モデル・ビューアに表示される情報は、モデルの構築に使用されたカーネルによって異なります。

  • ガウス・カーネルが使用された場合は、「設定」タブのみがあります。

  • 線形カーネルが使用された場合は、「係数」「比較」および「設定」という3つのタブがあります

SVMCモデル・ビューアで表示されるタブは、次に示す、モデルの構築に使用されたカーネルによって異なります。

  • 線形カーネルを使用するモデルのSVMRモデル・ビューア

  • ガウス・カーネルを使用するモデルのSVMRモデル・ビューア

13.12.9.1 「線形カーネルを使用するモデルのSVMRモデル・ビューア」

サポート・ベクター・マシン回帰モデルで線形カーネルが使用されている場合に表示されるタブがリストされています。

次のタブがあります。

13.12.9.1.1 係数(SVMR)

「係数」タブでは、SVMRの係数を表示できます。

線形カーネルを使用して構築されたサポート・ベクター・マシン・モデルには係数が含まれます。係数は、実数です。係数の数値は膨大になる可能性があります。

ビューアでは、係数が表示される順序を指定するソート、および表示する係数を選択するフィルタリングがサポートされています。

係数はSVMRの「係数」グリッドに表示されます。係数の相対値は、棒としてグラフィカルに表示され、正と負の値では異なる色となります。ゼロに近い数値の場合、この棒は小さすぎて表示されない場合があります。

13.12.9.1.1.1 SVMRの「係数」グリッド

係数に関する情報は、次のように構成されています。

  • 絶対値でソート: デフォルトでは、絶対値でソートされます。たとえば、1および-1は、同じ絶対値となります。この値を変更した場合は、「問合せ」をクリックする必要があります。

  • フェッチ・サイズ: フェッチする最大行数です。デフォルトは1,000です。値を小さくすると、フェッチが高速になります。この値を変更した場合は、「問合せ」をクリックする必要があります。

  • 係数: 表示される係数の数で、たとえば95 / 95は、95の係数があり、それら95すべてが表示されることを示します。

次のタスクを実行できます。

  • 検索: 表示を使用して、項目を検索します。次の基準で検索できます。

    • 属性名(デフォルト)

    • 係数

    • すべて(および): この基準で検索すると、指定したすべての基準を満たす項目が検索されます。たとえば、ED Bacを検索すると、両方の値が出現するすべての属性が見つかります。

    • すべて(または): この基準で検索すると、少なくとも1つの値が含まれる属性が検索されます

  • 検索のクリア: 検索をクリアするには、削除をクリックします。

  • 別の検索オプションを選択するには、双眼鏡の横にある三角形をクリックします。

係数は、グリッドにリストされます。係数グリッドには次の列があります。

  • 属性: 属性の名前

  • 値: 属性の値

  • 係数: 選択したターゲット値の各係数の値が表示されます。各係数の前に棒が表示されます(重なっている場合もあります)。棒は、係数の相対サイズを示します。正の値の場合、棒は明るい青色で、負の値の場合、棒は赤色です。値が0に近い場合、棒が小さすぎて表示されない場合があります。

13.12.9.1.2 設定(SVMR)

「設定」タブには、モデルが構築された方法に関する情報が表示されます。

情報は次のタブに表示されます。

  • 「サマリー」タブ: モデルおよびアルゴリズムの設定が含まれます。

  • 「入力」タブ: モデルの構築に使用された属性が含まれます。

13.12.9.2 「ガウス・カーネルを使用するモデルのSVMRモデル・ビューア」

サポート・ベクター・マシン回帰モデルでガウス・カーネルが使用されている場合に表示されるタブがリストされています。

次のタブがあります。

13.12.9.2.1 サマリー(SVMR)

「サマリー」タブには、入力、ビルド詳細、アルゴリズム設定およびその他の一般設定に関する情報が含まれています。

  • 「一般」設定には、次のことがリストされます。

    • モデルのタイプ(分類、回帰など)

    • モデルの所有者(モデルが構築されたスキーマ)

    • モデル名

    • 作成日

    • モデル構築の期間(分単位)

    • モデルのサイズ(MB)

    • コメント。

  • 「アルゴリズム設定」セクションには、次のことがリストされます。

    • モデルの構築に使用されたアルゴリズムの名前。

    • モデル構築を制御するアルゴリズム設定。

  • 「ビルド詳細」には、計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

13.12.9.2.2 入力(SVMR)

「入力」タブには、モデルの構築に使用された属性のリストが表示されます。

各属性について、次の情報が表示されます。

  • 名前: 属性の名前。

  • データ型: 属性のデータ型。

  • マイニング型: 「カテゴリ型」または「数値型」。

  • ターゲット: チェックアイコンは、属性がターゲット属性であることを示します。

  • データ準備: 「はい」はデータ準備が実行されたことを示します。これにより、ユーザーと自動データ準備(ADP)を区別しやすくなり、ADPをオフにしても、ユーザーは引き続き変換を組み込むことができます。データ準備が「はい」の場合は、列を選択してクリックします。各グループには入力とリバース式を含めることができます。リバース式は、存在しなければ表示されません。入力が存在しない場合は、何も表示されません。変換はSQL表記法で表示されます。

  • パーティション・キー: 「はい」は、属性がパーティション・キーであることを示します。

13.13 設定情報

一部の設定は自動データ準備に関するものです。イプシロン値、支持度および信頼度はほとんどのアルゴリズムに共通するものです。

この項には、ほとんどのアルゴリズムで共通する設定に関する次の項目が含まれます。

13.13.1 一般設定

一般設定は「設定」タブと「一般」タブに含まれています。

モデル・ビューアの「設定」タブには、次の3つのカテゴリの設定が表示されます。

  • 「一般」には、この項目で説明するようなモデルの一般情報が表示されます。

  • 「アルゴリズム設定」には、選択したアルゴリズムに固有の情報が表示されます。

  • 「ビルド詳細」には、計算済設定が表示されます。計算済設定は、モデルの作成時にOracle Machine Learningによって生成されます。

「一般」タブには、すべてのアルゴリズムの次の情報が含まれています。

  • タイプ モデルの機械学習ファンクション(異常検出、相関ルール、属性重要度、分類、クラスタリング、特徴抽出または回帰)。

  • 所有者: モデルの構築に使用された機械学習アカウント(スキーマ)。

  • モデル名: モデルの名前。

  • ターゲット属性: ターゲット属性(分類モデルと回帰モデルのみがターゲットを持ちます)。

  • 作成日: モデルが作成された日付(MM/DD/YYYYの形式)

  • 期間: モデルの構築に必要となった時間(分単位)。

  • サイズ: モデルのサイズ(MB)。

  • コメント: Oracle Data Minerを使用して作成されていないモデルの場合、このオプションでは、モデルに埋め込まれたコメントを表示します。Oracle Data Minerを使用して構築されたモデルに対するコメントを表示するには、モデルが構築されたノードの「プロパティ」に移動します。

    Oracle Data Minerを使用して作成されたモデルでは、BALANCED、NATURAL、CUSTOMまたはTUNEDが含まれている場合があります。Oracle Data Minerは、これらの値を挿入して、モデルがチューニングされたかどうかや、チューニングされた方法を示します。

13.13.2 自動データ準備

自動変換を計算する際、Oracle Machine Learningでは、経験則を使用して特定のアルゴリズムの一般的な要件を見つけます。多くの場合、このプロセスによってモデルの質がある程度確保されます。

ほとんどのアルゴリズムでは、なんらかの形のデータ変換が必要となります。Oracle Machine Learningは、モデルの構築プロセス中にアルゴリズムで必要とされる変換を自動的に実行できます。ユーザーは、この自動変換に独自の変換を追加したり、すべての変換を独自に管理できます。

自動データ準備を実行すると、モデルを使用してスコアリングされたデータに対して同じデータ準備が自動的に実行されます。自動データ準備「オフ」である場合、つまりすべての変換を自分自身で管理する場合は、構築データを準備したときと同じ方法で適用データを準備する必要があります。

13.13.3 その他の設定

その他の設定は、ルール、データ準備、支持度および信頼度の属性数に関するものです。

設定は次のとおりです。

  • 各ルール内の属性数の制限: デフォルトでは、このオプションは選択されています。各ルール内の最大属性数です。この数は、2から20までの整数である必要があります。ルールの数が多いと、構築速度が遅くなります。ルール内の属性の数を変更したり、無制限にすることができます。デフォルトで開始して、この数を徐々に増やすことをお薦めします。

    • 制限を指定しない場合は、このオプションの選択を解除します。

    • 各ルールで多数の属性を指定すると、ルールの数が大幅に増えます。

    • デフォルトは3です。

  • 自動準備: 「オン」または「オフ」です。「オン」は、自動データ準備が正規化および外れ値の検出に使用されることを示します。SVMアルゴリズムは、欠損値処理およびカテゴリ別データの変換を自動的に処理します。正規化および外れ値検出は、ADPで処理するか、手動で準備する必要があります。デフォルトは「オン」です。

  • 最小サポート: パーセンテージを示す0から100までの数字。支持度の値が小さくなると、構築速度が遅くなり、より多くのシステム・リソースが必要となります。デフォルトは5%です。

  • 最小信頼度: ルールの信頼度。パーセンテージを示す、0から100までの数字。信頼度が高くなると、構築速度が速くなります。デフォルトは10%です。

13.13.4 イプシロン値

サポート・ベクター・マシンでは、小さいエラーと大きいエラーを区別します。この違いは、イプシロン値によって定義します。

アルゴリズムによってイプシロン値が内部的に計算および最適化されるようにするか、ユーザーが値を指定することができます。

SVMモデルのイプシロン値を指定するには、質問「イプシロン値を指定しますか。」に対する回答でオプション「はい」をクリックします。

イプシロン値は、0よりも大きいか未定義である必要があります

  • モデルで定義されているサポート・ベクターの数が非常に大きい場合は、イプシロン値を大きくしてみます。

  • カーディナリティが非常に高いカテゴリ属性がある場合は、イプシロンを減らしてみます。

デフォルトでは、イプシロン値は指定されていません。このような場合は、アルゴリズムによってイプシロン値が計算されます。