21 一般化線形モデル
線形モデリング用の一般化線形モデル(GLM)統計的手法の使用方法を学習します。
Oracle Machine Learningでは、回帰および2項分類について一般化線形モデル(GLM)がサポートされています。
- 一般化線形モデルとは
一般化線形モデル(GLM)では、線形モデルのいくつかの制限的な仮定に対処し対応する、線形モデルのクラスが含まれており拡張されています。 - Oracle Machine LearningでのGLM
Oracle Machine Learningで一般化線形モデル(GLM)アルゴリズムがどのように実装されているかを学習します。 - スケーラブルな特徴選択
Oracle Machine Learningでは、一般化線形モデル・アルゴリズムについては、高度にスケーラブルで自動化されたバージョンの特徴選択および特徴生成がサポートされています。 - GLMのチューニングと診断
GLMでのチューニングと診断は、詳細な評価を通じてモデルのパフォーマンスと質を最適化するのに役立ちます。 - GLMのソルバー
一般化線形モデル(GLM)アルゴリズムでは、様々なソルバーが適用されます。これらのソルバーは、最適化に様々な方法を採用しています。 - GLM用のデータ準備
一般化線形モデル(GLM)アルゴリズム用のデータの準備について学習します。 - 線形回帰
GLMでは、ターゲット変換、およびターゲット値に対する一定分散がないと仮定して、線形回帰がサポートされています。 - ロジスティック回帰
GLMでは、2項ロジスティック回帰が実装され、分類の場合にはターゲット値が確率スケールに変換されます。
関連項目
親トピック: アルゴリズム
21.1 一般化線形モデルとは
一般化線形モデル(GLM)には、線形モデルのいくつかの制限的な仮定に対処および適応する線形モデルのクラスが含まれており、拡張されています。
線形モデルでは、ターゲット(従属変数y)が予測応答値に関係なく一定分散を持つ予測子の値を条件として正規分布するという、一連の制限が仮定される点が最も重要です。線形モデルおよび線形モデルの制限のメリットは、計算が容易なこと、解釈可能なモデルの形式であること、および適合度の質に関する一定の診断情報を計算できる点にあります。
GLMは、このような実際には違反されることが多い制限を緩和したものです。たとえば、2値(yes/noまたは0/1)応答は、クラス間で同じ分散を持ちません。さらに、線形モデルでの項の合計は、一般的に、極端にネガティブな値と極端にポジティブな値を包含する非常に大きな範囲をとる場合があります。2値応答の例では、場合によっては、応答が[0,1]の範囲内の確率となるようにする必要があります。
GLMでは、リンク関数および分散関数という2つのメカニズムを使用して、線形モデルの仮定に違反する応答に対応しています。リンク関数は、線形モデルの単純な形式を維持できるように、ターゲットの範囲を負の無限大から正の無限大の潜在範囲に変換します。分散関数は、予測応答の1つの関数として分散を表現するため、非一定分散の応答(2値応答など)に対応できます。
Oracle Machine Learning for SQLは、GLMモデルのファミリのうち最もよく使用されている次の2つのアルゴリズムを備えています。これらのアルゴリズムでは、最もよく使用されているリンク関数および分散関数が使用されます。
-
線形回帰: 恒等リンク関数および分散関数(定数1に等しい: 応答値の範囲に対する一定分散)を使用します。
-
ロジスティック回帰
つまり、線形回帰の方法では、ターゲット値の範囲が負の無限大から無限大までとなり、ターゲット分散がその範囲にわたって一定であると想定しています。ロジスティック回帰のターゲットは0または1です。ロジスティック回帰モデルの推定は確率です。ロジスティック回帰のリンク関数の役目は、ターゲット値を必要な範囲(負の無限大から無限大)に変換することです。
GLM関数 | デフォルトのリンク関数 | その他サポートされているリンク関数 |
---|---|---|
線形回帰(ガウス) | identity | なし |
ロジスティック回帰(2項) | logit | probit、cloglog、cauchitおよび2項分散 |
- Logitリンク関数
logitリンクは、確率をオッズ比の対数に変換します。オッズ比は、ネガティブ・クラスの予測確率に対するポジティブの予測確率の比率です。オッズ比の対数には適切な範囲があります。 - Probitリンク関数
Probitリンクは、標準正規分布を使用してターゲット値を変換します。これは、正規分布したターゲットに最適です。 - Cloglogリンク関数
Cloglogリンクは、極端なイベントを効果的にモデル化し、ガンベル分布を使用してターゲット値を変換します。 - Cauchitリンク関数
Cauchitリンクは、コーシー分布を使用してターゲット値を変換します。これは、無限分散があるデータに適しています。
親トピック: 一般化線形モデル
21.1.1 Logitリンク関数
logitリンクは、確率をオッズ比の対数に変換します。オッズ比は、ネガティブ・クラスの予測確率に対するポジティブの予測確率の比率です。オッズ比の対数には適切な範囲があります。
オッズ比は、ポジティブのターゲット・クラスの根拠の測度です。オッズ比は、特定の予測子値に関連付けることができます。オッズ比は本来乗数的であるため、オッズ比の対数は加算的になります。対数オッズ比は、予測子の影響をポジティブ・クラスの加算的根拠と解釈します。
logitリンクの利点は、2つのクラスとは別にトレーニング・データをサンプリングできることです。これは、病気の事例など、あるクラスがまれであるか、コストがかかる場合に非常に重要になる可能性があります。病因の分析は、健康な人のサンプルと病気の人のサンプルから直接処理できます。このタイプのサンプリングは、遡及サンプリングと呼ばれます。
ロジスティック回帰の場合、logitリンクがデフォルトです。技術的な理由から、このリンクは正規リンクと呼ばれます。
親トピック: 一般化線形モデルとは
21.1.2 Probitリンク関数
Probitリンクは、標準正規分布を使用してターゲット値を変換します。これは、正規分布したターゲットに最適です。
確率の範囲を負の無限大から無限大までの範囲に変換する1つのアプローチは、その範囲に定義されている確率分布を選択し、その確率に対応する分布値をターゲット値として割り当てることです。たとえば、確率0、0.5および1.0は、標準正規分布の値の負の無限大、0および無限大に対応します。逆累積分布関数は、確率に対応する値を決定する関数です。このアプローチでは、特定の確率分布とターゲットの分布に関する仮定を照合します。多くの場合、ユーザーは、ターゲットの既知の関連する分布を自然なものとして使用して、ターゲットの変換を見つけます。probitリンクでは、標準正規分布を使用して、このアプローチが採用されています。ユースケースの例として、高血圧の分析があります。血圧は正規分布すると仮定されています。
親トピック: 一般化線形モデルとは
21.1.3 Cloglogリンク関数
Cloglogリンクは、極端なイベントを効果的にモデル化し、ガンベル分布を使用してターゲット値を変換します。
補対数対数(cloglog)リンクは、逆累積分布関数を使用してターゲットを変換するもう1つの例です。非対称であるため、logit関数およびprobit関数とは異なります。事象の可能性が非常に低い、または非常に高い場合に最適に動作します。ガンベル分布にはこれらの極値分布が示されます。cloglogモデルは、事象発生の連続時間モデルと密接に関連しています。cloglogリンク関数はガンベルCDFに対応しています。100年で最悪の暴風雨による降水量は、極値分布に従ったデータ(100年の雨)の例です。
親トピック: 一般化線形モデルとは
21.1.4 Cauchitリンク関数
Cauchitリンクは、コーシー分布を使用してターゲット値を変換します。これは、無限分散があるデータに適しています。
Cauchitリンクは、ターゲットを変換するための逆累積分布関数のもう1つのアプリケーションです。この場合、分布はコーシー分布です。コーシー分布は対称ですが、無限の分散があります。無限の分散とは、値が極端になるにつれて、確率が徐々に減衰することを意味します。そのような分布はファットテールと呼ばれています。Cauchitリンクは、ターゲットの分布に関して妥当な仮定が少ない場合によく使用されます。Cauchitリンクは、分散が有限とみなされない場合に、2項形式のデータを測定するために使用されます。
親トピック: 一般化線形モデルとは
21.2 Oracle Machine LearningでのGLM
Oracle Machine Learningで一般化線形モデル(GLM)アルゴリズムがどのように実装されているかを学習します。
GLMはパラメトリックなモデリング手法です。パラメトリック・モデルでは、データの分散を仮定します。仮定が満たされる場合、パラメトリック・モデルはノンパラメトリック・モデルよりも効率的になります。
このタイプのモデルの作成では、どの程度仮定が満たされるかを見極めることが課題となります。このため、良質なパラメトリック・モデルを作成するには質の診断が重要です。
- 解釈性と透明性
モデルの詳細およびグローバルな詳細を通じて、一般化線形モデル(GLM)のモデルの主な特性を解釈し理解できます。 - ワイド・データ
一般化線形モデル(GLM)では、ワイド・データが効率的に処理され、多数の予測子を使用して良質なモデルが作成されます。 - 信頼限界
一般化線形モデル(GLM)アルゴリズムによって信頼限界を予測します。 - リッジ回帰
データにおける単一性(正確多重共線性)のためのリッジ回帰の使用について説明します。
親トピック: 一般化線形モデル
21.2.1 解釈性と透明性
モデルの詳細およびグローバルな詳細を通じて、一般化線形モデル(GLM)モデルの主な特性を解釈および理解できます。
Oracle Machine LearningsのGLMは解釈が容易です。モデルを作成するたびに、多くの統計情報と診断情報が生成されます。透明性も重要な特徴であり、モデルの詳細によって係数の主要特性が説明され、グローバルな詳細によって高水準の統計情報が提供されます。
関連項目
親トピック: Oracle Machine LearningでのGLM
21.2.2 ワイド・データ
一般化線形モデル(GLM)では、ワイド・データが効率的に処理され、多数の予測子を使用して良質なモデルが作成されます。
Oracle Machine LearningでのGLMは、ワイド・データの処理に最適です。このアルゴリズムでは、実質的に無限数の予測子(属性)を使用する良質なモデルを作成およびスコアリングできます。唯一の制限は、システム・リソースによる制限です。
親トピック: Oracle Machine LearningでのGLM
21.2.3 信頼限界
一般化線形モデル(GLM)アルゴリズムによって信頼限界を予測します。
GLMでは、信頼限界を予測できます。GLMでは、各行の確率(分類のみ)および最良推定値の予測に加え、予測値(回帰)または確率(分類)が収まる区間を特定します。区間の幅は、モデルの精度やユーザーが指定した信頼度に応じて変わります。
信頼度は、モデルによって計算される信頼区間内に実際の値が収まることについてのモデルの確からしさを表す尺度です。一般的には、信頼度95%を使用します。たとえば、従業員の収入を$125,000と予測するモデルの場合、収入は95%の確率で$90,000から$160,000の範囲に収まります。Oracle Machine Learning for SQLのデフォルトの信頼度は95%ですが、この値は構成可能です。
ノート:
信頼限界は、係数統計情報とともに戻されます。また、PREDICTION_BOUNDS
SQL関数を使用すると、モデルの予測の信頼限界値を取得できます。
21.2.4 リッジ回帰
データの単一性(正確多重共線性)のためのリッジ回帰の使用について理解します。
最良の回帰モデルは、予測子とターゲットとの相関が高く、予測子同士の相関はほとんどないモデルです。多重共線性は、相関関係にある予測子を使用する多変量回帰を説明するための用語です。
リッジ回帰は、多重共線性を補う手法です。Oracle Machine Learning for SQLでは、回帰および分類の機械学習手法の両方について、リッジ回帰がサポートされています。アルゴリズムは、データに単一性(正確多重共線性)を検出すると、リッジ回帰を自動的に使用します。
単一性に関する情報は、グローバルなモデルの詳細で戻されます。
- リッジ回帰の構成
構築設定を通じてリッジ回帰を構成します。 - リッジと信頼限界
リッジ回帰で作成されるモデルでは、信頼限界はサポートされません。 - リッジとデータ準備
リッジ回帰用のデータの準備について学習します。
親トピック: Oracle Machine LearningでのGLM
21.2.4.1 リッジ回帰の構成
構築設定を通じてリッジ回帰を構成します。
モデルの構築設定を指定すると、リッジ回帰を明示的に有効化できます。リッジ回帰を明示的に有効化する場合、システム生成のリッジ・パラメータを使用するか、独自のパラメータを指定することが可能です。リッジ回帰が自動的に使用される場合、リッジ・パラメータも自動的に計算されます。
構成の選択について次にまとめます。
-
リッジ回帰に関して、アルゴリズムによる自動選択を優先するかどうかを指定します。
-
リッジ・パラメータの値(リッジ回帰を明示的に有効化した場合にのみ使用される)を指定します。
関連項目:
使用可能なモデル設定のリストと解説は、『Oracle Database PL/SQLパッケージおよびタイプ・リファレンス』を参照してください。ノート:
モデル設定と同じ意味でハイパーパラメータという用語も使用されます。親トピック: リッジ回帰
21.2.4.3 リッジとデータ準備
リッジ回帰のデータ準備について学習します。
リッジ回帰が有効化されていると、モデルの係数および診断に関して、データ準備方法の違いで異なる結果が生成される可能性があります。リッジ回帰が使用される場合は特に、一般化線形モデルに対して自動データ準備を有効化することをお薦めします。
関連項目
親トピック: リッジ回帰
21.3 スケーラブルな特徴選択
Oracle Machine Learningでは、一般化線形モデル・アルゴリズムについては、高度にスケーラブルで自動化されたバージョンの特徴選択および特徴生成がサポートされています。
このスケーラブルで自動化された機能により、アルゴリズムのパフォーマンスを高めることや、精度と解釈性を高めることができます。特徴選択および生成は、線形回帰と2項ロジスティック回帰の両方で使用できます。
- 特徴選択
GLMでの特徴選択により、モデルが簡素化されます。無関係な予測子をなくすことで解釈性と精度が高まります。 - 特徴生成
GLMでの特徴生成により、変換された用語が追加されます。それにより、ターゲットと予測子の間の複雑な関係に適合するようになります。
親トピック: 一般化線形モデル
21.3.1 特徴選択
GLMでの特徴選択により、モデルが簡素化されます。無関係な予測子をなくすことで解釈性と精度が高まります。
特徴選択は、モデルに含まれる用語を選択するプロセスです。モデルに含まれる用語が少ないほど、ユーザーはその意味をより簡単に解釈できます。また、一部の列は、モデルで予測しようとしている値とは関係ないことがあります。このような列を削除すると、モデルの精度を向上できます。
- 特徴選択の構成
特徴選択用に構成されたGLMでは、モデルのデフォルト動作が自動的に決定されます。 - 特徴選択とリッジ回帰
特徴選択とリッジ回帰のどちらかを選択してGLMモデルを構成します。
親トピック: スケーラブルな特徴選択
21.3.1.1 特徴選択の構成
特徴選択用に構成されたGLMでは、モデルのデフォルト動作が自動的に決定されます。
特徴選択は、一般化線形モデル用の構築設定です。デフォルトでは無効です。特徴選択用に構成すると、アルゴリズムによって自動的にデフォルトの適切な動作が決定されますが、次の構成オプションも使用できます。
-
特徴選択の基準は、AIC、SBIC、RICまたはα投資のいずれかです。特徴選択の基準がα投資である場合、特徴の許容範囲は厳密または緩和のいずれかです。
-
特徴の最大数を指定できます。
-
特徴は、最終モデルでプルーニングできます。プルーニングは、線形回帰の場合はt統計に、ロジスティック回帰の場合はワルド統計に基づきます。
親トピック: 特徴選択
21.3.1.2 特徴選択とリッジ回帰
特徴選択とリッジ回帰のどちらかを選択してGLMモデルを構成します。
特徴選択とリッジ回帰は、相互に排他的です。特徴選択が有効化されると、アルゴリズムではリッジを使用できません。
ノート:
特徴選択とリッジ回帰の両方を使用するようにモデルを構成すると、エラーが発生します。
親トピック: 特徴選択
21.3.2 特徴生成
GLMでの特徴生成により、変換された用語が追加されます。それにより、ターゲットと予測子の間の複雑な関係に適合するようになります。
特徴生成は、用語の変換をモデルに追加するプロセスです。特徴生成によって、ターゲットと予測子の間のより複雑な関係に適合するようにモデルの能力を拡張できます。
- 特徴生成の構成
特徴生成の構成について学習します。
親トピック: スケーラブルな特徴選択
21.3.2.1 特徴生成の構成
特徴生成の構成について学習します。
特徴生成は、特徴選択が有効化されている場合にのみ使用できます。特徴生成は、構築設定です。デフォルトでは、特徴生成は有効化されていません。
特徴生成の方法は、2次または3次のいずれかです。デフォルトでは、アルゴリズムによって適切な方法が選択されます。明示的に特徴生成の方法を指定することもできます。
特徴選択の次のオプションも、特徴生成に影響を与えます。
-
特徴の最大数
-
モデルのプルーニング
親トピック: 特徴生成
21.4 GLM用のチューニングと診断
GLMでのチューニングと診断は、詳細な評価を通じてモデルのパフォーマンスと質を最適化するのに役立ちます。
一般化線形モデルの機械学習モデルの開発プロセスには、通常は、多数のモデル作成が含まれます。モデルを作成するたびに、モデルの質を判別するために評価できる統計情報が多数生成されます。これらの診断に応じて、モデル設定の変更などを試行できます。
21.4.1 構築設定
一般化線形モデル(GLM)の構築設定を指定します。
構築設定の指定を使用できます。
その他にも、次のような目的で構築設定を使用できます。
-
リッジ回帰の使用を制御します。
-
トレーニング・データ内の欠損値の扱いを指定します。
-
ロジスティック回帰モデルの参照として使用するターゲット値を指定します。
関連項目:
使用可能なモデル設定のリストおよび説明は、DBMS_DATA_MINING - アルゴリズムの設定: 一般化線形モデルを参照してください。ノート:
モデル設定と同じ意味でハイパーパラメータという用語も使用されます。関連項目
親トピック: GLM用のチューニングと診断
21.4.2 診断情報
一般化線形モデルでは、モデルの質を評価する際に役立つメトリックが多数生成されます。
- 係数統計情報
線形回帰およびロジスティック回帰の係数統計情報について学習します。 - グローバルなモデルの統計情報
モデルを説明する高水準の統計情報について学習します。 - 行の診断情報
一般化線形モデル(GLM)アルゴリズムを構成することで行統計を生成します。
親トピック: GLM用のチューニングと診断
21.4.2.1 係数統計情報
線形回帰およびロジスティック回帰の係数統計情報について学習します。
線形回帰とロジスティック回帰では同じ統計情報のセットが返されますが、機械学習手法に適用されない統計情報はNULLとして返されます。
係数統計情報は、一般化線形モデル(GLM)のモデル詳細ビューによって返されます。
21.4.2.2 グローバルなモデルの統計情報
モデルを説明する高水準の統計情報について学習します。
線形およびロジスティックの両回帰には、モデル全体を説明する高水準の統計情報が個別に戻されます。リッジ回帰が有効な場合、戻されるグローバルな詳細がより少なくなります。
グローバルな統計情報は、一般化線形モデルのモデル詳細ビューによって返されます。
21.4.2.3 行の診断情報
一般化線形モデル(GLM)アルゴリズムを構成することで行統計を生成します。
GLMでは、構築設定GLMS_DIAGNOSTICS_TABLE_NAME
で診断表の名前を指定すると、行ごとの統計が生成されます。
GLMでは、行の診断情報を生成するためにケースIDが必要となります。診断表の名前は指定したが、データにケースID列が含まれない場合、例外が発生します。
親トピック: 診断情報
21.5 GLMのソルバー
一般化線形モデル(GLM)アルゴリズムでは、様々なソルバーが適用されます。これらのソルバーは、最適化に様々な方法を採用しています。
GLMアルゴリズムでは、コレスキー、QR、確率的勾配降下(SGD)および(L-BFGSでの)交互方向乗数法(ADMM)の4つの異なるソルバーがサポートされています。コレスキ・ソルバーとQRソルバーは、古典的な分解手法を採用しています。コレスキ・ソルバーは、QRソルバーと比較すると高速ですが、計算の安定性は低下します。QRソルバーは、正則化することなく、よりうまくランク不足の問題を処理します。
SGDおよび(L-BFGSでの) ADMMソルバーは、大規模データに最適です。SGDソルバーは確率的勾配降下最適化アルゴリズムを採用しており、一方、(L-BFGSでの) ADMMは交互方向乗数法フレームワーク内でBFGS最適化アルゴリズムを使用します。SGDソルバーは高速ですが、パラメータに依存するため、適切な収束を実現するには適切なスケールのデータが必要です。L-BFGSアルゴリズムは、制約のない最適化問題を解決し、SGDよりも安定かつ堅牢です。また、L-BFGSはADMMを組み合せて使用するため、通信コストの低い効率的な分散最適化アプローチが実現します。
21.6 GLM用のデータ準備
一般化線形モデル(GLM)アルゴリズム用のデータの準備について学習します。
自動データ準備(ADP)には、線形およびロジスティックの両回帰に適したデータの変換方法が実装されています。
関連項目:
使用可能なモデル設定のリストおよび説明は、DBMS_DATA_MINING - アルゴリズムの設定: 一般化線形モデルを参照してください。ノート:
モデル設定と同じ意味でハイパーパラメータという用語も使用されます。GLMでADPを使用することをお薦めします。
- 線形回帰用のデータ準備
ADPにより、線形回帰に最適なデータ変換になります。それにより、モデルの精度が向上します。 - ロジスティック回帰用のデータ準備
ADPにより、ロジスティック回帰用にデータが最適化されます。量的属性が標準化され、質的属性が展開されます。 - 欠損値
GLMでは、欠損値は自動的に置換されます。
親トピック: 一般化線形モデル
21.6.1 線形回帰用のデータ準備
ADPにより、線形回帰に最適なデータ変換になります。それにより、モデルの精度が向上します。
ADPが有効になっている場合は、このアルゴリズムでは、入力データ・プロパティおよびその他の設定に基づいて変換が選択されます。変換には、量的データに対して次の中から1つ以上を含めることができます。平均値の引き算、標準偏差によるスケール化または相関の変換(1990年Neter他)。量的データに対して相関変換が適用される場合、質的属性にも適用されます。
標準化の前に、質的属性はN-1個の列に展開されます(Nは属性のカーディナリティ)。最頻値(mode)は、展開の変換中に省略されます。タイの最頻値が存在する場合、属性値は英数字の昇順でソートされ、リストの最初の値が展開時に除外されます。展開の変換は、ADPが有効化されているかどうかに関係なく発生します。
質的属性のカーディナリティが高い場合、ここで説明した変換(展開の後に標準化)によって、作成データのサイズが増えることがありますが、これは、結果のデータ表現が稠密であるためです。メモリー、ディスク領域および処理に関する要件を下げるには、代替手段を使用します。これらの事情により、VIF統計は注意して使用する必要があります。
関連項目
関連項目:
-
Neter, J.、Wasserman, W.およびKutner, M.H.共著、『Applied Statistical Models』(Richard D.Irwin, Inc.、Burr Ridge、IL、1990)
親トピック: GLM用のデータ準備
21.6.2 ロジスティック回帰用のデータ準備
ADPにより、ロジスティック回帰用にデータが最適化されます。量的属性が標準化され、質的属性が展開されます。
質的属性はN-1個の列に展開されます(Nは属性のカーディナリティ)。最頻値(mode)は、展開の変換中に省略されます。タイの最頻値が存在する場合、属性値は英数字の昇順でソートされ、リストの最初の値が展開時に除外されます。展開の変換は、自動データ準備(ADP)が有効化されているかどうかに関係なく発生します。
ADPが有効な場合、量的属性は標準偏差でスケーリングされます。この変動性の測度は、原点(平均値ではない)に関して属性ごとに標準偏差として計算されます(Marquardt、1980)。
関連項目:
Marquardt, D.W.著、『A Critique of Some Ridge Regression Methods: Comment』(Journal of the American Statistical Association、Vol. 75、No. 369、1980、pp 87-91)
親トピック: GLM用のデータ準備
21.6.3 欠損値
GLMでは、欠損値は自動的に置換されます。
Oracle Machine Learningでは、モデルの作成時または適用時に、自動的に、量的属性の欠損値が平均値に、質的属性の欠損値が最頻値に置換されます。
欠損値のデフォルトの処理を無視するように一般化線形モデル・アルゴリズムを構成できます。ODMS_MISSING_VALUE_TREATMENT
設定を使用すると、欠損値が含まれるトレーニング・データ内の行を、平均値や最頻値に置換するのではなく、アルゴリズムによって削除するように設定できます。ただし、モデルの適用時には、Oracle Machine Learning for SQLでは、通常の平均値/最頻値による欠損値の置換が実行されます。そのため、スコアリングによって生成された統計情報が、モデルの作成によって生成された統計情報と一致しないことがあります。
モデルのスコアリングにおいて欠損値を持つ行を削除する場合、変換の明示的な実行が必要です。作成時と適用時の統計情報を一致させるには、適用操作を実行する前に、NULLが含まれる行をスコアリング・データから削除する必要があります。これは、ビューを作成して実行します。
CREATE VIEW viewname
AS SELECT * from tablename
WHERE column_name1
is NOT NULL
AND column_name2
is NOT NULL
AND column_name3
is NOT NULL .....
ノート:
Oracle Machine Learning for SQLでは、ネストしたデータの欠損値は、ランダムに欠損している値ではなく、スパース性を示します。
値ODMS_MISSING_VALUE_DELETE_ROW
は、ネストした列を含まない表でのみ有効です。ネストしたデータでこの値を使用すると、例外が発生します。
親トピック: GLM用のデータ準備
21.7 線形回帰
GLMでは、ターゲット変換、およびターゲット値に対する一定分散がないと仮定して、線形回帰がサポートされています。
Oracle Machine Learningでは、一般化線形モデルの回帰アルゴリズムとして線形回帰がサポートされています。このアルゴリズムでは、ターゲット値の範囲に対する一定分散およびターゲット変換を想定していません。このアルゴリズムは、identityリンク関数を使用します。
- 線形回帰の係数統計情報
線形回帰の係数統計情報をリストします。 - 線形回帰のグローバルなモデルの統計情報
一般化線形モデルの回帰モデルでは、次に示す統計情報が生成されます。 - 線形回帰の行の診断情報
GLMの回帰モデルの場合の診断表では、詳細な行レベルのインサイトが提供されます。
親トピック: 一般化線形モデル
21.7.1 線形回帰の係数統計情報
線形回帰の係数統計情報をリストします。
一般化線形モデルの回帰モデルでは、次に示す係数統計情報が生成されます。
-
線形係数推定値
-
係数推定値の標準誤差
-
係数推定値のt値
-
t値の確率
-
分散拡大係数(VIF)
-
係数の標準化推定値
-
係数の信頼限界値の下限および上限
親トピック: 線形回帰
21.7.2 線形回帰のグローバルなモデルの統計情報
一般化線形モデルの回帰モデルでは、次に示す統計情報が生成されます。
一般化線形モデルの回帰モデルでは、モデル全体を説明する、次に示す統計情報が生成されます。
-
モデルの自由度。
-
モデルの平方和。
-
モデル平均平方
-
モデルF統計
-
モデルのF値の確率。
-
誤差の自由度。
-
誤差の平方和。
-
誤差平均平方
-
修正された総自由度。
-
修正された総平方和。
-
2乗平均平方根誤差。
-
依存平均
-
変動の係数
-
R2乗
-
調整済R2乗
-
赤池情報量基準
-
Schwarzのベイズ情報量基準
-
予測の推定平均平方根誤差
-
HockingのSp統計
-
JP統計(最終予測誤差)。
-
パラメータ数(切片を含む係数の数)。
-
行数
-
モデルが収束したかどうか
-
共分散行列が計算されたかどうか
親トピック: 線形回帰
21.7.3 線形回帰の行の診断情報
GLMの回帰モデルの場合の診断表では、詳細な行レベルのインサイトが提供されます。
線形回帰の場合、診断表には、次の表で説明する列があります。列はすべてNUMBER
ですが、CASE_ID
列のみ、トレーニング・データの型を保持します。
表21-1 GLM回帰モデルの診断表
列 | 説明 |
---|---|
|
ケースID列の値 |
|
ターゲット列の値 |
|
ターゲットについてモデルにより予測された値 |
|
ハット行列の対角要素の値 |
|
誤差の測度 |
|
残差の標準誤差 |
|
スチューデント化された残差 |
|
予測残差 |
|
Cookの距離影響統計 |
親トピック: 線形回帰
21.8 ロジスティック回帰
GLMでは、2項ロジスティック回帰が実装され、分類の場合にはターゲット値が確率スケールに変換されます。
Oracle Machine Learningでは、一般化線形モデルの分類アルゴリズムとして2項ロジスティック回帰がサポートされています。リンク関数および分散関数は、GLMが既知の方法で正規性から逸脱する回帰のターゲットを処理できるようにするメカニズムです。ロジスティック回帰では、リンク関数を使用して、説明変数(共変量)および応答変数の期待値を関連付けます。2項回帰は、指定されたリンク関数の逆を共変量の線形結合に適用することで、成功の確率を予測します。指定された逆リンク関数は、範囲(-∞、∞)からの値を[0,1]にマップする単調増加関数にできます。逆リンク関数は、既知のランダム分布の累積分布関数(CDF)から作成されます。分散には確率との既知関数関係があり、2項ターゲットの確率は0と1の間で変化します。ロジスティック回帰の場合、分散関数は確率との既知関数関係に固定されます。ただし、リンク関数には他のオプションがあります。リンク関数は、ターゲット範囲を線形法に適した形式に変換するのみでなく、ターゲット概念も表します。分析者は、ターゲット概念を使用して、リンク・スケールと変換されたスケールという2つのスケールで予測を解釈できます。ロジスティック回帰で変換されたスケールは確率です。
- 参照クラス
GLMで2項ロジスティック回帰の参照クラスを指定して予測精度を高めます。 - クラスの重み
クラス重みを使用して、GLMでのモデル作成中にターゲット・クラスの重み付けに影響を与えます。 - ロジスティック回帰の係数統計情報
GLMでは、ロジスティック回帰の場合は詳細な係数統計情報が提供されます。これは、モデル評価に役立ちます。 - ロジスティック回帰のグローバルなモデルの統計情報
GLMでは、ロジスティック回帰の場合はグローバルな統計情報が生成されます。これは、モデル評価に役立ちます。 - ロジスティック回帰の行の診断情報
GLMでは、ロジスティック回帰の場合は詳細な行診断情報が提供されます。これにより、個々の予測に関するインサイトが提供されます。
親トピック: 一般化線形モデル
21.8.1 参照クラス
GLMで2項ロジスティック回帰の参照クラスを指定して予測精度を高めます。
構築設定GLMS_REFERENCE_CLASS_NAME
を使用すると、2項ロジスティック回帰モデルで参照として使用されるターゲット値を指定できます。その他の(非参照)クラスに対しては確率が生成されます。デフォルトでは、アルゴリズムは普及率の最も高い値を選択します。タイの値が存在する場合、属性値は英数字の昇順でソートされます。
親トピック: ロジスティック回帰
21.8.2 クラスの重み
クラス重みを使用して、GLMでのモデル作成中にターゲット・クラスの重み付けに影響を与えます。
構築設定CLAS_WEIGHTS_TABLE_NAME
を使用すると、クラスの重み表の名前を指定できます。クラスの重みは、モデルの作成時にターゲット・クラスの重み付けに影響します。
親トピック: ロジスティック回帰
21.8.3 ロジスティック回帰の係数統計情報
GLMでは、ロジスティック回帰の場合は詳細な係数統計情報が提供されます。これは、モデル評価に役立ちます。
一般化線形モデルの分類モデルでは、次に示す係数統計情報が生成されます。
-
予測子の名前
-
係数推定値
-
係数推定値の標準誤差
-
係数推定値のワルドのカイ2乗値
-
ワルドのカイ2乗値の確率
-
係数の標準化推定値
-
係数の信頼限界値の下限および上限
-
指数係数
-
係数の信頼限界値の上限および下限に対する指数係数
親トピック: ロジスティック回帰
21.8.4 ロジスティック回帰のグローバルなモデルの統計情報
GLMでは、ロジスティック回帰の場合はグローバルな統計情報が生成されます。これは、モデル評価に役立ちます。
一般化分類モデルの回帰モデルでは、モデル全体を説明する、次に示す統計情報が生成されます。
-
切片のみのモデルの適合度に関する赤池の基準。
-
切片および共変量(予測子)モデルの適合度に関する赤池の基準
-
切片のみのモデルの適合度に関するSchwarzの基準
-
切片および共変量(予測子)モデルの適合度に関するSchwarzの基準
-
切片のみのモデルの-2対数尤度。
-
モデルの-2対数尤度。
-
尤度比の自由度。
-
尤度比のカイ二乗確率値。
-
擬似R2乗(CoxおよびSnell)
-
擬似R2乗(Nagelkerke)
-
依存平均
-
正確な予測の割合。
-
不正確な予測の割合
-
タイの(2つのケースの確率が等しい)割合
-
パラメータ数(切片を含む係数の数)。
-
行数
-
モデルが収束したかどうか
-
共分散行列が計算されたかどうか
親トピック: ロジスティック回帰
21.8.5 ロジスティック回帰の行の診断情報
GLMでは、ロジスティック回帰の場合は詳細な行診断情報が提供されます。これにより、個々の予測に関するインサイトが提供されます。
ロジスティック回帰の場合、診断表には、次の表で説明する列があります。列はすべてNUMBER
ですが、CASE_ID
列およびTARGET_VALUE
列のみ、トレーニング・データの型を保持します。
表21-2 ロジスティック回帰の行の診断表
列 | 説明 |
---|---|
|
ケースID列の値 |
|
ターゲット値の値 |
|
ターゲット値に関連付けられている確率 |
|
ハット行列の対角要素の値 |
|
調整済従属変数に関する残差 |
|
ターゲットの推定標準偏差によってスケーリングされた生の残差 |
|
モデルの全体的な適合度に対する寄与率 |
|
信頼区間の変位診断 |
|
信頼区間の変位診断 |
|
特定の観測値を削除したことによる逸脱度の変化 |
|
ピアソンのカイ2乗の変化 |
親トピック: ロジスティック回帰