一般化線形モデルについて

一般化線形モデル(GLM)には、線形モデルのいくつかの制限的な仮定に対処および適応する線形モデルのクラスが含まれており、拡張されています。

線形モデルでは、ターゲット(従属変数y)が予測応答値に関係なく一定分散を持つ予測子の値を条件として正規分布するという、一連の制限が仮定される点が最も重要です。線形モデルおよび線形モデルの制限のメリットは、計算が容易なこと、解釈可能なモデルの形式であること、および適合度の質に関する一定の診断情報を計算できる点にあります。

GLMは、このような実際には違反されることが多い制限を緩和したものです。たとえば、2値(yes/noまたは0/1)応答は、クラス間で同じ分散を持ちません。さらに、線形モデルでの項の合計は、一般的に、極端にネガティブな値と極端にポジティブな値を包含する非常に大きな範囲をとる場合があります。2値応答の例では、場合によっては、応答が[0,1]の範囲内の確率となるようにする必要があります。

GLMでは、リンク関数および分散関数という2つのメカニズムを使用して、線形モデルの仮定に違反する応答に対応しています。リンク関数は、線形モデルの単純な形式を維持できるように、ターゲットの範囲を負の無限大から正の無限大の潜在範囲に変換します。分散関数は、予測応答の1つの関数として分散を表現するため、非一定分散の応答(2値応答など)に対応できます。

Oracle Machine Learning for SQLは、GLMモデルのファミリのうち最もよく使用されている次の2つのアルゴリズムを備えています。これらのアルゴリズムでは、最もよく使用されているリンク関数および分散関数が使用されます。

  • 線形回帰: 恒等リンク関数および分散関数(定数1に等しい: 応答値の範囲に対する一定分散)を使用します。

  • ロジスティック回帰

つまり、線形回帰の方法では、ターゲット値の範囲が負の無限大から無限大までとなり、ターゲット分散がその範囲にわたって一定であると想定しています。ロジスティック回帰のターゲットは0または1です。ロジスティック回帰モデルの推定は確率です。ロジスティック回帰のリンク関数の役目は、ターゲット値を必要な範囲(負の無限大から無限大)に変換することです。

GLM関数 デフォルトのリンク関数 その他サポートされているリンク関数
線形回帰(ガウス) identity なし
ロジスティック回帰(2項) logit probit、cloglog、cauchitおよび2項分散