20 一般化線形モデル

線形モデリングのための一般化線形モデル(GLM)統計的手法の使用方法を学習します。

Oracle Machine Learning for SQLは、回帰および2項分類に対してGLMをサポートしています。

20.1 一般化線形モデルについて

一般化線形モデル(GLM)モデルには線形モデルのクラスが含まれており、これを拡張することで線形モデルのいくつかの制限的な仮定に対処および適応しています。

線形モデルでは、ターゲット(従属変数y)が予測応答値に関係なく一定分散を持つ予測子の値を条件として正規分布するという、一連の制限が仮定される点が最も重要です。線形モデルおよび線形モデルの制限のメリットは、計算が容易なこと、解釈可能なモデルの形式であること、および適合度の質に関する一定の診断情報を計算できる点にあります。

GLMは、このような実際には違反されることが多い制限を緩和したものです。たとえば、2値(yes/noまたは0/1)応答は、クラス間で同じ分散を持ちません。さらに、線形モデルでの項の合計は、一般的に、極端にネガティブな値と極端にポジティブな値を包含する非常に大きな範囲をとる場合があります。2値応答の例では、場合によっては、応答が[0,1]の範囲内の確率となるようにする必要があります。

GLMでは、リンク関数および分散関数という2つのメカニズムを使用して、線形モデルの仮定に違反する応答に対応します。リンク関数は、線形モデルの単純な形式を維持できるように、ターゲットの範囲を負の無限大から正の無限大の潜在範囲に変換します。分散関数は、予測応答の1つの関数として分散を表現するため、非一定分散の応答(2値応答など)に対応できます。

Oracle Machine Learning for SQLは、GLMモデルのファミリのうち最もよく使用されている次の2つのアルゴリズムを備えています。これらのアルゴリズムでは、最もよく使用されているリンク関数および分散関数が使用されます。

  • 線形回帰: 恒等リンク関数および分散関数(定数1に等しい: 応答値の範囲に対する一定分散)を使用します。

  • ロジスティック回帰

つまり、線形回帰法では、ターゲット値の範囲がマイナスの無限から無限までであり、ターゲットの分散が全範囲で一定であることを想定しています。ロジスティック回帰のターゲットは0または1です。ロジスティック回帰モデルの推定は確率です。ロジスティック回帰のリンク関数の役割は、ターゲット値を必要な範囲(マイナスの無限から無限)に変換することです。

GLM関数 デフォルトのリンク関数 サポートされているその他のリンク関数
線形回帰(ガウス) 恒等 なし
ロジスティック回帰(2項) ロジット プロビット、cloglog、cauchitおよび2項分散

20.2 Oracle Machine Learning for SQLのGLM

Oracle Machine Learning for SQLの一般化線形モデル(GLM)アルゴリズムの実装方法を学習します。

GLMはパラメトリックなモデリング手法です。パラメトリック・モデルでは、データの分散を仮定します。仮定が満たされる場合、パラメトリック・モデルはノンパラメトリック・モデルよりも効率的になります。

このタイプのモデルの作成では、どの程度仮定が満たされるかを見極めることが課題となります。このため、良質なパラメトリック・モデルを作成するには質の診断が重要です。

20.2.1 解釈性と透明性

モデルの詳細およびグローバルな詳細を通じて、一般化線形モデル(GLM)モデルの主な特性を解釈および理解できます。

Oracle Machine LearningsのGLMは解釈が容易です。モデルを作成するたびに、多くの統計情報と診断情報が生成されます。透明性も重要な特徴であり、モデルの詳細によって係数の主要特性が説明され、グローバルな詳細によって高水準の統計情報が提供されます。

20.2.2 ワイド・データ

Oracle Machine Learning for SQLの一般化線形モデル(GLM)は、ワイド・データの処理に最適です。このアルゴリズムでは、実質的に無限数の予測子(属性)を使用する良質なモデルを作成およびスコアリングできます。唯一の制限は、システム・リソースによる制限です。

20.2.3 信頼限界

信頼限界は、一般化線形モデル(GLM)アルゴリズムによって予測します。

GLMでは、信頼限界を予測できます。GLMでは、各行の確率(分類のみ)および最良推定値の予測に加え、予測値(回帰)または確率(分類)が収まる区間を特定します。区間の幅は、モデルの精度やユーザーが指定した信頼度に応じて変わります。

信頼度は、モデルによって計算される信頼区間内に実際の値が収まることについてのモデルの確からしさを表す尺度です。一般的には、信頼度95%を使用します。たとえば、従業員の収入を$125,000と予測するモデルの場合、収入は95%の確率で$90,000から$160,000の範囲に収まります。Oracle Machine Learning for SQLがデフォルトでサポートする信頼度は95%ですが、この値は構成可能です。

ノート:

信頼限界は、係数統計情報とともに戻されます。また、PREDICTION_BOUNDS SQL関数を使用すると、モデルの予測の信頼限界値を取得できます。

20.2.4 リッジ回帰

データの単一性(正確多重共線性)のためのリッジ回帰の使用について説明します。

最良の回帰モデルは、予測子とターゲットとの相関が高く、予測子同士の相関はほとんどないモデルです。多重共線性は、相関関係にある予測子を使用する多変量回帰を説明するための用語です。

リッジ回帰は、多重共線性を補う手法です。Oracle Machine Learning for SQLでは、回帰と分類の両方の機械学習手法に対してリッジ回帰をサポートしています。アルゴリズムは、データに単一性(正確多重共線性)を検出すると、リッジ回帰を自動的に使用します。

単一性に関する情報は、グローバルなモデルの詳細で戻されます。

20.2.4.1 リッジ回帰の構成

構築設定を通じてリッジ回帰を構成します。

モデルの構築設定を指定すると、リッジ回帰を明示的に有効化できます。リッジ回帰を明示的に有効化する場合、システム生成のリッジ・パラメータを使用するか、独自のパラメータを指定することが可能です。リッジ回帰が自動的に使用される場合、リッジ・パラメータも自動的に計算されます。

構成の選択について次にまとめます。

  • リッジ回帰に関して、アルゴリズムによる自動選択を優先するかどうかを指定します。

  • リッジ・パラメータの値(リッジ回帰を明示的に有効化した場合にのみ使用される)を指定します。

参照:

使用可能なモデル設定のリストと説明は、『Oracle Database PL/SQLパッケージおよびタイプ・リファレンス』を参照してください。

ノート:

hyperparameterという用語は、モデル設定でも同じ意味で使用されます。
20.2.4.2 リッジと信頼限界

リッジ回帰で作成したモデルは信頼限界をサポートしません。

関連項目

20.2.4.3 リッジとデータ準備

リッジ回帰のデータ準備について学習します。

リッジ回帰が有効化されていると、モデルの係数および診断に関して、データ準備方法の違いで異なる結果が生成される可能性があります。特にリッジ回帰の使用時には、一般化線形モデルのモデルに対する自動データ準備を有効化することをお薦めします。

20.3 スケーラブルな特徴選択

Oracle Machine Learning for SQLでは、一般化線形モデル・アルゴリズムに対して、高度にスケーラブルで自動化されたバージョンの特徴選択と特徴生成をサポートしています。

このスケーラビリティと自動化の機能によって、アルゴリズムのパフォーマンス向上と、精度および解釈性の改善が可能になります。特徴選択および生成は、線形回帰と2項ロジスティック回帰の両方で使用できます。

20.3.1 特徴選択

特徴選択は、モデルに含まれる用語を選択するプロセスです。モデルに含まれる用語が少ないほど、ユーザーはその意味をより簡単に解釈できます。また、一部の列は、モデルで予測しようとしている値とは関係ないことがあります。このような列を削除すると、モデルの精度を向上できます。

20.3.1.1 特徴選択の構成

特徴選択は、一般化線形モデルのモデルに対する構築設定です。デフォルトでは無効です。特徴選択用に構成すると、アルゴリズムによって自動的にデフォルトの適切な動作が決定されますが、次の構成オプションも使用できます。

  • 特徴選択の基準は、AIC、SBIC、RICまたはα投資のいずれかです。特徴選択の基準がα投資である場合、特徴の許容範囲は厳密または緩和のいずれかです。

  • 特徴の最大数を指定できます。

  • 特徴は、最終モデルでプルーニングできます。プルーニングは、線形回帰の場合はt統計に、ロジスティック回帰の場合はワルド統計に基づきます。

20.3.1.2 特徴選択とリッジ回帰

特徴選択とリッジ回帰は、相互に排他的です。特徴選択が有効化されると、アルゴリズムではリッジを使用できません。

ノート:

特徴選択とリッジ回帰の両方を使用するようにモデルを構成すると、エラーが発生します。

20.3.2 特徴生成

特徴生成は、用語の変換をモデルに追加するプロセスです。特徴生成によって、ターゲットと予測子の間のより複雑な関係に適合するようにモデルの能力を拡張できます。

20.3.2.1 特徴生成の構成

特徴生成の構成について学習します。

特徴生成は、特徴選択が有効化されている場合にのみ使用できます。特徴生成は、構築設定です。デフォルトでは、特徴生成は有効化されていません。

特徴生成の方法は、2次または3次のいずれかです。デフォルトでは、アルゴリズムによって適切な方法が選択されます。明示的に特徴生成の方法を指定することもできます。

特徴選択の次のオプションも、特徴生成に影響を与えます。

  • 特徴の最大数

  • モデルのプルーニング

20.4 GLM用のチューニングと診断

一般化線形モデルのモデル開発のプロセスには、通常、複数のモデルの作成が伴われます。モデルを作成するたびに、モデルの質を判別するために評価できる統計情報が多数生成されます。これらの診断に応じて、モデル設定の変更などを試行できます。

20.4.1 構築設定

一般化線形モデル(GLM)の構築設定を指定します。

構築設定の指定を使用できます。

その他にも、次のような目的で構築設定を使用できます。

  • リッジ回帰の使用を制御します。

  • トレーニング・データ内の欠損値の扱いを指定します。

  • ロジスティック回帰モデルの参照として使用するターゲット値を指定します。

参照:

使用可能なモデル設定のリストと説明は、DBMS_DATA_MINING -アルゴリズムの設定: 一般化線形モデルを参照してください。

ノート:

hyperparameterという用語は、モデル設定でも同じ意味で使用されます。

20.4.2 診断

一般化線形モデルのモデルでは、モデルの品質を評価する際に役立つメトリックが多数生成されます。

20.4.2.1 係数統計情報

線形回帰およびロジスティック回帰の係数統計情報について学習します。

線形回帰とロジスティック回帰は、どちらも同じセットの統計情報を返しますが、その機械学習手法に該当しない統計情報はNULLとして返されます。

係数統計は、一般化線形モデル(GLM)のモデルに対応するモデル・ディテール・ビューで返されます。

20.4.2.2 グローバルなモデルの統計情報

モデルを説明する高水準の統計情報について学習します。

線形およびロジスティックの両回帰には、モデル全体を説明する高水準の統計情報が個別に戻されます。リッジ回帰が有効な場合、戻されるグローバルな詳細がより少なくなります。

グローバル統計は、一般化線形モデルのモデルに対応したモデル・ディテール・ビューによって返されます。

20.4.2.3 行の診断情報

行統計は、一般化線形モデル(GLM)アルゴリズムを構成することで生成します。

構築設定のGLMS_DIAGNOSTICS_TABLE_NAMEで診断表の名前を指定すると、GLMは行単位の診断情報を生成するようになります。

GLMでは、行の診断情報を生成するためにケースIDが必要となります。診断表の名前は指定したが、データにケースID列が含まれない場合、例外が発生します。

20.5 GLMのソルバー

一般化線形モデル(GLM)アルゴリズムでは、様々なソルバーが適用されます。これらのソルバーは、最適化に様々な方法を採用しています。

GLMアルゴリズムでは、コレスキー、QR、確率的勾配降下(SGD)および(L-BFGSでの)交互方向乗数法(ADMM)の4つの異なるソルバーがサポートされています。コレスキーソルバーとQRソルバーは、古典的な分解アプローチを採用しています。コレスキー・ソルバーは、QRソルバーと比較して高速ですが、数値的な安定性に劣ります。QRソルバは、正則化の支援なしに、ランク落ち問題を適切に処理します。

SGDおよび(L-BFGSでの) ADMMソルバーは、大規模データに最適です。SGDソルバーは確率的勾配降下最適化アルゴリズムを採用しており、一方、(L-BFGSでの) ADMMは交互方向乗数法フレームワーク内でBFGS最適化アルゴリズムを使用します。SGDソルバーは高速ですが、パラメータに依存するため、適切な収束を実現するには適切なスケールのデータが必要です。L-BFGSアルゴリズムは、制約されていない最適化問題を解決し、SGDよりも安定性と堅牢性に優れています。また、L-BFGSはADMMを組み合せて使用するため、通信コストの低い効率的な分散最適化アプローチが実現します。

20.6 GLM用のデータ準備

一般化線形モデル(GLM)アルゴリズムのデータ準備について学習します。

自動データ準備(ADP)には、線形およびロジスティックの両回帰に適したデータの変換方法が実装されています。

参照:

使用可能なモデル設定のリストと説明は、DBMS_DATA_MINING -アルゴリズムの設定: 一般化線形モデルを参照してください。

ノート:

hyperparameterという用語は、モデル設定でも同じ意味で使用されます。

GLMにはADPの使用をお薦めします。

20.6.1 線形回帰用のデータ準備

一般化線形モデル(GLM)アルゴリズムのための自動データ準備(ADP)について学習します。

ADPが有効な場合、入力データのプロパティなどの設定に基づいてアルゴリズムによって変換が選択されます。変換には、量的データに対して次の中から1つ以上を含めることができます。平均値の引き算、標準偏差によるスケール化または相関の変換(1990年Neter他)。量的データに対して相関変換が適用される場合、質的属性にも適用されます。

標準化の前に、質的属性はN-1個の列に展開されます(Nは属性のカーディナリティ)。最頻値(mode)は、展開の変換中に省略されます。タイの最頻値が存在する場合、属性値は英数字の昇順でソートされ、リストの最初の値が展開時に除外されます。展開の変換は、ADPが有効化されているかどうかに関係なく発生します。

質的属性のカーディナリティが高い場合、ここで説明した変換(展開の後に標準化)によって、作成データのサイズが増えることがありますが、これは、結果のデータ表現が稠密であるためです。メモリー、ディスク領域および処理に関する要件を下げるには、代替手段を使用します。これらの事情により、VIF統計は注意して使用する必要があります。

参照:

  • Neter, J.、Wasserman, W.およびKutner, M.H.共著、『Applied Statistical Models』(Richard D.Irwin, Inc.、Burr Ridge、IL、1990)

20.6.2 ロジスティック回帰用のデータ準備

質的属性はN-1個の列に展開されます(Nは属性のカーディナリティ)。最頻値(mode)は、展開の変換中に省略されます。タイの最頻値が存在する場合、属性値は英数字の昇順でソートされ、リストの最初の値が展開時に除外されます。展開の変換は、自動データ準備(ADP)が有効化されているかどうかに関係なく発生します。

ADPが有効な場合、量的属性は標準偏差でスケーリングされます。この変動性の測度は、原点(平均値ではない)に関して属性ごとに標準偏差として計算されます(Marquardt、1980)。

参照:

Marquardt, D.W.著、『A Critique of Some Ridge Regression Methods: Comment』(Journal of the American Statistical Association、Vol. 75、No. 369、1980、pp 87-91)

20.6.3 欠損値

Oracle Machine Learning for SQLは、モデルの作成時または適用時に、量的属性の欠損値を平均値に、質的属性の欠損値を最頻値に自動的に置換します。

一般化線形モデル・アルゴリズムは、欠損値のデフォルトの処理を無視するように構成できます。ODMS_MISSING_VALUE_TREATMENT設定を使用すると、欠損値が含まれるトレーニング・データ内の行を、平均値や最頻値に置換するのではなく、アルゴリズムによって削除するように設定できます。ただし、モデルの適用時に、OML4SQLは通常の平均値/最頻値による欠損値置換を実行します。そのため、スコアリングによって生成された統計情報が、モデルの作成によって生成された統計情報と一致しないことがあります。

モデルのスコアリングにおいて欠損値を持つ行を削除する場合、変換の明示的な実行が必要です。作成時と適用時の統計情報を一致させるには、適用操作を実行する前に、NULLが含まれる行をスコアリング・データから削除する必要があります。これは、ビューを作成して実行します。

CREATE VIEW viewname AS SELECT * from tablename 
     WHERE column_name1 is NOT NULL 
     AND   column_name2 is NOT NULL 
     AND   column_name3 is NOT NULL ..... 

ノート:

OML4SQLでは、ネストしたデータの欠損値は、ランダムに欠損している値ではなく、スパース性を示します。

ODMS_MISSING_VALUE_DELETE_ROWは、ネストした列を含まない表でのみ有効です。ネストしたデータでこの値を使用すると、例外が発生します。

20.7 線形回帰

Oracle Machine Learning for SQLでは、一般化線形モデルの回帰アルゴリズムとして線形回帰をサポートしています。このアルゴリズムでは、ターゲット値の範囲に対する一定分散およびターゲット変換を想定していません。このアルゴリズムでは恒等リンク関数を使用します。

20.7.1 ポアソンおよび分散リンク関数

ポアソン分布は、特定の時間間隔におけるイベントの発生数です。対象となる変数が個別カウント変数である場合、これはカウント分布です。

たとえば、毎月の食料品の購入回数は何回でしょうか。ネットワーク上の1時間当たりの発呼数は何回でしょうか。予測子は平均イベント数に影響する条件です。リンク関数の形式は次のとおりです:

g(μ) = lnμ = β01x12x23x3+...βnxn

平均イベント数はμです。

分散関数の形式は次のとおりです:

Var(μ)=μ

20.7.2 負の二項リンク関数および分散

ポアソン分布における分散は平均と同等ですが、予測平均の分散は平均よりも大きくなることがあります。カウント・データ分析では、この発生のことを過剰分散と呼びます。過剰な結果が生じる可能性があるため、負の二項回帰などのモデルを適用できます。

リンク関数の形式は次のとおりです:

g(μ) = lnμ = β01x12x23x3+...βnxn

平均イベント数はμです。

20.7.3 線形回帰の係数統計情報

一般化線形モデルの回帰モデルにより、次に示す係数統計情報が生成されます。

  • 線形係数推定値

  • 係数推定値の標準誤差

  • 係数推定値のt値

  • t値の確率

  • 分散拡大係数(VIF)

  • 係数の標準化推定値

  • 係数の信頼限界値の下限および上限

20.7.4 線形回帰のグローバルなモデルの統計情報

一般化線形モデルの回帰モデルでは、モデル全体を説明する、次に示す統計情報が生成されます。

  • モデルの自由度。

  • モデルの平方和。

  • モデル平均平方

  • モデルF統計

  • モデルのF値の確率。

  • 誤差の自由度。

  • 誤差の平方和。

  • 誤差平均平方

  • 修正された総自由度。

  • 修正された総平方和。

  • 2乗平均平方根誤差。

  • 依存平均

  • 変動の係数

  • R2乗

  • 調整済R2乗

  • 赤池情報量基準

  • Schwarzのベイズ情報量基準

  • 予測の推定平均平方誤差

  • HockingのSp統計

  • JP統計(最終予測誤差)。

  • パラメータ数(切片を含む係数の数)。

  • 行数

  • モデルが収束したかどうか

  • 共分散行列が計算されたかどうか

20.7.5 線形回帰の行の診断情報

線形回帰の場合、診断表には次の表で説明する列が含まれます。列はすべてNUMBERですが、CASE_ID列のみ、トレーニング・データの型を保持します。

表20-1 GLM回帰モデルの診断表

説明

CASE_ID

ケースID列の値

TARGET_VALUE

ターゲット列の値

PREDICTED_VALUE

ターゲットについてモデルにより予測された値

HAT

ハット行列の対角要素の値

RESIDUAL

誤差の測度

STD_ERR_RESIDUAL

残差の標準誤差

STUDENTIZED_RESIDUAL

スチューデント化された残差

PRED_RES

予測残差

COOKS_D

Cookの距離影響統計

20.8 ロジスティック回帰

Oracle Machine Learning for SQLでは、一般化線形モデルの分類アルゴリズムとして2項ロジスティック回帰をサポートしています。リンク関数および分散関数は、正規性から既知の様式で逸脱する回帰のターゲットをGLMで処理できるようにするためのメカニズムです。ロジスティック回帰では、リンク関数を使用して説明変数(共分散)と応答変数の期待値が関連付けられます。二項回帰は、指定されたリンク関数の逆を共分散の線型結合に適用することで成功の確率を予測します。指定する逆リンク関数は、値を範囲(-∞, ∞)から[0,1]にマップする単調増加関数にすることができます。逆リンク関数は、よく知られているランダム分布の累積分布関数(CDF)から作成されます。分散には確率との既知の関数関係があり、バイナリ・ターゲット確率は0と1の間で変動します。ロジスティック回帰の場合、分散関数は確率との既知の関数関係に固定されます。ただし、リンク関数にはその他のオプションがあります。リンク関数はターゲット範囲を線形メソッド対応形式に変換するだけでなく、ターゲット概念も表します。ターゲット概念を使用することでアナリストは、リンク・スケールと変換されたスケールという2つのスケールで予測を解釈できます。ロジスティック回帰の変換されたスケールは確率です。

20.8.1 ロジット・リンク関数

ロジット・リンクは、確率をオッズ比の対数に変換します。オッズ比とは、ネガティブ・クラスの予測確率に対するポジティブ・クラスの予測確率の比率です。オッズ比の対数には適切な範囲があります。

オッズ比は正のターゲット・クラスの証拠または反証の尺度です。オッズ比は特定の予測子値に関連付けることができます。オッズ比には乗法的な性質があるため、オッズ比の対数は付加的になります。対数-オッズ比は予測子の影響を、ポジティブ・クラスに対する加算的な証拠または反証として解釈します。

ロジット・リンクの利点は、2つのクラスから個別にトレーニング・データをサンプリングできる点です。これは、一方のクラスが珍しいまたはコストが高くなるような場合(疾患のインスタンスなど)に大きな意味を持ちます。疾病要因の分析を健康な人のサンプルと病気の人のサンプルから直接行うことができます。このようなサンプリングのタイプを遡及サンプリングと呼びます。

ロジスティック回帰の場合、ロジット・リンクがデフォルトです。技術的な理由から、このリンクはカノニカル・リンクと呼ばれます。

20.8.2 プロビット・リンク関数

確率の範囲をマイナス無限大から無限大の範囲に変換する方法の1つは、その範囲に定義されている確率分布を選択し、確率に対応する分布値をターゲット値として割り当てる方法です。

たとえば、確率0、0.5、1.0は標準正規分布の-無限大、0、無限大に対応します。逆累積分布関数は、確率に対応する値を判定する関数です。このアプローチでは、ユーザーは特定の確率分布をターゲットの分布に関する仮定と照合します。多くの場合ユーザーは、ターゲットの既知の関連付けられている分布を使用したターゲット変換が自然であると考えます。プロビット・リンクはこのアプローチを利用するもので、標準正規分布を使用します。ユース・ケースの例として、高血圧の分析があります。血圧は正規分布であると考えられています。

20.8.3 Cloglogリンク関数

Complimentary Log-Log (cloglog)リンクは、逆累積分布関数を使用してターゲットを変換するもう1つの例です。非対称であるという点で、ロジット関数やプロビット関数と異なります。これは、イベントの可能性が非常に低いまたは高い場合に最適に動作します。

ガンベルはこのような極値分布について説明しました。cloglogモデルはイベント発生の連続時間モデルと密接に関連しています。cloglogリンク関数はガンベルCDFに対応します。極値分布(100年の雨)に従うデータの例として、100年で最悪の暴風雨からの降水が挙げられます。

20.8.4 Cauchitリンク関数

Cauchitリンクは、逆累積分布関数を使用してターゲットを変換するもう1つの例です。この場合、分布はコーシー分布です。コーシー分布は対称ですが、分散が無限です。無限分散とは、値が極値化するにつれ、確率の低下速度が落ちることを意味します。

このような分布をファットテールと呼びます。Cauchitリンクは、ターゲット分布に関して妥当な仮定が少ない場合によく使用されます。Cauchitリンクは、分散が有限だと考えられない場合に、2項形式のデータを測定するために使用されます。

20.8.5 参照クラス

構築設定GLMS_REFERENCE_CLASS_NAMEを使用すると、2項ロジスティック回帰モデルで参照として使用されるターゲット値を指定できます。その他の(非参照)クラスに対しては確率が生成されます。デフォルトでは、アルゴリズムは普及率の最も高い値を選択します。タイの値が存在する場合、属性値は英数字の昇順でソートされます。

20.8.6 クラスの重み

構築設定CLAS_WEIGHTS_TABLE_NAMEを使用すると、クラスの重み表の名前を指定できます。クラスの重みは、モデルの作成時にターゲット・クラスの重み付けに影響します。

20.8.7 ロジスティック回帰の係数統計情報

一般化線形モデルの分類モデルにより、次に示す係数統計情報が生成されます。

  • 予測子の名前

  • 係数推定値

  • 係数推定値の標準誤差

  • 係数推定値のワルドのカイ2乗値

  • ワルドのカイ2乗値の確率

  • 係数の標準化推定値

  • 係数の信頼限界値の下限および上限

  • 指数係数

  • 係数の信頼限界値の上限および下限に対する指数係数

20.8.8 ロジスティック回帰のグローバルなモデルの統計情報

一般化線形モデルの分類モデルでは、モデル全体を説明する、次に示す統計情報が生成されます。

  • 切片のみのモデルの適合度に関する赤池の基準。

  • 切片および共変量(予測子)モデルの適合度に関する赤池の基準

  • 切片のみのモデルの適合度に関するSchwarzの基準

  • 切片および共変量(予測子)モデルの適合度に関するSchwarzの基準

  • 切片のみのモデルの-2対数尤度。

  • モデルの-2対数尤度。

  • 尤度比の自由度。

  • 尤度比のカイ二乗確率値。

  • 擬似R2乗(CoxおよびSnell)

  • 擬似R2乗(Nagelkerke)

  • 依存平均

  • 正確な予測の割合。

  • 不正確な予測の割合

  • タイの(2つのケースの確率が等しい)割合

  • パラメータ数(切片を含む係数の数)。

  • 行数

  • モデルが収束したかどうか

  • 共分散行列が計算されたかどうか

20.8.9 ロジスティック回帰の行の診断情報

ロジスティック回帰の場合、診断表には次の表で説明する列が含まれます。列はすべてNUMBERですが、CASE_ID列およびTARGET_VALUE列のみ、トレーニング・データの型を保持します。

表20-2 ロジスティック回帰の行の診断表

説明

CASE_ID

ケースID列の値

TARGET_VALUE

ターゲット値の値

TARGET_VALUE_PROB

ターゲット値に関連付けられている確率

HAT

ハット行列の対角要素の値

WORKING_RESIDUAL

調整済従属変数に関する残差

PEARSON_RESIDUAL

ターゲットの推定標準偏差によってスケーリングされた生の残差

DEVIANCE_RESIDUAL

モデルの全体的な適合度に対する寄与率

C

信頼区間の変位診断

CBAR

信頼区間の変位診断

DIFDEV

特定の観測値を削除したことによる逸脱度の変化

DIFCHISQ

ピアソンのカイ2乗の変化