SlideShare uma empresa Scribd logo
1 de 9
Baixar para ler offline
An outline of generalized linear model
Tomoshige Nakamura
2014 年 5 月 19 日
1 モデルを当てはめるプロセス
一般化線形モデルを記述する前に、まずはモデルの当てはめのプロセスについて述べる。大きく3つのプロ
セスに分けることができる。
1. モデルの選択
2. パラメータの推定
3. 未知の値の推定
現実的には、未知の値が推定できないならそれ以前のステップの仮定に誤りがあると考える。また、未知の値
の推定はここでは議論しないことにする。
1.1 モデル選択
まず、一般化線形モデルでは 2 つの仮定をおく。
1 つ目は、観測値が独立であることの仮定である。そのため、時系列などの自己相関のあるデータは除外さ
れる。独立性の仮定は、一般的な線形な回帰分析の特徴である。これを修正せずに、一般化線形モデルにも用
いる。
2 つ目の仮定は、誤差の構造に関する仮定である。誤差項はモデルないに 1 つしか存在しないというもので
ある。例えば、2 つ以上の誤差を含む場合は除外される(郡内分散・群間分散を用いるような場合は 2 つの誤
差を仮定することになる)。
次に、モデル選択においては、解析のスケールの選択も重要である。例えば、Y をそのまま用いるのか、そ
れとも対数変換をしたものを用いるのかなどである。適切なスケールは、観測値のみに依存せず、何を目的に
解析するのかという点から考える必要がある。
一般的な線形回帰モデルでは、適切な Y のスケールが、分散の定数性(不変性)、誤差の近似的な正規性、系
統的な影響の加成性を合わせ持つ。
一般化線形モデルの導入の段階で、スケールの問題は小さくなっている。また、分散が平均の関数であるこ
1
とが分かっているので、正規性と分散の不変性は必要なくなっている。効果の加成性は、一般化線形モデルの
重要な点であるが、必要があれば変換されたスケールを続けて明示する。一般化線形モデルにおいては、加性
性は正確に言えば、説明変数の期待値の特性であると仮定している。
まだ、モデル選択の課題は残っている。共変量の選択である。共変量はモデルの系統的な(Systematic な:
と本文では言っている)部分に含まれる箇所である。この話題については、線形モデルの話題として非常に多
くの議論がなされている。共変量の選択では、推定値を構築する上で(ある視点から)最も良い変数の部分集
合を見つける必要がある。
ˆµ = xjβj (1.1)
ここで、ˆµ, xj はそれぞれベクトルで、ˆµ は当てはめ値、xj はデータの j 列目の共変量ベクトル。
1.2 パラメータの推定
特定のモデルを選択したら、パラメータを推定し、推定値の精度を評価する必要がある。一般化線形モデル
においては、推定は、y の観測値とモデルから得られる推定値の間に何らかの当てはまりの良さの基準を定義
することですすめる。このような場合は、観察データに対するパラメータの尤度、または対数尤度の最大化に
よって、パラメータの推定値を得る。
f(y; θ) は、y のパラメータ θ が与えられたもとでの確率密度関数(PDF)または、確率関数を表す。する
と、対数尤度は平均値 µ = E(Y ) の関数で表すことができる。
l(µ; y) = log f(y; θ) (1.2)
独立な観測値 y1, · · · , yn に基づく対数尤度は、以下のように表される。
l(µ; y) =
i
log fi(yi; θi) (1.3)
ここで、µ = (µ1, · · · , µn) である。つまり独立な観測値 y が観測された元で対数尤度は θ の関数である。ま
た、”scaled deviance”(スケール逸脱度)は、次のように定義される。
D∗
(y; µ) = 2l(y; y) − 2l(µ; y) (1.4)
指数型分布族に対しては、l(y; y) 観測値に完全に当てはまった場合の最尤推定量であり、当てはめ値が観測
データと同じになる。l(y; y) はパラメータに依存しないので、l(µ; y) の最大化は、µ について D∗
(y; µ) の最
小化に対応する。
分散が既知である場合、1 つの観測に対する線形回帰モデルは、確率密度関数が以下で与えられる。
f(y; µ) =
1
√
2πσ2
exp(−
(y − µ)2
2σ2
) (1.5)
2
よって、対数尤度は
l(y; µ) = −
1
2
log(2πσ2
) −
(y − µ)2
2σ2
(1.6)
対数尤度を最大にする µ = y であるから、最大対数尤度は
l(y; y) = −
1
2
log(2πσ2
) (1.7)
スケール逸脱度関数は
D∗
(y; µ) = −
(y − µ)2
2σ2
(1.8)
となる。ここで、スケールパラメータが既知であることを除けば、この例では、逸脱度の関数は残差二乗和
と同じであり、最小の逸脱度は最小二乗法と同じである。
2 一般化線形モデルの基本
一般化線形モデルは、従来の線形モデルの拡張である。観測値 y を n × 1 のベクトルであるとし、確率変数
Yn×1 の実現値であると考える。また、Y の各要素は独立に平均 µn×1 の分布に従うと仮定する。モデルの系
統的な部分(Systematic Part)は、平均ベクトル µ によって記述され、µ は未知パラメータ β1, · · · , βp の関
数であると仮定する。一般的な線形モデルでは、以下のように µ が未知のパラメータ βp×1 と、既知の共変量
xj によって特徴付けられる。
µ =
p
j=1
xjβj (2.1)
また、観測値 i の平均は、i = 1, 2, · · · , n として、以下のように表される。
E(Yi) = µi =
p
j=1
xijβj (2.2)
行列の形式で書き直せば、共変量行列(モデル行列)を Xn×p として、以下のように書き直すことができる。
E(Y ) = µ = Xβ
一方で、ランダムな部分は誤差が互いに独立、一定の分散を持つと仮定する。これらの仮定は強い仮定であ
るから用いる場合には必ず確認する必要がある。特に、線形回帰モデルでは、線形モデルは誤差が分散が σ2
(一定)のガウス分布に従うと仮定する。
また、共変量の観測値には、平均値のみに影響を与えていて、誤差を伴わず観測されているという仮定をお
いているため、こちらについても同様に確認する必要がある。
3
以上を踏まえると、一般的な線形回帰モデルは次のように要約される。Y の各要素は、独立に分散 σ の正規
分布に従い、
E(Y ) = µ = Xβ (2.3)
を満たす。
2.1 一般化線形モデル
先ほどの古典的な線形回帰モデルを、一般化線形モデルへの形式で書き直すと以下のようになる。
✓ ✏
1. ランダムな要素(random component):確率変数ベクトル Y の要素は、互いに独立に正規分布に
従い、その期待値 E(Y ) = µ であり、一定の分散 σ2
を持つ.
2. 系統的な要素(Systematic Component):共変量 x1, · · · , xp の線形結合で表される線形予測子 η
を以下のように定義する。
η =
p
j=1
xjβj
3. ランダムな要素(random component)と、系統的な要素(Systematic Component)は以下のよ
うにリンク(link)されている。
µ = η
✒ ✑
上記のような表現が、古典的線形モデルの一般化に当たる。ここで、
ηi = g(µi)
とするとき、g(·) をリンク関数と呼ぶ。このような形式においては、古典的な線形モデルは、1 つめで正規分
布を仮定し、3 つ目でリンク関数を µ = η と指定していると解釈できる。
一般化線形モデルでは、このうち 2 つに拡張を施す。1 つ目の拡張は、要素 1 で Y 分布を指定する際に正規
分布以外の指数型分布族を仮定することである。もう1つは、要素 3 でリンク関数に微分可能な単調な関数を
仮定することである。まず、最初に分布の拡張について考えておく。
2.2 一般化線形モデルに対する尤度関数
確率変数ベクトル Y の各要素が、指数型分布族に従うとき、その密度関数は、2 つのパラメータ θ, φ を用い
て以下のように表される。
fY (y; θ, φ) = exp{(yθ − b(θ))/a(φ) + c(y, φ)} (2.4)
4
ここで、a(·), b(·), c(·) には分布に応じて特定の関数が入る。また、パラメータ θ を正準パラメータ(canonical
parameter)、φ をスケールパラメータと呼ぶ。よって、φ が既知であれば、指数型分布族は正準パラメータの
みの関数となる。
正規分布を指数型分布族形式で表す✓ ✏
fY (y; θ, φ) =
1
√
2πσ2
exp(−
(y − µ)2
2σ2
)
= exp{(yµ −
µ2
2
)/σ2
−
1
2
{y2
/σ2
+ log(2πσ2
)}}
と変形できるので、θ = µ, φ = σ2
とすれば、各関数は以下のようになる。
a(φ) = φ, b(θ) = θ2
/2, c(y, θ) = −
1
2
{y2
/σ2
+ log(2πσ2
)}
✒ ✑
さて、対数尤度関数 l(θ, φ; y) = logfY (y; θ, φ) を φ, y が与えられたもとでの、θ の関数であると考える。Y
の平均と分散は次の良く知られた 2 つの事実を用いれば比較的簡単に導くことができる。
E
∂l
∂θ
= 0 (2.5)
及び
E
∂2
l
∂θ2
+ E
∂l
∂θ
2
= 0 (2.6)
ここで、(2.4) より対数尤度は
l(θ, φ; y) = (yθ − b(θ))/a(φ) + c(y, φ)
であるから、
∂l
∂θ
= {y − b
′
(θ)}/a(φ) (2.7)
∂2
l
∂θ2
= −b
′′
(θ)/a(φ) (2.8)
上記の結果と (2.5),(2.6) の結果を用いれば、E(Y ) = µ とすると
0 = E
∂l
∂θ
= {µ − b
′
(θ)}/a(φ)
より
µ = E(Y ) = b
′
(θ)
5
である。同様に、(2.6),(2.7),(2.8) の結果を用いると、
0 = −
b
′′
(θ)
a(φ)
+
var(Y )
a2(φ)
となるので、Y の分散は以下のように表される。
var(Y ) = b
′′
(θ)a(φ)
この結果から Y の分散は 2 つの関数の積で表されることが分かった。まず、b
′′
(θ) は正準パラメータのみ依
存する関数である(先ほどの結果から µ(平均)に依存する)。また、a(φ) は φ のみに依存して θ とは独立で
あるから、b
′′
(θ) は分散関数(variance function)と呼ばれる。分散関数は µ のみに依存することから V (µ)
と書くことにする。
一般的に、a(φ) は以下のような形をしている。
a(φ) = φ/ω (2.9)
ここで、φ は σ2
を用いて書き直されるので、これを dispersion parameter(分散パラメータ)を呼ぶ。つま
り Y は分散関数と分散パラメータに依存する関数の積である。そして、ω は観測毎に与えられる既知の異なる
重みである。
このように正規分布モデルでは、各観測値は独立な m 個の尺度の平均として以下のように表される(観測値
が m 個ある場合)。
a(φ) = σ2
/m (2.10)
2.3 リンク関数
リンク関数は、線形予測子 η と、y の期待値 µ を繋ぐ関数である。古典的な線形モデルでは、平均と線形予
測子は同じものであり、このようなリンク関数(本では identity と記述)は、η と µ はともに実数直線上のす
べての値を取ることができるという点で妥当なものである。
しかしながら、カウントデータ(離散値)で、ポアソン分布の場合を考えると、µ > 0 である必要があるた
め、”Identity Link”は良いものとは言えない。なぜなら、線形予測子 η は実数直線上のすべての値を取りうる
が、µ > 0 であるからである。
そこで、クロス分類表(cross classified data)における各観測値が独立であるようなカウントデータに対す
るモデルは、乗数的な効果として表すことになる。即ち、次のような対数リンク関数を考える。
η = logµ, µ = exp(η) (2.11)
このようにすると、各説明変数が加法的に η に与える効果が、µ への乗数的な効果へと変換され、同時に µ > 0
となる。
6
2 項分布の場合には、平均は 0 < µ < 1 の値をとるので、リンク関数はこの条件を満足するようにしなくて
はならない。このようなリンク関数は複数存在している。
1. logit :
η = log{µ/(1 − µ)} (2.12)
2. probit : Φ を正規分布の累積分布関数として、
η = Φ−1
(µ) (2.13)
3. complementary log-log(相補的な log-log)
η = log{− log(1 − µ)} (2.14)
また、観測値が正の平均値を持つ場合には、乗数的なリンク関数族(family)は重要な役割を果たす。この
ようなリンク関数族は次のように記述される。
η = (µλ
− 1)/λ (2.15)
また、この極限値は
η = log µ (λ → 0) (2.16)
2.4 十分統計量
正規分布、ポアソン分布、2 項分布、ガンマ分布、逆ガンマ分布は特別なリンク関数を持っている。上記の
ような、正準パラメータ θ が用いられるとき、正準パラメータ θ が µ の関数として表される。このようなリン
ク関数を正準リンク関数と呼ぶ。正準リンク関数は、次の性質を満たす。
θ = η (2.17)
正準パラメータは、実際に、(2.4) で用いたものと同様である。正準リンク関数は、各分布に対して以下のよう
に定義される。
• 正規分布:η = µ
• ポアソン分布:η = log µ
• 2 項分布:η = log{π/(1 − π)}
• ガンマ分布:η = µ−1
• 逆ガンマ分布:η = µ−2
7
また、正準リンク関数の重要な性質として、正準リンク関数のもとで β の推定に対する十分統計量は、XT
Y
となるということがある。
ポアソン分布の正準リンク関数を導出する✓ ✏
ポアソン分布はパラメータが 1 つなので、スケールパラメータは存在しないので a(φ) = 1 として議論を
しても問題はない。ポアソン分布の確率関数は
f(y; λ) = λx
exp(−λ)/x!
= exp{(y log(λ) − λ) − log(x!)}
であるから、θ = log(λ), b(θ) = exp(θ) = λ とおけば指数型分布族であることが分かる。また、
さて、ここで正準リンク関数とは θ = η となるような関数のことであるから、log(λ) = η が正準リンク関
数である。ここで、ポアソン分布の平均は µ = λ であるから、log(µ) = η であることが分かる。よって、
正準リンク関数は log である。
✒ ✑
3 適合度
3.1 当てはめの相違
この節では、モデル適合度について記述する。ただし、モデル適合度の基準には様々なものがあるため、こ
こでは尤度比に関して説明を行う。尤度比は逸脱度を測定する基準である。
n 個の観測値が観測されたとき、n 個以下のパラメータを持つモデルを当てはめることを考える。最も単純
なモデルは nullmodel と呼ばれ、1 つのパラメータしか持たないもので、すべての y に対して共通の µ で表
す。null モデルはこのように各 y 間の変動はすべてランダムな要素に委ねるようなモデルである。
一方で、フルモデルとは n 個のパラメータを用いる方法であり、各観測値毎にパラメータを設定する。つま
り、各 µ はデータに正確に当てはまるように設定する。このようにフルモデルはすべてを系統的な要素で表
し、ランダム要素をなくすようなモデルである。
実際、null モデルは簡素過ぎるモデルであるし、フルモデルはデータを要約しないため意味のある情報は得
られない。しかしながら、フルモデルは、パラメータが p 個のモデルに対する逸脱度を測るための基準になる。
対数尤度関数を θ の関数と見るよりも、平均パラメータ µ の関数と見るほうが扱いやすい。そこで、対数
尤度関数を l(ˆµ, φ; y) を分散パラメータ φ を固定した状態で β について最大化することを考える。n 個のパラ
メータのモデルにおける最大尤度は l(y, φ; y) である。正準パラメータの推定量を ˆθ = θ(ˆµ)、˜θ = θ(y) と書く
ことにして、ai(φ) = φ/ωi と仮定すると、当てはまりの差は、2 つのモデルの最大尤度の差の 2 倍に比例する
から、以下のように書くことができる。
2ωi{yi(˜θi − ˆθi) − b(˜θi) + b(ˆθi)}/φ = D(y; ˆµ)/φ (3.1)
8
ここで、D(y; ˆµ) は用いているモデルの逸脱度として知られており、データから推定される。各分布に対す
る逸脱度は以下のように表される。
• 正規分布:    (y − ˆµ)2
• ポアソン分布:  2 {y log(y/ˆµ) − (y − ˆµ)}
• 2項分布:    2 {y log(y/ˆµ) + (m − y) log[(m − y)/(m − ˆµ)]}
• ガンマ分布:   2 {− log(y/ˆµ) + (y − ˆµ)/ˆµ}
• 逆ガンマ分布:  (y − ˆµ)/(ˆµ2
y)
また、モデルの差の基準として重要な指標が、ピアソンの一般化 χ2
統計量である。これは次のように表さ
れる。
χ2
= (y − ˆµ)2
/V (ˆµ) (3.2)
ここで、V (ˆµ) は分布に対する分散関数である。正規分布に対しては、これは残差二乗和になり逸脱度の関
数と一致するが、一方でポアソン分布や 2 項分布に対しては本来の χ2
統計量であるだけで、逸脱度とは関係
なくなってしまう。よって、一般的には上記の逸脱度の関数を用いることにする。しかしながら、解釈の視点
からは χ2
統計量を用いる方が直感的に理解しやすいと考えることもできる。
3.2 逸脱度の解析
4 残差
4.1 ピアソン残差
4.2 アンスコム残差(Anscombe Residuals)
4.3 逸脱度残差(deviance residuals)
5 一般化線形モデルに対するアルゴリズム
参考文献
[1] McCullagh, Peter; Nelder, John (1989). Generalized Linear Models, Second Edition. Boca Raton:
Chapman and Hall/CRC. ISBN 0-412-31760-5.
[2] Nelder, John; Wedderburn, Robert (1972). “Generalized Linear Models”. Journal of the Royal
Statistical Society. Series A (General) (Blackwell Publishing) 135 (3): 370-384.
9

Mais conteúdo relacionado

Mais procurados

第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)Yoshitake Takebayashi
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布についてhoxo_m
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編Hiroshi Shimizu
 
混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をするMasaru Tokuoka
 
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】Hiroyuki Muto
 
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれRで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれHiroshi Shimizu
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布についてHiroshi Shimizu
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Hiroshi Shimizu
 
みどりぼん3章前半
みどりぼん3章前半みどりぼん3章前半
みどりぼん3章前半Akifumi Eguchi
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法Hidetoshi Matsui
 
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話Classi.corp
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなしToru Imai
 
GLMM in interventional study at Require 23, 20151219
GLMM in interventional study at Require 23, 20151219GLMM in interventional study at Require 23, 20151219
GLMM in interventional study at Require 23, 20151219Shuhei Ichikawa
 
PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似KokiTakamiya
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3matsuolab
 
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)Hiroshi Shimizu
 

Mais procurados (20)

第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
Prml 3 3.3
Prml 3 3.3Prml 3 3.3
Prml 3 3.3
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする
 
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
 
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれRで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布について
 
社会心理学とGlmm
社会心理学とGlmm社会心理学とGlmm
社会心理学とGlmm
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
 
みどりぼん3章前半
みどりぼん3章前半みどりぼん3章前半
みどりぼん3章前半
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
 
PRML5
PRML5PRML5
PRML5
 
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなし
 
GLMM in interventional study at Require 23, 20151219
GLMM in interventional study at Require 23, 20151219GLMM in interventional study at Require 23, 20151219
GLMM in interventional study at Require 23, 20151219
 
PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
 

Mais de Tomoshige Nakamura

ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎Tomoshige Nakamura
 
多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料Tomoshige Nakamura
 
20140727_第1回スポーツデータアナリティクス基礎講座
20140727_第1回スポーツデータアナリティクス基礎講座 20140727_第1回スポーツデータアナリティクス基礎講座
20140727_第1回スポーツデータアナリティクス基礎講座 Tomoshige Nakamura
 
20140625_品川女子学院_講義3
20140625_品川女子学院_講義320140625_品川女子学院_講義3
20140625_品川女子学院_講義3Tomoshige Nakamura
 
2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINALTomoshige Nakamura
 
20140514_水曜セミナー発表資料_中村知繁
20140514_水曜セミナー発表資料_中村知繁20140514_水曜セミナー発表資料_中村知繁
20140514_水曜セミナー発表資料_中村知繁Tomoshige Nakamura
 
20140512_水曜セミナードラフトv1
20140512_水曜セミナードラフトv120140512_水曜セミナードラフトv1
20140512_水曜セミナードラフトv1Tomoshige Nakamura
 
20140507_品川女子学院_講義2
20140507_品川女子学院_講義220140507_品川女子学院_講義2
20140507_品川女子学院_講義2Tomoshige Nakamura
 
20140507_品川女子学院_講義2
20140507_品川女子学院_講義220140507_品川女子学院_講義2
20140507_品川女子学院_講義2Tomoshige Nakamura
 
品川女子_講義1_共感_定義
品川女子_講義1_共感_定義品川女子_講義1_共感_定義
品川女子_講義1_共感_定義Tomoshige Nakamura
 
品川女子学院_講義1_デザイン思考_共感
品川女子学院_講義1_デザイン思考_共感品川女子学院_講義1_デザイン思考_共感
品川女子学院_講義1_デザイン思考_共感Tomoshige Nakamura
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-Tomoshige Nakamura
 
日本を創り継ぐプロジェクト紹介資料
日本を創り継ぐプロジェクト紹介資料日本を創り継ぐプロジェクト紹介資料
日本を創り継ぐプロジェクト紹介資料Tomoshige Nakamura
 
【第3回日本を創り継ぐプロジェクト】説明資料
【第3回日本を創り継ぐプロジェクト】説明資料【第3回日本を創り継ぐプロジェクト】説明資料
【第3回日本を創り継ぐプロジェクト】説明資料Tomoshige Nakamura
 
ライフサイクルからの脱却
ライフサイクルからの脱却ライフサイクルからの脱却
ライフサイクルからの脱却Tomoshige Nakamura
 

Mais de Tomoshige Nakamura (20)

ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
 
多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料
 
20141224_水曜セミナー
20141224_水曜セミナー20141224_水曜セミナー
20141224_水曜セミナー
 
20140727_第1回スポーツデータアナリティクス基礎講座
20140727_第1回スポーツデータアナリティクス基礎講座 20140727_第1回スポーツデータアナリティクス基礎講座
20140727_第1回スポーツデータアナリティクス基礎講座
 
20140625_品川女子学院_講義3
20140625_品川女子学院_講義320140625_品川女子学院_講義3
20140625_品川女子学院_講義3
 
2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL
 
20140514_水曜セミナー発表資料_中村知繁
20140514_水曜セミナー発表資料_中村知繁20140514_水曜セミナー発表資料_中村知繁
20140514_水曜セミナー発表資料_中村知繁
 
20140512_水曜セミナードラフトv1
20140512_水曜セミナードラフトv120140512_水曜セミナードラフトv1
20140512_水曜セミナードラフトv1
 
20140507_品川女子学院_講義2
20140507_品川女子学院_講義220140507_品川女子学院_講義2
20140507_品川女子学院_講義2
 
20140507_品川女子学院_講義2
20140507_品川女子学院_講義220140507_品川女子学院_講義2
20140507_品川女子学院_講義2
 
自己紹介_140416
自己紹介_140416自己紹介_140416
自己紹介_140416
 
品川女子_講義1_共感_定義
品川女子_講義1_共感_定義品川女子_講義1_共感_定義
品川女子_講義1_共感_定義
 
品川女子学院_講義1_デザイン思考_共感
品川女子学院_講義1_デザイン思考_共感品川女子学院_講義1_デザイン思考_共感
品川女子学院_講義1_デザイン思考_共感
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-
 
日本を創り継ぐプロジェクト紹介資料
日本を創り継ぐプロジェクト紹介資料日本を創り継ぐプロジェクト紹介資料
日本を創り継ぐプロジェクト紹介資料
 
【第3回日本を創り継ぐプロジェクト】説明資料
【第3回日本を創り継ぐプロジェクト】説明資料【第3回日本を創り継ぐプロジェクト】説明資料
【第3回日本を創り継ぐプロジェクト】説明資料
 
Design Thinking Workshop
Design Thinking WorkshopDesign Thinking Workshop
Design Thinking Workshop
 
Design Thinking Workshop
Design Thinking WorkshopDesign Thinking Workshop
Design Thinking Workshop
 
ライフサイクルからの脱却
ライフサイクルからの脱却ライフサイクルからの脱却
ライフサイクルからの脱却
 
Workshop nara
Workshop naraWorkshop nara
Workshop nara
 

【書きかけ】一般化線形モデルの流れ

  • 1. An outline of generalized linear model Tomoshige Nakamura 2014 年 5 月 19 日 1 モデルを当てはめるプロセス 一般化線形モデルを記述する前に、まずはモデルの当てはめのプロセスについて述べる。大きく3つのプロ セスに分けることができる。 1. モデルの選択 2. パラメータの推定 3. 未知の値の推定 現実的には、未知の値が推定できないならそれ以前のステップの仮定に誤りがあると考える。また、未知の値 の推定はここでは議論しないことにする。 1.1 モデル選択 まず、一般化線形モデルでは 2 つの仮定をおく。 1 つ目は、観測値が独立であることの仮定である。そのため、時系列などの自己相関のあるデータは除外さ れる。独立性の仮定は、一般的な線形な回帰分析の特徴である。これを修正せずに、一般化線形モデルにも用 いる。 2 つ目の仮定は、誤差の構造に関する仮定である。誤差項はモデルないに 1 つしか存在しないというもので ある。例えば、2 つ以上の誤差を含む場合は除外される(郡内分散・群間分散を用いるような場合は 2 つの誤 差を仮定することになる)。 次に、モデル選択においては、解析のスケールの選択も重要である。例えば、Y をそのまま用いるのか、そ れとも対数変換をしたものを用いるのかなどである。適切なスケールは、観測値のみに依存せず、何を目的に 解析するのかという点から考える必要がある。 一般的な線形回帰モデルでは、適切な Y のスケールが、分散の定数性(不変性)、誤差の近似的な正規性、系 統的な影響の加成性を合わせ持つ。 一般化線形モデルの導入の段階で、スケールの問題は小さくなっている。また、分散が平均の関数であるこ 1
  • 2. とが分かっているので、正規性と分散の不変性は必要なくなっている。効果の加成性は、一般化線形モデルの 重要な点であるが、必要があれば変換されたスケールを続けて明示する。一般化線形モデルにおいては、加性 性は正確に言えば、説明変数の期待値の特性であると仮定している。 まだ、モデル選択の課題は残っている。共変量の選択である。共変量はモデルの系統的な(Systematic な: と本文では言っている)部分に含まれる箇所である。この話題については、線形モデルの話題として非常に多 くの議論がなされている。共変量の選択では、推定値を構築する上で(ある視点から)最も良い変数の部分集 合を見つける必要がある。 ˆµ = xjβj (1.1) ここで、ˆµ, xj はそれぞれベクトルで、ˆµ は当てはめ値、xj はデータの j 列目の共変量ベクトル。 1.2 パラメータの推定 特定のモデルを選択したら、パラメータを推定し、推定値の精度を評価する必要がある。一般化線形モデル においては、推定は、y の観測値とモデルから得られる推定値の間に何らかの当てはまりの良さの基準を定義 することですすめる。このような場合は、観察データに対するパラメータの尤度、または対数尤度の最大化に よって、パラメータの推定値を得る。 f(y; θ) は、y のパラメータ θ が与えられたもとでの確率密度関数(PDF)または、確率関数を表す。する と、対数尤度は平均値 µ = E(Y ) の関数で表すことができる。 l(µ; y) = log f(y; θ) (1.2) 独立な観測値 y1, · · · , yn に基づく対数尤度は、以下のように表される。 l(µ; y) = i log fi(yi; θi) (1.3) ここで、µ = (µ1, · · · , µn) である。つまり独立な観測値 y が観測された元で対数尤度は θ の関数である。ま た、”scaled deviance”(スケール逸脱度)は、次のように定義される。 D∗ (y; µ) = 2l(y; y) − 2l(µ; y) (1.4) 指数型分布族に対しては、l(y; y) 観測値に完全に当てはまった場合の最尤推定量であり、当てはめ値が観測 データと同じになる。l(y; y) はパラメータに依存しないので、l(µ; y) の最大化は、µ について D∗ (y; µ) の最 小化に対応する。 分散が既知である場合、1 つの観測に対する線形回帰モデルは、確率密度関数が以下で与えられる。 f(y; µ) = 1 √ 2πσ2 exp(− (y − µ)2 2σ2 ) (1.5) 2
  • 3. よって、対数尤度は l(y; µ) = − 1 2 log(2πσ2 ) − (y − µ)2 2σ2 (1.6) 対数尤度を最大にする µ = y であるから、最大対数尤度は l(y; y) = − 1 2 log(2πσ2 ) (1.7) スケール逸脱度関数は D∗ (y; µ) = − (y − µ)2 2σ2 (1.8) となる。ここで、スケールパラメータが既知であることを除けば、この例では、逸脱度の関数は残差二乗和 と同じであり、最小の逸脱度は最小二乗法と同じである。 2 一般化線形モデルの基本 一般化線形モデルは、従来の線形モデルの拡張である。観測値 y を n × 1 のベクトルであるとし、確率変数 Yn×1 の実現値であると考える。また、Y の各要素は独立に平均 µn×1 の分布に従うと仮定する。モデルの系 統的な部分(Systematic Part)は、平均ベクトル µ によって記述され、µ は未知パラメータ β1, · · · , βp の関 数であると仮定する。一般的な線形モデルでは、以下のように µ が未知のパラメータ βp×1 と、既知の共変量 xj によって特徴付けられる。 µ = p j=1 xjβj (2.1) また、観測値 i の平均は、i = 1, 2, · · · , n として、以下のように表される。 E(Yi) = µi = p j=1 xijβj (2.2) 行列の形式で書き直せば、共変量行列(モデル行列)を Xn×p として、以下のように書き直すことができる。 E(Y ) = µ = Xβ 一方で、ランダムな部分は誤差が互いに独立、一定の分散を持つと仮定する。これらの仮定は強い仮定であ るから用いる場合には必ず確認する必要がある。特に、線形回帰モデルでは、線形モデルは誤差が分散が σ2 (一定)のガウス分布に従うと仮定する。 また、共変量の観測値には、平均値のみに影響を与えていて、誤差を伴わず観測されているという仮定をお いているため、こちらについても同様に確認する必要がある。 3
  • 4. 以上を踏まえると、一般的な線形回帰モデルは次のように要約される。Y の各要素は、独立に分散 σ の正規 分布に従い、 E(Y ) = µ = Xβ (2.3) を満たす。 2.1 一般化線形モデル 先ほどの古典的な線形回帰モデルを、一般化線形モデルへの形式で書き直すと以下のようになる。 ✓ ✏ 1. ランダムな要素(random component):確率変数ベクトル Y の要素は、互いに独立に正規分布に 従い、その期待値 E(Y ) = µ であり、一定の分散 σ2 を持つ. 2. 系統的な要素(Systematic Component):共変量 x1, · · · , xp の線形結合で表される線形予測子 η を以下のように定義する。 η = p j=1 xjβj 3. ランダムな要素(random component)と、系統的な要素(Systematic Component)は以下のよ うにリンク(link)されている。 µ = η ✒ ✑ 上記のような表現が、古典的線形モデルの一般化に当たる。ここで、 ηi = g(µi) とするとき、g(·) をリンク関数と呼ぶ。このような形式においては、古典的な線形モデルは、1 つめで正規分 布を仮定し、3 つ目でリンク関数を µ = η と指定していると解釈できる。 一般化線形モデルでは、このうち 2 つに拡張を施す。1 つ目の拡張は、要素 1 で Y 分布を指定する際に正規 分布以外の指数型分布族を仮定することである。もう1つは、要素 3 でリンク関数に微分可能な単調な関数を 仮定することである。まず、最初に分布の拡張について考えておく。 2.2 一般化線形モデルに対する尤度関数 確率変数ベクトル Y の各要素が、指数型分布族に従うとき、その密度関数は、2 つのパラメータ θ, φ を用い て以下のように表される。 fY (y; θ, φ) = exp{(yθ − b(θ))/a(φ) + c(y, φ)} (2.4) 4
  • 5. ここで、a(·), b(·), c(·) には分布に応じて特定の関数が入る。また、パラメータ θ を正準パラメータ(canonical parameter)、φ をスケールパラメータと呼ぶ。よって、φ が既知であれば、指数型分布族は正準パラメータの みの関数となる。 正規分布を指数型分布族形式で表す✓ ✏ fY (y; θ, φ) = 1 √ 2πσ2 exp(− (y − µ)2 2σ2 ) = exp{(yµ − µ2 2 )/σ2 − 1 2 {y2 /σ2 + log(2πσ2 )}} と変形できるので、θ = µ, φ = σ2 とすれば、各関数は以下のようになる。 a(φ) = φ, b(θ) = θ2 /2, c(y, θ) = − 1 2 {y2 /σ2 + log(2πσ2 )} ✒ ✑ さて、対数尤度関数 l(θ, φ; y) = logfY (y; θ, φ) を φ, y が与えられたもとでの、θ の関数であると考える。Y の平均と分散は次の良く知られた 2 つの事実を用いれば比較的簡単に導くことができる。 E ∂l ∂θ = 0 (2.5) 及び E ∂2 l ∂θ2 + E ∂l ∂θ 2 = 0 (2.6) ここで、(2.4) より対数尤度は l(θ, φ; y) = (yθ − b(θ))/a(φ) + c(y, φ) であるから、 ∂l ∂θ = {y − b ′ (θ)}/a(φ) (2.7) ∂2 l ∂θ2 = −b ′′ (θ)/a(φ) (2.8) 上記の結果と (2.5),(2.6) の結果を用いれば、E(Y ) = µ とすると 0 = E ∂l ∂θ = {µ − b ′ (θ)}/a(φ) より µ = E(Y ) = b ′ (θ) 5
  • 6. である。同様に、(2.6),(2.7),(2.8) の結果を用いると、 0 = − b ′′ (θ) a(φ) + var(Y ) a2(φ) となるので、Y の分散は以下のように表される。 var(Y ) = b ′′ (θ)a(φ) この結果から Y の分散は 2 つの関数の積で表されることが分かった。まず、b ′′ (θ) は正準パラメータのみ依 存する関数である(先ほどの結果から µ(平均)に依存する)。また、a(φ) は φ のみに依存して θ とは独立で あるから、b ′′ (θ) は分散関数(variance function)と呼ばれる。分散関数は µ のみに依存することから V (µ) と書くことにする。 一般的に、a(φ) は以下のような形をしている。 a(φ) = φ/ω (2.9) ここで、φ は σ2 を用いて書き直されるので、これを dispersion parameter(分散パラメータ)を呼ぶ。つま り Y は分散関数と分散パラメータに依存する関数の積である。そして、ω は観測毎に与えられる既知の異なる 重みである。 このように正規分布モデルでは、各観測値は独立な m 個の尺度の平均として以下のように表される(観測値 が m 個ある場合)。 a(φ) = σ2 /m (2.10) 2.3 リンク関数 リンク関数は、線形予測子 η と、y の期待値 µ を繋ぐ関数である。古典的な線形モデルでは、平均と線形予 測子は同じものであり、このようなリンク関数(本では identity と記述)は、η と µ はともに実数直線上のす べての値を取ることができるという点で妥当なものである。 しかしながら、カウントデータ(離散値)で、ポアソン分布の場合を考えると、µ > 0 である必要があるた め、”Identity Link”は良いものとは言えない。なぜなら、線形予測子 η は実数直線上のすべての値を取りうる が、µ > 0 であるからである。 そこで、クロス分類表(cross classified data)における各観測値が独立であるようなカウントデータに対す るモデルは、乗数的な効果として表すことになる。即ち、次のような対数リンク関数を考える。 η = logµ, µ = exp(η) (2.11) このようにすると、各説明変数が加法的に η に与える効果が、µ への乗数的な効果へと変換され、同時に µ > 0 となる。 6
  • 7. 2 項分布の場合には、平均は 0 < µ < 1 の値をとるので、リンク関数はこの条件を満足するようにしなくて はならない。このようなリンク関数は複数存在している。 1. logit : η = log{µ/(1 − µ)} (2.12) 2. probit : Φ を正規分布の累積分布関数として、 η = Φ−1 (µ) (2.13) 3. complementary log-log(相補的な log-log) η = log{− log(1 − µ)} (2.14) また、観測値が正の平均値を持つ場合には、乗数的なリンク関数族(family)は重要な役割を果たす。この ようなリンク関数族は次のように記述される。 η = (µλ − 1)/λ (2.15) また、この極限値は η = log µ (λ → 0) (2.16) 2.4 十分統計量 正規分布、ポアソン分布、2 項分布、ガンマ分布、逆ガンマ分布は特別なリンク関数を持っている。上記の ような、正準パラメータ θ が用いられるとき、正準パラメータ θ が µ の関数として表される。このようなリン ク関数を正準リンク関数と呼ぶ。正準リンク関数は、次の性質を満たす。 θ = η (2.17) 正準パラメータは、実際に、(2.4) で用いたものと同様である。正準リンク関数は、各分布に対して以下のよう に定義される。 • 正規分布:η = µ • ポアソン分布:η = log µ • 2 項分布:η = log{π/(1 − π)} • ガンマ分布:η = µ−1 • 逆ガンマ分布:η = µ−2 7
  • 8. また、正準リンク関数の重要な性質として、正準リンク関数のもとで β の推定に対する十分統計量は、XT Y となるということがある。 ポアソン分布の正準リンク関数を導出する✓ ✏ ポアソン分布はパラメータが 1 つなので、スケールパラメータは存在しないので a(φ) = 1 として議論を しても問題はない。ポアソン分布の確率関数は f(y; λ) = λx exp(−λ)/x! = exp{(y log(λ) − λ) − log(x!)} であるから、θ = log(λ), b(θ) = exp(θ) = λ とおけば指数型分布族であることが分かる。また、 さて、ここで正準リンク関数とは θ = η となるような関数のことであるから、log(λ) = η が正準リンク関 数である。ここで、ポアソン分布の平均は µ = λ であるから、log(µ) = η であることが分かる。よって、 正準リンク関数は log である。 ✒ ✑ 3 適合度 3.1 当てはめの相違 この節では、モデル適合度について記述する。ただし、モデル適合度の基準には様々なものがあるため、こ こでは尤度比に関して説明を行う。尤度比は逸脱度を測定する基準である。 n 個の観測値が観測されたとき、n 個以下のパラメータを持つモデルを当てはめることを考える。最も単純 なモデルは nullmodel と呼ばれ、1 つのパラメータしか持たないもので、すべての y に対して共通の µ で表 す。null モデルはこのように各 y 間の変動はすべてランダムな要素に委ねるようなモデルである。 一方で、フルモデルとは n 個のパラメータを用いる方法であり、各観測値毎にパラメータを設定する。つま り、各 µ はデータに正確に当てはまるように設定する。このようにフルモデルはすべてを系統的な要素で表 し、ランダム要素をなくすようなモデルである。 実際、null モデルは簡素過ぎるモデルであるし、フルモデルはデータを要約しないため意味のある情報は得 られない。しかしながら、フルモデルは、パラメータが p 個のモデルに対する逸脱度を測るための基準になる。 対数尤度関数を θ の関数と見るよりも、平均パラメータ µ の関数と見るほうが扱いやすい。そこで、対数 尤度関数を l(ˆµ, φ; y) を分散パラメータ φ を固定した状態で β について最大化することを考える。n 個のパラ メータのモデルにおける最大尤度は l(y, φ; y) である。正準パラメータの推定量を ˆθ = θ(ˆµ)、˜θ = θ(y) と書く ことにして、ai(φ) = φ/ωi と仮定すると、当てはまりの差は、2 つのモデルの最大尤度の差の 2 倍に比例する から、以下のように書くことができる。 2ωi{yi(˜θi − ˆθi) − b(˜θi) + b(ˆθi)}/φ = D(y; ˆµ)/φ (3.1) 8
  • 9. ここで、D(y; ˆµ) は用いているモデルの逸脱度として知られており、データから推定される。各分布に対す る逸脱度は以下のように表される。 • 正規分布:    (y − ˆµ)2 • ポアソン分布:  2 {y log(y/ˆµ) − (y − ˆµ)} • 2項分布:    2 {y log(y/ˆµ) + (m − y) log[(m − y)/(m − ˆµ)]} • ガンマ分布:   2 {− log(y/ˆµ) + (y − ˆµ)/ˆµ} • 逆ガンマ分布:  (y − ˆµ)/(ˆµ2 y) また、モデルの差の基準として重要な指標が、ピアソンの一般化 χ2 統計量である。これは次のように表さ れる。 χ2 = (y − ˆµ)2 /V (ˆµ) (3.2) ここで、V (ˆµ) は分布に対する分散関数である。正規分布に対しては、これは残差二乗和になり逸脱度の関 数と一致するが、一方でポアソン分布や 2 項分布に対しては本来の χ2 統計量であるだけで、逸脱度とは関係 なくなってしまう。よって、一般的には上記の逸脱度の関数を用いることにする。しかしながら、解釈の視点 からは χ2 統計量を用いる方が直感的に理解しやすいと考えることもできる。 3.2 逸脱度の解析 4 残差 4.1 ピアソン残差 4.2 アンスコム残差(Anscombe Residuals) 4.3 逸脱度残差(deviance residuals) 5 一般化線形モデルに対するアルゴリズム 参考文献 [1] McCullagh, Peter; Nelder, John (1989). Generalized Linear Models, Second Edition. Boca Raton: Chapman and Hall/CRC. ISBN 0-412-31760-5. [2] Nelder, John; Wedderburn, Robert (1972). “Generalized Linear Models”. Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing) 135 (3): 370-384. 9