PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

1. 2014 年10 月4 日記号の使い方に関して1 下記の記号体系の作成意図に関して - 概念の本質の理解にかかわる冗漫さを最小化するため。 - 後日の参照の際に、作成した数式を含むノートを容易に理解できるようにするため。 - 誤読の回避/入力と推敲の容易性/読解の手間の低減により、上記の目的の達成を目指している。 - まず最初に読んで欲しいものは「●」を付けたものであり、「○」はそれに準じるものである。 - それ以外については、後から参照すれば十分であると考えられる。変数、特に確率変数に関する記号2 ! X 確率変数 [x] 既知化(観測) 未知化(由来参照) X⋆ 値 x P[x] 分布参照 P(x) 確率参照表記仮名称この文書での定義 X 大文字化変数x の「未知化」。分布を考慮することができるようになる。● x⋆ 意図達成数式/変数の意図(最適化/新たなデータの代入など) 達成を⋆ で示す。 x8 任意化変数の由来を残したまま、値を一般的に考慮する任意化の操作を表す。 [x] 一般化括弧変数x の「由来参照」/「未知化」/「任意化」のいずれかを示す。● X⋆ 観測/実現値未知変数に⋆ がついた場合は、「観測/実現」した値を表すこととする。○ N(; 2)⋆ 観測/実現値確率分布に⋆ がついた場合は、「観測/実現」した値を表すこととする。○ 引数x の値だけでなく引数がどの確率変数に由来するか関知して P(x) 確率参照確率参照記号P は異なる働きをするものとする。● (従来の統計学の用法を踏襲。) 補助的に、Q; p; q も用いる。 P([x]) 分布参照未知化変数を引数に持つ確率参照は、分布を表す。● 無名変数数式表記簡潔化/変数(の由来と意図) の考慮阻止の目的で用いる。 / 比例記号未知化変数/無名変数のみを動かしたときの比例、と意味を限定する。 const: 定数記号未知化変数/無名変数のみに対して定数関数、と意味を限定する。 Σ′ 普遍的総和不都合の無い限り、総和及び積分をこの記号で表示する。 EP[x]( f(x) j 条件) 相加平均を表す。(従来記法を踏襲。) GP[x]( f(x) j 条件) 相乗平均を表す。geometric mean の頭文字G を命名の参考にした。● 省略記法 P[x] 分布参照P([x]) と同じ意味。 c: 定数記号const: と同じ意味。 e′fxg 指数関数exp(x) またはex と同じ意味になる。 1前回のゼミとも異なるので注意。 2コルモゴロフによる確率論の公理論的展開において問題無く正当化が可能と考えられる。 1

2. • 既存の確率論/統計学の書き方で、P(x) と書いた場合に、x が既に値を持っているのか、そうではなくて、単に確率分布に興味があるのか、区別する手段が必要と考えた。前者を「確率参照」、後者を「分布参照」と呼ぶことにし、この文書では、それぞれP(x); P[x] のような記号で区別をすることとした。 { 条件付き確率については、おそらく誤解や混乱の余地無く、従来の記号用法に似た記法で、書けると考えられる。 • ⋆ は上記のような利用で便利なので、混乱の無い限り、3 種類の意味を文脈に応じて使い分ける。 • X⋆ = x、[x] = X である。一見冗長な定義だが、下記の場合を想定すると、無駄ではない。 { 既に使われているなど(名前の衝突) の理由で、小文字を大文字化できない場合。 { 同じ理由で、逆に大文字を「小文字化」でき無い場合。 { 添え字を伴う場合。xj = [X]j と[Xj ] は意味が異なるが、混乱しやすいので、読んで意味が分かりやすいようにうまく工夫する。 • 確率/分布を表す式は、長くなりがちなため、必要に応じて、上記で定義したc: やe′ を用いることで、式の幅が広がり過ぎないようにした。データを扱うための記号 (大体において数学の教科書に使われているような方法を踏襲する) 記号参照名この文書での定義 R 実数全体 RD 直積D 次元のベクトル全体 RN↕ / RM $ 縦/横ベクトルそれぞれN 次元縦ベクトルとM 次元横ベクトル N M 行列行列の次元の順序縦N 次元で横M 次元の行列であること ↕ $ N M 行列全体 IM 単位行列対角要素は1、非対角要素は0 の縦横M 次元の正方行列 RN M ϕ : RD ! RM 定義域と値域写像ϕ の定義域と値域を!で結んで表示している。 u v 内積同じ長さのベクトル2 個の内積を意味している。 (xi)N i=1 数列数列を表す。 2

3. 議論展開に用いる記号記号仮名称この文書での定義 (;,;) 論理記号純粋に論理的関係/論理的帰結を表す。(従来の数学的用法を踏襲。) )! 不可逆帰結)であるが、,ではないことを示す。 ) 通常帰結例外除去的な条件を課すと)と置換できるニュアンスを示す。 ): 前提付加左側のような前提条件を取り決めた上で、右側の命題を主張する。○ :( 条件付加右側のような条件を追加的に取り決めた上で、左側の命題を主張する。○ :,: 等価定義等価な条件式を並べて、どれかの条件式で取り決めをすることを示す。未定義　代入可能時主張右辺の代入可能な全ての値について、左辺の条件が成り立つことを表す。「」カギ括弧真偽の不明な命題、もしくは文字通りに解釈できない便宜上の数式を表す。イコールに似た操作記号記号仮名称この文書での定義 = 通常等号少なくとも、純粋に論理的に両辺が等しい値を持つことを示す。ニュアンス明確化の必要がある場合には、出来るだけこの他の記号に置換。 :=: 等式展開計算すれば等式関係が判明可能であることを表す。● := 非未知化定義左辺の未定義の変数について、右辺の内容で定義する。左辺が単純な1 つの変数で無い場合には、未定義なのはどれであるか要注意。● 即時代入左辺に右辺を即時に代入する。:= よりも意味が明確化する。○ (数式群からのアルゴリズムの構成に有用な場合がある。) == 等式制約等しいという条件を新たに加える操作を表す。● :== 定義確認既に定義したことを確認する意図で使う記号。○ 未定義　定義可能主張定義可能であることを主張し、かつ、それを定義として用いる。未定義　定義可能時定義定義可能な場合に限定して、それを定義として用いる。 ≑ 近似記号近似関係 :≑ 近似意図右辺を近似する意図で、左辺に何かの定義操作を加える。参考: プログラミング上の概念との対応記号対応する概念詳細 := 関数定義定義の仕方は「遅延評価」になる。つまり即座には値を代入しない。直接代入(極限の記号/写像の定義域と値域を結ぶ記号である! とは異なる。) == 条件の宣言C 言語の== とは意味は異なる。 :== 条件確認ソフトウェアが動作中に指定条件を満たさない場合に警告を出すのと似ている。 • := と:== の両方の記法を定義したことにより、左辺をその場で定義したのか/既に定義したかのか、区別が出来て便利。 • := とのある式を組み合わせることで、アルゴリズムが構成可能であるような式集合を作ることが可能と考えられる。この特徴を活用すると便利かもしれない。 • := を反転した=: を補助的に用いる場合がある。記号体系の整合性に問題が生じる可能性があるので、当面控えめに用いる。 3

4. 第10章の全般的な内容と構成に関して上下巻全般からの10 章についての言及のされかた場所(ページ) 言及のされ方言及対象/解釈 1.2.3ベイズ確率(23) 最近1999 年以降? の非常に能率的な決定論的近似法変分ベイズ法/EP 法 1.2.4ガウス分布(28) 分散パラメータがベイズアプローチでも得られる§ 10.1.3 (§ 10.3.1?) 4.4ラプラス近似 (213)(215) 解析的な近似/局所的でない全体的アプローチ分解と変分近似 6.4.5ガウス過程からの分類3 個考えられるガウス分布近似(1 個は§ 6.4.6) 変分推論法/EP 法 9混合モデルとEM (139) エレガントなベイズ的扱いKL 距離を使ったこと? 余分な計算がほとんど不要? データから自動的に要素数を決定§ 10.2 9.2.1混合ガウス最尤推定(150) 特異性による最尤推定の深刻な過学習を回避EM alg. では未解決 ◎ 識別性が高いとむしろ上記のような変なことが起こりやすくなることがある。 EM アルゴリズムの一般化が変分推論法の枠組みlog px = Lpq + KLp(zjx) q 10.2変分線形回帰 (188) →「長く複雑なので後回しにして良い」§ 10.2 全体について手法紹介の年代に関して(教科書に記載されたもの全部とは限らない) 変分推論(18 世紀、オイラーとラグランジュ)/汎関数微分(Feynmann et.al, 1964) 有限要素法(Kapur,1989)/最大エントロピー法(Schwarz,1988) 分布の分解の仮定(Jordan et al.,1999; Jaakkola, 2001)/平均場近似(Parisi, 1988) 条件q⋆( (zj) ) = G[ P(x;Z) jjZj = zj ] による反復解の収束の保証(Boyd and Vandenberghe, 2004) ダイバージェンス(Ali and Silvey, 1966; Amari, 1985; Minka, 2005) 一変数ガウス分布を平均と分散で分解した近似の例(MacKay, 2003) ガウス分布のベイズ推論の完全な取り扱い(Minka 1998) 「変分混合ガウス分布」(ベイズ的でエレガント) (Attias, 1999b) 更新が最適化になっているのか徹底的なテスト(195)(Svensen and Bishop, 2004) をパラメータと見なしてL を最大化し、点推定する(Corduneanu and Bishop, 2001) 変分ベイズ法の推論を行う汎用ソフトウェアの構成(207)(Bishop et al., 2003) 更新式は局所的なメッセージパッシングアルゴリズム(Winn and Bishop, 2005) 凸双対性の枠組み(Rockafellar, 1972; Jordan et al., 1999) ガウス分布の関数形式でシグモイド関数の下限を作る(Jaakkola and Jordan, 2000) EP 法(期待値伝搬法) (Minka, 2001a, Minka, 2001b) /雑音データ問題(Minka, 2001b) 仮定密度フィルタリング(ADF)/モーメント一致法 (Maybeck, 1982; Lauritzen, 1992; Boyen and Koller, 1998; Opper and Winther,1999) ロジスティックの形のモデルの場合は、EP 法が局所的変分法/ラプラス近似より勝ることが多い (Kuss and Rasmussen, 2006) 再重み付け木メッセージパッシング(Wainwright et al., 2005) 部分的確率伝搬(Wiegerinck and Heskes, 2003) Power EP 法(Minka, 2004) ◎ 変分法を統計学に使った話は、1970 年代にJagdish S. Rustagi が研究している。 4

5. 10 章の節の内容節のタイトル節の内容 10:1 変分推論分布を積に分ける/一般解を求める/ごく簡単な例 10:2 例:変分混合ガウス分布(例) 混合ガウス分布 10:3 変分線形回帰(例) 線形基底関数モデル 10:4 指数型分布族指数型分布族に関係することと/メッセージパッシング 10:5 局所的変分推定法局所的な下限? 10:6 変分ロジスティック回帰(例) ロジスティック回帰 10:7EP 法逆KL 距離で考えた/(例) 雑音とグラフィカルモデル 10 章の節の構成(小節の数とページ/参照先/例) 節小節の数(頁数) 依存先/言及先計算例 10:14(11) 2.3 ガウス分布e z2=2 1+e20z4 ; 細長い分布,2 峰の分布;1 変数ガウス分布 10:25(13) 2.3.6, 10.4.1, 3.4, 7.2.2 間欠泉のデータに混合ガウスを適用 10:33(4) 3.3 , 3.5 3 次式にガウスノイズを入れた10 点 10:41(3) 2.4, 4.2.4, 10.2.5 メッセージパッシング 10:50(5) 1.6.1, 4.5 10:63(7) 4.5, 4.3 ロジスティック回帰 10:72(2) 8.4 グラフ推論混合ガウスモデル、雑音データ 10 章の小節のタイトル節のタイトル小節のタイトル 10:1 変分推論分布の分解/分解の近似の持つ性質/一変数ガウス分布/モデル比較 10:2 例:変分混合ガウス分布変分事後分布/変分下限/予測分布/要素数決定/導出された分解 10:3 変分線形回帰変分分布/予測分布/変分下限 10:4 指数型分布族メッセージパッシング 10:5 局所的変分推定法 10:6 変分ロジスティック回帰変分事後分布/変分パラメータの最適化/超パラメータの推論 10:7EP 法雑音データ問題/グラフィカルモデルとEP 法 5

6. 似た様な章との比較手法利点欠点 9 章混合モデルとEM (32 頁) 離散潜在変数を扱う(例: どのクラスタに属するか) K-means alg. 必ず極大値に収束するE-step が無理なことがある()10 章,11 章) EM alg. (dimZ が高い/積分が閉形式でない場合) 10 章近似推論法(62 頁) 近似が決定的変分法or 変分ベイズ事後分布の解析的近似決して厳密解は求まらない (分解/ガウス分布を使う) 11 章サンプリング法(37 頁) 近似が確率的 MCMC 厳密な漸近的な一致性計算量が多く解ける問題は意外と小さい。サンプルが互いに独立か検証困難。 12 章連続潜在変数(48 頁) 連続潜在変数を扱う(例: 文字画像のズレの分布を扱う) 線形ガウスモデル? ? 6

7. ■ 用語集(索引に未記載のものなど) 変分ベイズ法「変分推論法」と同じ。モデルエビデンスパラメータを周辺化した尤度モデルエビデンス最大化パラメータを周辺化した尤度関数を最大にするパラメータを決定すること非特異連続な分布を持つ確率変数が、丁度ある値を持つ確率が0 で無いこと(ポイントマスを持つこと)。積分消去観測対象となりうる値の予測分布を求めるために、パラメータの変数に対して積分をすることで、そのパラメータを消去する操作。解析的に加減乗除およびべき乗の操作で式が表示できることを表す。閉形式積分の操作をした後の結果が「解析的」になった時の結果について表す。モデル平均p187 複数のモデルをパラメータで指定するようにして、そのパラメータ上の分布が求まったときに、それを使った平均値を使うことと考えられる。(?) ■ 参考になりそうな他の文献: 1. 情報幾何学の新展開甘利俊一サイエンス社(SGC-110) ごく最近(2014 年8 月25 日) に出版された本で、EM alg. 等の理論的な話、最良検定など(私が個人的に気になる話)、産業連関表への言及などあまり見たことの無い話、甘利氏のさまざまな個人的な研究にまつわる話が記載されており、興味深い。 2. 持橋さんのホームページ(所在未参照) この章は長くて複雑なので、この章を補完する重要情報がインターネット上のどこかにあると聞いた。 http://ibisforest.org/index.php?PRML によると、10 章を担当したのは持橋氏である。 ■ 理解が難しいところなど◎ • § 10.1(p177) 「十分に柔軟な分布を使っても、過学習の問題は起きない」 → 理論的根拠はあるのか/経験則なのか? • § 10.1.2(p183) 図10.3「最もよく近似する一変数ガウス」→ 2 変数ガウスではないか? • § 10.1.4(p187) 隠れ変数Z がモデルm により「構造」が異なるということを反映した数学的に自然な表記は何だろうか? • § 10.3 (p204) 図10.9 について、どういう3 次式を用いたのだろうか? (第2 章の中間にある可能性がある。) 7

8. 第10.1.2節分解による近似のもつ性質下巻180 頁この小節では3 例に、直前の小節で示した方法の分解を適用し、その結果を観察する。 1. 2 次元ガウス分布をq( (z1; z2) ) := q1(z1) q2(z2) (z1; z2 2 R) で変分近似する。 2. 比較のため、別の方法を適用する。KL距離KL( q jj P ) の極小化をする代わりに、引数を逆転させたKL( P jj q ) を極小化する。 3. 2 峰性の分布に対して適用し、局所解が複数存在することを調べる。また、ダイバージェンスを紹介する。(KL 距離、Hellinger 距離の一般化になっている。) P の分布(↓) KL(qjjP) を極小化した場合KL(Pjjq) を極小化した場合斜めに細長い分布分布を小さく近似する傾向がある周辺分布が一致する (少なくとも1 or 2 次元ガウスの場合) 2 峰性の分布局所解が複数存在する「予測性能の悪化をもたらす」 P(z) がきわめて0 に近い場所でq(z) の値が大きいと損失が大きいので q の分布域は小さくまとまる。 q(z) がきわめて0 に近い場所でP(z) の値が大きいと損失が大きいので q はP の分布域を覆うように広がる。 ◎考えると面白そうなこと: • 分布のP とq が上記のようなケースだけではなくて、fat-tail な場合や特異の場合も考察して、何が起こるか考える。 8

9. 第10.1.3節例: 一変数ガウス分布下巻184 頁ガウス分布からN 個の点を観測した状況を考えている。尤度関数P(D = xj; ) = ( 2 )N=2 exp { 2 ΣN n=1(xn )2 } (10:21) 事前分布: p[j ] N(j0; (0 )1); p[ ] Gam( ja0; b0) を採用すると共役分布になる§ 2.3.6 ガウス-ガンマ分布演習2.44 。分解としてはq[; ] = q[] q[ ] (10:24) とすることで、q[] はガウス分布、q[ ] はガンマ分布となる。 (1) 初期値(2) で最適化 (3) で最適化(4) 収束解分解q[]q[ ] := q[; ] (10:24) 共役事前分布p([]j ) N(0; 1 0 ) (10:22) 〃p([ ]) Gamma(a0; b0) ( (10:23) NN 00 + Nx 最適解q⋆[] :=: (N; N) := 0 + N ; (0 + N)Eq⋆[]( ) ) (10:25 27) 〃q⋆[ ] :=: Gam(aN; bN) := Gam(a0 + N + 1 2 ; b0 + 1 2 Eq⋆[] [ ΣN n=1 ] (xn )2 + 0( 0) (10:28 30) (a0; b0; 0; 0) (0; 0; 0; 0) =) Eq⋆[][] = x; Eq⋆[][2] = x2 + 1 NEq⋆[][ ] (10:32) Eq⋆[][ ] = (x2 x2)1 = ( ΣN n=1(xn x)2=N)1 (10:33) ; 補足: 最尤推定と比較した優位性についての議論を含む、ガウス分布のベイズ推論の完全な扱いは、Minka 1998(Inferring a Gaussian distribution. Media Lab note, MIT) を参照。 http://research.microsoft.com/~minka 9

10. 第3章線形回帰モデル上巻135 頁この第3 章のメモについての作成意図: 第10.3 節でよく参照されるため。第10.3 節で必要と考えられる仮定と定義について(主に第3 章) 太字は主に節のタイトル下線でよく使う用語の定義 ●はx; t; ϕ;;

11. ; の定義○は§ 10.3. から参照される事項節(小節数)頁数節のタイトル10 章で必要と考えられる仮定/定義事項 1.2.4 4 ガウス分布精度とは分散の逆数であり1=2 に等しい。 2.3.6 5 ガウス分布に対するベイズ推論精度パラメータに対する共役事前分布はガンマ分布。 3. 42 線形回帰モデル● N 個の観測値(xn 2 RD) と「目標値」(tn 2 R) 3.1 (5) 10 線形基底関数モデル線形モデル= 線形基底関数モデル∋ 線形回帰モデル ○● ϕj (j=0;:::;M1) : 基底関数(ただしϕ0(x) := 1 とする) Σ 線形モデルy(x;w) := j=0::M1 wjϕj(x) :=: w ϕ(x) 3.1.1 2 最尤推定と最小二乗法●計画行列 :( nj := ϕj(xn) (3:16) ●

12. : 観測値へのノイズの分散の逆数P(tjx;w;

13. ) = N(tjy(x;w);

14. 1) 3.2 5 バイアス-バリアンス分解 3.3 (3) 9 ベイズ線形回帰 3.3.1 4 パラメータの分布● : パラメータw の各要素の精度p(wj) = N(wj0; 1IM) ○ 事前分布P([w]) := N(0; 1); 観測ノイズP([t]jx;w;

15. ) := N(w ϕ(x);

16. 1) ) P( [w] jt) :=: N(mN; SN) :( (mN; SN) := (

17. SNT t ; (IM +

18. T ) 1) 3.3.2 2 予測分布○ P(t⋆jx; t; ;

19. ) :=: N(mN ϕ(x⋆) ;

20. 1 + ϕ(x⋆) SNϕ(x⋆) ) 3.3.3 2 等価カーネル 3.4 4 ベイズモデル比較モデルエビデンス=周辺尤度, 複数比較した比をベイズ因子 ′ 95 と呼ぶ 3.5 (3) 7 エビデンス近似 ′ 89 =経験ベイズ ′ 94; ′ 04 =第二種の最尤推定 ′ 85 =一般化最尤推定 ′ 75 パラメータw の積分消去である。さて、なぜエビデンス近似というのか。 ○ (1)w を積分消去して周辺尤度関数を作る。 (2) その関数を最大化する超パラメータを探索する。 3.5.1 2 エビデンス関数の評価 3.5.2 2 エビデンス関数の最大化 ○ 予測分布P( [t⋆] jt) :=: Σ′ w;;

21. P( [t⋆] jw;

22. )P(wjt; ;

23. )P(;

24. jt) パラメータw の積分消去P( [t] j;

25. ) :=: Σ′ w P( [t] jw;

26. )P(wj) エビデンス関数最大化 , { = =mT NmN

27. = (N )fΣN nϕ(xn))g2 n=1(tn mT :( := Σ i(i=( + i) :( (i) は行列(

28. T ) の固有値 3.5.3 2 有効パラメータ数 3.6 1 固定された基底関数の限界 10

29. 第3.3 節と第3.5 節の解釈あらかじめ、M 重結合されることになる基底関数(ϕj : RD ! R)M1 j=0 が用意されているとする。 (ただしϕ0() := 1 とする。) 未知の加重係数(wj)M1 j=0 に応じて、観測されないy(x) := ΣM1 j=0 wjϕj(x) (3:2) と観測されるt(x) := y(x) + N(0;

30. )⋆ (3:8) が定義される。データとして、(xn)Nn =1 と(tn)Nn =1 が提供されている。便宜上、下記の変数を定める。変数と定義性質 := (nj := ϕj(xn))計画行列(N M 行列である) § 3.1.1 (3.16) p139 ( nj )SN := IM +

31. T 1 w の事後分布の分散(3:49) § 3.3.1 (3.54) p152 mN :=

32. SN T t w の事後分布の平均(3:49) § 3.3.1 (3.53) p152 (i) :=

33. T の固有値S 1 N IM の固有値に等しい§ 3.5.2 (3.87) p167 := Σ i i + i 1 N ) § 3.5.2 (3.91) p168 = Tr(IM S ベイズ線形回帰を考える場合(§ 3.3)、事前分布p[w] N(0; 1IM) (3:52) =) 8 事後分布P([w]jt; ) :=: N(mN ; SN) :=: N(

34. SN T t ; SN) (3:49)(3:53)(3:54) 予測分布P(t⋆jx; t; ;

35. ) :=: N(mN ϕ(x⋆) ;

36. 1 + ϕ(x⋆) SNϕ(x⋆) ) (3:58)(3:59) : エビデンス近似を考える場合(§ 3.5)、パラメータw を積分消去した尤度関数=: L[;

37. ] を最大化することを考える。 ⋆ :=: mT N mN (3:92) さて、上記より = M Tr(S 1 N ) であるから、一次方程式を解くと次が成り立つ。 ⋆ = M mT NmN + Tr(SN) = M Eq⋆ (w) Eq⋆ (w) + Tr SN (§ 10.3 の考察で用いる。)

38. ⋆ :=: N ( ΣN n=1 { tn mT } nϕ(xn) )2 (3:95) ◎ 補足 • 上記のSN :== ( IM +

39. T )1 において { IM は、事前情報量に相当する。 {

40. T は、事後情報量、フィッシャー情報量に相当する。 { 情報量と言うからには、加法性が成り立つ(この情報量はシャノン流のエントロピーとは異なる)。 11

41. 第10.3節変分回帰分析200 頁初めにベイズ線形回帰のことを「基底関数の線形結合モデル」の枠組みと言い換える場合がある。話の流れ変分推論の2 番目の例3 として、ベイズ線形回帰§ 3.3 について考える。この節の目的基底関数の線形結合モデルの枠組みでエビデンスの最大化解を求める(

42. は固定) 背景§ 3.5.2 でエビデンス最大化の枠組みを考えた。完全なベイズモデル(;

43. ;w の全てを積分消去) も考えられるが、この章の流れに沿い4、変分ベイズによる近似を行う。問題の定式化途中から第10.3.1 節 ↕ ↕ 2 R がNM最適化したい精度、

44. 2 R は固定、(a0; b0) は共役事前分布のガンマ分布へのパラメータ。 w 2 R, t 2 R, xn 2 RD,ϕ : RD ! RM パラメータw の事前分布P([w]j) :== NΠ(0; 1IM) (10:88)(3:52) w に対する尤度関数P( t jw; x) :== N n=1 N(w ϕ(xn) ;

45. 1 ) (10:87) 共役事前分布P() Gamma(a0; b0) (10:89) 全ての変数の同時分布P(t;w; ) :=: P(tjw) P(wj) P() (10:90) なぜここに記載? (グラフィカルモデルとの関連か?) 事後分布とその近似q(w; ) := q(w) q() : ≑ P(w; jt) (10:91) 変分推論の解q⋆(w; ) 及びq⋆(w) ; q⋆() 算出される変分解についてガンマ分布パラメタ(aN; bN) := ( a0 + M 2 ; b0 + 1 2Eq⋆[w] ( wT w )) (10:94)(10:95) についての変分解): q⋆[] :=: Gamma(aN; bN) (10:93) 補助等式1 =) Eq⋆[]( ) :=: aN=bN =: E[]⋆ (10:102)(10:104) §3:1:1 で定義したN M の計画行列 :( nj := ϕj(xn) (3:16) 補助変数1 (§ 3.3.1 で似た定義) ): SN := ( Eq⋆[]( ) IM +

46. T ) 1 (10:101) 補助変数2 (§3:3:1 で同じ定義) ): mN :=

47. SN T t (M N 行列) (10:100) w についての変分解): q⋆[wN(10:99) ( ) ] :=: (mN; SN) 補助等式2(M M 行列) =) Eq⋆[w] wwT N + SN =: E[wwT ]⋆ (10:103) :=: mN mT 31 番目の例は、混合ガウス分布(§ 10.2) で、3 番目はロジスティック回帰(§ 10.6)。 4積分消去困難な場合に特に有用と言える。 12

48. 考察 • 実際にq⋆(w) とq⋆() を探索するには、補助等式1 と補助等式2 を交互参照して解く。 • 古典的なものとの整合性などを下記主張する。考察ケース比較される式教科書での言及 (a0; b0) (0; 0) E[]⋆ = M mT NmN + Tr(SN) (10:104) 無限になだらか/変則事前分布 § 3.5 の最尤解⋆ = M mT NmN + Tr(SN) 「比べてみると興味深い」 § 9.3.4 EM アルゴリズム 8 : SN = ( IM +

49. T )1 (3:54) = M mT NmN + Tr(SN) (9:63) q[w] が同じ分布を与える(?) • w の分布についても上記のような対応を考察すると面白そうだ。◎ 予測分布(§ 10.3.2 203 頁) x⋆ を新しく入力される値、その結果出力される値をt⋆ とする。 P(t⋆jt; x⋆) :=: N( mT N ϕ(x⋆) ; 1

50. + ϕ(x)T SN ϕ(x) ) (10:105)(10:106) これは、SN を計算するときのを固定したときの、§ 3.3 節の線形基底ガウスモデルの予測分布P(t⋆jx; t; ;

51. ) :=: N(mN ϕ(x⋆) ;

52. 1 + ϕ(x⋆) SNϕ(x⋆) ) (3:58)(3:59) に一致する。「変分下限」(§ 10.3.3 203 頁) 引数としてw; 上の任意の関数q に対する汎関数であるL(q) の表式を算出する。 ′fg d log () e:== exp(), ディガンマ関数 () :== d (B:25) 上巻306 ページ L(q) :== log G[p(w; ; t)] G[q(w; )] = log G[p(tjw)]G[p(wj)]G[p()] G[q(w)]G[q()] (10:107) (10:108) G[p(tjw)] = (

53. 2 )N=2 e′f

54. mT NT t g e′f

55. 2 tT tg e′f

56. 2Tr[T (mNmT N + SN)]g (10:109) G[p(wj)] = fe′( (aN))=bNgM=2 (2)M=2e′fmT NmN + Tr(SN)gaN=2bN (10:110) G[p()] = ba0 0 e′f (aN)=bNga01 e′(b0aN=bN) (a0) (10:111) 1 =G[q(w)] = jSNj1=2 e′f1 + log 2gM=2 (aN) e′faNg (10:112) 1 =G[q()] = e′ f (aN 1) (aN) g bN 13

57. 計算例上記でG は相乗平均を表す。変分解を求めるべく、L(q) を最大化するには、上記の最後の2 個の式を最小化する (aN; bN) を探索することになる。そうすることで、L(q) の値を計算する。次はモデルごとにmaxL(q) の値の変化する様子をみたもの。 ▼ モデルの次数ごとにL(q) をプロットしたものデータはある3 次多項式f(x) に対して(f(xi) + ϵi)10 i=1 ; ϵi N(0; 0:32) 事前分布のパラメータ(a0; b0) (0; 0) 精度については無情報事前分布p() / 1= 14

58. 第10.4節指数型分布族 • ガウス混合モデルを一般化して、指数型分布族の枠組みで変分ベイズを論じる。 • ここで述べる変分E-step、変分M-step は、後の第10.6 節でのロジスティック回帰にも使えて、非常に参考になると考えられる。◎ • 第10.4.1 節では、別の枠組みで、有向グラフのグラフィカルモデルの枠組みで変分ベイズを論じる。 • さらに「全ての条件付き確率分布」が指数型分布族となる場合に、共役分布の「形状パラメータ」のグラフィカルモデル上の「局所的更新計算」になることを論じる。 • これは、大規模ネットワークを扱う応用例が考えられる。ここでの導入記号 e′ := exp ; c: := const: ; ⃗ = : 自然パラメータ(⃗N; N):⃗ の形状パラメータ指数型分布族に関する一般的な性質(第2.4 節) 指数型分布族p( [x] j [⃗] ) := g(⃗) h(x) e ′ (⃗ u(x)) (2:194) 共役事前分布p( [⃗] j ⃗; ) :== f(⃗; ) g(⃗) e ′ (⃗ (⃗)) (2:229) =)事後分布p( [⃗] j x; ⃗; ) / g(⃗)+N e ′ ( ⃗ ( ⃗ + ΣN n=1 )) u(xn) (2:230) この節での変数の定義(今までの潜在変数をさらにばらす) 性質データサイズ増大との関係例: ガウス混合モデル Z 潜在変数外延的Z のサイズは連動して増大zインジケータ変数 kn パラメータ内包的のサイズは連動せず一定平均 k ;精度 k ; 混合比 k ガウス混合モデルについて、その観測変数と潜在変数の同時分布は、指数型分布族 • ガウス混合モデルの[xn] と[zn] の同時分布は指数型分布族である。 • [xn] の周辺分布は混合ガウス分布。これは指数型分布族ではない。 ◎ 検証せよ 15

59. X とZ の同時分布が指数型分布族の場合の変分近似について5 指数型分布族p(X;Z j [⃗] ) := NΠ n=1 g(⃗) h(Xn;Zn) e ′ (⃗ u(Xn;Zn)) (10:113) 共役事前分布p( [⃗] j 0; ⃗0) / g(⃗)0 e ′ (⃗ (0⃗0)) (10:114) =) 事後分布p( [⃗] jX;Z; 0; ⃗0) := g(⃗)0+N e ′ ( ⃗ ( 0⃗0 + ΣN n=1 )) u(Xn;Zn) 自然パラメータ[] := [⃗] := [] からの何らかの変換分解q[z] q[] := q[z; ] :≑ p(x; z) (10:115) の直前 Z の変分近似解q⋆(Z) :=: Gq⋆fpx;Zjg [] ()c: :=: NΠ n=1 h(xn;Zn)Gq⋆[] fexp( u(xn;Zn))g c: (10:115) 導出された分解) ΠN n=1 q⋆(Zn) := q⋆(Z) と定義可能(10:116) の直前 q⋆(Zn) :=: h(xn;Zn) g (E[] u(xn;Zn)) (10:116) の変分近似解q⋆[] :=: p(j0; ⃗0)Gq⋆[Z] fp(x;Zj)g c: (10:117) :=: fg() e′( 0)g0 NΠ n=1 ′( Eq(Zn) (u(xn;Zn)) g() e ) (10:118) Nの定義N := 0 + N (10:120) ⃗Nの定義N ⃗N := 0⃗0 + ΣN n=1 Eq⋆(Z) f u(xn;Zn) g (10:121) の変分近似解) q⋆[] :=: f(N; ⃗N) g()N e′(⃗ N ⃗N) (10:119) 手順: ◎ 変分E-step q[zn] から十分統計量の期待値E[u(xn; zn)] を算出した上で、事後分布q[] を改良。変分M-step q[] から自然パラメータの期待値E[] を算出した上で、事後分布q[z] を改良。 5指数型分布族を扱うことは、ガウス混合モデルの場合についてのひとつの一般化になっている。他には、次で行うような有向グラフによるグラフィカルモデリングとして扱うことによる一般化がある。 16

60. 第10.4.1節変分メッセージパッシング混合ガウスモデルは有向グラフでマルコフブラケットの説明グラフィカルモデリング可能(図8.26, 96 ページ) • ベイズ混合ガウス分布は、有向グラフで表すことが出来る。これに変分ベイズを考えてきた。 • 今度は、さらに一般的に、有向グラフで表されるモデルに対して変分ベイズを考える。定式化有向グラフの同時分布 Π i p( [xi] j j2pa(i) xj) :== p(x) (10:122) 分解による近似 Π i q[xi] := q[x] :≑ p[x] (10:123) 変分解が満たす等式q⋆[xj ] :=: Gq⋆(X) Π i:̸=j p(XijXj = xj) c: (10:124) :=: Gq⋆(X) Π i:2pa(j) p(XijXj = xj) c: ← 要再検討◎ • マルコフブランケット◎ { q⋆[xj ] が依存するノード全体は、xj を表すノードのマルコフブランケットに対応している。 { よって、更新計算は、グラフ上で局所的なノードでの分布の更新計算になる。 { 従って、汎用ソフトウェアを構成可能(Bishop2003)。 • 全てのp(XijXj = x8 j ) が指数型分布族で書けた場合 { 共役事前分布の形状パラメータの更新式が、「局所的なメッセージパッシングアルゴリズム」として表現できる(Winn and Bishop2005)。 { L の計算も簡単になる。(必要な量の多くがメッセージパッシングを通して既に求まっているため?) { このような分散メッセージパッシングは、耐規模性が良い。大きなネットワークを扱うのに、適している。 17

PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

Semelhante a PRML 10.3, 10.4 (Pattern Recognition and Machine Learning) (20)

Mais de Toshiyuki Shimono

Mais de Toshiyuki Shimono (20)

PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)