SlideShare uma empresa Scribd logo
1 de 17
Baixar para ler offline
2014 年10 月4 日記号の使い方に関して1 
下記の記号体系の作成意図に関して 
- 概念の本質の理解にかかわる冗漫さを最小化するため。 
- 後日の参照の際に、作成した数式を含むノートを容易に理解できるようにするため。 
- 誤読の回避/入力と推敲の容易性/読解の手間の低減により、上記の目的の達成を目指している。 
- まず最初に読んで欲しいものは「●」を付けたものであり、「○」はそれに準じるものである。 
- それ以外については、後から参照すれば十分であると考えられる。 
変数、特に確率変数に関する記号2 
! 
X 
確率変数 
[x] 
既知化(観測) 
未知化(由来参照) 
X⋆ 
値 
x 
  
P[x] 
分布参照 
P(x) 
確率参照 
表記仮名称この文書での定義 
X 大文字化変数x の「未知化」。分布を考慮することができるようになる。● 
x⋆ 意図達成数式/変数の意図(最適化/新たなデータの代入など) 達成を⋆ で示す。 
x8 任意化変数の由来を残したまま、値を一般的に考慮する任意化の操作を表す。 
[x] 一般化括弧変数x の「由来参照」/「未知化」/「任意化」のいずれかを示す。● 
X⋆ 観測/実現値未知変数に⋆ がついた場合は、「観測/実現」した値を表すこととする。○ 
N(; 2)⋆ 観測/実現値確率分布に⋆ がついた場合は、「観測/実現」した値を表すこととする。○ 
引数x の値だけでなく引数がどの確率変数に由来するか関知して 
P(x) 確率参照確率参照記号P は異なる働きをするものとする。● 
(従来の統計学の用法を踏襲。) 補助的に、Q; p; q も用いる。 
P([x]) 分布参照未知化変数を引数に持つ確率参照は、分布を表す。● 
 無名変数数式表記簡潔化/変数(の由来と意図) の考慮阻止の目的で用いる。 
/ 比例記号未知化変数/無名変数のみを動かしたときの比例、と意味を限定する。 
const: 定数記号未知化変数/無名変数のみに対して定数関数、と意味を限定する。 
Σ′ 普遍的総和不都合の無い限り、総和及び積分をこの記号で表示する。 
EP[x]( f(x) j 条件) 相加平均を表す。(従来記法を踏襲。) 
GP[x]( f(x) j 条件) 相乗平均を表す。geometric mean の頭文字G を命名の参考にした。● 
省略記法 
P[x] 分布参照P([x]) と同じ意味。 
c: 定数記号const: と同じ意味。 
e′fxg 指数関数exp(x) またはex と同じ意味になる。 
1前回のゼミとも異なるので注意。 
2コルモゴロフによる確率論の公理論的展開において問題無く正当化が可能と考えられる。 
1
• 既存の確率論/統計学の書き方で、P(x) と書いた場合に、x が既に値を持っているのか、そうではなくて、 
単に確率分布に興味があるのか、区別する手段が必要と考えた。前者を「確率参照」、後者を「分布参照」と 
呼ぶことにし、この文書では、それぞれP(x); P[x] のような記号で区別をすることとした。 
{ 条件付き確率については、おそらく誤解や混乱の余地無く、従来の記号用法に似た記法で、書けると考 
えられる。 
• ⋆ は上記のような利用で便利なので、混乱の無い限り、3 種類の意味を文脈に応じて使い分ける。 
• X⋆ = x、[x] = X である。一見冗長な定義だが、下記の場合を想定すると、無駄ではない。 
{ 既に使われているなど(名前の衝突) の理由で、小文字を大文字化できない場合。 
{ 同じ理由で、逆に大文字を「小文字化」でき無い場合。 
{ 添え字を伴う場合。xj = [X]j と[Xj ] は意味が異なるが、混乱しやすいので、読んで意味が分かりや 
すいようにうまく工夫する。 
• 確率/分布を表す式は、長くなりがちなため、必要に応じて、上記で定義したc: やe′ を用いることで、式の 
幅が広がり過ぎないようにした。 
データを扱うための記号 
(大体において数学の教科書に使われているような方法を踏襲する) 
記号参照名この文書での定義 
R 実数全体 
RD 直積D 次元のベクトル全体 
RN↕ 
/ RM 
$ 縦/横ベクトルそれぞれN 次元縦ベクトルとM 次元横ベクトル 
N M 行列行列の次元の順序縦N 次元で横M 次元の行列であること 
↕ 
$ N M 行列全体 
IM 単位行列対角要素は1、非対角要素は0 の縦横M 次元の正方行列 
RN 
M 
ϕ : RD ! RM 定義域と値域写像ϕ の定義域と値域を!で結んで表示している。 
u  v 内積同じ長さのベクトル2 個の内積を意味している。 
(xi)N i=1 数列数列を表す。 
2
議論展開に用いる記号 
記号仮名称この文書での定義 
(;,;) 論理記号純粋に論理的関係/論理的帰結を表す。(従来の数学的用法を踏襲。) 
)! 不可逆帰結)であるが、,ではないことを示す。 
) 通常帰結例外除去的な条件を課すと)と置換できるニュアンスを示す。 
): 前提付加左側のような前提条件を取り決めた上で、右側の命題を主張する。○ 
:( 条件付加右側のような条件を追加的に取り決めた上で、左側の命題を主張する。○ 
:,: 等価定義等価な条件式を並べて、どれかの条件式で取り決めをすることを示す。 
未定義 代入可能時主張右辺の代入可能な全ての値について、左辺の条件が成り立つことを表す。 
「   」カギ括弧真偽の不明な命題、もしくは文字通りに解釈できない便宜上の数式を表す。 
イコールに似た操作記号 
記号仮名称この文書での定義 
= 通常等号少なくとも、純粋に論理的に両辺が等しい値を持つことを示す。 
ニュアンス明確化の必要がある場合には、出来るだけこの他の記号に置換。 
:=: 等式展開計算すれば等式関係が判明可能であることを表す。● 
:= 非未知化定義左辺の未定義の変数について、右辺の内容で定義する。 
左辺が単純な1 つの変数で無い場合には、未定義なのはどれであるか要注意。● 
  即時代入左辺に右辺を即時に代入する。:= よりも意味が明確化する。○ 
(数式群からのアルゴリズムの構成に有用な場合がある。) 
== 等式制約等しいという条件を新たに加える操作を表す。● 
:== 定義確認既に定義したことを確認する意図で使う記号。○ 
未定義 定義可能主張定義可能であることを主張し、かつ、それを定義として用いる。 
未定義 定義可能時定義定義可能な場合に限定して、それを定義として用いる。 
≑ 近似記号近似関係 
:≑ 近似意図右辺を近似する意図で、左辺に何かの定義操作を加える。 
参考: プログラミング上の概念との対応 
記号対応する概念詳細 
:= 関数定義定義の仕方は「遅延評価」になる。つまり即座には値を代入しない。 
  直接代入(極限の記号/写像の定義域と値域を結ぶ記号である! とは異なる。) 
== 条件の宣言C 言語の== とは意味は異なる。 
:== 条件確認ソフトウェアが動作中に指定条件を満たさない場合に警告を出すのと似ている。 
• := と:== の両方の記法を定義したことにより、左辺をその場で定義したのか/既に定義したかのか、区別 
が出来て便利。 
• := と のある式を組み合わせることで、アルゴリズムが構成可能であるような式集合を作ることが可能と 
考えられる。この特徴を活用すると便利かもしれない。 
• := を反転した=: を補助的に用いる場合がある。記号体系の整合性に問題が生じる可能性があるので、当 
面控えめに用いる。 
3
第10章の全般的な内容と構成に関して 
上下巻全般からの10 章についての言及のされかた 
場所(ページ) 言及のされ方言及対象/解釈 
1.2.3ベイズ確率(23) 最近1999 年以降? の非常に能率的な決定論的近似法変分ベイズ法/EP 法 
1.2.4ガウス分布(28) 分散パラメータがベイズアプローチでも得られる§ 10.1.3 (§ 10.3.1?) 
4.4ラプラス近似 
(213)(215) 解析的な近似/局所的でない全体的アプローチ分解と変分近似 
6.4.5ガウス過程 
からの分類3 個考えられるガウス分布近似(1 個は§ 6.4.6) 変分推論法/EP 法 
9混合モデル 
とEM (139) エレガントなベイズ的扱いKL 距離を使ったこと? 
余分な計算がほとんど不要? 
データから自動的に要素数を決定§ 10.2 
9.2.1混合ガウス 
最尤推定(150) 特異性による最尤推定の深刻な過学習を回避EM alg. では未解決 
◎ 識別性が高いとむしろ上記のような変なことが起こりやすくなることがある。 
EM アルゴリズムの一般化が変分推論法の枠組みlog px = Lpq 
+ KLp(zjx) 
q 
10.2変分線形回帰 
(188) →「長く複雑なので   後回しにして良い」§ 10.2 全体について 
手法紹介の年代に関して(教科書に記載されたもの全部とは限らない) 
変分推論(18 世紀、オイラーとラグランジュ)/汎関数微分(Feynmann et.al, 1964) 
有限要素法(Kapur,1989)/最大エントロピー法(Schwarz,1988) 
分布の分解の仮定(Jordan et al.,1999; Jaakkola, 2001)/平均場近似(Parisi, 1988) 
条件q⋆( (zj) ) = G[ P(x;Z) jjZj = zj ] による反復解の収束の保証(Boyd and Vandenberghe, 2004) 
 ダイバージェンス(Ali and Silvey, 1966; Amari, 1985; Minka, 2005) 
一変数ガウス分布を平均と分散で分解した近似の例(MacKay, 2003) 
ガウス分布のベイズ推論の完全な取り扱い(Minka 1998) 
「変分混合ガウス分布」(ベイズ的でエレガント) (Attias, 1999b) 
更新が最適化になっているのか徹底的なテスト(195)(Svensen and Bishop, 2004) 
 をパラメータと見なしてL を最大化し、点推定する(Corduneanu and Bishop, 2001) 
変分ベイズ法の推論を行う汎用ソフトウェアの構成(207)(Bishop et al., 2003) 
更新式は局所的なメッセージパッシングアルゴリズム(Winn and Bishop, 2005) 
凸双対性の枠組み(Rockafellar, 1972; Jordan et al., 1999) 
ガウス分布の関数形式でシグモイド関数の下限を作る(Jaakkola and Jordan, 2000) 
EP 法(期待値伝搬法) (Minka, 2001a, Minka, 2001b) /雑音データ問題(Minka, 2001b) 
仮定密度フィルタリング(ADF)/モーメント一致法 
(Maybeck, 1982; Lauritzen, 1992; Boyen and Koller, 1998; Opper and Winther,1999) 
ロジスティックの形のモデルの場合は、EP 法が局所的変分法/ラプラス近似より勝ることが多い 
(Kuss and Rasmussen, 2006) 
再重み付け木メッセージパッシング(Wainwright et al., 2005) 
部分的確率伝搬(Wiegerinck and Heskes, 2003) 
Power EP 法(Minka, 2004) 
◎ 変分法を統計学に使った話は、1970 年代にJagdish S. Rustagi が研究している。 
4
10 章の節の内容 
節のタイトル節の内容 
10:1 変分推論分布を積に分ける/一般解を求める/ごく簡単な例 
10:2 例:変分混合ガウス分布(例) 混合ガウス分布 
10:3 変分線形回帰(例) 線形基底関数モデル 
10:4 指数型分布族指数型分布族に関係することと/メッセージパッシング 
10:5 局所的変分推定法局所的な下限? 
10:6 変分ロジスティック回帰(例) ロジスティック回帰 
10:7EP 法逆KL 距離で考えた/(例) 雑音とグラフィカルモデル 
10 章の節の構成(小節の数とページ/参照先/例) 
節小節の数(頁数) 依存先/言及先計算例 
10:14(11) 2.3 ガウス分布e 
z2=2 
1+e20z4 ; 細長い分布,2 峰の分布;1 変数ガウス分布 
10:25(13) 2.3.6, 10.4.1, 3.4, 7.2.2 間欠泉のデータに混合ガウスを適用 
10:33(4) 3.3 , 3.5 3 次式にガウスノイズを入れた10 点 
10:41(3) 2.4, 4.2.4, 10.2.5 メッセージパッシング 
10:50(5) 1.6.1, 4.5 
10:63(7) 4.5, 4.3 ロジスティック回帰 
10:72(2) 8.4 グラフ推論混合ガウスモデル、雑音データ 
10 章の小節のタイトル 
節のタイトル小節のタイトル 
10:1 変分推論分布の分解/分解の近似の持つ性質/一変数ガウス分布/モデル比較 
10:2 例:変分混合ガウス分布変分事後分布/変分下限/予測分布/要素数決定/導出された分解 
10:3 変分線形回帰変分分布/予測分布/変分下限 
10:4 指数型分布族メッセージパッシング 
10:5 局所的変分推定法 
10:6 変分ロジスティック回帰変分事後分布/変分パラメータの最適化/超パラメータの推論 
10:7EP 法雑音データ問題/グラフィカルモデルとEP 法 
5
似た様な章との比較 
手法利点欠点 
9 章混合モデルとEM (32 頁) 離散潜在変数を扱う(例: どのクラスタに属するか) 
K-means alg. 必ず極大値に収束するE-step が無理なことがある()10 章,11 章) 
EM alg. (dimZ が高い/積分が閉形式でない場合) 
10 章近似推論法(62 頁) 近似が決定的 
変分法or 変分ベイズ事後分布の解析的近似決して厳密解は求まらない 
(分解/ガウス分布を使う) 
11 章サンプリング法(37 頁) 近似が確率的 
MCMC 厳密な漸近的な一致性計算量が多く解ける問題は意外と小さい。 
サンプルが互いに独立か検証困難。 
12 章連続潜在変数(48 頁) 連続潜在変数を扱う(例: 文字画像のズレの分布を扱う) 
線形ガウスモデル? ? 
6
■ 用語集(索引に未記載のものなど) 
変分ベイズ法「変分推論法」と同じ。 
モデルエビデンスパラメータを周辺化した尤度 
モデルエビデンス最大化パラメータを周辺化した尤度関数を最大にするパラメータを決定すること 
非特異連続な分布を持つ確率変数が、丁度ある値を持つ確率が0 で無いこと(ポイントマスを持つこと)。 
積分消去観測対象となりうる値の予測分布を求めるために、パラメータの変数に対して積分をすることで、その 
パラメータを消去する操作。 
解析的に加減乗除およびべき乗の操作で式が表示できることを表す。 
閉形式積分の操作をした後の結果が「解析的」になった時の結果について表す。 
モデル平均p187 複数のモデルをパラメータで指定するようにして、そのパラメータ上の分布が求まったときに、 
それを使った平均値を使うことと考えられる。(?) 
■ 参考になりそうな他の文献: 
1. 情報幾何学の新展開甘利俊一サイエンス社(SGC-110) 
ごく最近(2014 年8 月25 日) に出版された本で、EM alg. 等の理論的な話、最良検定など(私が個人的に気 
になる話)、産業連関表への言及などあまり見たことの無い話、甘利氏のさまざまな個人的な研究にまつわ 
る話が記載されており、興味深い。 
2. 持橋さんのホームページ(所在未参照) 
この章は長くて複雑なので、この章を補完する重要情報がインターネット上のどこかにあると聞いた。 
http://ibisforest.org/index.php?PRML によると、10 章を担当したのは持橋氏である。 
■ 理解が難しいところなど◎ 
• § 10.1(p177) 「十分に柔軟な分布を使っても、過学習の問題は起きない」 
→ 理論的根拠はあるのか/経験則なのか? 
• § 10.1.2(p183) 図10.3「最もよく近似する一変数ガウス」→ 2 変数ガウスではないか? 
• § 10.1.4(p187) 隠れ変数Z がモデルm により「構造」が異なるということを反映した数学的に自然な表記 
は何だろうか? 
• § 10.3 (p204) 図10.9 について、どういう3 次式を用いたのだろうか? (第2 章の中間にある可能性がある。) 
7
第10.1.2節分解による近似のもつ性質下巻180 頁 
この小節では3 例に、直前の小節で示した方法の分解 を適用し、その結果を観察する。 
1. 2 次元ガウス分布をq( (z1; z2) ) := q1(z1) q2(z2) (z1; z2 2 R) で変分近似 する。 
2. 比較のため、別の方法を適用する。KL距離KL( q jj P ) の極小化をする代わりに、引数を逆転させたKL( P jj q ) 
を極小化する。 
3. 2 峰性の分布に対して適用し、局所解が複数存在することを調べる。 
また、 ダイバージェンスを紹介する。(KL 距離、Hellinger 距離の一般化になっている。) 
P の分布(↓) KL(qjjP) を極小化した場合KL(Pjjq) を極小化した場合 
斜めに細長い分布 
分布を小さく 
近似する傾向がある 
周辺分布が一致する 
(少なくとも1 or 2 次元ガウスの場合) 
2 峰性の分布 
局所解が複数存在する「予測性能の悪化をもたらす」 
P(z) がきわめて0 に近い場所でq(z) 
の値が大きいと 損失 が大きいので 
q の分布域 は小さくまとまる。 
q(z) がきわめて0 に近い場所でP(z) 
の値が大きいと 損失 が大きいので 
q はP の分布域 を覆うように広がる。 
◎考えると面白そうなこと: 
• 分布のP とq が上記のようなケースだけではなくて、fat-tail な場合や特異の場合も考察して、何が起こる 
か考える。 
8
第10.1.3節例: 一変数ガウス分布下巻184 頁 
ガウス分布からN 個の点を観測した状況を考えている。 
尤度関数P(D = xj;  ) = 
(  
2 
)N=2 
exp 
{ 
 
2 
ΣN 
n=1(xn  )2 
} 
(10:21) 
事前分布: p[j ]   N(j0; (0 )1); p[ ]   Gam( ja0; b0) を採用すると共役分布になる§ 2.3.6 ガウス-ガンマ分布 
演習2.44 。 
分解 としてはq[;  ] = q[]  q[ ] (10:24) とすることで、q[] はガウス分布、q[ ] はガンマ分布となる。 
(1) 初期値(2)  で最適化 
(3)  で最適化(4) 収束解 
分解q[]q[ ] := q[;  ] (10:24) 
共役事前分布p([]j )   N(0; 1 
0 
) (10:22) 
〃p([ ])   Gamma(a0; b0) ( 
(10:23) 
NN 
00 + Nx 
最適解q⋆[] :=: (N; N) := 0 + N 
; (0 + N)Eq⋆[]( ) 
) 
(10:25  27) 
〃q⋆[ ] :=: Gam(aN; bN) := Gam(a0 + 
N + 1 
2 
; b0 + 
1 
2 
Eq⋆[] 
[ 
ΣN 
n=1 
] 
(xn  )2 + 0(  0) 
(10:28  30) 
(a0; b0; 0; 0)   (0; 0; 0; 0) =) Eq⋆[][] = x; Eq⋆[][2] = x2 + 
1 
NEq⋆[][ ] 
(10:32) 
Eq⋆[][ ] = (x2  x2)1 = ( 
ΣN 
n=1(xn  x)2=N)1 (10:33) 
; 
補足: 最尤推定と比較した優位性についての議論を含む、ガウス分布のベイズ推論の完全な扱いは、Minka 
1998(Inferring a Gaussian distribution. Media Lab note, MIT) を参照。 
http://research.microsoft.com/~minka 
9
第3章線形回帰モデル上巻135 頁 
この第3 章のメモについての作成意図: 第10.3 節でよく参照されるため。 
第10.3 節で必要と考えられる仮定と定義について(主に第3 章) 
太字は主に節のタイトル下線でよく使う用語の定義 
●はx; t; ϕ;;
;  の定義○は§ 10.3. から参照される事項 
節(小節数)頁数節のタイトル10 章で必要と考えられる仮定/定義事項 
1.2.4 4 ガウス分布精度とは分散の逆数であり1=2 に等しい。 
2.3.6 5 ガウス分布に対するベイズ推論精度パラメータに対する共役事前分布はガンマ分布。 
3. 42 線形回帰モデル● N 個の観測値(xn 2 RD) と「目標値」(tn 2 R) 
3.1 (5) 10 線形基底関数モデル線形モデル= 線形基底関数モデル∋ 線形回帰モデル 
○● 
ϕj (j=0;:::;M1) : 基底関数(ただしϕ0(x) := 1 とする) 
Σ 
線形モデルy(x;w) := 
j=0::M1 wjϕj(x) :=: w  ϕ(x) 
3.1.1 2 最尤推定と最小二乗法●計画行列 :( nj := ϕj(xn) (3:16) 
●
: 観測値へのノイズの分散の逆数P(tjx;w;
) = N(tjy(x;w);
1) 
3.2 5 バイアス-バリアンス分解 
3.3 (3) 9 ベイズ線形回帰 
3.3.1 4 パラメータの分布● : パラメータw の各要素の精度p(wj) = N(wj0; 1IM) 
○ 事前分布P([w]) := N(0;  
1); 観測ノイズP([t]jx;w;
) := N(w  ϕ(x);
1) 
) P( [w] jt) :=: N(mN; SN) :( (mN; SN) := (
SNT t ; (IM +

Mais conteúdo relacionado

Mais procurados

PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじsleepy_yoshi
 
混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム貴之 八木
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半koba cky
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじsleepy_yoshi
 
はじめての確率論 測度から確率へ 57~60ページ ノート
はじめての確率論 測度から確率へ 57~60ページ ノートはじめての確率論 測度から確率へ 57~60ページ ノート
はじめての確率論 測度から確率へ 57~60ページ ノートChihiro Kusunoki
 
PRML復々習レーン#14 ver.2
PRML復々習レーン#14 ver.2PRML復々習レーン#14 ver.2
PRML復々習レーン#14 ver.2Takuya Fukagai
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7sleepy_yoshi
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6禎晃 山崎
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングtakutori
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsTakao Yamanaka
 
PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargeJunpei Matsuda
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節Koji Matsuda
 
[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)Ryosuke Sasaki
 

Mais procurados (20)

PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
 
混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半
 
Oshasta em
Oshasta emOshasta em
Oshasta em
 
Draftall
DraftallDraftall
Draftall
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
 
prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
 
はじめての確率論 測度から確率へ 57~60ページ ノート
はじめての確率論 測度から確率へ 57~60ページ ノートはじめての確率論 測度から確率へ 57~60ページ ノート
はじめての確率論 測度から確率へ 57~60ページ ノート
 
PRML復々習レーン#14 ver.2
PRML復々習レーン#14 ver.2PRML復々習レーン#14 ver.2
PRML復々習レーン#14 ver.2
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
PRML 第14章
PRML 第14章PRML 第14章
PRML 第14章
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
PRML2.3.1-2.3.3
PRML2.3.1-2.3.3PRML2.3.1-2.3.3
PRML2.3.1-2.3.3
 
PRML4.3.3
PRML4.3.3PRML4.3.3
PRML4.3.3
 
PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in charge
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
 
PRML 2.3節
PRML 2.3節PRML 2.3節
PRML 2.3節
 
[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)
 

Destaque

Personal Branding for Workplace Leaders
Personal Branding for Workplace LeadersPersonal Branding for Workplace Leaders
Personal Branding for Workplace LeadersJocelyn Aucoin
 
Three trends that will shape the future of B2B digital marketing
Three trends that will shape the future of B2B digital marketingThree trends that will shape the future of B2B digital marketing
Three trends that will shape the future of B2B digital marketingLabbrand
 
Vendedores
VendedoresVendedores
Vendedoreskode99
 
God's generous grace and our vocations
God's generous grace and our vocationsGod's generous grace and our vocations
God's generous grace and our vocationsEdward Bryant
 
Como licenciar un blog
Como licenciar un blogComo licenciar un blog
Como licenciar un blogVero Erazo
 
Globe Testing Introduction (ENG)
Globe Testing Introduction (ENG)Globe Testing Introduction (ENG)
Globe Testing Introduction (ENG)Globe Testing
 
Gasteizko irteera 2D NAPY
Gasteizko irteera 2D NAPYGasteizko irteera 2D NAPY
Gasteizko irteera 2D NAPYarbelar
 
Филатова О.Г. PR-агентства на региональном рынке коммуникационных услуг (опыт...
Филатова О.Г. PR-агентства на региональном рынке коммуникационных услуг (опыт...Филатова О.Г. PR-агентства на региональном рынке коммуникационных услуг (опыт...
Филатова О.Г. PR-агентства на региональном рынке коммуникационных услуг (опыт...prasu1995
 
Gasteizko irteera 2A TERRAS
Gasteizko irteera 2A TERRASGasteizko irteera 2A TERRAS
Gasteizko irteera 2A TERRASarbelar
 
Study material
Study materialStudy material
Study materialyakabubu
 
Food of the future
Food of the futureFood of the future
Food of the futureKari900
 
Lessons learned presentation Lithuania
Lessons learned presentation LithuaniaLessons learned presentation Lithuania
Lessons learned presentation Lithuaniaconsumerenergy
 
Carolina panozo esculturas
Carolina  panozo esculturasCarolina  panozo esculturas
Carolina panozo esculturascarola_panozo
 
презентация культурно- досугового отдела
презентация культурно- досугового отделапрезентация культурно- досугового отдела
презентация культурно- досугового отделаAnny812
 
ignite_mgame_intro 1
ignite_mgame_intro 1ignite_mgame_intro 1
ignite_mgame_intro 1Leo Lee
 
The prospect of palm oil tree
The prospect of palm oil treeThe prospect of palm oil tree
The prospect of palm oil treeKimi Yo
 
Branding, Communications and Information Creation and Sharing
Branding, Communications and Information Creation and SharingBranding, Communications and Information Creation and Sharing
Branding, Communications and Information Creation and Sharingstacywhittle
 

Destaque (20)

Q.3 evaluation
Q.3 evaluationQ.3 evaluation
Q.3 evaluation
 
Personal Branding for Workplace Leaders
Personal Branding for Workplace LeadersPersonal Branding for Workplace Leaders
Personal Branding for Workplace Leaders
 
Case study task
Case study taskCase study task
Case study task
 
Three trends that will shape the future of B2B digital marketing
Three trends that will shape the future of B2B digital marketingThree trends that will shape the future of B2B digital marketing
Three trends that will shape the future of B2B digital marketing
 
Vendedores
VendedoresVendedores
Vendedores
 
God's generous grace and our vocations
God's generous grace and our vocationsGod's generous grace and our vocations
God's generous grace and our vocations
 
Como licenciar un blog
Como licenciar un blogComo licenciar un blog
Como licenciar un blog
 
Globe Testing Introduction (ENG)
Globe Testing Introduction (ENG)Globe Testing Introduction (ENG)
Globe Testing Introduction (ENG)
 
Gasteizko irteera 2D NAPY
Gasteizko irteera 2D NAPYGasteizko irteera 2D NAPY
Gasteizko irteera 2D NAPY
 
Филатова О.Г. PR-агентства на региональном рынке коммуникационных услуг (опыт...
Филатова О.Г. PR-агентства на региональном рынке коммуникационных услуг (опыт...Филатова О.Г. PR-агентства на региональном рынке коммуникационных услуг (опыт...
Филатова О.Г. PR-агентства на региональном рынке коммуникационных услуг (опыт...
 
Gasteizko irteera 2A TERRAS
Gasteizko irteera 2A TERRASGasteizko irteera 2A TERRAS
Gasteizko irteera 2A TERRAS
 
Study material
Study materialStudy material
Study material
 
An approach for integrating legacy systems in the manufacturing industry
An approach for integrating legacy systems in the manufacturing industryAn approach for integrating legacy systems in the manufacturing industry
An approach for integrating legacy systems in the manufacturing industry
 
Food of the future
Food of the futureFood of the future
Food of the future
 
Lessons learned presentation Lithuania
Lessons learned presentation LithuaniaLessons learned presentation Lithuania
Lessons learned presentation Lithuania
 
Carolina panozo esculturas
Carolina  panozo esculturasCarolina  panozo esculturas
Carolina panozo esculturas
 
презентация культурно- досугового отдела
презентация культурно- досугового отделапрезентация культурно- досугового отдела
презентация культурно- досугового отдела
 
ignite_mgame_intro 1
ignite_mgame_intro 1ignite_mgame_intro 1
ignite_mgame_intro 1
 
The prospect of palm oil tree
The prospect of palm oil treeThe prospect of palm oil tree
The prospect of palm oil tree
 
Branding, Communications and Information Creation and Sharing
Branding, Communications and Information Creation and SharingBranding, Communications and Information Creation and Sharing
Branding, Communications and Information Creation and Sharing
 

Semelhante a PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)Toshiyuki Shimono
 
トピックモデル
トピックモデルトピックモデル
トピックモデル貴之 八木
 
3.3節 変分近似法(前半)
3.3節 変分近似法(前半)3.3節 変分近似法(前半)
3.3節 変分近似法(前半)tn1031
 
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet Allocationトピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet AllocationHaruka Ozaki
 
Complex network-reading 7
Complex network-reading 7Complex network-reading 7
Complex network-reading 7正志 坪坂
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)Kota Mori
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10matsuolab
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Akira Miyazawa
 
[読会]Logistic regression models for aggregated data
[読会]Logistic regression models for aggregated data[読会]Logistic regression models for aggregated data
[読会]Logistic regression models for aggregated datashima o
 
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecShin Asakawa
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へHiroshi Nakagawa
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3matsuolab
 
Probabilistic Graphical Models 輪読会 Chapter5
Probabilistic Graphical Models 輪読会 Chapter5Probabilistic Graphical Models 輪読会 Chapter5
Probabilistic Graphical Models 輪読会 Chapter5Daiki Shimada
 
Proof summit2014mizar
Proof summit2014mizarProof summit2014mizar
Proof summit2014mizarAlcor80UMa
 

Semelhante a PRML 10.3, 10.4 (Pattern Recognition and Machine Learning) (20)

PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
 
トピックモデル
トピックモデルトピックモデル
トピックモデル
 
3.3節 変分近似法(前半)
3.3節 変分近似法(前半)3.3節 変分近似法(前半)
3.3節 変分近似法(前半)
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet Allocationトピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
 
Complex network-reading 7
Complex network-reading 7Complex network-reading 7
Complex network-reading 7
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)
 
[読会]Logistic regression models for aggregated data
[読会]Logistic regression models for aggregated data[読会]Logistic regression models for aggregated data
[読会]Logistic regression models for aggregated data
 
PRML セミナー
PRML セミナーPRML セミナー
PRML セミナー
 
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
Research2
Research2Research2
Research2
 
Probabilistic Graphical Models 輪読会 Chapter5
Probabilistic Graphical Models 輪読会 Chapter5Probabilistic Graphical Models 輪読会 Chapter5
Probabilistic Graphical Models 輪読会 Chapter5
 
2016word embbed
2016word embbed2016word embbed
2016word embbed
 
Proof summit2014mizar
Proof summit2014mizarProof summit2014mizar
Proof summit2014mizar
 

Mais de Toshiyuki Shimono

国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)Toshiyuki Shimono
 
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装Toshiyuki Shimono
 
extracting only a necessary file from a zip file
extracting only a necessary file from a zip fileextracting only a necessary file from a zip file
extracting only a necessary file from a zip fileToshiyuki Shimono
 
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021Toshiyuki Shimono
 
新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬までToshiyuki Shimono
 
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
 Multiplicative Decompositions of Stochastic Distributions and Their Applicat... Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...Toshiyuki Shimono
 
Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Toshiyuki Shimono
 
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...Toshiyuki Shimono
 
BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)Toshiyuki Shimono
 
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案Toshiyuki Shimono
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...Toshiyuki Shimono
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...Toshiyuki Shimono
 
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)Toshiyuki Shimono
 
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案Toshiyuki Shimono
 
新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなどToshiyuki Shimono
 
ページャ lessを使いこなす
ページャ lessを使いこなすページャ lessを使いこなす
ページャ lessを使いこなすToshiyuki Shimono
 
Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理Toshiyuki Shimono
 
データ全貌把握の方法170324
データ全貌把握の方法170324データ全貌把握の方法170324
データ全貌把握の方法170324Toshiyuki Shimono
 
Macで開発環境を整える170420
Macで開発環境を整える170420Macで開発環境を整える170420
Macで開発環境を整える170420Toshiyuki Shimono
 

Mais de Toshiyuki Shimono (20)

国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)
 
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
 
extracting only a necessary file from a zip file
extracting only a necessary file from a zip fileextracting only a necessary file from a zip file
extracting only a necessary file from a zip file
 
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
 
新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで
 
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
 Multiplicative Decompositions of Stochastic Distributions and Their Applicat... Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
 
Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...
 
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
 
BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)
 
Seminar0917
Seminar0917Seminar0917
Seminar0917
 
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
 
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
 
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案
 
新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど
 
ページャ lessを使いこなす
ページャ lessを使いこなすページャ lessを使いこなす
ページャ lessを使いこなす
 
Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理
 
データ全貌把握の方法170324
データ全貌把握の方法170324データ全貌把握の方法170324
データ全貌把握の方法170324
 
Macで開発環境を整える170420
Macで開発環境を整える170420Macで開発環境を整える170420
Macで開発環境を整える170420
 

PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)

  • 1. 2014 年10 月4 日記号の使い方に関して1 下記の記号体系の作成意図に関して - 概念の本質の理解にかかわる冗漫さを最小化するため。 - 後日の参照の際に、作成した数式を含むノートを容易に理解できるようにするため。 - 誤読の回避/入力と推敲の容易性/読解の手間の低減により、上記の目的の達成を目指している。 - まず最初に読んで欲しいものは「●」を付けたものであり、「○」はそれに準じるものである。 - それ以外については、後から参照すれば十分であると考えられる。 変数、特に確率変数に関する記号2 ! X 確率変数 [x] 既知化(観測) 未知化(由来参照) X⋆ 値 x P[x] 分布参照 P(x) 確率参照 表記仮名称この文書での定義 X 大文字化変数x の「未知化」。分布を考慮することができるようになる。● x⋆ 意図達成数式/変数の意図(最適化/新たなデータの代入など) 達成を⋆ で示す。 x8 任意化変数の由来を残したまま、値を一般的に考慮する任意化の操作を表す。 [x] 一般化括弧変数x の「由来参照」/「未知化」/「任意化」のいずれかを示す。● X⋆ 観測/実現値未知変数に⋆ がついた場合は、「観測/実現」した値を表すこととする。○ N(; 2)⋆ 観測/実現値確率分布に⋆ がついた場合は、「観測/実現」した値を表すこととする。○ 引数x の値だけでなく引数がどの確率変数に由来するか関知して P(x) 確率参照確率参照記号P は異なる働きをするものとする。● (従来の統計学の用法を踏襲。) 補助的に、Q; p; q も用いる。 P([x]) 分布参照未知化変数を引数に持つ確率参照は、分布を表す。● 無名変数数式表記簡潔化/変数(の由来と意図) の考慮阻止の目的で用いる。 / 比例記号未知化変数/無名変数のみを動かしたときの比例、と意味を限定する。 const: 定数記号未知化変数/無名変数のみに対して定数関数、と意味を限定する。 Σ′ 普遍的総和不都合の無い限り、総和及び積分をこの記号で表示する。 EP[x]( f(x) j 条件) 相加平均を表す。(従来記法を踏襲。) GP[x]( f(x) j 条件) 相乗平均を表す。geometric mean の頭文字G を命名の参考にした。● 省略記法 P[x] 分布参照P([x]) と同じ意味。 c: 定数記号const: と同じ意味。 e′fxg 指数関数exp(x) またはex と同じ意味になる。 1前回のゼミとも異なるので注意。 2コルモゴロフによる確率論の公理論的展開において問題無く正当化が可能と考えられる。 1
  • 2. • 既存の確率論/統計学の書き方で、P(x) と書いた場合に、x が既に値を持っているのか、そうではなくて、 単に確率分布に興味があるのか、区別する手段が必要と考えた。前者を「確率参照」、後者を「分布参照」と 呼ぶことにし、この文書では、それぞれP(x); P[x] のような記号で区別をすることとした。 { 条件付き確率については、おそらく誤解や混乱の余地無く、従来の記号用法に似た記法で、書けると考 えられる。 • ⋆ は上記のような利用で便利なので、混乱の無い限り、3 種類の意味を文脈に応じて使い分ける。 • X⋆ = x、[x] = X である。一見冗長な定義だが、下記の場合を想定すると、無駄ではない。 { 既に使われているなど(名前の衝突) の理由で、小文字を大文字化できない場合。 { 同じ理由で、逆に大文字を「小文字化」でき無い場合。 { 添え字を伴う場合。xj = [X]j と[Xj ] は意味が異なるが、混乱しやすいので、読んで意味が分かりや すいようにうまく工夫する。 • 確率/分布を表す式は、長くなりがちなため、必要に応じて、上記で定義したc: やe′ を用いることで、式の 幅が広がり過ぎないようにした。 データを扱うための記号 (大体において数学の教科書に使われているような方法を踏襲する) 記号参照名この文書での定義 R 実数全体 RD 直積D 次元のベクトル全体 RN↕ / RM $ 縦/横ベクトルそれぞれN 次元縦ベクトルとM 次元横ベクトル N M 行列行列の次元の順序縦N 次元で横M 次元の行列であること ↕ $ N M 行列全体 IM 単位行列対角要素は1、非対角要素は0 の縦横M 次元の正方行列 RN M ϕ : RD ! RM 定義域と値域写像ϕ の定義域と値域を!で結んで表示している。 u v 内積同じ長さのベクトル2 個の内積を意味している。 (xi)N i=1 数列数列を表す。 2
  • 3. 議論展開に用いる記号 記号仮名称この文書での定義 (;,;) 論理記号純粋に論理的関係/論理的帰結を表す。(従来の数学的用法を踏襲。) )! 不可逆帰結)であるが、,ではないことを示す。 ) 通常帰結例外除去的な条件を課すと)と置換できるニュアンスを示す。 ): 前提付加左側のような前提条件を取り決めた上で、右側の命題を主張する。○ :( 条件付加右側のような条件を追加的に取り決めた上で、左側の命題を主張する。○ :,: 等価定義等価な条件式を並べて、どれかの条件式で取り決めをすることを示す。 未定義 代入可能時主張右辺の代入可能な全ての値について、左辺の条件が成り立つことを表す。 「 」カギ括弧真偽の不明な命題、もしくは文字通りに解釈できない便宜上の数式を表す。 イコールに似た操作記号 記号仮名称この文書での定義 = 通常等号少なくとも、純粋に論理的に両辺が等しい値を持つことを示す。 ニュアンス明確化の必要がある場合には、出来るだけこの他の記号に置換。 :=: 等式展開計算すれば等式関係が判明可能であることを表す。● := 非未知化定義左辺の未定義の変数について、右辺の内容で定義する。 左辺が単純な1 つの変数で無い場合には、未定義なのはどれであるか要注意。● 即時代入左辺に右辺を即時に代入する。:= よりも意味が明確化する。○ (数式群からのアルゴリズムの構成に有用な場合がある。) == 等式制約等しいという条件を新たに加える操作を表す。● :== 定義確認既に定義したことを確認する意図で使う記号。○ 未定義 定義可能主張定義可能であることを主張し、かつ、それを定義として用いる。 未定義 定義可能時定義定義可能な場合に限定して、それを定義として用いる。 ≑ 近似記号近似関係 :≑ 近似意図右辺を近似する意図で、左辺に何かの定義操作を加える。 参考: プログラミング上の概念との対応 記号対応する概念詳細 := 関数定義定義の仕方は「遅延評価」になる。つまり即座には値を代入しない。 直接代入(極限の記号/写像の定義域と値域を結ぶ記号である! とは異なる。) == 条件の宣言C 言語の== とは意味は異なる。 :== 条件確認ソフトウェアが動作中に指定条件を満たさない場合に警告を出すのと似ている。 • := と:== の両方の記法を定義したことにより、左辺をその場で定義したのか/既に定義したかのか、区別 が出来て便利。 • := と のある式を組み合わせることで、アルゴリズムが構成可能であるような式集合を作ることが可能と 考えられる。この特徴を活用すると便利かもしれない。 • := を反転した=: を補助的に用いる場合がある。記号体系の整合性に問題が生じる可能性があるので、当 面控えめに用いる。 3
  • 4. 第10章の全般的な内容と構成に関して 上下巻全般からの10 章についての言及のされかた 場所(ページ) 言及のされ方言及対象/解釈 1.2.3ベイズ確率(23) 最近1999 年以降? の非常に能率的な決定論的近似法変分ベイズ法/EP 法 1.2.4ガウス分布(28) 分散パラメータがベイズアプローチでも得られる§ 10.1.3 (§ 10.3.1?) 4.4ラプラス近似 (213)(215) 解析的な近似/局所的でない全体的アプローチ分解と変分近似 6.4.5ガウス過程 からの分類3 個考えられるガウス分布近似(1 個は§ 6.4.6) 変分推論法/EP 法 9混合モデル とEM (139) エレガントなベイズ的扱いKL 距離を使ったこと? 余分な計算がほとんど不要? データから自動的に要素数を決定§ 10.2 9.2.1混合ガウス 最尤推定(150) 特異性による最尤推定の深刻な過学習を回避EM alg. では未解決 ◎ 識別性が高いとむしろ上記のような変なことが起こりやすくなることがある。 EM アルゴリズムの一般化が変分推論法の枠組みlog px = Lpq + KLp(zjx) q 10.2変分線形回帰 (188) →「長く複雑なので 後回しにして良い」§ 10.2 全体について 手法紹介の年代に関して(教科書に記載されたもの全部とは限らない) 変分推論(18 世紀、オイラーとラグランジュ)/汎関数微分(Feynmann et.al, 1964) 有限要素法(Kapur,1989)/最大エントロピー法(Schwarz,1988) 分布の分解の仮定(Jordan et al.,1999; Jaakkola, 2001)/平均場近似(Parisi, 1988) 条件q⋆( (zj) ) = G[ P(x;Z) jjZj = zj ] による反復解の収束の保証(Boyd and Vandenberghe, 2004) ダイバージェンス(Ali and Silvey, 1966; Amari, 1985; Minka, 2005) 一変数ガウス分布を平均と分散で分解した近似の例(MacKay, 2003) ガウス分布のベイズ推論の完全な取り扱い(Minka 1998) 「変分混合ガウス分布」(ベイズ的でエレガント) (Attias, 1999b) 更新が最適化になっているのか徹底的なテスト(195)(Svensen and Bishop, 2004) をパラメータと見なしてL を最大化し、点推定する(Corduneanu and Bishop, 2001) 変分ベイズ法の推論を行う汎用ソフトウェアの構成(207)(Bishop et al., 2003) 更新式は局所的なメッセージパッシングアルゴリズム(Winn and Bishop, 2005) 凸双対性の枠組み(Rockafellar, 1972; Jordan et al., 1999) ガウス分布の関数形式でシグモイド関数の下限を作る(Jaakkola and Jordan, 2000) EP 法(期待値伝搬法) (Minka, 2001a, Minka, 2001b) /雑音データ問題(Minka, 2001b) 仮定密度フィルタリング(ADF)/モーメント一致法 (Maybeck, 1982; Lauritzen, 1992; Boyen and Koller, 1998; Opper and Winther,1999) ロジスティックの形のモデルの場合は、EP 法が局所的変分法/ラプラス近似より勝ることが多い (Kuss and Rasmussen, 2006) 再重み付け木メッセージパッシング(Wainwright et al., 2005) 部分的確率伝搬(Wiegerinck and Heskes, 2003) Power EP 法(Minka, 2004) ◎ 変分法を統計学に使った話は、1970 年代にJagdish S. Rustagi が研究している。 4
  • 5. 10 章の節の内容 節のタイトル節の内容 10:1 変分推論分布を積に分ける/一般解を求める/ごく簡単な例 10:2 例:変分混合ガウス分布(例) 混合ガウス分布 10:3 変分線形回帰(例) 線形基底関数モデル 10:4 指数型分布族指数型分布族に関係することと/メッセージパッシング 10:5 局所的変分推定法局所的な下限? 10:6 変分ロジスティック回帰(例) ロジスティック回帰 10:7EP 法逆KL 距離で考えた/(例) 雑音とグラフィカルモデル 10 章の節の構成(小節の数とページ/参照先/例) 節小節の数(頁数) 依存先/言及先計算例 10:14(11) 2.3 ガウス分布e z2=2 1+e20z4 ; 細長い分布,2 峰の分布;1 変数ガウス分布 10:25(13) 2.3.6, 10.4.1, 3.4, 7.2.2 間欠泉のデータに混合ガウスを適用 10:33(4) 3.3 , 3.5 3 次式にガウスノイズを入れた10 点 10:41(3) 2.4, 4.2.4, 10.2.5 メッセージパッシング 10:50(5) 1.6.1, 4.5 10:63(7) 4.5, 4.3 ロジスティック回帰 10:72(2) 8.4 グラフ推論混合ガウスモデル、雑音データ 10 章の小節のタイトル 節のタイトル小節のタイトル 10:1 変分推論分布の分解/分解の近似の持つ性質/一変数ガウス分布/モデル比較 10:2 例:変分混合ガウス分布変分事後分布/変分下限/予測分布/要素数決定/導出された分解 10:3 変分線形回帰変分分布/予測分布/変分下限 10:4 指数型分布族メッセージパッシング 10:5 局所的変分推定法 10:6 変分ロジスティック回帰変分事後分布/変分パラメータの最適化/超パラメータの推論 10:7EP 法雑音データ問題/グラフィカルモデルとEP 法 5
  • 6. 似た様な章との比較 手法利点欠点 9 章混合モデルとEM (32 頁) 離散潜在変数を扱う(例: どのクラスタに属するか) K-means alg. 必ず極大値に収束するE-step が無理なことがある()10 章,11 章) EM alg. (dimZ が高い/積分が閉形式でない場合) 10 章近似推論法(62 頁) 近似が決定的 変分法or 変分ベイズ事後分布の解析的近似決して厳密解は求まらない (分解/ガウス分布を使う) 11 章サンプリング法(37 頁) 近似が確率的 MCMC 厳密な漸近的な一致性計算量が多く解ける問題は意外と小さい。 サンプルが互いに独立か検証困難。 12 章連続潜在変数(48 頁) 連続潜在変数を扱う(例: 文字画像のズレの分布を扱う) 線形ガウスモデル? ? 6
  • 7. ■ 用語集(索引に未記載のものなど) 変分ベイズ法「変分推論法」と同じ。 モデルエビデンスパラメータを周辺化した尤度 モデルエビデンス最大化パラメータを周辺化した尤度関数を最大にするパラメータを決定すること 非特異連続な分布を持つ確率変数が、丁度ある値を持つ確率が0 で無いこと(ポイントマスを持つこと)。 積分消去観測対象となりうる値の予測分布を求めるために、パラメータの変数に対して積分をすることで、その パラメータを消去する操作。 解析的に加減乗除およびべき乗の操作で式が表示できることを表す。 閉形式積分の操作をした後の結果が「解析的」になった時の結果について表す。 モデル平均p187 複数のモデルをパラメータで指定するようにして、そのパラメータ上の分布が求まったときに、 それを使った平均値を使うことと考えられる。(?) ■ 参考になりそうな他の文献: 1. 情報幾何学の新展開甘利俊一サイエンス社(SGC-110) ごく最近(2014 年8 月25 日) に出版された本で、EM alg. 等の理論的な話、最良検定など(私が個人的に気 になる話)、産業連関表への言及などあまり見たことの無い話、甘利氏のさまざまな個人的な研究にまつわ る話が記載されており、興味深い。 2. 持橋さんのホームページ(所在未参照) この章は長くて複雑なので、この章を補完する重要情報がインターネット上のどこかにあると聞いた。 http://ibisforest.org/index.php?PRML によると、10 章を担当したのは持橋氏である。 ■ 理解が難しいところなど◎ • § 10.1(p177) 「十分に柔軟な分布を使っても、過学習の問題は起きない」 → 理論的根拠はあるのか/経験則なのか? • § 10.1.2(p183) 図10.3「最もよく近似する一変数ガウス」→ 2 変数ガウスではないか? • § 10.1.4(p187) 隠れ変数Z がモデルm により「構造」が異なるということを反映した数学的に自然な表記 は何だろうか? • § 10.3 (p204) 図10.9 について、どういう3 次式を用いたのだろうか? (第2 章の中間にある可能性がある。) 7
  • 8. 第10.1.2節分解による近似のもつ性質下巻180 頁 この小節では3 例に、直前の小節で示した方法の分解 を適用し、その結果を観察する。 1. 2 次元ガウス分布をq( (z1; z2) ) := q1(z1) q2(z2) (z1; z2 2 R) で変分近似 する。 2. 比較のため、別の方法を適用する。KL距離KL( q jj P ) の極小化をする代わりに、引数を逆転させたKL( P jj q ) を極小化する。 3. 2 峰性の分布に対して適用し、局所解が複数存在することを調べる。 また、 ダイバージェンスを紹介する。(KL 距離、Hellinger 距離の一般化になっている。) P の分布(↓) KL(qjjP) を極小化した場合KL(Pjjq) を極小化した場合 斜めに細長い分布 分布を小さく 近似する傾向がある 周辺分布が一致する (少なくとも1 or 2 次元ガウスの場合) 2 峰性の分布 局所解が複数存在する「予測性能の悪化をもたらす」 P(z) がきわめて0 に近い場所でq(z) の値が大きいと 損失 が大きいので q の分布域 は小さくまとまる。 q(z) がきわめて0 に近い場所でP(z) の値が大きいと 損失 が大きいので q はP の分布域 を覆うように広がる。 ◎考えると面白そうなこと: • 分布のP とq が上記のようなケースだけではなくて、fat-tail な場合や特異の場合も考察して、何が起こる か考える。 8
  • 9. 第10.1.3節例: 一変数ガウス分布下巻184 頁 ガウス分布からN 個の点を観測した状況を考えている。 尤度関数P(D = xj; ) = ( 2 )N=2 exp { 2 ΣN n=1(xn )2 } (10:21) 事前分布: p[j ] N(j0; (0 )1); p[ ] Gam( ja0; b0) を採用すると共役分布になる§ 2.3.6 ガウス-ガンマ分布 演習2.44 。 分解 としてはq[; ] = q[] q[ ] (10:24) とすることで、q[] はガウス分布、q[ ] はガンマ分布となる。 (1) 初期値(2) で最適化 (3) で最適化(4) 収束解 分解q[]q[ ] := q[; ] (10:24) 共役事前分布p([]j ) N(0; 1 0 ) (10:22) 〃p([ ]) Gamma(a0; b0) ( (10:23) NN 00 + Nx 最適解q⋆[] :=: (N; N) := 0 + N ; (0 + N)Eq⋆[]( ) ) (10:25 27) 〃q⋆[ ] :=: Gam(aN; bN) := Gam(a0 + N + 1 2 ; b0 + 1 2 Eq⋆[] [ ΣN n=1 ] (xn )2 + 0( 0) (10:28 30) (a0; b0; 0; 0) (0; 0; 0; 0) =) Eq⋆[][] = x; Eq⋆[][2] = x2 + 1 NEq⋆[][ ] (10:32) Eq⋆[][ ] = (x2 x2)1 = ( ΣN n=1(xn x)2=N)1 (10:33) ; 補足: 最尤推定と比較した優位性についての議論を含む、ガウス分布のベイズ推論の完全な扱いは、Minka 1998(Inferring a Gaussian distribution. Media Lab note, MIT) を参照。 http://research.microsoft.com/~minka 9
  • 10. 第3章線形回帰モデル上巻135 頁 この第3 章のメモについての作成意図: 第10.3 節でよく参照されるため。 第10.3 節で必要と考えられる仮定と定義について(主に第3 章) 太字は主に節のタイトル下線でよく使う用語の定義 ●はx; t; ϕ;;
  • 11. ; の定義○は§ 10.3. から参照される事項 節(小節数)頁数節のタイトル10 章で必要と考えられる仮定/定義事項 1.2.4 4 ガウス分布精度とは分散の逆数であり1=2 に等しい。 2.3.6 5 ガウス分布に対するベイズ推論精度パラメータに対する共役事前分布はガンマ分布。 3. 42 線形回帰モデル● N 個の観測値(xn 2 RD) と「目標値」(tn 2 R) 3.1 (5) 10 線形基底関数モデル線形モデル= 線形基底関数モデル∋ 線形回帰モデル ○● ϕj (j=0;:::;M1) : 基底関数(ただしϕ0(x) := 1 とする) Σ 線形モデルy(x;w) := j=0::M1 wjϕj(x) :=: w ϕ(x) 3.1.1 2 最尤推定と最小二乗法●計画行列 :( nj := ϕj(xn) (3:16) ●
  • 14. 1) 3.2 5 バイアス-バリアンス分解 3.3 (3) 9 ベイズ線形回帰 3.3.1 4 パラメータの分布● : パラメータw の各要素の精度p(wj) = N(wj0; 1IM) ○ 事前分布P([w]) := N(0; 1); 観測ノイズP([t]jx;w;
  • 15. ) := N(w ϕ(x);
  • 16. 1) ) P( [w] jt) :=: N(mN; SN) :( (mN; SN) := (
  • 17. SNT t ; (IM +
  • 18. T ) 1) 3.3.2 2 予測分布○ P(t⋆jx; t; ;
  • 19. ) :=: N(mN ϕ(x⋆) ;
  • 20. 1 + ϕ(x⋆) SNϕ(x⋆) ) 3.3.3 2 等価カーネル 3.4 4 ベイズモデル比較モデルエビデンス=周辺尤度, 複数比較した比をベイズ因子 ′ 95 と呼ぶ 3.5 (3) 7 エビデンス近似 ′ 89 =経験ベイズ ′ 94; ′ 04 =第二種の最尤推定 ′ 85 =一般化最尤推定 ′ 75 パラメータw の積分消去である。さて、なぜエビデンス近似というのか。 ○ (1)w を積分消去して周辺尤度関数を作る。 (2) その関数を最大化する超パラメータを探索する。 3.5.1 2 エビデンス関数の評価 3.5.2 2 エビデンス関数の最大化 ○ 予測分布P( [t⋆] jt) :=: Σ′ w;;
  • 23. )P(;
  • 25. ) :=: Σ′ w P( [t] jw;
  • 27. = (N )fΣN nϕ(xn))g2 n=1(tn mT :( := Σ i(i=( + i) :( (i) は行列(
  • 28. T ) の固有値 3.5.3 2 有効パラメータ数 3.6 1 固定された基底関数の限界 10
  • 29. 第3.3 節と第3.5 節の解釈 あらかじめ、M 重結合されることになる基底関数(ϕj : RD ! R)M1 j=0 が用意されているとする。 (ただしϕ0() := 1 とする。) 未知の加重係数(wj)M1 j=0 に応じて、 観測されないy(x) := ΣM1 j=0 wjϕj(x) (3:2) と観測されるt(x) := y(x) + N(0;
  • 30. )⋆ (3:8) が定義される。 データとして、(xn)Nn =1 と(tn)Nn =1 が提供されている。 便宜上、下記の変数を定める。 変数と定義性質 := (nj := ϕj(xn))計画行列(N M 行列である) § 3.1.1 (3.16) p139 ( nj )SN := IM +
  • 31. T 1 w の事後分布の分散(3:49) § 3.3.1 (3.54) p152 mN :=
  • 32. SN T t w の事後分布の平均(3:49) § 3.3.1 (3.53) p152 (i) :=
  • 33. T の固有値S 1 N IM の固有値に等しい§ 3.5.2 (3.87) p167 := Σ i i + i 1 N ) § 3.5.2 (3.91) p168 = Tr(IM S ベイズ線形回帰を考える場合(§ 3.3)、 事前分布p[w] N(0; 1IM) (3:52) =) 8 事後分布P([w]jt; ) :=: N(mN ; SN) :=: N(
  • 34. SN T t ; SN) (3:49)(3:53)(3:54) 予測分布P(t⋆jx; t; ;
  • 35. ) :=: N(mN ϕ(x⋆) ;
  • 36. 1 + ϕ(x⋆) SNϕ(x⋆) ) (3:58)(3:59) : エビデンス近似を考える場合(§ 3.5)、 パラメータw を積分消去した尤度関数=: L[;
  • 37. ] を最大化することを考える。 ⋆ :=: mT N mN (3:92) さて、上記より = M Tr(S 1 N ) であるから、一次方程式を解くと次が成り立つ。 ⋆ = M mT NmN + Tr(SN) = M Eq⋆ (w) Eq⋆ (w) + Tr SN (§ 10.3 の考察で用いる。)
  • 38. ⋆ :=: N ( ΣN n=1 { tn mT } nϕ(xn) )2 (3:95) ◎ 補足 • 上記のSN :== ( IM +
  • 39. T )1 において { IM は、事前情報量に相当する。 {
  • 40. T は、事後情報量、フィッシャー情報量に相当する。 { 情報量と言うからには、加法性が成り立つ(この情報量はシャノン流のエントロピーとは異なる)。 11
  • 41. 第10.3節変分回帰分析200 頁 初めにベイズ線形回帰のことを「基底関数の線形結合モデル」の枠組みと言い換える場合がある。 話の流れ変分推論の2 番目の例3 として、ベイズ線形回帰§ 3.3 について考える。 この節の目的基底関数の線形結合モデルの枠組みでエビデンスの最大化解 を求める(
  • 42. は固定) 背景§ 3.5.2 でエビデンス最大化の枠組みを考えた。完全なベイズモデル(;
  • 43. ;w の全てを積分消去) も考えられ るが、この章の流れに沿い4、変分ベイズによる近似を行う。 問題の定式化途中から第10.3.1 節 ↕ ↕ 2 R がNM最適化したい精度、
  • 44. 2 R は固定、(a0; b0) は共役事前分布のガンマ分布へのパラメータ。 w 2 R, t 2 R, xn 2 RD,ϕ : RD ! RM パラメータw の事前分布P([w]j) :== NΠ(0; 1IM) (10:88)(3:52) w に対する尤度関数P( t jw; x) :== N n=1 N(w ϕ(xn) ;
  • 45. 1 ) (10:87) 共役事前分布P() Gamma(a0; b0) (10:89) 全ての変数の同時分布P(t;w; ) :=: P(tjw) P(wj) P() (10:90) なぜここに記載? (グラフィカルモデルとの関連か?) 事後分布とその近似q(w; ) := q(w) q() : ≑ P(w; jt) (10:91) 変分推論の解q⋆(w; ) 及びq⋆(w) ; q⋆() 算出される変分解について ガンマ分布パラメタ(aN; bN) := ( a0 + M 2 ; b0 + 1 2Eq⋆[w] ( wT w )) (10:94)(10:95) についての変分解): q⋆[] :=: Gamma(aN; bN) (10:93) 補助等式1 =) Eq⋆[]( ) :=: aN=bN =: E[]⋆ (10:102)(10:104) §3:1:1 で定義したN M の計画行列 :( nj := ϕj(xn) (3:16) 補助変数1 (§ 3.3.1 で似た定義) ): SN := ( Eq⋆[]( ) IM +
  • 46. T ) 1 (10:101) 補助変数2 (§3:3:1 で同じ定義) ): mN :=
  • 47. SN T t (M N 行列) (10:100) w についての変分解): q⋆[wN(10:99) ( ) ] :=: (mN; SN) 補助等式2(M M 行列) =) Eq⋆[w] wwT N + SN =: E[wwT ]⋆ (10:103) :=: mN mT 31 番目の例は、混合ガウス分布(§ 10.2) で、3 番目はロジスティック回帰(§ 10.6)。 4積分消去困難な場合に特に有用と言える。 12
  • 48. 考察 • 実際にq⋆(w) とq⋆() を探索するには、補助等式1 と補助等式2 を交互参照して解く。 • 古典的なものとの整合性などを下記主張する。 考察ケース比較される式教科書での言及 (a0; b0) (0; 0) E[]⋆ = M mT NmN + Tr(SN) (10:104) 無限になだらか/変則事前分布 § 3.5 の最尤解⋆ = M mT NmN + Tr(SN) 「比べてみると興味深い」 § 9.3.4 EM アルゴリズム 8 : SN = ( IM +
  • 49. T )1 (3:54) = M mT NmN + Tr(SN) (9:63) q[w] が同じ分布を与える(?) • w の分布についても上記のような対応を考察すると面白そうだ。◎ 予測分布(§ 10.3.2 203 頁) x⋆ を新しく入力される値、その結果出力される値をt⋆ とする。 P(t⋆jt; x⋆) :=: N( mT N ϕ(x⋆) ; 1
  • 50. + ϕ(x)T SN ϕ(x) ) (10:105)(10:106) これは、SN を計算するときの を固定したときの、§ 3.3 節の線形基底ガウスモデルの予測分布P(t⋆jx; t; ;
  • 51. ) :=: N(mN ϕ(x⋆) ;
  • 52. 1 + ϕ(x⋆) SNϕ(x⋆) ) (3:58)(3:59) に一致する。 「変分下限」(§ 10.3.3 203 頁) 引数としてw; 上の任意の関数q に対する汎関数であるL(q) の表式を算出する。 ′fg d log () e:== exp(), ディガンマ関数 () :== d (B:25) 上巻306 ページ L(q) :== log G[p(w; ; t)] G[q(w; )] = log G[p(tjw)]G[p(wj)]G[p()] G[q(w)]G[q()] (10:107) (10:108) G[p(tjw)] = (
  • 54. mT NT t g e′f
  • 55. 2 tT tg e′f
  • 56. 2Tr[T (mNmT N + SN)]g (10:109) G[p(wj)] = fe′( (aN))=bNgM=2 (2)M=2e′fmT NmN + Tr(SN)gaN=2bN (10:110) G[p()] = ba0 0 e′f (aN)=bNga01 e′(b0aN=bN) (a0) (10:111) 1 =G[q(w)] = jSNj1=2 e′f1 + log 2gM=2 (aN) e′faNg (10:112) 1 =G[q()] = e′ f (aN 1) (aN) g bN 13
  • 57. 計算例 上記でG は相乗平均を表す。変分解を求めるべく、L(q) を最大化するには、上記の最後の2 個の式を最小化する (aN; bN) を探索することになる。そうすることで、L(q) の値を計算する。 次はモデルごとにmaxL(q) の値の変化する様子をみたもの。 ▼ モデルの次数ごとにL(q) をプロットしたもの データはある3 次多項式f(x) に対して(f(xi) + ϵi)10 i=1 ; ϵi N(0; 0:32) 事前分布のパラメータ(a0; b0) (0; 0) 精度 については無情報事前分布p() / 1= 14
  • 58. 第10.4節指数型分布族 • ガウス混合モデルを一般化して、指数型分布族の枠組みで変分ベイズを論じる。 • ここで述べる変分E-step、変分M-step は、後の第10.6 節でのロジスティック回帰にも使えて、非常に参考 になると考えられる。◎ • 第10.4.1 節では、別の枠組みで、有向グラフのグラフィカルモデルの枠組みで変分ベイズを論じる。 • さらに「全ての条件付き確率分布」が指数型分布族となる場合に、共役分布の「形状パラメータ」のグラフィ カルモデル上の「局所的更新計算」になることを論じる。 • これは、大規模ネットワークを扱う応用例が考えられる。 ここでの導入記号 e′ := exp ; c: := const: ; ⃗ = : 自然パラメータ(⃗N; N):⃗ の形状パラメータ 指数型分布族に関する一般的な性質(第2.4 節) 指数型分布族p( [x] j [⃗] ) := g(⃗) h(x) e ′ (⃗ u(x)) (2:194) 共役事前分布p( [⃗] j ⃗; ) :== f(⃗; ) g(⃗) e ′ (⃗ (⃗)) (2:229) =)事後分布p( [⃗] j x; ⃗; ) / g(⃗)+N e ′ ( ⃗ ( ⃗ + ΣN n=1 )) u(xn) (2:230) この節での変数の定義(今までの潜在変数をさらにばらす) 性質データサイズ増大との関係例: ガウス混合モデル Z 潜在変数外延的Z のサイズは連動して増大zインジケータ変数 kn パラメータ内包的 のサイズは連動せず一定平均 k ;精度 k ; 混合比 k ガウス混合モデルについて、その観測変数と潜在変数の同時分布は、指数型分布族 • ガウス混合モデルの[xn] と[zn] の同時分布は指数型分布族である。 • [xn] の周辺分布は混合ガウス分布。これは指数型分布族ではない。 ◎ 検証せよ 15
  • 59. X とZ の同時分布が指数型分布族の場合の変分近似について5 指数型分布族p(X;Z j [⃗] ) := NΠ n=1 g(⃗) h(Xn;Zn) e ′ (⃗ u(Xn;Zn)) (10:113) 共役事前分布p( [⃗] j 0; ⃗0) / g(⃗)0 e ′ (⃗ (0⃗0)) (10:114) =) 事後分布p( [⃗] jX;Z; 0; ⃗0) := g(⃗)0+N e ′ ( ⃗ ( 0⃗0 + ΣN n=1 )) u(Xn;Zn) 自然パラメータ[] := [⃗] := [] からの何らかの変換 分解q[z] q[] := q[z; ] :≑ p(x; z) (10:115) の直前 Z の変分近似解q⋆(Z) :=: Gq⋆fpx;Zjg [] ()c: :=: NΠ n=1 h(xn;Zn)Gq⋆[] fexp( u(xn;Zn))g c: (10:115) 導出された分解) ΠN n=1 q⋆(Zn) := q⋆(Z) と定義可能(10:116) の直前 q⋆(Zn) :=: h(xn;Zn) g (E[] u(xn;Zn)) (10:116) の変分近似解q⋆[] :=: p(j0; ⃗0)Gq⋆[Z] fp(x;Zj)g c: (10:117) :=: fg() e′( 0)g0 NΠ n=1 ′( Eq(Zn) (u(xn;Zn)) g() e ) (10:118) Nの定義N := 0 + N (10:120) ⃗Nの定義N ⃗N := 0⃗0 + ΣN n=1 Eq⋆(Z) f u(xn;Zn) g (10:121) の変分近似解) q⋆[] :=: f(N; ⃗N) g()N e′(⃗ N ⃗N) (10:119) 手順: ◎ 変分E-step q[zn] から十分統計量の期待値E[u(xn; zn)] を算出した上で、事後分布q[] を改良。 変分M-step q[] から自然パラメータの期待値E[] を算出した上で、事後分布q[z] を改良。 5指数型分布族を扱うことは、ガウス混合モデルの場合についてのひとつの一般化になっている。他には、次で行うような有向グラフによ るグラフィカルモデリングとして扱うことによる一般化がある。 16
  • 60. 第10.4.1節変分メッセージパッシング 混合ガウスモデルは有向グラフでマルコフブラケットの説明 グラフィカルモデリング可能(図8.26, 96 ページ) • ベイズ混合ガウス分布は、有向グラフで表すことが出来る。これに変分ベイズを考えてきた。 • 今度は、さらに一般的に、有向グラフで表されるモデルに対して変分ベイズを考える。 定式化 有向グラフの同時分布 Π i p( [xi] j j2pa(i) xj) :== p(x) (10:122) 分解による近似 Π i q[xi] := q[x] :≑ p[x] (10:123) 変分解が満たす等式q⋆[xj ] :=: Gq⋆(X) Π i:̸=j p(XijXj = xj) c: (10:124) :=: Gq⋆(X) Π i:2pa(j) p(XijXj = xj) c: ← 要再検討◎ • マルコフブランケット◎ { q⋆[xj ] が依存するノード全体は、xj を表すノードのマルコフブランケットに対応している。 { よって、更新計算は、グラフ上で局所的なノードでの分布の更新計算になる。 { 従って、汎用ソフトウェアを構成可能(Bishop2003)。 • 全てのp(XijXj = x8 j ) が指数型分布族で書けた場合 { 共役事前分布の形状パラメータの更新式が、「局所的なメッセージパッシングアルゴリズム」として表 現できる(Winn and Bishop2005)。 { L の計算も簡単になる。(必要な量の多くがメッセージパッシングを通して既に求まっているため?) { このような分散メッセージパッシングは、耐規模性が良い。大きなネットワークを扱うのに、適して いる。 17