SlideShare uma empresa Scribd logo
1 de 78
Baixar para ler offline
強化学習 その3
方策反復法
2017-01-31 @ 機械学習勉強会
サイボウズ・ラボ 西尾泰和
関連スライド一覧 https://github.com/nishio/reinforcement_learning
2017-03-23 加筆
このスライドの目的
大規模なデータを占有してない企業にとって
強化学習の考え方が有用なので
基礎からきちんと理解したい。
そのために機械学習勉強会の何回かに分けて
強化学習の話を連載する。
2
参考文献
2016年10月に左の本が出た。
これを読んでいく。
右下の本が長らくバイブル
だったが2000年(原著1998年)
発行。
3
http://amzn.to/2josIJ1
http://amzn.to/2jCnYQg
以下[こ]と表記する
今後の予定
第2回(前回):
2節 強化学習の構成要素
3節 価値反復に基づくアルゴリズム
第3回(今回): 1章4節
方策勾配に基づくアルゴリズム
第4回: 1章5節 部分観測マルコフ決定過程
4
今後の予定
第5回
2.1 統計学習の観点から見たTD学習
2.1.1 強化学習と教師付き学習の学習則
2.1.2~3 関数近似を(する/しない)価値関数推定
(ここまで28ページ)
第6回
2.1.4 セミパラメトリック統計学習に基づく定式
化(10ページ)
2.2 理論性能解析とベイズ
(理論薄めでやる。13ページ)
5
今後の予定
第7回 2.3 逆強化学習
第8回 2.4 経験強化型学習
2.5 群強化学習(飛ばします)
第9回 2.6 リスク考慮型強化学習
2.7 複利型強化学習(飛ばします)
第10回
3 強化学習の工学応用
3.3 対話処理における強化学習
6
今後の予定
第11回 3.5 自然言語処理における逆強化学習と模
倣学習
第12回 3.7 深層学習を用いたQ関数の学習
(いわゆるDQN)
第13回 4 知能のモデルとしての強化学習
7
前回のおさらい
環境が変化し、報酬が遅延する、という問題設定
に対処するためにマルコフ決定過程と割引報酬和
の概念を学んだ。
最適な方策を見つけるための方法として方策反復
法と価値反復法があること、価値の定義と、
価値反復法で方策を改善する手法である
SarsaとQ学習を学び、実装し、実験した。
8
今回
方策を最適化する方法に大きく分けて2通りある。
価値反復法
方策を価値で記述して価値の推定を頑張る。
DQNのアプローチ →前回やった
方策反復法
方策をモデル化して直接最適化する。
AlphaGoのアプローチ
→今回やる *
9
[こ]1.4節”方策勾配法”と[Sutton+ 2000] “Policy Gradient Methods for Reinforcement
Learning with Function Approximation”を参照
https://webdocs.cs.ualberta.ca/~sutton/papers/SMSM-NIPS99.pdf
方策勾配法
方策反復法は方策をモデル化して最適化する。
中でも有用なのが方策勾配法
方策をθでパラメタライズして、
そのθで期待収益Jの勾配を求めてθを更新する。
𝜃 ← 𝜃 + 𝛼𝛻𝐽(𝜃)
10
Jはここでは何らかの方策の良さを表す関数(期待収益, 方策の評価)、具体例は後で出る。
[こ]では学習率がηだけど、これまでと揃えてαにした。
あとθ以外での勾配は考えないのでナブラに添え字を付けるのをやめた。
方策とその評価
θでパラメタライズされた方策の例としてソフト
マックス、ガウス分布などがある。(p.48)
𝜋 𝜃 𝑎 𝑠 =
exp 𝜃𝑠𝑎
σ 𝑎′ exp 𝜃 𝑠𝑎′
𝜋 𝜃 𝑎 𝑠 =
1
𝑍
exp −
1
2
𝑎 − 𝑊𝑠 𝑇
𝐶−1
𝑎 − 𝑊𝑠
状態や行動が連続値でもよいのが長所。
11
θの更新
θを更新したい=勾配𝛻𝐽(𝜃)を求めたい。
𝜃 ← 𝜃 + 𝛼𝛻𝐽(𝜃)
どうやったら計算できるだろうか?
12
Jを定義する
まず「方策の良さ」Jを具体的に定義する。
定義の仕方には少なくとも2通りある。
平均報酬と割引報酬和。
またそれに対応して行動価値関数Q(s, a)と
状態に関する関数d(s)とを定義する必要がある。
13
* dはJが平均報酬の場合には状態の定常分布に相当する
平均報酬
報酬rの平均で定義するやり方
𝐽 𝜃 = lim
𝑛→∞
1
𝑛
𝔼 𝑟1 + 𝑟2 + ⋯ + 𝑟𝑛 𝜃
この場合、行動価値関数は
𝑄 𝑠, 𝑎 = ෍
𝑡=1
∞
𝔼 𝑟𝑡 − 𝐽 𝜃 𝑠0 = 𝑠, 𝑎0 = 𝑎, 𝜃
dは
𝑑 𝑠 = lim
𝑡→∞
𝑃 𝑠𝑡 = 𝑠 𝑠0, 𝜃
14
この場合dは定常分布になる
質疑
足して1/nすることで既に平均になってるのにな
ぜ𝔼が必要?
𝐽 𝜃 = lim
𝑛→∞
1
𝑛
𝔼 𝑟1 + 𝑟2 + ⋯ + 𝑟𝑛 𝜃
論文での表記は上記の通りだが、r1, r2 , …は独立
な試行ではなく各時刻での報酬で「T時間足し合
わせたものの期待値」を求めている:
𝐽 𝜃 = lim
𝑇→∞
1
𝑇
𝔼 𝑟1 + 𝑟2 + ⋯ + 𝑟 𝑇 𝑠0, 𝜃
15
質疑
Q: dは存在するのか?
A: 一般にはもちろん存在するとは言えない。
論文には「存在して、どんな方策であってもs0と
独立である」と仮定する旨が書いてある。
16
割引報酬和
割引率γを使って定義するやり方
𝐽 𝜃 = 𝔼 σ 𝑡=1
∞
𝛾 𝑡−1
𝑟𝑡 𝑠0, 𝜃
この場合、行動価値関数は
𝑄 𝑠, 𝑎 = 𝔼 σ 𝑘=1
∞
𝛾 𝑘−1
𝑟𝑡+𝑘 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜃
dは
𝑑 𝑠 = ෍
𝑡=0
∞
𝛾 𝑡
𝑃 𝑠𝑡 = 𝑠 𝑠0, 𝜃
17
質疑
Q: Qの定義が平均報酬と割引報酬和でgivenなも
のが違うのは変では?
𝑄 𝑠, 𝑎 = ෍
𝑡=1
∞
𝔼 𝑟𝑡 − 𝐽 𝜃 𝑠0 = 𝑠, 𝑎0 = 𝑎, 𝜃
𝑄 𝑠, 𝑎 = 𝔼 σ 𝑘=1
∞
𝛾 𝑘−1
𝑟𝑡+𝑘 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜃
A: 割引報酬和の式は下のように書きなおしたら
いいのではないだろうか
𝑄 𝑠, 𝑎 = 𝔼 σ 𝑡=1
∞
𝛾 𝑡−1
𝑟𝑡 𝑠0 = 𝑠, 𝑎0 = 𝑎, 𝜃
18
方策勾配定理
JとQをそう定義すると、以下の等式が成り立つ。
𝛻𝐽 𝜃 = 𝔼
1
𝜋 𝜃 𝑎 𝑠
𝑄 𝑠, 𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
これを方策勾配定理と言う。
19
Q: 成り立つようにQを選んだ? A: 価値関数として自然な(価値が高そうなときに大きな
値になる)関数のうちで、上記等式を満たす、計算に都合のよい形のものを選んでいる。
方策勾配定理の導出1
まず状態価値関数Vを今まで通りに定義する
𝑉(𝑠) ≝ ෍
𝑎
𝜋 𝜃 𝑎 𝑠 𝑄(𝑠, 𝑎)
これを微分してみる
𝜕𝑉(𝑠)
𝜕𝜃
=
𝜕
𝜕𝜃
෍
𝑎
𝜋 𝜃 𝑎 𝑠 𝑄(𝑠, 𝑎)
= ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎 + 𝜋 𝜃 𝑎 𝑠
𝜕𝑄 𝑠, 𝑎
𝜕𝜃
20
(uv)’ = u’v + uv’
方策勾配定理の導出2
次にQについて、平均報酬での定義なら以下が成り立つ*
𝑄 𝑠, 𝑎 = ෍
𝑡=1
∞
𝔼 𝑟𝑡 − 𝐽 𝜃 𝑠0 = 𝑠, 𝑎0 = 𝑎, 𝜃
= 𝔼 𝑟1 − 𝐽 𝜃 |𝑠0 = 𝑠, 𝑎0 = 𝑎, 𝜃
+ ෍
𝑡=2
∞
𝔼 𝑟𝑡 − 𝐽 𝜃 𝑠0 = 𝑠, 𝑎0 = 𝑎, 𝜃
= 𝔼 𝑟1|𝜃 − 𝐽 𝜃 + ෍
𝑠′
𝑃 𝑠′
𝑠, 𝑎 ෍
𝑎′
𝜋 𝜃 𝑎′ 𝑠′
𝑄(𝑠′, 𝑎′)
21
∗ 割引報酬和の場合は後で述べる
𝑉 𝑠′
= ෍
𝑎
𝜋 𝜃 𝑎 𝑠′
𝑄(𝑠′, 𝑎)
方策勾配定理の導出3
Qを微分すると報酬の期待値は消える*
𝜕𝑄 𝑠, 𝑎
𝜕𝜃
=
𝜕
𝜕𝜃
𝔼 𝑟1 − 𝐽 𝜃 + ෍
𝑠′
𝑃 𝑠′
𝑠, 𝑎 𝑉 𝑠′
= −
𝜕
𝜕𝜃
𝐽 𝜃 + ෍
𝑠′
𝑃 𝑠′
𝑠, 𝑎
𝜕
𝜕𝜃
𝑉 𝑠′
22
* 消えるための条件としてθに依存しないことが必要。
a0がgivenなのでr1はθに依存しない。
方策勾配定理の導出4
Vの微分の式に代入して、移項するとJの微分の式ができる
𝜕𝑉(𝑠)
𝜕𝜃
= −
𝜕
𝜕𝜃
𝐽 𝜃 + ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎 + 𝜋 𝜃 𝑎 𝑠 ෍
𝑠′
𝑃 𝑠′
𝑠, 𝑎
𝜕
𝜕𝜃
𝑉 𝑠′
𝜕
𝜕𝜃
𝐽 𝜃 = ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎 + 𝜋 𝜃 𝑎 𝑠 ෍
𝑠′
𝑃 𝑠′ 𝑠, 𝑎
𝜕
𝜕𝜃
𝑉 𝑠′ −
𝜕𝑉 𝑠
𝜕𝜃
= ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎 + ෍
𝑎
𝜋 𝜃 𝑎 𝑠 ෍
𝑠′
𝑃 𝑠′ 𝑠, 𝑎
𝜕
𝜕𝜃
𝑉 𝑠′ −
𝜕𝑉(𝑠)
𝜕𝜃
23
方策勾配定理の導出5
𝜕
𝜕𝜃
𝐽 𝜃 = ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎 + ෍
𝑎
𝜋 𝜃 𝑎 𝑠 ෍
𝑠′
𝑃 𝑠′ 𝑠, 𝑎
𝜕
𝜕𝜃
𝑉 𝜋 𝑠′ −
𝜕𝑉(𝑠)
𝜕𝜃
この両辺sごとにd(s)を掛けて和を取る
෍
𝑠
𝑑(𝑠)
𝜕
𝜕𝜃
𝐽 𝜃
= ෍
𝑠
𝑑 𝑠 ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎
+ ෍
𝑠
𝑑 𝑠 ෍
𝑎
𝜋 𝜃 𝑎 𝑠 ෍
𝑠′
𝑃 𝑠′ 𝑠, 𝑎
𝜕
𝜕𝜃
𝑉 𝜋 𝑠′ − ෍
𝑠
𝑑 𝑠
𝜕𝑉(𝑠)
𝜕𝜃
24
(平均報酬の場合はdが定常分布なので定常状態での期待値と解釈できる)
方策勾配定理の導出6
෍
𝑠
𝑑(𝑠)
𝜕
𝜕𝜃
𝐽 𝜃
= ෍
𝑠
𝑑 𝑠 ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎
+ ෍
𝑠
𝑑 𝑠 ෍
𝑎
𝜋 𝜃 𝑎 𝑠 ෍
𝑠′
𝑃 𝑠′
𝑠, 𝑎
𝜕
𝜕𝜃
𝑉 𝜋
𝑠′
− ෍
𝑠
𝑑 𝑠
𝜕𝑉(𝑠)
𝜕𝜃
平均報酬の場合、dは定常分布であるので
෍
𝑠
෍
𝑎
෍
𝑠′
𝑑 𝑠 𝜋 𝜃 𝑎 𝑠 𝑃 𝑠′ 𝑠, 𝑎 𝑓(𝑠′) = ෍
𝑠′
𝑑 𝑠′ 𝑓(𝑠′)
となり、第2項と第3項が相殺する。
25
方策勾配定理の導出7
整理すると
෍
𝑠
𝑑(𝑠)
𝜕𝐽 𝜃
𝜕𝜃
= ෍
𝑠
𝑑(𝑠) ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎
となる。Jはsに依存しないので左辺が整理できる。
𝜕𝐽 𝜃
𝜕𝜃
= ෍
𝑠
𝑑(𝑠) ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎
26
方策勾配定理の導出8
𝜕𝐽 𝜃
𝜕𝜃
= ෍
𝑠
𝑑(𝑠) ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎
s,aに関する期待値はs,aの同時確率を掛けてsum
𝔼 𝑓 𝑠, 𝑎 = ෍
𝑠,𝑎
𝑑 𝑠 𝜋 𝜃 𝑎 𝑠 𝑓 𝑠, 𝑎
なので目的の式が導かれる
𝜕𝐽 𝜃
𝜕𝜃
= ෍
𝑠
𝑑(𝑠) ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎
= ෍
𝑠,𝑎
𝑑 𝑠 𝜋 𝜃 𝑎 𝑠
1
𝜋 𝜃 𝑎 𝑠
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎
= 𝔼
1
𝜋 𝜃 𝑎 𝑠
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎
27
方策勾配定理の導出9
割引報酬和の定義の場合、
Qについて以下が成り立つ:
𝑄 𝑠, 𝑎 = ෍
𝑡=1
∞
𝔼 𝑟𝑡 − 𝐽 𝜃 𝑠0 = 𝑠, 𝑎0 = 𝑎, 𝜃
= 𝔼 𝑟1 + ෍
𝑠′
𝛾𝑃 𝑠′
𝑠, 𝑎 𝑉(𝑠′
)
28
方策勾配定理の導出10
Qを微分すると報酬の期待値は消える*
𝜕𝑄 𝑠, 𝑎
𝜕𝜃
=
𝜕
𝜕𝜃
𝔼 𝑟1 + ෍
𝑠′
𝛾𝑃 𝑠′
𝑠, 𝑎 𝑉(𝑠′
)
= ෍
𝑠′
𝛾𝑃 𝑠′
𝑠, 𝑎
𝜕
𝜕𝜃
𝑉 𝑠′
29
* 消えるための条件としてθに依存しないことが必要。
a0がgivenなのでr1はθに依存しない。
方策勾配定理の導出11
𝜕𝑄 𝑠, 𝑎
𝜕𝜃
= ෍
𝑠′
𝛾𝑃 𝑠′
𝑠, 𝑎
𝜕
𝜕𝜃
𝑉 𝑠′
Qの微分がわかったのでVの微分に代入する
𝜕𝑉(𝑠)
𝜕𝜃
= 𝑓 𝑠 + ෍
𝑎
𝜋 𝜃 𝑎 𝑠 ෍
𝑠′
𝛾𝑃 𝑠′
𝑠, 𝑎
𝜕
𝜕𝜃
𝑉 𝑠′
𝑤ℎ𝑒𝑟𝑒 𝑓 𝑠 = ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎
30
方策勾配定理の導出12
𝜕𝑉(𝑠)
𝜕𝜃
= 𝑓 𝑠 + ෍
𝑎
𝜋 𝜃 𝑎 𝑠 ෍
𝑠′
𝛾𝑃 𝑠′
𝑠, 𝑎
𝜕
𝜕𝜃
𝑉 𝑠′
この𝑉 𝑠′
をさらに展開する
𝜕𝑉(𝑠)
𝜕𝜃
= 𝑓 𝑠
+ ෍
𝑎
𝜋 𝜃 𝑎 𝑠 ෍
𝑠′
𝛾𝑃 𝑠′ 𝑠, 𝑎 𝑓 𝑠′ + ෍
𝑎′
𝜋 𝜃 𝑎′ 𝑠′ ෍
𝑠′′
𝛾𝑃 𝑠′′ 𝑠′, 𝑎′
𝜕
𝜕𝜃
𝑉 𝑠′′
31
方策勾配定理の導出13
整理すると
𝜕𝑉(𝑠)
𝜕𝜃
= 𝑓 𝑠 + ෍
𝑎,𝑠′,𝑎′
𝛾𝜋 𝜃 𝑎 𝑠 𝑃 𝑠′ 𝑠, 𝑎 𝑓(𝑠′)
+ ෍
𝑎,𝑠′,𝑎′,𝑠′′
𝛾2
𝜋 𝜃 𝑎 𝑠 𝑃 𝑠′
𝑠, 𝑎 𝜋 𝜃 𝑎′ 𝑠′ 𝑃 𝑠′′
𝑠′
, 𝑎′
𝜕
𝜕𝜃
𝑉 𝑠′′
これを無限に繰り返して、式中のs, s’, s’’, … を全部xで総称し、sか
らkステップでxに遷移する確率をP(s→x, k)とすると
𝜕𝑉(𝑠)
𝜕𝜃
= ෍
𝑥
෍
𝑘=0
∞
𝛾 𝑘 𝑃 𝑠 → 𝑥, 𝑘 𝑓(𝑥)
32
方策勾配定理の導出14
𝜕𝑉(𝑠)
𝜕𝜃
= ෍
𝑥
෍
𝑘=0
∞
𝛾 𝑘 𝑃 𝑠 → 𝑥, 𝑘 𝑓(𝑥)
Jの微分は定義からV(s0)なので
𝜕𝐽(𝜃)
𝜕𝜃
=
𝜕
𝜕𝜃
𝔼 σ 𝑡=1
∞
𝛾 𝑡−1 𝑟𝑡 𝑠0, 𝜃 =
𝜕𝑉(𝑠0)
𝜕𝜃
= ෍
𝑠
෍
𝑘=0
∞
𝛾 𝑘 𝑃 𝑠0 → 𝑠, 𝑘 𝑓(𝑠)
= ෍
𝑠
෍
𝑘=0
∞
𝛾 𝑘 𝑃 𝑠0 → 𝑠, 𝑘 ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎
33
方策勾配定理の導出15
d(s)の定義を再確認してみる
𝑑 𝑠 = ෍
𝑡=0
∞
𝛾 𝑡 𝑃 𝑠𝑡 = 𝑠 𝑠0, 𝜃
stがsである確率𝑃 𝑠𝑡 = 𝑠 𝑠0, 𝜃 と
s0からkステップでsになる確率𝑃 𝑠0 → 𝑠, 𝑘 は同じなので
𝜕𝐽(𝜃)
𝜕𝜃
= ෍
𝑠
෍
𝑘=0
∞
𝛾 𝑘 𝑃 𝑠0 → 𝑠, 𝑘 ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎
= ෍
𝑠
𝑑 𝑠 ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎
平均報酬の場合と同じ式に帰着した。
34
質疑
Q: 割引報酬和の場合のd(s)は総和が1にならないから
確率分布とは言えないのではないか?
A: もちろん言えない。[Sutton+ 2000]はこの場合の
d(s)をdiscounted weighting of states encountered
starting at s0 and then following pi と説明していて
確率分布とは言っていない。方策勾配定理も
𝜕𝐽
𝜕𝜃
= ෍
𝑠
𝑑 𝑠 ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
𝑄 𝑠, 𝑎
の形なのでdが確率分布である必要もない。
[こ]は期待値形式(p.49 eq1.4.10)を方策勾配定理と呼
び根拠として[Sutton+ 2000]をreferし、割引報酬和
の場合も同式が成り立つと主張している。
35
方策勾配定理が導出出来た
方策勾配定理が導けた*:
𝛻𝐽 𝜃 = 𝔼
1
𝜋 𝜃 𝑎 𝑠
𝑄 𝑠, 𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
さらに f(g(x))’=f‘(g(x))g’(x) と (log x)’=1/xにより
𝛻𝐽 𝜃 = 𝔼 𝑄 𝑠, 𝑎
𝜕log(𝜋 𝜃 𝑎 𝑠 )
𝜕𝜃
36
[こ]p.49~50のeq1.4.10とeq1.4.11が導出された
MEMO: 𝛻𝜋 = 𝜋𝛻log𝜋
* [こ]ではなく[Sutton+ 2000]の方、もしくは平均報酬の場合
話を戻して: 勾配を計算したい
𝛻𝐽 𝜃 = 𝔼 𝑄 𝑠, 𝑎
𝜕log(𝜋 𝜃 𝑎 𝑠 )
𝜕𝜃
しかしQは未知。そこで2つのアプローチがある
1: QをRで近似してモンテカルロで推定
2: Qを(Q-V)にした上でこれを𝑤 𝑇
𝛻 log 𝜋 𝜃 𝑎 𝑠 で
近似しwをTD学習などで求める
37
REINFORCEアルゴリズム
QをRで近似し、長さTの試行をM回やることで
勾配を推定する方法。
𝛻𝐽 𝜃 = 𝔼 𝑄 𝑠, 𝑎
𝜕log(𝜋 𝜃 𝑎 𝑠 )
𝜕𝜃
≈
1
𝑀
෍
𝑚=1
𝑀
1
𝑇
෍
𝑡=1
𝑇
𝑅 𝑚,𝑡 − 𝑏
𝜕log 𝜋 𝜃 𝐴 𝑚,𝑡 𝑆 𝑚,𝑡
𝜕𝜃
bは推定の分散を下げるために使われる適当な値
(ベースライン)で平均報酬がよくつかわれる。
38
ベースラインを引いてよい理由
𝔼
1
𝜋 𝜃 𝑎 𝑠
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
= ෍
𝑠
𝑑(𝑠) ෍
𝑎
𝜕𝜋 𝜃 𝑎 𝑠
𝜕𝜃
= ෍
𝑠
𝑑(𝑠)
𝜕
𝜕𝜃
෍
𝑎
𝜋 𝜃 𝑎 𝑠
= ෍
𝑠
𝑑 𝑠
𝜕
𝜕𝜃
1
= 0
39
↓微分は線形なので
総和の外に出せる
↓πは確率なので
すべてのaについて足すと1
bがaに依存しない関数ならOKだが、p.53ではV(s)をベースラインとしていて、
Vはπに依存してπはθに依存するので勾配が0にならないように思うがいいのだろうか?
よってQ(s, a)から定数を引いても期待値に影響しない
自然方策勾配法
Q(s, a)を適当な重みベクトルwを用いた
線形モデルで近似する:
𝐴 𝑠, 𝑎 = 𝑤 𝑇
𝛻 log 𝜋 𝜃 𝑎 𝑠
なぜこんなモデルにしたいのか?
40
フィッシャー行列が出る
𝛻𝐽 𝜃 = 𝔼 A 𝑠, 𝑎
𝜕log(𝜋 𝜃 𝑎 𝑠 )
𝜕𝜃
= 𝔼 𝛻log 𝜋 𝜃 𝑎 𝑠 𝛻log 𝜋 𝜃 𝑎 𝑠 𝑇
𝑤
= 𝔼 𝛻log 𝜋 𝜃 𝑎 𝑠 𝛻log 𝜋 𝜃 𝑎 𝑠 𝑇
𝑤
= 𝐹 𝜃 𝑤
この定義で計算すると勾配が
wにフィッシャー行列𝐹 𝜃 を掛けたものになる。
なぜフィッシャー行列を作りたかったのか?
41
自然勾配
ここまでの勾配は、暗黙にパラメータの
ユークリッド距離を用いていたが、確率分布の間の
距離(Kullback-Leibler)はこれと一致しない。
例 N(0, 1)とN(10, 1)の距離はN(0, 10)とN(10, 10)の距離より長い。
そういう曲がった空間での距離を扱うのが
計量テンソルという行列で、この逆行列を勾配に掛
けたものを自然勾配(Natural Gradient)と言う。自然
勾配を用いて更新した方が学習が効率的という報告
がある。
KLを2次近似して計量テンソルを作るとFisher行列に
なる。なので勾配が𝐹 𝜃 𝑤なら自然勾配は𝑤になる
42
[Amari 1998] Natural Gradient Works Efficiently in Learning
http://www.maths.tcd.ie/~mnl/store/Amari1998a.pdf
KLからFisherの導出
Kullback-Leibler divergenceの定義:
𝒟(𝑃, 𝑄) = න
Ω
𝑃 𝜔 log
𝑃 𝜔
𝑄 𝜔
d𝜔
対称化すると:
𝒟′
𝑃, 𝑄 ≝ 𝒟 𝑃, 𝑄 + 𝒟 𝑄, 𝑃
= න
Ω
𝑃 𝜔 log
𝑃 𝜔
𝑄 𝜔
+ 𝑄 𝜔 log
𝑄 𝜔
𝑃 𝜔
d𝜔
= න
Ω
𝑃 𝜔 − 𝑄 𝜔 log
𝑃 𝜔
𝑄 𝜔
d𝜔
43
KLからFisherの導出
あるパラメータθとちょっと(δ)ずれたパラメータ
の確率分布のKL距離:
𝒟′
𝑃 𝜔 𝜃 + 𝛿 , 𝑃(𝜔|𝜃)
= න
Ω
𝑃 𝜔 𝜃 + 𝛿 − 𝑃 𝜔 𝜃 log
𝑃 𝜔 𝜃 + 𝛿
𝑃(𝜔|𝜃)
d𝜔
= න
Ω
Δ log
𝑃 𝜔 𝜃 + Δ
𝑃(𝜔|𝜃)
d𝜔
= න
Ω
Δ log 1 +
Δ
𝑃(𝜔|𝜃)
d𝜔
where Δ ≝ 𝑃 𝜔 𝜃 + 𝛿 − 𝑃(𝜔|𝜃)
44
KLからFisherの導出
対数のテイラー展開と一次近似:
log 1 + 𝑥 = 𝑥 −
𝑥2
2
+
𝑥3
3
+ ⋯ ≈ 𝑥
によって
න
Ω
Δ log 1 +
Δ
𝑃(𝜔|𝜃)
d𝜔 ≈ න
Ω
Δ2
𝑃 𝜔 𝜃
d𝜔
45
KLからFisherの導出
関数の値の差の一次近似:
𝑓 𝑥 + 𝑑𝑥 − 𝑓 𝑥 ≈ 𝑓′ 𝑥 𝑑𝑥
によって
Δ = 𝑃 𝜔 𝜃 + 𝛿 − 𝑃 𝜔 𝜃
≈ ෍
𝑖
𝜕𝑃 𝜔 𝜃
𝜕𝜃𝑖
𝛿𝑖
= 𝑃 𝜔 𝜃 ෍
𝑖
𝜕log 𝑃 𝜔 𝜃
𝜕𝜃𝑖
𝛿𝑖
46
↓ (log x)’ = x’ / x
KLからFisherの導出
Δを代入すると:
න
Ω
Δ2
𝑃 𝜔 𝜃
d𝜔
≈ න
Ω
෍
𝑖
𝜕log 𝑃 𝜔 𝜃
𝜕𝜃𝑖
𝛿𝑖
2
𝑃 𝜔 𝜃 d𝜔
47
KLからFisherの導出
整理すると:
න
Ω
෍
𝑖
𝜕log 𝑃 𝜔 𝜃
𝜕𝜃𝑖
𝛿𝑖
2
𝑃 𝜔 𝜃 d𝜔
= 𝔼 ෍
𝑖
𝜕log 𝑃 𝜔 𝜃
𝜕𝜃𝑖
𝛿𝑖
2
= ෍
𝑖
෍
𝑗
𝔼
𝜕log 𝑃 𝜔 𝜃
𝜕𝜃𝑖
𝜕log 𝑃 𝜔 𝜃
𝜕𝜃𝑗 𝑖𝑗
𝛿𝑖 𝛿𝑗
= ෍
𝑖
෍
𝑗
ℱ 𝜃 𝑖𝑗 𝛿𝑖 𝛿𝑗
48
計量テンソルがFisher行列
ここまでをまとめると
𝒟′
𝑃 𝜔 𝜃 + 𝛿 , 𝑃(𝜔|𝜃) ≈ ෍
𝑖
෍
𝑗
ℱ 𝜃 𝑖𝑗 𝛿𝑖 𝛿𝑗
計量テンソルがフィッシャー行列になった
49
計量の逆行列を掛けると最急勾配
定理: f(x)の勾配が∇f(x)の時、計量Gでの最急勾配
は𝐺−1
𝛻𝑓(𝑥)である。証明:
minimize 𝑓 𝑥 + 𝜀𝑎 = 𝑓 𝑥 + 𝜀𝛻𝑓 𝑥 𝑎
under constraint 𝑎 2
= σ𝑔𝑖𝑗 𝑎𝑖 𝑎𝑗 = 1
ラグランジュの未定乗数法によって:
𝜕
𝜕𝑎𝑖
𝛻𝑓 𝑥 𝑇
𝑎 − 𝜆𝑎 𝑇
𝐺𝑎 = 𝛻𝑓 𝑥 − 2𝜆𝐺𝑎 = 0
𝑎 =
1
2𝜆
𝐺−1
𝛻𝑓(𝑥)
50
[Amari 1998]
話の整理
計量テンソルの逆行列を掛けたものがユークリッ
ド的じゃない曲がった空間での最急勾配。それを
自然勾配と呼ぶ。
KL距離の空間は計量テンソルがフィッシャー行
列である。
𝛻𝐽 𝜃 = 𝐹 𝜃 𝑤 だから自然勾配は𝑤となる。
そのために 𝐴 𝜋
𝑠, 𝑎 = 𝑤 𝑇
𝛻 log 𝜋 𝜃 𝑎 𝑠 とした。
それが自然方策勾配法。
51
wの求め方
wはどうやって求めるか?
෍
𝑡=0
𝑁−1
𝛾 𝑡
𝐴 𝑆𝑡, 𝐴 𝑡 = 𝑉 𝑆0 + ෍
𝑡=0
𝑁−1
𝛾 𝑡
𝑅𝑡 − 𝛾 𝑁
𝑉 𝑆 𝑁
Nがエピソード終了なら第3項は0なので
෍
𝑡=0
𝑁−1
𝛾 𝑡
𝛻log 𝜋 𝐴 𝑡, 𝑆𝑡
𝑇
𝑤 − 𝑉(𝑆0) = ෍
𝑡=0
𝑁−1
𝛾 𝑡
𝑅𝑡
となる。これは線形回帰で解くことができる。
52
[Peters+ 2005]Natural Actor-Critic
理解の検証
理解できたか確認するために
実際に実装して実験する。
53
実験の問題設定
せっかく方策勾配では可能なので、状態空間も行
動空間も連続のケースを試してみたい。
状態として位置と速度、行動として加速度、
スタート地点から出発してゴールにたどりついた
ら報酬、という問題設定にする。
ゴール以外の壁に触れたら即死。
54
微分可能な方策
REINFORCEでも自然方策勾配法でも、
式に方策の対数の勾配が出てくるので、
微分可能な方策を考えなきゃいけない。
前回は方策を「状態を取って行動を返す関数」
として実装したが、今回は方策は確率密度関数。
連続空間上の確率密度関数で対数を取って微分を
するのがやりやすいやつと言えばガウス分布。
55
多変量ガウス分布の密度関数
勾配計算に使うので係数は無視できて
𝑝 𝑥 ∝ exp −
1
2
𝑥 − 𝜇 𝑇
Σ−1
𝑥 − 𝜇
共分散行列は固定(SI)とし、平均をf(s)とすると
𝑝 𝑎|𝑠 ∝ exp −
𝑆
2
𝑎 − 𝑓 𝑠 2
となる。f(s)はパラメータΘを使ってΘsとする。
56
Θはdim s * dim aの行列
対数微分する
𝑝 𝑎|𝑠 ∝ exp −
𝑆
2
𝑎 − Θ𝑠 2
log 𝑝 𝑎|𝑠 ∝ −
𝑆
2
𝑎 − Θ𝑠 2
∝ 𝑎1 − Θ1 𝑠 2
+ 𝑎2 − Θ2 𝑠 2
𝜕 log 𝑝 𝑎 𝑠
𝜕Θ𝑖𝑗
∝
𝜕
𝜕Θ𝑖𝑗
𝑎𝑖 − ෍
𝑘
Θ𝑖𝑘 𝑠 𝑘
2
= 2 𝑎𝑖 − ෍
𝑘
Θ𝑖𝑘 𝑠 𝑘 −𝑠𝑗
57
f(g(x))’=f’(g(x))g’(x)
以下簡便のためにG(s, a)と書く
再掲: REINFORCEアルゴリズム
長さTの試行をM回やって勾配を推定する方法。
𝛻𝐽 𝜃 ≈
1
𝑀
෍
𝑚=1
𝑀
1
𝑇
෍
𝑡=1
𝑇
𝑅 𝑚,𝑡 − 𝑏 𝐺(𝑆 𝑚,𝑡, 𝐴 𝑚,𝑡)
今回は長さ最大300の試行を100回やって、
その結果を使って勾配を更新することを
1ステップとし、10ステップ行った。
58
REINFORCE: 結果
59
ステップ0:
初期値の偏りでほとんどが左下
に進んでいる。
ステップ6:
だいぶあちこち探索しているが、
ここまでまだ一度もゴールにた
どりついて報酬を得ていない
ステップ7:
ついに1件が報酬を手に入れ
た!
REINFORCE: 結果
60
ステップ8:
ゴールがあっちにあるみたい
だぞ!と右上に走る。しかし
ゴールにたどりつけているの
は9件だけ。
ステップ9:
96件がゴールイン!
ステップ10:
より方向を絞ってみたが失敗
して60件に減少
REINFORCE所感
すごくうまく言ってるように見えるけど、
この結果が出るまで数時間試行錯誤した。
100件全てが同じ壁に突入するケース多発。
左壁の報酬を減らすとか上下の壁の報酬を右に行
くほど大きくするとか考えたが、正解を知ってい
る立場からヒントを出したくはなかった。
パラメータが発散や振動をするケースも発生。
61
対処
ランダムな初速を与えた。(sd=0.1)
行動のノルムが1を超えている場合1に正規化し
さらに30で割った(ノルムを0.03に制限)
パラメータの初期値を当初標準正規分布で初期化
してたが、sd=0.001に縮めた。
勾配のノルムが1を超えている場合1に正規化し
学習係数は0.01とした(ノルムを0.01に制限)
stateに常に1を取るオフセット項を追加。
62
考察
当初「ゴールにたどり着くものがいない」という
ことを問題視して、ランダムな初速を与えたり速
度を増やしたりしていたのだが、最終的に初速と
行動上限を1/30に減らしてうまくいった。
当初はT=20ぐらいで壁に当たっていたが、速度
を減らしたことで大部分がT=300でのタイムアウ
トで死ぬようになった。タイムアウトと早い段階
で左の壁に触れるのでは、どちらも報酬は-1だが
時間平均は前者が大きい。そのためゴールにたど
り付いてなくても、左に進むのを避ける学習が起
きた。(ステップ0~7)
63
考察
タイムアウト(-1/300) >= 壁で早期終了(-1/T)
なので、設定によっては
「探索をしないでタイムアウトで死ぬ」
に陥ることがある。
移動距離の長さを報酬に入れるべきだろうか。
64
考察
時々角に収束するのがなぜかなと思っていたが、
角が一番遠い壁なので、速度上限を振り切ってい
る場合は「角を目指すのが一番死ぬまでの時間が
長い=報酬が高い」ということらしい。
65
考察
ゴールを見つけられない、探索が不足気味な感じ
を受けたが、これの原因の一つに方策のガウス分
布の共分散行列を固定したことが考えられる。
例えば分散もsとΘで決まる値にしておいて、オ
フセット項の係数を大きめに初期化しておけば
序盤sに関わらずaは分散の大きな正規分布からの
サンプリングになるのでランダムウォークに近く
なり、探索が行われるかも。
右図: 分散を大きめにした例
66
疑問
ゴールにたどりつかなければ報酬に差が出ない
この状況設定を緩めてみたら、初速などの色々な
工夫はいらなくなるのではないか?
→試してみよう。
・初速なし
・Θの初期値は0
・行動の分散0.1
・終了時のxに応じた報酬
67
実験2結果
ステップ0: ランダムに探索
ステップ1: 右の方が報酬高そう
だと少し右に伸びる
ステップ2,3,4: 少し上を調べて
「やっぱり右」だと思いなおす
68
実験結果
ステップ4(再掲):
「やっぱり右だ!」
ステップ5,6:
右に走る
ステップ7:
いきなりあさっての方向へ…
69
考察
探索を改善するために加えた初速などの工夫が
なくてもランダムウォークで「右がよさそう」
と判断してそちらに進むことができている。
一方、全部ゴールすると報酬に差がなくなる。
速くゴールした方が平均報酬が高いので加速し、
わずかな差から方向が変わってしまう。
まあ「全部ゴール」が起きるのは問題設定が簡単
すぎるからではある。
70
まとめ
連続状態・連続行動の問題設定を
方策勾配法で解いた。
勾配法は「報酬の良い方向へ更新」なので
「利用と探索のトレードオフ」の視点だと
利用に偏り過ぎている。
報酬に傾きがない場合、
探索を強める細工をしないと学習が困難。
ローカルミニマムに陥ることも当然ある。
71
付録
72
実験3
ここまでの問題設定は、言ってしまえば
「スタートしたら右に走れ」だけで
ゴールに到達できてしまう簡単な問題だった。
これでは「状態に応じて行動を変える」ことが
出来ているかどうかの検証にはならない。
そこで、ステージ中央に触れると即死する障害物
を設置した。(即死ではなく進入不可にする案も
あったが難しい方にしてみた)
73
結果
74
ステップ5~9
うまくいっていない
Future work
これをうまくいかせるための試行錯誤を
やる気がなくなってきた。
次節POMDPに進みたい。
(連続状態・連続行動の問題設定は
Webアプリの会社にとって縁遠いので)
今後もし気が向いたらやることにする。
分散もパラメータにすることや、
自然方策勾配法についても気が向いたらやる。
75
分散もパラメータに入れる
log 𝑝 𝑎|𝑠 = −
𝑆
2
𝑎 − Θ𝑠 2
𝜕 log 𝑝 𝑎 𝑠
𝜕𝑆
= −
1
2
𝑎 − Θ𝑠 2
76
再掲: 自然方策勾配法
エピソード終了までTステップをM回やって線形
回帰。
෍
𝑡=0
𝑇−1
𝛾 𝑡
𝐺 𝑆𝑡, 𝐴 𝑡
𝑇
𝛻𝐽 𝜃 − 𝑉(𝑆0) = ෍
𝑡=0
𝑇−1
𝛾 𝑡
𝑅𝑡
77
参考文献
[Sutton+ 2000] Policy Gradient Methods for Reinforcement
Learning with Function Approximation
https://webdocs.cs.ualberta.ca/~sutton/papers/SMSM-NIPS99.pdf
KLからFisherの導出
http://stats.stackexchange.com/questions/51185/connection-
between-fisher-metric-and-the-relative-entropy
[Amari 1998] Natural Gradien t Works Effciently in Learning
http://www.maths.tcd.ie/~mnl/store/Amari1998a.pdf
[Peters+ 2005]Natural Actor-Critic
https://dev.spline.de/trac/dbsprojekt_51_ss09/export/74/ki_semina
r/referenzen/peters-ECML2005.pdf
78

Mais conteúdo relacionado

Mais procurados

「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Hideki Tsunashima
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)MLSE
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論Deep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.Deep Learning JP
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 

Mais procurados (20)

「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 

Destaque

強化学習その4
強化学習その4強化学習その4
強化学習その4nishio
 
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」Kaoru Nasuno
 
【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction
【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction
【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured PredictionSotetsu KOYAMADA(小山田創哲)
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C modelWEBFARMER. ltd.
 
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechconDeNA
 
introduction to Dueling network
introduction to Dueling networkintroduction to Dueling network
introduction to Dueling networkWEBFARMER. ltd.
 
強化学習その1
強化学習その1強化学習その1
強化学習その1nishio
 
PFN Spring Internship Final Report: Autonomous Drive by Deep RL
PFN Spring Internship Final Report: Autonomous Drive by Deep RLPFN Spring Internship Final Report: Autonomous Drive by Deep RL
PFN Spring Internship Final Report: Autonomous Drive by Deep RLNaoto Yoshida
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 

Destaque (13)

【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
 
強化学習その4
強化学習その4強化学習その4
強化学習その4
 
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
 
Recent rl
Recent rlRecent rl
Recent rl
 
Continuous control
Continuous controlContinuous control
Continuous control
 
【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction
【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction
【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
 
introduction to Dueling network
introduction to Dueling networkintroduction to Dueling network
introduction to Dueling network
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
 
PFN Spring Internship Final Report: Autonomous Drive by Deep RL
PFN Spring Internship Final Report: Autonomous Drive by Deep RLPFN Spring Internship Final Report: Autonomous Drive by Deep RL
PFN Spring Internship Final Report: Autonomous Drive by Deep RL
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
Q prop
Q propQ prop
Q prop
 

Semelhante a 強化学習その3

第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)TakaakiYonekura
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用Hirotaka Hachiya
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」Keisuke Sugawara
 
ディジタル信号処理 課題解説(その3) 2014年度版
ディジタル信号処理 課題解説(その3) 2014年度版ディジタル信号処理 課題解説(その3) 2014年度版
ディジタル信号処理 課題解説(その3) 2014年度版dsp_kyoto_2014
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
Variational autoencoder
Variational autoencoderVariational autoencoder
Variational autoencoderMikio Shiga
 
データ解析13 線形判別分析
データ解析13 線形判別分析データ解析13 線形判別分析
データ解析13 線形判別分析Hirotaka Hachiya
 
場の量子論
場の量子論場の量子論
場の量子論M M
 
表現論 ゼミ資料
表現論 ゼミ資料表現論 ゼミ資料
表現論 ゼミ資料HanpenRobot
 
続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章Roy Ray
 
Computing for Isogeny Kernel Problem by Groebner Basis
Computing for Isogeny Kernel Problem by Groebner BasisComputing for Isogeny Kernel Problem by Groebner Basis
Computing for Isogeny Kernel Problem by Groebner BasisYasu Math
 
Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2Takayuki Goto
 
オンライン学習 : Online learning
オンライン学習 : Online learningオンライン学習 : Online learning
オンライン学習 : Online learningDaiki Tanaka
 
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法健児 青木
 
University CodeSprint 4 - Magic value
University CodeSprint 4 - Magic valueUniversity CodeSprint 4 - Magic value
University CodeSprint 4 - Magic valuesatanic
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングtakutori
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法kenyanonaka
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector MachineYuma Nakamura
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するsleepy_yoshi
 

Semelhante a 強化学習その3 (20)

第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
ディジタル信号処理 課題解説(その3) 2014年度版
ディジタル信号処理 課題解説(その3) 2014年度版ディジタル信号処理 課題解説(その3) 2014年度版
ディジタル信号処理 課題解説(その3) 2014年度版
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
Variational autoencoder
Variational autoencoderVariational autoencoder
Variational autoencoder
 
データ解析13 線形判別分析
データ解析13 線形判別分析データ解析13 線形判別分析
データ解析13 線形判別分析
 
場の量子論
場の量子論場の量子論
場の量子論
 
表現論 ゼミ資料
表現論 ゼミ資料表現論 ゼミ資料
表現論 ゼミ資料
 
続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章
 
Computing for Isogeny Kernel Problem by Groebner Basis
Computing for Isogeny Kernel Problem by Groebner BasisComputing for Isogeny Kernel Problem by Groebner Basis
Computing for Isogeny Kernel Problem by Groebner Basis
 
Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2
 
オンライン学習 : Online learning
オンライン学習 : Online learningオンライン学習 : Online learning
オンライン学習 : Online learning
 
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
 
University CodeSprint 4 - Magic value
University CodeSprint 4 - Magic valueUniversity CodeSprint 4 - Magic value
University CodeSprint 4 - Magic value
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector Machine
 
Prml1.2.4
Prml1.2.4Prml1.2.4
Prml1.2.4
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
 

Mais de nishio

量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミングnishio
 
夏プロ報告
夏プロ報告夏プロ報告
夏プロ報告nishio
 
ITと経営
ITと経営ITと経営
ITと経営nishio
 
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAInishio
 
交渉力について
交渉力について交渉力について
交渉力についてnishio
 
If文から機械学習への道
If文から機械学習への道If文から機械学習への道
If文から機械学習への道nishio
 
組織横断型研究室構想
組織横断型研究室構想組織横断型研究室構想
組織横断型研究室構想nishio
 
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義nishio
 
強化学習その5
強化学習その5強化学習その5
強化学習その5nishio
 
良いアイデアを出すための方法
良いアイデアを出すための方法良いアイデアを出すための方法
良いアイデアを出すための方法nishio
 
線形?非線形?
線形?非線形?線形?非線形?
線形?非線形?nishio
 
機械学習キャンバス0.1
機械学習キャンバス0.1機械学習キャンバス0.1
機械学習キャンバス0.1nishio
 
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分nishio
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズムnishio
 
Wifiで位置推定
Wifiで位置推定Wifiで位置推定
Wifiで位置推定nishio
 
ESP8266EXで位置推定
ESP8266EXで位置推定ESP8266EXで位置推定
ESP8266EXで位置推定nishio
 
Raspberry Piで Wifiルータを作る
Raspberry PiでWifiルータを作るRaspberry PiでWifiルータを作る
Raspberry Piで Wifiルータを作るnishio
 
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)nishio
 
「ネットワークを作る」 ってどういうこと?
「ネットワークを作る」ってどういうこと?「ネットワークを作る」ってどういうこと?
「ネットワークを作る」 ってどういうこと?nishio
 
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?nishio
 

Mais de nishio (20)

量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
 
夏プロ報告
夏プロ報告夏プロ報告
夏プロ報告
 
ITと経営
ITと経営ITと経営
ITと経営
 
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI
 
交渉力について
交渉力について交渉力について
交渉力について
 
If文から機械学習への道
If文から機械学習への道If文から機械学習への道
If文から機械学習への道
 
組織横断型研究室構想
組織横断型研究室構想組織横断型研究室構想
組織横断型研究室構想
 
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義
 
強化学習その5
強化学習その5強化学習その5
強化学習その5
 
良いアイデアを出すための方法
良いアイデアを出すための方法良いアイデアを出すための方法
良いアイデアを出すための方法
 
線形?非線形?
線形?非線形?線形?非線形?
線形?非線形?
 
機械学習キャンバス0.1
機械学習キャンバス0.1機械学習キャンバス0.1
機械学習キャンバス0.1
 
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
Wifiで位置推定
Wifiで位置推定Wifiで位置推定
Wifiで位置推定
 
ESP8266EXで位置推定
ESP8266EXで位置推定ESP8266EXで位置推定
ESP8266EXで位置推定
 
Raspberry Piで Wifiルータを作る
Raspberry PiでWifiルータを作るRaspberry PiでWifiルータを作る
Raspberry Piで Wifiルータを作る
 
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
 
「ネットワークを作る」 ってどういうこと?
「ネットワークを作る」ってどういうこと?「ネットワークを作る」ってどういうこと?
「ネットワークを作る」 ってどういうこと?
 
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
 

Último

My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfMy Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfinspirehighstaff03
 
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドリアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドKen Fukui
 
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」inspirehighstaff03
 
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドリアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドKen Fukui
 
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」inspirehighstaff03
 
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」inspirehighstaff03
 
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」inspirehighstaff03
 
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」inspirehighstaff03
 
My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」inspirehighstaff03
 
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfDivorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfoganekyokoi
 
International Politics I - Lecture 1
International Politics I - Lecture 1International Politics I - Lecture 1
International Politics I - Lecture 1Toru Oga
 
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドリアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドKen Fukui
 
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」inspirehighstaff03
 
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」inspirehighstaff03
 
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」inspirehighstaff03
 
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」inspirehighstaff03
 
My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」inspirehighstaff03
 
My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」inspirehighstaff03
 
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」inspirehighstaff03
 
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドリアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドKen Fukui
 

Último (20)

My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfMy Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
 
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドリアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
 
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
 
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドリアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
 
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
 
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」
 
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
 
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
 
My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」
 
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfDivorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
 
International Politics I - Lecture 1
International Politics I - Lecture 1International Politics I - Lecture 1
International Politics I - Lecture 1
 
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドリアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
 
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
 
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」
 
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
 
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
 
My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」
 
My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」
 
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」
 
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドリアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
 

強化学習その3