7. BreimanとFriedmanは2000年に理研で実物を⾒ました!
Bernoulli-RIKEN Symposium on Neural Networks and Learning (by ⽢利先⽣)
(Organizers: S. Amari, L. Breiman, S. Eguchi, M. Jordan, M. Murata, M. Titterington, V. Vapnik)
余談
ファンはついついBreimanの著作3冊を全部買ってしまう!
Annals of Applied Statistics (Vol. 4, No. 4, December 2010) にBreimanの
追悼特集があり、⾊々な関係者が思い出や歴史を語っています!ファン必⾒(?)
11. KaggleとKaggler
What are your favorite machine learning algorithms?
名だたる有名組織や企業のData Scientistたちがしのぎを
けずる世界の頂点「Rank #1」として君臨したことのある
百戦錬磨世界最強の機械学習実践者であるKagglerたちに
と聞いてみたら
だった。(ヒント:Deep Learningではない)
注意:Kaggleで勝つのはめちゃめちゃ⼤変です(賞⾦かかってるし)
答えが全員同じ
12. それは回帰森Gradient Boosting Machine (GBM)
http://blog.kaggle.com/2015/11/09/profiling-top-kagglers-gilberto-titericz-new-1-in-the-world/
Gradient Boosting Machines are the best!
Before I knew of GBM, I was a big fan of
neural networks.
と聞いてみた
It depends on the problem, but if I have to
pick one, then it is GBM (its XGBoost flavor).
http://blog.kaggle.com/2015/06/22/profiling-top-kagglers-owen-zhang-currently-1-in-the-world/
I like Gradient Boosting and Tree methods in
general.
http://blog.kaggle.com/2016/02/10/profiling-top-kagglers-kazanova-new-1-in-the-world/
43. ʻTwo Culturesʼ
「統計学・モデリング」vs「機械学習・データマイニング」!?
↓これをもじってるL. Breiman,
Statistical Modeling: The Two Cultures.
Statist. Sci. 16(3), 2001, 199-231.
Jerome H. Friedman,
Data mining and statistics: Whatʼs the connection?
Proc. the 29th Symposium on the Interface Between
Computer Science and Statistics, 1997.
「意思疎通ができないような、また意思疎通しようとしないような⼆つの⽂化の存在は危
険である。科学がわれわれの運命の⼤半、すなわちわれわれの⽣死を決定しようという時
代に、単に実際的な⾯からだけ考えても、それは危険なことである。(C. P. SNOW)」
ちなみに、有名なコレは“⾃然科学”(理系) vs “⼈⽂科学”(⽂系)の話
73. ❸ランダム⽊: ランダム合成変量(ELM & RC)
→ 交互作⽤を取込めてバリエーションがあればOKなら、もしか
してランダム変換で良いのでは?という極論 (実際に結構良い)
: : :
FC FC
: :
FC FC
Extreme Learning Machine, ELM
(Huang 2006)
Reservoir Computing, RC
(e.g. Schrauwen+ 2007)
⼊⼒ 出⼒
時系列
⼊⼒
出⼒
ランダム初期化(学習しない)ランダム初期化(学習しない)
背景: Random Projectionsの⾼い有効性
ランダム結合
変数間の交互作⽤を取り込みたいが、やり⽅は無限にある…
例) 多項式/積項なら何次まで? カーネル法やGAMなら関数型は?
74. ❸ランダム⽊
• Extremely Randomized Trees
(ExtraTrees, Geurts+ 2006)
• Variable Random Trees
(VR Trees, Liu 2008)
各splitで、対象変数 と閾値 の
いずれも完全にランダムに決める。
確率pでCARTのノード分割、
確率1-pでExtraTreesのノード分割
75. Accuracy Time
Constant 0.10 6.76 ms
Decision Tree 0.88 20.1 s
Random Forest 0.97 41.7 s
Extra Trees 0.97 41.5 s
XGBoost 0.94 21m 12s
GBM 0.95 45m 36s
k-NN 0.97 29.9 s
SVM 0.94 8m 40s
パラメタ調整なしで、あくまで参考値
MNIST 784次元 (28x28画像)
訓練60000個 テスト10000個
蛇⾜: 問題が分類なら
よほど⼤規模でない限り
k-NNは必ず試すべき
(アホみたいな⽅法だが
理論的に深く良い⽅法)
76. 「解釈性/説明性/透明性」という神話
• そもそも「解釈性」とは定義が不定・主観的でアヤシイ概念…
• ⽊型アンサンブルの解釈性の担保
• Feature Importance
• Partial Dependence Plot (PDP)
• 交互作⽤の共起も頻度解析できる?
https://arxiv.org/abs/1606.03490
The Mythos of Model Interpretability
• 決定⽊は「解釈性が⾼い」と⾔われるが不安定性の問題があり、⽊の
構造は偶発的ノイズで⼤きく変わり得るため、ほとんど当てにならない
→ 森(Ensemble)の指標のほうが良い?
「何を」「何のために」解釈する?
2016 ICML Workshop on Human Interpretability of Machine Learning
• データ背後の法則性が⼈間に解釈可能なほど単純化可能とは限らない