楼主: caprice_arabe
4256 5

[数据挖掘书籍] 英文原版电子书(300页): David Barber - Machine Learning A Probabilistic App [推广有奖]

  • 1关注
  • 3粉丝

已卖:2870份资源

博士生

25%

还不是VIP/贵宾

-

威望
0
论坛币
4908 个
通用积分
4.5906
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
2176 点
帖子
96
精华
0
在线时间
192 小时
注册时间
2012-6-21
最后登录
2025-9-26

楼主
caprice_arabe 发表于 2013-10-10 11:20:51 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
这本书是作者在爱丁堡大学教书的时候,上课用的笔记演变而来的。东西讲的比较全。

Barber - Machine Learning A Probabilistic Approach.pdf (3.28 MB, 需要: 10 个论坛币)

作者:David Barber

目录:
1 Introduction 2
1.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Supervised Learning Approaches . . . . . . . . . . . . . . . . . . . 4
I Machine Learning : More Traditional Approaches 8
2 Generalisation 9
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Training Error . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.3 Test Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.4 Validation Data . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.5 Dodgy Joe and Lucky Jim . . . . . . . . . . . . . . . . . . . 11
2.1.6 Regularisation . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 Nearest Neighbour Classification 15
3.1 Nearest Neighbour . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1 Problems with Nearest Neighbours . . . . . . . . . . . . . . 17
3.2 K Nearest Neighbours . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3 Handwritten digit Example . . . . . . . . . . . . . . . . . . . . . . 18
3.4 A Probabilistic Intepretation . . . . . . . . . . . . . . . . . . . . . 19
4 Linear Dimension Reduction 21
4.1 Principal Components Analysis . . . . . . . . . . . . . . . . . . . . 21
4.1.1 Example : Reducing the dimension of digits . . . . . . . . . 24
4.1.2 PCA and Nearest Neighbours . . . . . . . . . . . . . . . . . 24
4.1.3 Mega Dimensional Data . . . . . . . . . . . . . . . . . . . . 25
4.1.4 PCA is good because it is a poor compressor! . . . . . . . . 25
4.2 Deriving the Optimal Linear Reconstruction . . . . . . . . . . . . . 26
4.3 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.4 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5 Linear Discriminant Analysis 32
5.1 Unsupervised Dimension Reduction . . . . . . . . . . . . . . . . . . 32
5.1.1 Using PCA for visualisation . . . . . . . . . . . . . . . . . . 32
5.2 Fishers Linear Discriminant . . . . . . . . . . . . . . . . . . . . . . 32
5.2.1 One dimensional projection . . . . . . . . . . . . . . . . . . 33
5.3 Canonical Variates . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.3.1 Using Canonical variates on the Digits Data . . . . . . . . . 35
6 Linear Parameter Models 36
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.1.1 Regression and PCA . . . . . . . . . . . . . . . . . . . . . . 37
6.2 Linear Parameter Models (Generalised Linear Models) . . . . . . . 37
6.2.1 Training LPMs . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.2.2 Regularisation and numerical stability . . . . . . . . . . . . 39
6.2.3 Higher Dimensional Outputs . . . . . . . . . . . . . . . . . 39
6.2.4 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.3 Radial Basis Functions . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.4 The curse of Dimensionality . . . . . . . . . . . . . . . . . . . . . . 40
6.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:David Barber Learning machine earning Learn 学习英文 英文原版 爱丁堡大学 电子书

本帖被以下文库推荐

沙发
caprice_arabe(未真实交易用户) 发表于 2013-10-10 11:22:00
7 Layered Neural Networks 42
7.1 Sequential Layered Processing . . . . . . . . . . . . . . . . . . . . . 42
7.2 The Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
7.3 Multilayer Perceptrons . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.3.1 Understanding Neural Networks . . . . . . . . . . . . . . . 44
7.4 Training multi-layered perceptrons . . . . . . . . . . . . . . . . . . 46

7.4.1 Single Hidden Layer . . . . . . . . . . . . . . . . . . . . . . 47
7.4.2 Back Propagation . . . . . . . . . . . . . . . . . . . . . . . 48
7.4.3 Training ensembles of networks . . . . . . . . . . . . . . . . 48
7.5 Adaptive Basis Function Networks . . . . . . . . . . . . . . . . . . 49
7.5.1 Adaptive Basis Functions . . . . . . . . . . . . . . . . . . . 49
7.6 Training Adaptive Basis Functions . . . . . . . . . . . . . . . . . . 50
7.6.1 Non-local Basis Functions . . . . . . . . . . . . . . . . . . . 51
7.7 Committees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.8 Summary and Outlook . . . . . . . . . . . . . . . . . . . . . . . . . 53
8 Autoencoders 54
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
8.1.1 Linear Dimension Reduction (PCA) . . . . . . . . . . . . . 54
8.1.2 Manifolds : The need for non-linearity . . . . . . . . . . . . 54
8.2 Non-linear Dimension Reduction . . . . . . . . . . . . . . . . . . . 55
8.2.1 Training Autoencoders . . . . . . . . . . . . . . . . . . . . . 55
8.3 Uses of Autoencoders . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.3.1 A Visualisation example . . . . . . . . . . . . . . . . . . . . 57
9 Data Visualisation 58
9.1 Classical Scaling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
9.1.1 Finding the optimal points . . . . . . . . . . . . . . . . . . 59
9.1.2 The Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . 60
9.2 Sammon Mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
9.3 A word of warning . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
II Inference and Learning in Probabilistic Models 63
10 Introducing Graphical Models 64
10.1 Belief Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
10.1.1 Tracey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
10.2 A word on notation . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
10.3 Example : Was it the Burglar? . . . . . . . . . . . . . . . . . . . . 67
10.4 Belief Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
10.4.1 Conditional Independence . . . . . . . . . . . . . . . . . . . 70
10.4.2 Intuition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

10.4.3 d-Separation . . . . . . . . . . . . . . . . . . . . . . . . . . 71
10.5 Graphical Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
10.5.1 Markov Random Fields . . . . . . . . . . . . . . . . . . . . 75
10.5.2 Expressiveness of Graphical Models . . . . . . . . . . . . . 76
10.6 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
11 Inference in Belief Networks 80
11.1 Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
11.2 Variable Elimination in a simple chain . . . . . . . . . . . . . . . . 80
11.3 Bucket Elimination . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
11.4 Belief Propagtion : Inference in Singly Connected Graphs . . . . . 84
11.4.1 Undirected Belief Propagation . . . . . . . . . . . . . . . . 85
11.4.2 Directed Belief Propagation . . . . . . . . . . . . . . . . . . 86
11.4.3 Example : Directed Belief Propagation . . . . . . . . . . . . 89
11.5 Belief Revision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
11.6 The Generalised Distributive Law . . . . . . . . . . . . . . . . . . . 92
11.7 Inference in Multiply-Connected Graphs . . . . . . . . . . . . . . . 93
11.7.1 Conditioning . . . . . . . . . . . . . . . . . . . . . . . . . . 94
11.8 Cluster Graphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
11.9 KL divergence approach to marginalisation on Trees . . . . . . . . 97
11.10Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
11.11Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
12 The Junction Tree Algorithm 107
12.1 Absorption and Marginal Consistency . . . . . . . . . . . . . . . . 107
12.2 Junction Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
12.3 Constructing Junction Trees for Singly-Connected Distributions . . 111
12.4 Junction Trees for Multiply-Connected Distributions . . . . . . . . 113
12.5 Triangulation Algorithms . . . . . . . . . . . . . . . . . . . . . . . 115
12.6 Finding a JT from a Triangulated Graph . . . . . . . . . . . . . . 116
12.7 The Junction Tree Algorithm . . . . . . . . . . . . . . . . . . . . . 116
12.7.1 Finding the Most Likely State . . . . . . . . . . . . . . . . 117
12.8 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
12.9 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

13 Variational Learning and EM 121
13.1 Maximum Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . 121
13.1.1 Missing Data/Variables . . . . . . . . . . . . . . . . . . . . 124
13.2 Variational Learning and Expectation Maximisation . . . . . . . . 125
13.3 Optimising the Likelihood by Gradient methods . . . . . . . . . . 133
13.4 Iterated Proportional Fitting . . . . . . . . . . . . . . . . . . . . . 134
13.5 Bayesian Methods and ML-II . . . . . . . . . . . . . . . . . . . . . 135
13.6 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
13.7 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
III Probabilistic models in Machine Learning 139
14 Introduction to Bayesian Methods 140
14.1 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
14.2 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
15 Bayesian Regression 152
15.1 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
15.2 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
16 Logistic Regression 156
16.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
16.1.1 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
16.1.2 Gradient Ascent . . . . . . . . . . . . . . . . . . . . . . . . 159
16.1.3 Avoiding Overconfident Classification . . . . . . . . . . . . 162
16.1.4 Logistic Regression and PCA ? . . . . . . . . . . . . . . . . 162
16.1.5 An Example : Classifying Handwritten Digits . . . . . . . . 163
16.2 The Kernel Trick . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
16.3 Mixture Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
16.3.1 Mixtures . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
16.3.2 Mixture of Experts . . . . . . . . . . . . . . . . . . . . . . . 166
16.3.3 A ‘Bayesian’ approach to setting the regularisation parameter167
16.3.4 Evidence Procedure . . . . . . . . . . . . . . . . . . . . . . 168
16.4 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
16.5 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

17 Naive Bayes 173
17.1 Why Naive Bayes? . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
17.2 Understanding Conditional Independence . . . . . . . . . . . . . . 173
17.3 Are they Scottish? . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
17.3.1 Further Issues . . . . . . . . . . . . . . . . . . . . . . . . . . 175
17.3.2 Text Classification . . . . . . . . . . . . . . . . . . . . . . . 176
17.4 Pitfalls with Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . 176
17.5 Estimation using Maximum Likelihood : Bernoulli Process . . . . . 177
17.5.1 Classification Boundary . . . . . . . . . . . . . . . . . . . . 178
17.6 Naive Bayes : The multinomial case . . . . . . . . . . . . . . . . . 178
17.6.1 Dirichlet Prior . . . . . . . . . . . . . . . . . . . . . . . . . 179
17.7 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
17.8 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
18 Mixture Models : Discrete Hidden Variables 183
18.1 Mixture Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
18.2 Gaussian Mixture Models . . . . . . . . . . . . . . . . . . . . . . . 185
18.3 K Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
18.3.1 The algorithm . . . . . . . . . . . . . . . . . . . . . . . . . 190
18.3.2 Uses of K Means . . . . . . . . . . . . . . . . . . . . . . . . 191
18.4 Classification using Mixture Models . . . . . . . . . . . . . . . . . 191
18.5 Mixture of Multi-nomials . . . . . . . . . . . . . . . . . . . . . . . 192
18.6 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
18.7 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
19 Factor Analysis and PPCA 197
19.1 Linear Subspace Methods . . . . . . . . . . . . . . . . . . . . . . . 197
19.2 A Toy Comparision of FA and PPCA . . . . . . . . . . . . . . . . 202
19.3 Non-linear Subspace Methods . . . . . . . . . . . . . . . . . . . . . 204
19.3.1 Non linear Factor Analysis . . . . . . . . . . . . . . . . . . 204
19.4 Probabilistic PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
19.5 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
19.6 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

20 Dynamic Bayesian Networks : Discrete Hidden Variables 210
20.1 The Importance of Time . . . . . . . . . . . . . . . . . . . . . . . . 210
20.1.1 Parallel and Sequential Inference . . . . . . . . . . . . . . . 214
20.1.2 Rauch Tung Striebel and the α − γ recursions . . . . . . . . 217
20.1.3 Viterbi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
20.2 Applications of HMMs . . . . . . . . . . . . . . . . . . . . . . . . . 223
20.3 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
20.4 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
21 Dynamic Continuous Hiddens : Linear Dynamical Systems 229
21.1 Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
21.1.1 The Forward Pass : The Kalman Filter . . . . . . . . . . . 230
21.1.2 The Kalman Smoother : The Rauch-Tung-Striebel Smoother 231
21.1.3 The Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . 233
21.2 EM Algorithm for Learning . . . . . . . . . . . . . . . . . . . . . . 233
21.3 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
21.4 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
22 Switching Linear Dynamical Systems 237
22.1 Expectation Correction . . . . . . . . . . . . . . . . . . . . . . . . 238
22.1.1 Forward Pass (Filtering) . . . . . . . . . . . . . . . . . . . . 238
22.1.2 Collapsing Gaussians . . . . . . . . . . . . . . . . . . . . . . 240
22.1.3 Backward Pass (Smoothing) . . . . . . . . . . . . . . . . . . 241
22.1.4 Remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
22.1.5 Using Mixtures in the Backward Pass . . . . . . . . . . . . 245
22.2 Relation to other methods . . . . . . . . . . . . . . . . . . . . . . . 246
23 Gaussian Processes 250
23.1 The Bayesian approach to Regression . . . . . . . . . . . . . . . . . 250
23.1.1 Parameterised Models . . . . . . . . . . . . . . . . . . . . . 251
23.1.2 Making Predictions . . . . . . . . . . . . . . . . . . . . . . . 251
23.1.3 Model Selection . . . . . . . . . . . . . . . . . . . . . . . . . 251
23.2 Generalised Linear Models . . . . . . . . . . . . . . . . . . . . . . . 251
23.2.1 Understanding the Prior . . . . . . . . . . . . . . . . . . . . 252
23.2.2 Sampling the function space prior . . . . . . . . . . . . . . 252
23.2.3 Understanding the Posterior . . . . . . . . . . . . . . . . . . 253

23.2.4 Understanding Model Selection Issues . . . . . . . . . . . . 253
23.3 Gaussian Processes . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
23.3.1 Specifying the Prior . . . . . . . . . . . . . . . . . . . . . . 254
23.3.2 Making Predictions . . . . . . . . . . . . . . . . . . . . . . . 255
23.3.3 Model Selection . . . . . . . . . . . . . . . . . . . . . . . . . 256
23.3.4 Classification problems . . . . . . . . . . . . . . . . . . . . . 256
23.4 Gaussian Processes for Classification . . . . . . . . . . . . . . . . . 257
23.4.1 Maximizing P(y∗, y|t) . . . . . . . . . . . . . . . . . . . . . 258
23.4.2 Parameterizing the covariance function . . . . . . . . . . . . 259
23.4.3 Integration over the hyperparameters . . . . . . . . . . . . 259
23.5 Multiple classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
23.5.1 Finding the mode of the distribution . . . . . . . . . . . . . 261
23.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
IV Approximate Inference Methods 264
24 Sampling 265
24.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
24.2 Markov Chain Monte Carlo (MCMC) . . . . . . . . . . . . . . . . 269

藤椅
Enthuse(未真实交易用户) 发表于 2013-10-10 23:26:52
thx for sharing...

板凳
jerry22880(未真实交易用户) 在职认证  发表于 2013-10-12 06:59:13

报纸
海贝壳(真实交易用户) 发表于 2014-12-31 10:40:54
谢谢分享哈

地板
edwinfung(未真实交易用户) 发表于 2015-1-2 13:26:30
Thanks for sharing!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-25 04:32