Barber - Machine Learning A Probabilistic Approach.pdf
(3.28 MB, 需要: 10 个论坛币)
作者:David Barber
目录:
1 Introduction 2
1.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Supervised Learning Approaches . . . . . . . . . . . . . . . . . . . 4
I Machine Learning : More Traditional Approaches 8
2 Generalisation 9
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Training Error . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.3 Test Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.4 Validation Data . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.5 Dodgy Joe and Lucky Jim . . . . . . . . . . . . . . . . . . . 11
2.1.6 Regularisation . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 Nearest Neighbour Classification 15
3.1 Nearest Neighbour . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1 Problems with Nearest Neighbours . . . . . . . . . . . . . . 17
3.2 K Nearest Neighbours . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3 Handwritten digit Example . . . . . . . . . . . . . . . . . . . . . . 18
3.4 A Probabilistic Intepretation . . . . . . . . . . . . . . . . . . . . . 19
4 Linear Dimension Reduction 21
4.1 Principal Components Analysis . . . . . . . . . . . . . . . . . . . . 21
4.1.1 Example : Reducing the dimension of digits . . . . . . . . . 24
4.1.2 PCA and Nearest Neighbours . . . . . . . . . . . . . . . . . 24
4.1.3 Mega Dimensional Data . . . . . . . . . . . . . . . . . . . . 25
4.1.4 PCA is good because it is a poor compressor! . . . . . . . . 25
4.2 Deriving the Optimal Linear Reconstruction . . . . . . . . . . . . . 26
4.3 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.4 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5 Linear Discriminant Analysis 32
5.1 Unsupervised Dimension Reduction . . . . . . . . . . . . . . . . . . 32
5.1.1 Using PCA for visualisation . . . . . . . . . . . . . . . . . . 32
5.2 Fishers Linear Discriminant . . . . . . . . . . . . . . . . . . . . . . 32
5.2.1 One dimensional projection . . . . . . . . . . . . . . . . . . 33
5.3 Canonical Variates . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.3.1 Using Canonical variates on the Digits Data . . . . . . . . . 35
6 Linear Parameter Models 36
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.1.1 Regression and PCA . . . . . . . . . . . . . . . . . . . . . . 37
6.2 Linear Parameter Models (Generalised Linear Models) . . . . . . . 37
6.2.1 Training LPMs . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.2.2 Regularisation and numerical stability . . . . . . . . . . . . 39
6.2.3 Higher Dimensional Outputs . . . . . . . . . . . . . . . . . 39
6.2.4 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.3 Radial Basis Functions . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.4 The curse of Dimensionality . . . . . . . . . . . . . . . . . . . . . . 40
6.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41


雷达卡




京公网安备 11010802022788号







