楼主: prestige
13915 19

推荐经典名著:《模式识别和机器学习》2006 [推广有奖]

  • 0关注
  • 4粉丝

讲师

79%

还不是VIP/贵宾

-

威望
0
论坛币
47587 个
通用积分
40.6748
学术水平
47 点
热心指数
26 点
信用等级
44 点
经验
8145 点
帖子
158
精华
6
在线时间
211 小时
注册时间
2008-1-1
最后登录
2024-2-16

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
<p>推荐经典名著:《模式识别和机器学习》2006</p><p>Pattern Recognition and Machine Learning</p><p>Christopher M. Bishop F.R.Eng.<br/>Assistant Director<br/>Microsoft Research Ltd<br/>Cambridge CB3 0FB, U.K.<br/><a href="mailto:cmbishop@microsoft.com">cmbishop@microsoft.com</a><br/><a href="http://research.microsoft.com/%01cmbishop">http://research.microsoft.com/cmbishop</a></p><p> 193863.pdf (7.71 MB, 需要: 40 个论坛币) <br/></p><p>Preface vii<br/>Mathematical notation xi<br/>Contents xiii<br/>1 Introduction 1<br/>1.1 Example: Polynomial Curve Fitting . . . . . . . . . . . . . . . . . 4<br/>1.2 Probability Theory . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br/>1.2.1 Probability densities . . . . . . . . . . . . . . . . . . . . . 17<br/>1.2.2 Expectations and covariances . . . . . . . . . . . . . . . . 19<br/>1.2.3 Bayesian probabilities . . . . . . . . . . . . . . . . . . . . 21<br/>1.2.4 The Gaussian distribution . . . . . . . . . . . . . . . . . . 24<br/>1.2.5 Curve fitting re-visited . . . . . . . . . . . . . . . . . . . . 28<br/>1.2.6 Bayesian curve fitting . . . . . . . . . . . . . . . . . . . . 30<br/>1.3 Model Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . 32<br/>1.4 The Curse of Dimensionality . . . . . . . . . . . . . . . . . . . . . 33<br/>1.5 Decision Theory . . . . . . . . . . . . . . . . . . . . . . . . . . . 38<br/>1.5.1 Minimizing the misclassification rate . . . . . . . . . . . . 39<br/>1.5.2 Minimizing the expected loss . . . . . . . . . . . . . . . . 41<br/>1.5.3 The reject option . . . . . . . . . . . . . . . . . . . . . . . 42<br/>1.5.4 Inference and decision . . . . . . . . . . . . . . . . . . . . 42<br/>1.5.5 Loss functions for regression . . . . . . . . . . . . . . . . . 46<br/>1.6 Information Theory . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br/>1.6.1 Relative entropy and mutual information . . . . . . . . . . 55<br/>Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58<br/>xiii<br/>xiv CONTENTS<br/>2 Probability Distributions 67<br/>2.1 Binary Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 68<br/>2.1.1 The beta distribution . . . . . . . . . . . . . . . . . . . . . 71<br/>2.2 Multinomial Variables . . . . . . . . . . . . . . . . . . . . . . . . 74<br/>2.2.1 The Dirichlet distribution . . . . . . . . . . . . . . . . . . . 76<br/>2.3 The Gaussian Distribution . . . . . . . . . . . . . . . . . . . . . . 78<br/>2.3.1 Conditional Gaussian distributions . . . . . . . . . . . . . . 85<br/>2.3.2 Marginal Gaussian distributions . . . . . . . . . . . . . . . 88<br/>2.3.3 Bayes’ theorem for Gaussian variables . . . . . . . . . . . . 90<br/>2.3.4 Maximum likelihood for the Gaussian . . . . . . . . . . . . 93<br/>2.3.5 Sequential estimation . . . . . . . . . . . . . . . . . . . . . 94<br/>2.3.6 Bayesian inference for the Gaussian . . . . . . . . . . . . . 97<br/>2.3.7 Student’s t-distribution . . . . . . . . . . . . . . . . . . . . 102<br/>2.3.8 Periodic variables . . . . . . . . . . . . . . . . . . . . . . . 105<br/>2.3.9 Mixtures of Gaussians . . . . . . . . . . . . . . . . . . . . 110<br/>2.4 The Exponential Family . . . . . . . . . . . . . . . . . . . . . . . 113<br/>2.4.1 Maximum likelihood and sufficient statistics . . . . . . . . 116<br/>2.4.2 Conjugate priors . . . . . . . . . . . . . . . . . . . . . . . 117<br/>2.4.3 Noninformative priors . . . . . . . . . . . . . . . . . . . . 117<br/>2.5 Nonparametric Methods . . . . . . . . . . . . . . . . . . . . . . . 120<br/>2.5.1 Kernel density estimators . . . . . . . . . . . . . . . . . . . 122<br/>2.5.2 Nearest-neighbour methods . . . . . . . . . . . . . . . . . 124<br/>Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127<br/>3 Linear Models for Regression 137<br/>3.1 Linear Basis Function Models . . . . . . . . . . . . . . . . . . . . 138<br/>3.1.1 Maximum likelihood and least squares . . . . . . . . . . . . 140<br/>3.1.2 Geometry of least squares . . . . . . . . . . . . . . . . . . 143<br/>3.1.3 Sequential learning . . . . . . . . . . . . . . . . . . . . . . 143<br/>3.1.4 Regularized least squares . . . . . . . . . . . . . . . . . . . 144<br/>3.1.5 Multiple outputs . . . . . . . . . . . . . . . . . . . . . . . 146<br/>3.2 The Bias-Variance Decomposition . . . . . . . . . . . . . . . . . . 147<br/>3.3 Bayesian Linear Regression . . . . . . . . . . . . . . . . . . . . . 152<br/>3.3.1 Parameter distribution . . . . . . . . . . . . . . . . . . . . 152<br/>3.3.2 Predictive distribution . . . . . . . . . . . . . . . . . . . . 156<br/>3.3.3 Equivalent kernel . . . . . . . . . . . . . . . . . . . . . . . 159<br/>3.4 Bayesian Model Comparison . . . . . . . . . . . . . . . . . . . . . 161<br/>3.5 The Evidence Approximation . . . . . . . . . . . . . . . . . . . . 165<br/>3.5.1 Evaluation of the evidence function . . . . . . . . . . . . . 166<br/>3.5.2 Maximizing the evidence function . . . . . . . . . . . . . . 168<br/>3.5.3 Effective number of parameters . . . . . . . . . . . . . . . 170<br/>3.6 Limitations of Fixed Basis Functions . . . . . . . . . . . . . . . . 172<br/>Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173<br/>CONTENTS xv<br/>4 Linear Models for Classification 179<br/>4.1 Discriminant Functions . . . . . . . . . . . . . . . . . . . . . . . . 181<br/>4.1.1 Two classes . . . . . . . . . . . . . . . . . . . . . . . . . . 181<br/>4.1.2 Multiple classes . . . . . . . . . . . . . . . . . . . . . . . . 182<br/>4.1.3 Least squares for classification . . . . . . . . . . . . . . . . 184<br/>4.1.4 Fisher’s linear discriminant . . . . . . . . . . . . . . . . . . 186<br/>4.1.5 Relation to least squares . . . . . . . . . . . . . . . . . . . 189<br/>4.1.6 Fisher’s discriminant for multiple classes . . . . . . . . . . 191<br/>4.1.7 The perceptron algorithm . . . . . . . . . . . . . . . . . . . 192<br/>4.2 Probabilistic Generative Models . . . . . . . . . . . . . . . . . . . 196<br/>4.2.1 Continuous inputs . . . . . . . . . . . . . . . . . . . . . . 198<br/>4.2.2 Maximum likelihood solution . . . . . . . . . . . . . . . . 200<br/>4.2.3 Discrete features . . . . . . . . . . . . . . . . . . . . . . . 202<br/>4.2.4 Exponential family . . . . . . . . . . . . . . . . . . . . . . 202<br/>4.3 Probabilistic Discriminative Models . . . . . . . . . . . . . . . . . 203<br/>4.3.1 Fixed basis functions . . . . . . . . . . . . . . . . . . . . . 204<br/>4.3.2 Logistic regression . . . . . . . . . . . . . . . . . . . . . . 205<br/>4.3.3 Iterative reweighted least squares . . . . . . . . . . . . . . 207<br/>4.3.4 Multiclass logistic regression . . . . . . . . . . . . . . . . . 209<br/>4.3.5 Probit regression . . . . . . . . . . . . . . . . . . . . . . . 210<br/>4.3.6 Canonical link functions . . . . . . . . . . . . . . . . . . . 212<br/>4.4 The Laplace Approximation . . . . . . . . . . . . . . . . . . . . . 213<br/>4.4.1 Model comparison and BIC . . . . . . . . . . . . . . . . . 216<br/>4.5 Bayesian Logistic Regression . . . . . . . . . . . . . . . . . . . . 217<br/>4.5.1 Laplace approximation . . . . . . . . . . . . . . . . . . . . 217<br/>4.5.2 Predictive distribution . . . . . . . . . . . . . . . . . . . . 218<br/>Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220<br/>5 Neural Networks 225<br/>5.1 Feed-forward Network Functions . . . . . . . . . . . . . . . . . . 227<br/>5.1.1 Weight-space symmetries . . . . . . . . . . . . . . . . . . 231<br/>5.2 Network Training . . . . . . . . . . . . . . . . . . . . . . . . . . . 232<br/>5.2.1 Parameter optimization . . . . . . . . . . . . . . . . . . . . 236<br/>5.2.2 Local quadratic approximation . . . . . . . . . . . . . . . . 237<br/>5.2.3 Use of gradient information . . . . . . . . . . . . . . . . . 239<br/>5.2.4 Gradient descent optimization . . . . . . . . . . . . . . . . 240<br/>5.3 Error Backpropagation . . . . . . . . . . . . . . . . . . . . . . . . 241<br/>5.3.1 Evaluation of error-function derivatives . . . . . . . . . . . 242<br/>5.3.2 A simple example . . . . . . . . . . . . . . . . . . . . . . 245<br/>5.3.3 Efficiency of backpropagation . . . . . . . . . . . . . . . . 246<br/>5.3.4 The Jacobian matrix . . . . . . . . . . . . . . . . . . . . . 247<br/>5.4 The Hessian Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . 249<br/>5.4.1 Diagonal approximation . . . . . . . . . . . . . . . . . . . 250<br/>5.4.2 Outer product approximation . . . . . . . . . . . . . . . . . 251<br/>5.4.3 Inverse Hessian . . . . . . . . . . . . . . . . . . . . . . . . 252<br/>xvi CONTENTS<br/>5.4.4 Finite differences . . . . . . . . . . . . . . . . . . . . . . . 252<br/>5.4.5 Exact evaluation of the Hessian . . . . . . . . . . . . . . . 253<br/>5.4.6 Fast multiplication by the Hessian . . . . . . . . . . . . . . 254<br/>5.5 Regularization in Neural Networks . . . . . . . . . . . . . . . . . 256<br/>5.5.1 Consistent Gaussian priors . . . . . . . . . . . . . . . . . . 257<br/>5.5.2 Early stopping . . . . . . . . . . . . . . . . . . . . . . . . 259<br/>5.5.3 Invariances . . . . . . . . . . . . . . . . . . . . . . . . . . 261<br/>5.5.4 Tangent propagation . . . . . . . . . . . . . . . . . . . . . 263<br/>5.5.5 Training with transformed data . . . . . . . . . . . . . . . . 265<br/>5.5.6 Convolutional networks . . . . . . . . . . . . . . . . . . . 267<br/>5.5.7 Soft weight sharing . . . . . . . . . . . . . . . . . . . . . . 269<br/>5.6 Mixture Density Networks . . . . . . . . . . . . . . . . . . . . . . 272<br/>5.7 Bayesian Neural Networks . . . . . . . . . . . . . . . . . . . . . . 277<br/>5.7.1 Posterior parameter distribution . . . . . . . . . . . . . . . 278<br/>5.7.2 Hyperparameter optimization . . . . . . . . . . . . . . . . 280<br/>5.7.3 Bayesian neural networks for classification . . . . . . . . . 281<br/>Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284<br/>6 Kernel Methods 291<br/>6.1 Dual Representations . . . . . . . . . . . . . . . . . . . . . . . . . 293<br/>6.2 Constructing Kernels . . . . . . . . . . . . . . . . . . . . . . . . . 294<br/>6.3 Radial Basis Function Networks . . . . . . . . . . . . . . . . . . . 299<br/>6.3.1 Nadaraya-Watson model . . . . . . . . . . . . . . . . . . . 301<br/>6.4 Gaussian Processes . . . . . . . . . . . . . . . . . . . . . . . . . . 303<br/>6.4.1 Linear regression revisited . . . . . . . . . . . . . . . . . . 304<br/>6.4.2 Gaussian processes for regression . . . . . . . . . . . . . . 306<br/>6.4.3 Learning the hyperparameters . . . . . . . . . . . . . . . . 311<br/>6.4.4 Automatic relevance determination . . . . . . . . . . . . . 312<br/>6.4.5 Gaussian processes for classification . . . . . . . . . . . . . 313<br/>6.4.6 Laplace approximation . . . . . . . . . . . . . . . . . . . . 315<br/>6.4.7 Connection to neural networks . . . . . . . . . . . . . . . . 319<br/>Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320<br/>7 Sparse Kernel Machines 325<br/>7.1 Maximum Margin Classifiers . . . . . . . . . . . . . . . . . . . . 326<br/>7.1.1 Overlapping class distributions . . . . . . . . . . . . . . . . 331<br/>7.1.2 Relation to logistic regression . . . . . . . . . . . . . . . . 336<br/>7.1.3 Multiclass SVMs . . . . . . . . . . . . . . . . . . . . . . . 338<br/>7.1.4 SVMs for regression . . . . . . . . . . . . . . . . . . . . . 339<br/>7.1.5 Computational learning theory . . . . . . . . . . . . . . . . 344<br/>7.2 Relevance Vector Machines . . . . . . . . . . . . . . . . . . . . . 345<br/>7.2.1 RVM for regression . . . . . . . . . . . . . . . . . . . . . . 345<br/>7.2.2 Analysis of sparsity . . . . . . . . . . . . . . . . . . . . . . 349<br/>7.2.3 RVM for classification . . . . . . . . . . . . . . . . . . . . 353<br/>Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357<br/>CONTENTS xvii<br/>8 Graphical Models 359<br/>8.1 Bayesian Networks . . . . . . . . . . . . . . . . . . . . . . . . . . 360<br/>8.1.1 Example: Polynomial regression . . . . . . . . . . . . . . . 362<br/>8.1.2 Generative models . . . . . . . . . . . . . . . . . . . . . . 365<br/>8.1.3 Discrete variables . . . . . . . . . . . . . . . . . . . . . . . 366<br/>8.1.4 Linear-Gaussian models . . . . . . . . . . . . . . . . . . . 370<br/>8.2 Conditional Independence . . . . . . . . . . . . . . . . . . . . . . 372<br/>8.2.1 Three example graphs . . . . . . . . . . . . . . . . . . . . 373<br/>8.2.2 D-separation . . . . . . . . . . . . . . . . . . . . . . . . . 378<br/>8.3 Markov Random Fields . . . . . . . . . . . . . . . . . . . . . . . 383<br/>8.3.1 Conditional independence properties . . . . . . . . . . . . . 383<br/>8.3.2 Factorization properties . . . . . . . . . . . . . . . . . . . 384<br/>8.3.3 Illustration: Image de-noising . . . . . . . . . . . . . . . . 387<br/>8.3.4 Relation to directed graphs . . . . . . . . . . . . . . . . . . 390<br/>8.4 Inference in Graphical Models . . . . . . . . . . . . . . . . . . . . 393<br/>8.4.1 Inference on a chain . . . . . . . . . . . . . . . . . . . . . 394<br/>8.4.2 Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398<br/>8.4.3 Factor graphs . . . . . . . . . . . . . . . . . . . . . . . . . 399<br/>8.4.4 The sum-product algorithm . . . . . . . . . . . . . . . . . . 402<br/>8.4.5 The max-sum algorithm . . . . . . . . . . . . . . . . . . . 411<br/>8.4.6 Exact inference in general graphs . . . . . . . . . . . . . . 416<br/>8.4.7 Loopy belief propagation . . . . . . . . . . . . . . . . . . . 417<br/>8.4.8 Learning the graph structure . . . . . . . . . . . . . . . . . 418<br/>Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418<br/>9 Mixture Models and EM 423<br/>9.1 K-means Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 424<br/>9.1.1 Image segmentation and compression . . . . . . . . . . . . 428<br/>9.2 Mixtures of Gaussians . . . . . . . . . . . . . . . . . . . . . . . . 430<br/>9.2.1 Maximum likelihood . . . . . . . . . . . . . . . . . . . . . 432<br/>9.2.2 EM for Gaussian mixtures . . . . . . . . . . . . . . . . . . 435<br/>9.3 An Alternative View of EM . . . . . . . . . . . . . . . . . . . . . 439<br/>9.3.1 Gaussian mixtures revisited . . . . . . . . . . . . . . . . . 441<br/>9.3.2 Relation to K-means . . . . . . . . . . . . . . . . . . . . . 443<br/>9.3.3 Mixtures of Bernoulli distributions . . . . . . . . . . . . . . 444<br/>9.3.4 EM for Bayesian linear regression . . . . . . . . . . . . . . 448<br/>9.4 The EM Algorithm in General . . . . . . . . . . . . . . . . . . . . 450<br/>Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455<br/>10 Approximate Inference 461<br/>10.1 Variational Inference . . . . . . . . . . . . . . . . . . . . . . . . . 462<br/>10.1.1 Factorized distributions . . . . . . . . . . . . . . . . . . . . 464<br/>10.1.2 Properties of factorized approximations . . . . . . . . . . . 466<br/>10.1.3 Example: The univariate Gaussian . . . . . . . . . . . . . . 470<br/>10.1.4 Model comparison . . . . . . . . . . . . . . . . . . . . . . 473<br/>10.2 Illustration: Variational Mixture of Gaussians . . . . . . . . . . . . 474<br/>xviii CONTENTS<br/>10.2.1 Variational distribution . . . . . . . . . . . . . . . . . . . . 475<br/>10.2.2 Variational lower bound . . . . . . . . . . . . . . . . . . . 481<br/>10.2.3 Predictive density . . . . . . . . . . . . . . . . . . . . . . . 482<br/>10.2.4 Determining the number of components . . . . . . . . . . . 483<br/>10.2.5 Induced factorizations . . . . . . . . . . . . . . . . . . . . 485<br/>10.3 Variational Linear Regression . . . . . . . . . . . . . . . . . . . . 486<br/>10.3.1 Variational distribution . . . . . . . . . . . . . . . . . . . . 486<br/>10.3.2 Predictive distribution . . . . . . . . . . . . . . . . . . . . 488<br/>10.3.3 Lower bound . . . . . . . . . . . . . . . . . . . . . . . . . 489<br/>10.4 Exponential Family Distributions . . . . . . . . . . . . . . . . . . 490<br/>10.4.1 Variational message passing . . . . . . . . . . . . . . . . . 491<br/>10.5 Local Variational Methods . . . . . . . . . . . . . . . . . . . . . . 493<br/>10.6 Variational Logistic Regression . . . . . . . . . . . . . . . . . . . 498<br/>10.6.1 Variational posterior distribution . . . . . . . . . . . . . . . 498<br/>10.6.2 Optimizing the variational parameters . . . . . . . . . . . . 500<br/>10.6.3 Inference of hyperparameters . . . . . . . . . . . . . . . . 502<br/>10.7 Expectation Propagation . . . . . . . . . . . . . . . . . . . . . . . 505<br/>10.7.1 Example: The clutter problem . . . . . . . . . . . . . . . . 511<br/>10.7.2 Expectation propagation on graphs . . . . . . . . . . . . . . 513<br/>Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517<br/>11 Sampling Methods 523<br/>11.1 Basic Sampling Algorithms . . . . . . . . . . . . . . . . . . . . . 526<br/>11.1.1 Standard distributions . . . . . . . . . . . . . . . . . . . . 526<br/>11.1.2 Rejection sampling . . . . . . . . . . . . . . . . . . . . . . 528<br/>11.1.3 Adaptive rejection sampling . . . . . . . . . . . . . . . . . 530<br/>11.1.4 Importance sampling . . . . . . . . . . . . . . . . . . . . . 532<br/>11.1.5 Sampling-importance-resampling . . . . . . . . . . . . . . 534<br/>11.1.6 Sampling and the EM algorithm . . . . . . . . . . . . . . . 536<br/>11.2 Markov Chain Monte Carlo . . . . . . . . . . . . . . . . . . . . . 537<br/>11.2.1 Markov chains . . . . . . . . . . . . . . . . . . . . . . . . 539<br/>11.2.2 The Metropolis-Hastings algorithm . . . . . . . . . . . . . 541<br/>11.3 Gibbs Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . 542<br/>11.4 Slice Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546<br/>11.5 The Hybrid Monte Carlo Algorithm . . . . . . . . . . . . . . . . . 548<br/>11.5.1 Dynamical systems . . . . . . . . . . . . . . . . . . . . . . 548<br/>11.5.2 Hybrid Monte Carlo . . . . . . . . . . . . . . . . . . . . . 552<br/>11.6 Estimating the Partition Function . . . . . . . . . . . . . . . . . . 554<br/>Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556<br/>12 Continuous Latent Variables 559<br/>12.1 Principal Component Analysis . . . . . . . . . . . . . . . . . . . . 561<br/>12.1.1 Maximum variance formulation . . . . . . . . . . . . . . . 561<br/>12.1.2 Minimum-error formulation . . . . . . . . . . . . . . . . . 563<br/>12.1.3 Applications of PCA . . . . . . . . . . . . . . . . . . . . . 565<br/>12.1.4 PCA for high-dimensional data . . . . . . . . . . . . . . . 569<br/>CONTENTS xix<br/>12.2 Probabilistic PCA . . . . . . . . . . . . . . . . . . . . . . . . . . 570<br/>12.2.1 Maximum likelihood PCA . . . . . . . . . . . . . . . . . . 574<br/>12.2.2 EM algorithm for PCA . . . . . . . . . . . . . . . . . . . . 577<br/>12.2.3 Bayesian PCA . . . . . . . . . . . . . . . . . . . . . . . . 580<br/>12.2.4 Factor analysis . . . . . . . . . . . . . . . . . . . . . . . . 583<br/>12.3 Kernel PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586<br/>12.4 Nonlinear Latent Variable Models . . . . . . . . . . . . . . . . . . 591<br/>12.4.1 Independent component analysis . . . . . . . . . . . . . . . 591<br/>12.4.2 Autoassociative neural networks . . . . . . . . . . . . . . . 592<br/>12.4.3 Modelling nonlinear manifolds . . . . . . . . . . . . . . . . 595<br/>Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 599<br/>13 Sequential Data 605<br/>13.1 Markov Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607<br/>13.2 Hidden Markov Models . . . . . . . . . . . . . . . . . . . . . . . 610<br/>13.2.1 Maximum likelihood for the HMM . . . . . . . . . . . . . 615<br/>13.2.2 The forward-backward algorithm . . . . . . . . . . . . . . 618<br/>13.2.3 The sum-product algorithm for the HMM . . . . . . . . . . 625<br/>13.2.4 Scaling factors . . . . . . . . . . . . . . . . . . . . . . . . 627<br/>13.2.5 The Viterbi algorithm . . . . . . . . . . . . . . . . . . . . . 629<br/>13.2.6 Extensions of the hidden Markov model . . . . . . . . . . . 631<br/>13.3 Linear Dynamical Systems . . . . . . . . . . . . . . . . . . . . . . 635<br/>13.3.1 Inference in LDS . . . . . . . . . . . . . . . . . . . . . . . 638<br/>13.3.2 Learning in LDS . . . . . . . . . . . . . . . . . . . . . . . 642<br/>13.3.3 Extensions of LDS . . . . . . . . . . . . . . . . . . . . . . 644<br/>13.3.4 Particle filters . . . . . . . . . . . . . . . . . . . . . . . . . 645<br/>Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646<br/>14 Combining Models 653<br/>14.1 Bayesian Model Averaging . . . . . . . . . . . . . . . . . . . . . . 654<br/>14.2 Committees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655<br/>14.3 Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 657<br/>14.3.1 Minimizing exponential error . . . . . . . . . . . . . . . . 659<br/>14.3.2 Error functions for boosting . . . . . . . . . . . . . . . . . 661<br/>14.4 Tree-based Models . . . . . . . . . . . . . . . . . . . . . . . . . . 663<br/>14.5 Conditional Mixture Models . . . . . . . . . . . . . . . . . . . . . 666<br/>14.5.1 Mixtures of linear regression models . . . . . . . . . . . . . 667<br/>14.5.2 Mixtures of logistic models . . . . . . . . . . . . . . . . . 670<br/>14.5.3 Mixtures of experts . . . . . . . . . . . . . . . . . . . . . . 672<br/>Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674<br/>Appendix A Data Sets 677<br/>Appendix B Probability Distributions 685<br/>Appendix C Properties of Matrices 695<br/>xx CONTENTS<br/>Appendix D Calculus of Variations 703<br/>Appendix E Lagrange Multipliers 707<br/>References 711<br/>Index 729</p>

[此贴子已经被作者于2008-2-23 19:36:06编辑过]

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 模式识别 distribution Optimization discriminant 推荐 经典 名著 模式识别 机器学习

已有 1 人评分经验 学术水平 热心指数 信用等级 收起 理由
accumulation + 100 + 1 + 1 + 1 精彩帖子

总评分: 经验 + 100  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

本帖被以下文库推荐

作为 Emacs 的骨灰粉,一直用着 Vi。 <img src="static/ima ...
沙发
dps2000 发表于 2008-2-23 15:27:00 |只看作者 |坛友微信交流群
好书。

使用道具

藤椅
prestige 发表于 2008-2-23 17:55:00 |只看作者 |坛友微信交流群
的确是好书,就看上眼的人认不认货了,呵呵...
作为 Emacs 的骨灰粉,一直用着 Vi。 <img src="static/ima ...

使用道具

板凳
vivianxia 发表于 2008-3-14 08:56:00 |只看作者 |坛友微信交流群
<p><font color="#ff0000">以下内容需要花费现金<b>40</b>才可以浏览,您只有现金<b>12</b>,无法购买。</font></p><p><font color="#ff0000">我看不到...... 请问该怎么办? </font></p><p><font color="#ff0000"></font></p>

使用道具

报纸
dyz 发表于 2008-3-14 14:39:00 |只看作者 |坛友微信交流群
太贵

使用道具

地板
cantorshen 发表于 2008-3-17 10:50:00 |只看作者 |坛友微信交流群
好书啊,下来看看

使用道具

7
flyyifei 发表于 2008-4-14 16:46:00 |只看作者 |坛友微信交流群
好书~~~~~~~~就是太贵了

使用道具

8
qak_01 发表于 2008-4-16 22:23:00 |只看作者 |坛友微信交流群
ding yig ge hao dong xi

使用道具

9
ibaojr 发表于 2008-5-30 21:34:00 |只看作者 |坛友微信交流群
太贵了

使用道具

10
wtomanager 发表于 2008-11-3 22:19:00 |只看作者 |坛友微信交流群
买这么贵,抢银行来了?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 02:59