楼主: fin-qq
2435 9

从基础概念到数学公式,学霸的机器学习笔记 [推广有奖]

区版主

大师

92%

还不是VIP/贵宾

-

TA的文库  其他...

Fin之计量经济学与统计软件

经管百科之Fin世界

知识产权与专利

威望
7
论坛币
1085055 个
通用积分
27565.5772
学术水平
3514 点
热心指数
4310 点
信用等级
3313 点
经验
305430 点
帖子
13933
精华
21
在线时间
2881 小时
注册时间
2013-11-12
最后登录
2024-4-17

初级热心勋章 初级信用勋章 中级热心勋章 初级学术勋章 中级信用勋章 中级学术勋章 高级热心勋章 特级热心勋章 高级信用勋章 高级学术勋章

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
从基础概念到数学公式,学霸的机器学习笔记

导读:近日,来自SAP(全球第一大商业软件公司)的梁劲(Jim Liang)公开了自己所写的一份 520 页的学习教程(英文版),详细、明了地介绍了机器学习中的相关概念、数学知识和各种经典算法。



在介绍中,Jim Liang 写到:


人工智能是这两年风头正劲的领域,也是未来具有颠覆性可能的新领域。不少人尝试去学习机器学习相关的知识。然而,一旦越过最初的 overview 阶段,很多人就开始打退堂鼓了,然后迅速放弃。


为什么会这样?


极高的学习曲线


  • 首当其冲就是数学,涉及统计学、微积分、概率、线性代数等,大家虽然都学过高等数学,但如果你还记得里面的细节,算你牛。更可能的情况是,多数人都对高等数学忘记了,面对各种算法里的大量公式,感到厌恶,甚至恐惧。

  • 其次因为机器学习本身是一个综合性学科,而且是一个快速发展的学科,知识点散乱,缺乏系统性。

  • 市面上的机器学习/深度学习书籍、文章、教程,遍地开花,但能以清晰的方式表达、循序渐进地讲解的教程,其实不多,大量的教程没有考虑到学习者的基础,使得初学者感到挫败和困惑。



图解机器学习


正是对机器学习的过程中的痛苦有切身体会,我希望能做一份教程,以浅显易懂的方式去讲解它,降低大家的学习门槛。我为此花费了数月时间,经常做到深夜,把自己的学习笔记整理成了这份教程。


从结构来看,全部教程包含两部分:


640.jpg


Part 1 介绍了基本概念,包括:


  • 机器学习的流程

  • 数据处理

  • 建模

  • 评估指标(如 MSE、ROC 曲线)

  • 模型部署

  • 过度拟合

  • 正则化等



在第一部分,作者先介绍了如今应用普遍的机器学习:从自动驾驶、语音助手到机器人。其中有些思想,也是众多读者们了解过的,例如:为何机器学习在这个时候会火(大数据、计算力、更好的算法);机器学习、人工智能、深度学习三者的关系等。


除了这些基础概念,这份教程也对机器学习模型的开发流程做了图像化展示(如下图),即使对此不太了解的读者,也能通过这种流程展示有所学习。


640 (1).jpg

640 (2).jpg

▲建立机器学习解决方案的步骤


在 Part1 的其他小节,作者以类似的图像展示,对数据、建模、模型部署等内容做了详细介绍,这里就不一一列举,可以从原报告查看。


在 Part2,作者介绍了 常用的算法,包括:


  • 线性回归

  • 逻辑回归

  • 神经网络

  • SVM

  • Knn

  • K-Means

  • 决策树

  • 随机森林

  • AdaBoost

  • 朴素贝叶斯

  • 梯度下降

  • 主成分分析



这部分包含了大量的数学公式,但作者尽力注解了其中的每个公式,从而充分、清晰地表达了众多数学概念。


例如在「神经网络」部分,作者整理了 59 页的笔记(从 311 页到 369 页)。作者从人脑中的神经元架构说起,介绍了人工神经网络(ANN)、人工神经元工作的原理。这份笔记非常注重图像化的概念解释,理解起来非常直观。


例如,下图中的概念解释很形象地展现了生物神经元和人工神经元工作方式的相似性。


640 (3).jpg

▲生物神经元的树突输入-轴突输出模式和人工神经元的输入输出模式对比。


640 (4).jpg

▲过拟合的解释


640 (5).jpg

▲人工神经元的基础结构


在涉及到数学公式时,作者会在旁边有详细的注解,如下图所示:


640 (6).jpg


对于并列的可选项(如激活函数、常用神经网络架构等),也会有全面的列表:


640 (7).jpg

▲常用的激活函数


然后会有每个激活函数的单独介绍:


640 (8).jpg

▲Sigmoid 激活函数


640 (9).jpg

▲用神经网络分类手写数字的前向传播示例(softmax 激活函数)。


对于神经网络中较为复杂的概念(如求导、反向传播),几张图就能解释清楚:


640 (10).jpg


关于神经网络的完整训练过程,作者用简略流程图+计算细节展开的方式呈现:


640.png

▲反向传播算法完整流程


640 (11).jpg

▲前向传播部分的计算细节


就像前面提到的,这部分除了「神经网络」的介绍,还包括随机森林、梯度下降等概念的介绍,读者们可查看原教程。



总结


看完这份教程之后,小编觉得这是一份包罗万象的学习笔记,既适合非专业人士了解有关机器学习的基础概念,又适合有专业背景的学生进一步学习。


写教程是为了自己持续学习,分享教程是为了帮助更多人学习。就像作者所说,「Learning by doing/teaching, 写这个教程主要是强迫自己持续学习,另外,也想分享给他人,希望能帮助到更多想学习 Machine Learning 的人,降低大家的学习痛苦。」


笔记作者:Jim Liang

来源:机器之心





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


已有 1 人评分学术水平 热心指数 信用等级 收起 理由
jamie2288 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

本帖被以下文库推荐

Mankind is great because of dreams.
沙发
lisong-1227 学生认证  发表于 2018-8-31 14:44:45 来自手机 |只看作者 |坛友微信交流群
fin-qq 发表于 2018-8-31 13:22
从基础概念到数学公式,学霸的机器学习笔记导读:近日,来自SAP(全球第一大商业软件公司)的梁劲(Jim Lia ...
谢谢楼主的分享

使用道具

藤椅
jamie2288 发表于 2018-9-1 08:16:26 |只看作者 |坛友微信交流群
谢谢楼主的分享

使用道具

板凳
hzhangchina 发表于 2018-9-3 21:24:52 |只看作者 |坛友微信交流群
大佬,这个在哪能找到呢?

使用道具

报纸
dongxing0125 在职认证  发表于 2018-9-7 09:50:41 |只看作者 |坛友微信交流群
请问这个资料哪里能找到呢

使用道具

地板
clarence1980 发表于 2018-10-30 09:47:16 |只看作者 |坛友微信交流群
大佬,介绍得很好,很吸引人。然并卵,请问这个资料在哪能下载呢。

使用道具

7
Chensy1111 发表于 2018-11-22 19:38:06 来自手机 |只看作者 |坛友微信交流群
谢谢

使用道具

8
hJlzXK0nKt 发表于 2019-1-25 14:09:16 |只看作者 |坛友微信交流群
毕业N年,一定都不记得了,没有想到机器学习还要用到这么多东西,买几本书补补课。。。

使用道具

9
raincord 发表于 2019-2-20 22:20:18 |只看作者 |坛友微信交流群
这个资料在哪里能找到

使用道具

10
polyad 学生认证  发表于 2019-4-3 10:33:47 |只看作者 |坛友微信交流群
QQ截图20190403103129.png
资料在这里,如果百度链接失效,请直接私信我,我重发

Getting Started With MachineLearning.txt

175 Bytes

需要: 5 个论坛币  [购买]

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 08:19