1038 0

[行业动态] 机器学习专家与统计学家观点上有哪些不同? [推广有奖]

  • 0关注
  • 66粉丝

教授

55%

还不是VIP/贵宾

-

威望
1
论坛币
13016 个
通用积分
68.7278
学术水平
26 点
热心指数
25 点
信用等级
15 点
经验
8650 点
帖子
615
精华
0
在线时间
170 小时
注册时间
2016-12-6
最后登录
2017-4-8

楼主
数据分析闯天下 在职认证  发表于 2016-12-25 16:17:49 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
机器学习专家与统计学家观点上有哪些不同?

共同点:统计建模或者机器建模的目的都是从数据挖掘到感兴趣的信息。下面只讨论supervised learning, 就是对一个pair: ( 自变量x,因变量y)进行建模。 也就是找到一个函数 y=f(x) , 用x 来刻画 (解释、预测)y。 首先我们要一组观察值(x,y),来 回归(learn)这个未知的函数 f.

区别:

统计学家: 在刻画 f 的过程中,统计学家用的方法是: 对于 f 的形状和 y 的random distribution 进行一些假设。 比如说假设 f 是线性模型, 或者y 是normal distribution。 然后来求在一定标准下最优的 f. 比如说,在BLUE (Best Linear Unbiased Estimators)的标准下,最小二乘估计出来的 f 就是最好的估计。 然后根据对数据的distribution的假设或者是大数定律,可以求出 参数估计的不确定性 或者是 standard error。 进而构建置信区间,来表达我对我能做出的 f 的最好的估计 的信心。优点: 可以对不确定性度量。 简单模型的可解释性强。当假设的assumptions满足时模型科学、准确、严谨。 缺点:复杂情况下assumptions难以验证。


机器学习专家:不对 y 的distribution进行过多的假设,不计算standar error,不 care bias。 通过 cross validation来判断 对于 f 的估计的好坏。 也就是说,在机器学习领域,数据量大,机器学习专家拿一部分来估计(train,learn )f,留一部分来验证预测结果的好坏。预测结果好的模型就是好模型,不计算估计参数的偏差。 缺点: 缺乏科学严谨性。 优点: 简单粗暴。 有一次听一个大牛的seminar几个教授的段子记忆尤新:"those machine learning people are making predictions without probability! "。

对于这句话:“统计学家更关心模型的可解释性,而机器学习专家更关心模型的预测能力” : 总体来说,可解释性强的模型会损失预测能力,预测能力强的模型往往比较难解释。 常见的模型中,从可解释性强到预测强的模型依顺序排列是
1 Lasso+线性回归
2 线性回归
3 非线性模型
4 非参模型
5 SVM
构建简单的模型,比如线性模型,更容易解释因变量对自变量的影响。 适合于那种目的是解释一个变量对另外一个变量的影响的问题。也是经典统计中最常用到的模型。变化再多一些,非线性模型,非参模型,更灵活,选择更多,所以可能达到更好的预测效果。但是往往比较难解释x对y的影响。(这些模型都来源于统计,推广于机器学习。这些模型都是几十年前统计的研究成果了好么!!因为最近计算机速度提上来了,原来没名气,是因为计算速度带不动,数据没收集辣么多啊!!)!因为机器学习领域的数据大,运算能力强,所以能把复杂的非参或者非线性模型用的效果比较好。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:统计学家 机器学习 统计学 distribution Assumptions 机器学习 统计学 机器学习与统计学共同点 机器学习与统计学区别 数据挖掘

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-29 06:54