请选择 进入手机版 | 继续访问电脑版
2292 4

[行业动态] 为什么搞统计学的好多都去做机器学习了? [推广有奖]

  • 0关注
  • 66粉丝

教授

55%

还不是VIP/贵宾

-

威望
1
论坛币
13016 个
通用积分
63.8149
学术水平
26 点
热心指数
25 点
信用等级
15 点
经验
8663 点
帖子
617
精华
0
在线时间
170 小时
注册时间
2016-12-6
最后登录
2017-4-8

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
为什么搞统计学的好多都去做机器学习了?学术界可能不是这样,但对于一般人来讲,确实差不多。大部分的业界原因我比较认可宋一松的说法。我不认可说机器学习更注重预测,统计更注重阐释,你看看机器学习里决定树的阐释效果差么,统计真不注重预测么(stepwise 这种纯预测统计基础工具要哭了)。说机器学习很难保证完备性和稳定性的, 那validation 又做来干什么,而且abnormal case analysis 不应该是单独的一门学问么,至于地震什么的,通常做法是买保险吧。。。

统计跟机器学习在应用层面上根本的差别是什么?
还是那句老话,无论是传统的统计,还是贝叶斯统计,统计永远都是在用样本估计总体特征。而社会科学研究的主要就是人类这个大总体。
你再看看机器学习的应用方面,
互联网企业或银行业是直接掌握了总体的数据啊,或者说对于他们的应用来讲,不需要估计一个更大的总体了啊,只要研究他们用户本身就足够了。

所以你会由此发现两者使用的差别是如此的巨大。就拿一个基本的feature selection作对比例子。
传统统计学方法:ANOVA and ANCOVA, Best subset, LASSO and Ridge, PCA
机器学习方法:Decision Tree(当然还可以由此衍生出random forest, gradient boosting, etc.)
看看上边的,是不是有的涉及最大似然估计,估计的是什么,是总体啊。有的涉及减小方差损失,为什么,也是为了总体考虑啊。
你再看看下边的,只要分的最有用就好。怎么算有用,比如说test case 的mse最小,我不需要估计test case 的分布,因为我从traing case里完全知道。这也算是大数据的力量吧。

在比如说对于unbalanced data set:
传统统计学方法在glm里各种mixed modeling (or hierarchical modeling)还要防over-dispersion, 究其原因还是要估计总体。
机器学习方法最直接的就是SMOTE, 直接制造更多的minority case以及减少majority case,也是完全不用管总体分布的。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 统计学 Hierarchical mixed model dispersion 机器学习 统计学 机器学习与统计学区别 机器学习与统计学哪个更加容易学

xinchuzu 发表于 2016-12-25 16:42:26 |显示全部楼层 |坛友微信交流群
提示: 作者被禁止或删除 内容自动屏蔽

使用道具

sqy 发表于 2016-12-26 12:07:44 |显示全部楼层 |坛友微信交流群
掌握了总体的概念是不对的!只要你是对未来进行预测,你永远掌握不了总体。

使用道具

felixzhao123 发表于 2016-12-26 13:58:38 |显示全部楼层 |坛友微信交流群
sqy 发表于 2016-12-26 12:07
掌握了总体的概念是不对的!只要你是对未来进行预测,你永远掌握不了总体。
同意你的观点,大数据时代这本书里的样本即总体的概念是很有误导性的

使用道具

sqy 发表于 2016-12-26 14:29:27 |显示全部楼层 |坛友微信交流群
这篇是谁写的?很多错误的观点。比如SMOTE,很多时候是不管用的。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-28 18:48