楼主: 李壮壮儿
1080 0

[学科前沿] Why Machine Learning: 我应该学机器学习吗? [推广有奖]

  • 0关注
  • 3粉丝

版务助理

博士生

82%

还不是VIP/贵宾

-

威望
0
论坛币
7486 个
通用积分
139.6632
学术水平
7 点
热心指数
6 点
信用等级
6 点
经验
1473 点
帖子
51
精华
0
在线时间
629 小时
注册时间
2019-10-25
最后登录
2024-5-6

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

“机器学习”(Machine Learning)无疑越来越多地出现于媒体与我们身边。机器学习究竟是什么?对于经管或社科类的学者或学生,一个重要的问题是,“我应该学机器学习吗”?换言之,不掌握机器学习的机会成本是什么?本文就以问答的形式来回答这些问题。


Q:什么是机器学习?


A:简单说,机器学习就是让机器(计算机)具备从数据中自主学习的能力。它的反面就是“硬编码”(hard coding)。假设你想写一个程序,让计算机识别正常邮件与垃圾邮件。硬编码的方法就是,由人类写下判别垃圾邮件的规则,再告诉计算机。此时,计算机并不学习,只是严格执行人类的死板分类规则。可以想象,硬编码的效果不会太好,因为人类虽可直观判定垃圾邮件,但并不知道自己是怎么做到的。


反之,机器学习的方法则给予计算机大量的邮件,经过人类事先标注为垃圾邮件或正常邮件,然后让计算机找出这两类邮件的差异规律(比如不同词的词频差异),并用学到的规律(其实就是一个函数映射,即从词频到邮件类别的映射)对新邮件进行分类。


Q:机器学习与统计学或计量经济学的主要区别是什么?


A:机器学习、统计学或计量经济学都想估计出一个从 (向量) 的函数映射,即 。主要区别在于,统计学与计量经济学一般更关注参数估计量 ,因为它通常可用来解释 的影响(比如,对于线性回归模型, 就是边际效应)。另一方面,机器学习主要关注 ,其成功标准一般用预测的准确率来衡量。比如,在使用计算机识别手写体数字时,一般只关心算法的准确率,并不在乎究竟是哪些像素导致了计算机将图像归类为“5”而不是“6”。


Q:为什么机器学习这么“火”?


A:由于机器学习专注于预测,故在业界有很多应用。特别是最近二、三十年来,机器学习(包括深度学习)发展很快,预测错误率不断下降(特别在图像识别,自然语言处理领域)。对于很多问题,机器学习的预测错误率可能比传统的统计或计量方法低一个数量级,比如前者的错误率为1%,而后者的错误率为10%。原因之一是,传统的统计或计量经济学十分强调模型的可解释性(interpretability),故大量使用线性模型,而现实世界一般为非线性。


Q:既然机器学习的优势在于预测,而我作为经管或社科类的学者,只关心因果推断,有必要学机器学习吗?


A:事实上,因果推断的本质也是预测问题。根据鲁宾的因果模型(Rubin's Causal Model),因果效应通过“潜在结果”(potential outcome)来定义,即政策实施后的“观测结果”(observed outcome)与政策如果未实施的“反事实结果”(counterfactual outcome)之差。显然,反事实结果不可观测,故只能在一定假设之下进行估计与预测。


Q:目前机器学习在计量经济学中有哪些应用?未来的发展趋势如何?


A:迄今为止(尤其是最近十年),机器学习已经在计量经济学中掀起了两波应用的浪潮。第一波浪潮为MIT的Chernozhukov教授等将Lasso系列的惩罚回归(penalized regression)方法引入计量经济学,提出了post double selection lasso,IV lasso,double machine learning等适用于因果推断的机器学习方法。


第二波浪潮为Stanford的Susan Athey教授等将基于决策树(tree-based)的机器学习方法引入计量经济学,提出了causal tree,causal forest,local linear forest与generalized random forest等方法(不少论文刚发表或仍为工作论文)。


在可预见的将来,机器学习方法将加速融入计量经济学,成为计量经济学的重要组成部分,尤其在非参数与半参数估计领域。这是因为,传统统计与计量的非参方法主要为基于核(kernel)的局部回归(local regression),很难推广到高维(因为存在维度灾难,curse of dimensionality),而机器学习方法(比如基于决策树的随机森林、梯度提升法等)在高维空间依然适用,而且预测准确率更高。


Q:作为经管或社科类的学者或学生,我应该学机器学习吗?


A:在几年前,如果你知道Lasso,说明你是先进的;但现在已经很难这么说了。再过几年,如果你还不知道Lasso,则可能说明你是落后的,因为关于Lasso的知识正在加速普及。


类似地,如果你现在就知道随机森林(random forest),说明你是先进的;……。在科研的道路上,抢占先机无疑十分重要。你的选择决定了你究竟是先知先觉,还是后知后觉……这就是不掌握机器学习的机会成本。


Q:我是文科生,能学会机器学习吗?


A:如果你学过统计学或计量经济学,应该很容易上手机器学习。在某种意义上,机器学习比计量经济学更简单。机器学习主要关心“算法”(algorithm),所用数学基本上就是最优化(optimization),并不使用统计学或计量经济学那些复杂的渐近理论(asymptotics)。而且有些传统的统计与计量方法,本身也是机器学习的常用方法,比如OLS、Logit、多项Logit等,这些你本来就会啊。


结语:这是一个令人激动的时代。人工智能与机器学习正在深刻地改变着几乎每个行业与学科(包括计量经济学),而机器学习无疑正是未来世界的一块重要柱石。


参考文献


陈强,《计量经济学及Stata应用》,高等教育出版社,2015年(配套教学视频,可在网易云课堂学习,详见https://study.163.com/course/introduction/1006076251.htm


陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年(配套高级计量六天现场班,北京,2019年10月1-6日,详见https://bbs.pinggu.org/thread-3156565-1-1.html


陈强,《机器学习及R应用》,高等教育出版社,2020年(即将出版)




高级计量经济学与Stata现场班(含机器学习与高维回归,北京,十一)

本文为山东大学陈强教授原创,摘自陈强老师微信公众号“econometrics-stata”,转载请注明作者与出处。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Learning earning machine Learn ning

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-8 05:01