当计量经济学遭遇机器学习:揭开机器学习的神秘面纱(一)-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 会计>>

会计库

>>

当计量经济学遭遇机器学习:揭开机器学习的神秘面纱(一)

当计量经济学遭遇机器学习:揭开机器学习的神秘面纱(一)

发布:资料狂人 | 分类:会计库

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

当经济学家还陶醉于“经济学帝国主义”,沉迷在“无计量不学术”之时,一个真正的学术明星,正以几乎横扫一切学科与业界之势冉冉升起,犹如明日之太阳,光芒不可限量。这个学术明星就是“机器学习”(MachineLearnin ...
免费学术公开课,扫码加入


当经济学家还陶醉于 “经济学帝国主义”,沉迷在 “无计量不学术” 之时,一个真正的学术明星,正以几乎横扫一切学科与业界之势冉冉升起,犹如明日之太阳,光芒不可限量。这个学术明星就是“机器学习”(Machine Learning,简记ML)。


当计量经济学的影响力几乎不出校门时,机器学习正迅速进入大众视野,并悄然改变着我们的日常生活(比如,网络搜索、网购等背后均有机器学习的算法支持)。你或许感到奇怪,计量经济学与机器学习有可比性吗?当然有!


机器学习也称 “统计学习”(Statistical Learning),由此可知主要使用统计方法;而计量经济学也大量使用统计学方法。机器学习的从业者被高大上地称为 “数据科学家”(data scientist);而计量经济学家与实证研究者每天也与数据打交道,怎么我们就不是数据科学家?为何一母(统计学)生两子(计量经济学、机器学习),二者的境遇如此不同?要回答这个问题,首先要知道什么是机器学习。


事实上,不同的学科对于机器学习有着不同的理解。如果你去哈佛经济系听 ML 的课,你会发现主要讲 ML 的思想与应用。如果你去波士顿大学数学统计系上 ML 的课,则几乎全是数学,包括泛函分析(functional analysis),甚至Reproducing Kernel Hilbert Space……而如果你观看听斯坦福计算机教授、百度首席科学家吴恩达(Andrew Ng)的 ML 公开课,则主要介绍各种算法(algorithm),甚至连线性回归的 OLS 问题也要用 “梯度下降法”(Gradient Descent)进行求解。


Hard Coding vs. Learning


那么,究竟什么是机器学习?的理解方法是从一个例子开始。机器学习的一个早期成功案例是过虑垃圾邮件(spam filtering)。随着电子邮件的兴起,垃圾邮件也越来越多。如何自动地过虑掉垃圾邮件(spam),而不错杀正常邮件?


一种传统方法是人为制定一个判定垃圾邮件的规则(比如,某些词汇在垃圾邮件中出现频率更高),将此规则进行计算机编程,然后用于新收到的邮件。这种方法被形象地称为 “hard coding”,因为它让计算机遵循人类预先制定的死规则进行邮件分类。但 hard coding 方法的实践效果并不好,因为人类虽能直观判断何为垃圾邮件,但很难将其准确提炼为可操作的规则(邮件中可能出现的词汇何其多啊)。


一个突破性的想法是引入“学习”(Learning),即不由人类告诉计算机何为垃圾邮件,而让计算机通过学习大量的数据自行判断何为垃圾邮件。具体来说,给予计算机大量的邮件,其中每封邮件都事先由人类识别并标注为 “正常邮件” 或 “垃圾邮件”。根据海量邮件的大数据(big data),计算机可以统计出不同词汇在正常邮件或垃圾邮件的出现频率。


比如,假设垃圾邮件经常出现 “代开发票” 一词,则一封包含 “代开发票” 的邮件就更可能是垃圾邮件。更地,根据贝叶斯规则(Bayes rule)可算出,给定包含 “代开发票” 一词,该邮件为垃圾邮件的条件概率。


当然,一封邮件通常包含很多词汇,故需用数学方法将这些信息综合起来,最终算出此邮件为 spam 的概率。最后,如果此概率超过某临界值(比如 0.9),则归类为垃圾邮件。这种方法称为 “Bayes spam filtering”,在实践中取得巨大成功。


从此例可见,计算机判断垃圾邮件的能力正是通过学习大量数据而获得,故名 “机器学习”(Machine Learning)。而上述 “Bayes spam filtering” 即为一种 “学习机器”(learning machine)或 “学习器”(learner)。


大数据与机器学习


不难看出,机器学习的效果依赖于大数据。数据量越大,则学习的效果越好。而且,机器学习的能力还可以根据的数据不断地动态更新。反之,如果只给计算机提供100封邮件(小数据),可以想象机器学习的效果会很差。


事实上,有些机器学习的算法出现得很早,比如 “人工神经网络”(artificial neural network)早在60年代就提出了,但当时既无大数据,也无高速计算机,故生不逢时停滞不前,直至近年来才复兴,成为炙手可热的 “深度学习”(deep learning)。


由于样本数据主要用于训练计算机获得学习能力,故一般称为 “训练数据”(training data)。事实上,在进行机器学习时,通常将所有数据分为两类,其中大部分数据构成“训练数据”,而少量数据则作为 “测试数据”(test data)或 “保留数据”(hold-out data)。测试数据仅用于检验机器学习的效果(相当于out-of-sample test),以避免出现 “过拟合”(overfit),即样本内拟合效果虽好,但外推预测效果差的情形。


机器学习的术语


当计量经济学家或实证研究者进入机器学习领域,难免感觉这个领域既熟悉又陌生,或许 “恍如隔世”。比如,这里也有线性回归(OLS)与逻辑回归(Logit),以及作为非参数估计的 K 近邻法(K Nearest Neighbors)等等。但似乎这一切又是用不同的术语包装起来的。


比如,计量经济学称https://pic.bbs.jg.com.cn/album/201803/05/113133qsgb4bibmib7k7mi.jpg为 “自变量” 或 “解释变量”,但机器学习则称为 “表征” 或 “特征”(features)。计量经济学称https://pic.bbs.jg.com.cn/album/201803/05/1131332zykesffhkjmpffy.jpg为 “因变量” 或 “被解释变量”,而机器学习则称为“响应”(response)。计量经济学称第 https://pic.bbs.jg.com.cn/album/201803/05/1134291dqm2iq91n3tjq99.png 个数据为 “观测值”(observation),而机器学习则直接称为 “案例”(example)。

不得不承认,机器学习的有些术语比较接地气(别人家的术语?)。显然,作为强势学科,机器学习的术语有望日益流行。


机器学习的分类


大致来说,机器学习可分为两大类,即 “监督学习”(supervised learning)与 “无监督学习”(unsupervised learning)。


所谓 “监督学习”,其实就是有目标的学习;而“无监督学习”自然就是无目标的学习。具体来说,对于监督学习,数据可以写为https://pic.bbs.jg.com.cn/album/201803/05/113133471quy3q8yu3i711.jpg,而我们的任务是用 https://pic.bbs.jg.com.cn/album/201803/05/113133qsgb4bibmib7k7mi.jpg来预测https://pic.bbs.jg.com.cn/album/201803/05/1131332zykesffhkjmpffy.jpg。


比如,在上述过虑垃圾邮件的例子中,https://pic.bbs.jg.com.cn/album/201803/05/113133qsgb4bibmib7k7mi.jpg不同词汇在一封邮件中出现的频率,而https://pic.bbs.jg.com.cn/album/201803/05/1131332zykesffhkjmpffy.jpg则为虚拟变量https://pic.bbs.jg.com.cn/album/201803/05/113133o6goetzeveoo3trw.jpg,表示此封邮件是否为垃圾邮件。在监督学习中,由于目标很明确,就是预测https://pic.bbs.jg.com.cn/album/201803/05/1131332zykesffhkjmpffy.jpg,故https://pic.bbs.jg.com.cn/album/201803/05/1131332zykesffhkjmpffy.jpg起着监督与指导学习过程的作用,故名 “监督学习”。


反之,对于无监督学习,数据只是https://pic.bbs.jg.com.cn/album/201803/05/113133qsgb4bibmib7k7mi.jpg,并没有明确的https://pic.bbs.jg.com.cn/album/201803/05/1131332zykesffhkjmpffy.jpg,而学习过程就是为了识别https://pic.bbs.jg.com.cn/album/201803/05/113133qsgb4bibmib7k7mi.jpg的某种模式(pattern recognition)或规律。常见的无监督学习方法包括 “主成分分析”(principal component analysis)与 “聚类分析”(cluster analysis)等。


对于监督学习,还可以根据https://pic.bbs.jg.com.cn/album/201803/05/1131332zykesffhkjmpffy.jpg的性质进一步细分。如果https://pic.bbs.jg.com.cn/album/201803/05/1131332zykesffhkjmpffy.jpg为连续变量,则称为 “回归”(regression)。反之,如果https://pic.bbs.jg.com.cn/album/201803/05/1131332zykesffhkjmpffy.jpg为离散变量(比如,虚拟变量),则称为 “分类”(classification)。


学习理论(Learning Theory)


大多数的机器学习问题都是监督学习,因为许多问题都可纳入到此框架中。


比如,人脸识别(facial recognition)。首先,可将传感器捕捉到的人脸相片转换为像素(pixel)的矩阵,其中每个像素用一个数字表示其灰度(grayscale,假设为黑白相片)。

https://pic.bbs.jg.com.cn/album/201803/05/111133za4n0qbfeqez5nfe.jpg

其次,将此矩阵的每列依次叠放,构成一个很长的列向量https://pic.bbs.jg.com.cn/album/201803/05/113133qsgb4bibmib7k7mi.jpg。例如,假设此相片的像素为 100 x 100,则表征向量(feature vector)https://pic.bbs.jg.com.cn/album/201803/05/113133qsgb4bibmib7k7mi.jpg的维度为 10,000 维(高维数据!)。


机器学习的任务就是要判断这个图像是否为人脸https://pic.bbs.jg.com.cn/album/201803/05/113133o6goetzeveoo3trw.jpg,或是否为某人的脸https://pic.bbs.jg.com.cn/album/201803/05/113133o6goetzeveoo3trw.jpg。显然,使用 hard coding 的方法将行不通,因为虽然我们见到人脸就能马上识别,但却无法告诉计算机究竟怎样的图像才算人脸。据说,早期的计算机专家曾天真地以为人脸识别只是简单的计算机视觉(computer vision)问题,可以在一个暑期就完成(summer project)。

事实上,不仅人脸难以识别,即使简单如 0 - 9 的手写数字,如果使用 hard coding 的方法,计算机也力不从心(比如,邮局为了自动分拣而需要识别手写邮编)。这是因为,不同人的手写数字千差万别,你甚至很难告诉计算机,究竟数字 “4” 应该长什么样(参见下图)。当然,对于这些数字,同样可以将其像素转化为表征向量https://pic.bbs.jg.com.cn/album/201803/05/113133qsgb4bibmib7k7mi.jpg。

https://pic.bbs.jg.com.cn/album/201803/05/111133hc8gga8gj8tc98bg.jpg


真正的突破依然来自于 Machine Learning 的方法,即给予计算机大量的图像,某些包含人脸,而有些不含人脸,让计算机通过学习大量的数据而获得识别人脸的能力。


在数学上,给定一个未知函数https://pic.bbs.jg.com.cn/album/201803/05/113133yvgvxu4obofqg1xy.jpg,机器学习的目标就是通过训练数据https://pic.bbs.jg.com.cn/album/201803/05/113134kz9060roo51hathz.jpg来学习此未知函数https://pic.bbs.jg.com.cn/album/201803/05/113133yvgvxu4obofqg1xy.jpg其中 https://pic.bbs.jg.com.cn/album/201803/05/113134mvu5eeexcdege9ze.jpg为可能的未知参数。


具体来说,希望根据训练数据找到一个函数

https://pic.bbs.jg.com.cn/album/201803/05/11113438w6cc2zq685usis.jpg

使得所作的预测https://pic.bbs.jg.com.cn/album/201803/05/113134ro3x3ix5sy3ffzaz.jpg与实际的https://pic.bbs.jg.com.cn/album/201803/05/113134rjv8cmzcjp9p62mc.jpg之间的差距最小,比如最小化在测试数据(test data)中的均方误差(Mean Square Errors):

https://pic.bbs.jg.com.cn/album/201803/05/111134uxkxfapavxxpyrcj.jpg

又比如, “无人驾驶汽车”(driverless cars)也可纳入此一般的机器学习框架。此时,表征向量https://pic.bbs.jg.com.cn/album/201803/05/113134vy5en5ggdevezlnv.jpg由汽车上各种传感器在时刻https://pic.bbs.jg.com.cn/album/201803/05/113135sn62jfng22a6pxs2.jpg实时输送的各项指标数据所构成(参见下图),而https://pic.bbs.jg.com.cn/album/201803/05/1131356ubldp0buduqybdb.jpg为是否在时刻https://pic.bbs.jg.com.cn/album/201803/05/113135sn62jfng22a6pxs2.jpg刹车https://pic.bbs.jg.com.cn/album/201803/05/114507ebwv6kkvrk4izq1n.png。比如,如果预测https://pic.bbs.jg.com.cn/album/201803/05/113103olsu2zk3ge2cg5jo.jpg,则刹车;反之,则不刹车。

https://pic.bbs.jg.com.cn/album/201803/05/111134a4t3aa6bstieoqio.jpg

(未完待续,更多精彩,下期推送)


高级计量经济学与Stata现场班(含机器学习与高维回归,北京,十一)

本文为山东大学陈强教授原创,摘自陈强老师微信公众号“econometrics-stata”,转载请注明作者与出处。

「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-6257930-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版